Datamaskiner

Hva er den beste programvaren for å kopiere lignende bilder og tekstdokumenter?

Forfatter: Peter Berry
Opprettelsesdato: 12 Juli 2021
Oppdater Dato: 11 Kan 2024
Anonim
LaTeX Tutorial 1 - Creating a LaTeX Document
Video: LaTeX Tutorial 1 - Creating a LaTeX Document

Innhold

Simon har vært involvert i programvareutvikling siden dagene med papirbånd. Han har utviklet nisjeprogramvare for informasjonsadministrasjon.

Med fremveksten av digitale kameraer og billig, rikelig lagring, er mange som tar bilder glade for utløseren, kanskje kommer tilbake fra en ferie med tusenvis av digitale bilder der de en gang kanskje hadde hatt noen ruller med fargeblyfilm (som ofte holdt 36 Bilder). Litt forskjellige bilder av samme scene eksisterer ofte som grupper innenfor de tusenvis av digitale bilder, men intensjonen om å velge det beste bildet fra hver gruppe blir ikke sjelden realisert etter ferien.

Selv om det ikke er noen programvare som kan velge det beste bildet fra en gruppe, kan den identifisere grupper med lignende bilder og gi en mulighet til å slette uønskede bilder eller flytte utvalgte til et annet sted. Dette kan i stor grad redusere innsatsen som kreves for å redigere store samlinger av digitale bilder, til en størrelsesorden.

Hvorfor betyr det noe for tekstdokumenter?

Lignende, men ikke identiske, tekstdokumenter er overraskende vanlige, spesielt i lagring som deles av en rekke brukere som kan samarbeide om å lage dem.I forfatterens studier i store og små organisasjoner var det ikke uvanlig å finne at 40% av alle tekstdokumenter var medlemmer av en gruppe på to eller flere med lignende eller identisk innhold. Selv for enkelte innenlandske brukere kan prosessen med å lagre et Office-dokument i PDF-format opprette to dokumenter som er forskjellige i bitmønstre, men som har samme tekstinnhold.


Samarbeidsforfatterskap er veldig vanlig i organisasjoner, og det er ofte vanskeligheter med å finne den nyeste versjonen av et dokument som er skrevet sammen før det blir gitt ut utenfor organisasjonen. "Du har ikke hentet endringene mine!" er en hyppig beskyldning i denne situasjonen. Dokumenthåndteringssystemer løser dette problemet med innsjekkings- / utsjekkingsanlegget, men de er ikke universelt distribuert, og selv om de er tilgjengelige, brukerne kanskje ikke bruker dem.

Algoritmer for å oppdage lignende bilder

Det er mange mulige algoritmer for å oppdage likhet i bilder, og de fleste programvare gir ingen detaljer om hvordan den fungerer. Imidlertid fungerer en som gjør (dupeGuru) ved å lage en 15 x 15-pikselversjon med veldig lav oppløsning av hvert inngangsbilde og sammenligne pikselfargekomponenter. Andelen av disse 225 pikslene som samsvarer, brukes til å bestemme likheten. Prosessen er enkel, men beregningskrevende og treg: å matche 1300 bilder tok 13 minutter på en bærbar datamaskin med middels spesifikasjon. Forskjeller i programytelse på testbildeparet indikerer at de bruker forskjellige algoritmer.


Hva med nettet?

Det er nå en rekke bildesøkemotorer (f.eks. Google Images, Preposteo) som vil finne et bilde som ligner på et som du laster opp eller velger. Imidlertid ser det ikke ut til å være noe nettbasert anlegg for øyeblikket for å finne og redigere grupper av lignende bilder i en stor samling. Dette kan endres i fremtiden ettersom opplastingshastigheter øker og det kreves mer beregningsmessige krevende samsvaringsmetoder. Similar.Pictures er et teknisk sofistikert webapplikasjon for å identifisere grupper med lignende bilder, og utføre bildesøk. Den beskriver dens algoritme for likhetsmåling i detalj, men mangler evne til å endre likhetsterskler eller handlingsgrupper med lignende bilder. Opererer via en nettleser, den kan fungere på hvilken som helst plattform, men kjører veldig sakte på store grupper av filer.

Programvare for å finne lignende bilder

Det er et stort antall produkter tilgjengelig for de-duplisering av forskjellige filtyper, nesten alle med nøyaktig duplisering, der dupliserte filer har samme bitmønster og dermed samme kontrollsum. Noen tilbyr også påvisning av lignende bilder som ikke har identiske bitmønstre, og et utvalg av disse blir gjennomgått nedenfor. For å evaluere kvaliteten på likhetstilpasning ble de to bildene vist nedenfor brukt som en test. For et menneske er de veldig like, men ikke alle testede programmer.


Nedlastingssider for programvare som Softpedia og CNET er gode kilder for spesialisert programvare, men mange programmer (spesielt shareware) har ikke blitt endret på mange år, og støtte i tilfelle problemer kan være fraværende. Softpedia tilbyr uavhengige anmeldelser av all nedlastbar programvare.

dupeGuru

Dette er et gratis produkt med åpen kildekode som tilbyr ulike metoder for filsammenligning samt bildeanalyse (eller bildemodus). Disse inkluderer filnavn, størrelse og kontrollsum, som raskt kan identifisere identiske filer. Den kjører på Windows, Linux og OS X. dupeGuru har et hjelpealternativ (datert 2016) og en API. Terskellikheten er satt fra Alternativer-menyen som Filterhardhet. Eksempel på utgang er vist nedenfor.

En avkrysningsrute i venstre kolonne for ikke-referansefilene gjør at en fil kan velges. Alternativer for merkede og valgte filer som er tilgjengelige under menyelementet Handlinger, inkluderer flytting, kopiering, sletting og mange andre.

Det er ingen enkel måte å sammenligne lignende bilder på: Hvis alle bildene i en klynge er valgt og klikket Åpne med standardapplikasjon, vises hvert bilde i en separat forekomst av standardprogrammet, noe som gjør sammenligningen vanskelig.

dupeGuru fant ingen likhet mellom de to testbildene, selv ikke ved terskelinnstillingen Most Results.

dupeGurus evne til å finne og manipulere duplikater av ikke-bildefiler koster det enkelt å gjøre valg fra klynger av dupliserte bilder.

Lignende bildesøker

Dette er et annet gratis produkt (fra Tago Software). Behandlingen er noe raskere enn dupeGuru, og det tar 7,5 minutter å behandle 1288 bilder for det mest nøyaktige skannealternativet. Det tillater sammenligning av lignende bilder som vist nedenfor, men tilbyr ikke noen handlingsalternativer. Klyngingen er veldig grunnleggende, med den samme filen som et duplikat av to forskjellige originaler. Det er ingen hjelp, og About-skjermen er datert 2012, så det virker sannsynlig at det ikke har vært noen utvikling i mange år.

Similar Image Finder fant en likhet på 74% mellom de to testbildene.

Dupliser Photo Cleaner

Dette produktet, fra WebMinds, er beskrevet som shareware på noen nedlastingssider, men det er bedre beskrevet som et kommersielt produkt med en evaluerings- eller demomodus. Evalueringsmodusen har de fleste funksjoner unntatt skanning deaktivert, så det er ikke mulig å gjøre noe uten produktregistrering, som faktisk er lisenskjøp. En lisens koster US $ 49,90.

Resultatene fra en standardskanning er vist nedenfor. Skanningen er rask: 18 bilder / sek på en lokal stasjon. Resultatskjermen i Multi-Viewer-modus, som vist nedenfor, viser miniatyrbilder av bilder, som gjør det enkelt å inspisere resultatene etter å ha klikket på Alle originaler. Tabellvisningsmodus viser bilder parvis (som for annen programvare) og tremodus viser originaler og duplikater som et tre.

Kvaliteten på grupperingen er generelt veldig god på ubehandlede kamerabilder, men en feil i algoritmen er tydelig på de to klyngene som er uthevet i rødt, som har lignende innhold, men som er splintret (ikke gruppert sammen). Likheten mellom de to testbildene var 34%, noe som indikerer en mer restriktiv algoritme enn andre programmer. Imidlertid vil enhver automatisert likhetsalgoritme mislykkes noen ganger sammenlignet med en menneskelig evaluator.

Handlingsalternativer flytter eller sletter enten originaler (som flagget) eller duplikater. Det er en angringsfunksjon hvis nødvendig. Handlingen med å flytte både originaler og ikke-dupliserte filer til en bestemt mappe er imidlertid ikke tilgjengelig, selv om dette kan oppnås ved å slette alle duplikater og kopiere eller flytte mappen til det angitte stedet.

Duplicate Photo Cleaner har en rekke andre svært nyttige funksjoner: justering av miniatyrstørrelsen gir detaljert inspeksjon av klyngede bilder, og endring av bildet som er merket som original (som alle kan eksporteres) er ganske enkelt et spørsmål om å krysse av og fjerne merkingen.

De beste resultatene ble oppnådd ved flere passeringer gjennom dataene, først med en høy terskel og deretter med en lavere.

Lignende bilder

Dette er freeware, men den nedlastede versjonen er datert 2013. Grensesnittet er ikke sofistikert og vil gi en naiv bruker. Det er ingen hjelpefil. Knappen for å starte behandlingen er merket "Søk". Terskelverdien tolkes annerledes enn alle andre testede programmer - å redusere terskelen reduserer antall treff som er funnet.

Behandlingen er rask (7 bilder / sek), men sammenligningsresultater vises bare som en serie med bildepar, noe som gjør det vanskelig å behandle klynger med mer enn to filer.

Handling er ved å slette et av bildeparet som vises. Ulike automatiserte slettingsregler kan brukes, basert på fildato, størrelse, oppløsning eller om bildet er i høyre eller venstre rute. En automatisert regel kan brukes til å fjerne alle duplikater.

Lignende bilder hang når du behandlet mappen som bare inneholder de to testbildene, så det ble ikke oppnådd noe estimat for ytelsen

Finn.Samme.Bilder.OK

Dette er freeware fra en veldig entusiastisk utvikler basert i Tyskland med et stort antall gratis produkter. Grensesnittet er igjen usofistikert, med et stort utvalg av skjermer og innstillinger som sannsynligvis vil utsette en naiv bruker. Skanning er imidlertid rask (3 minutter for 1288 bilder), og skanneresultatene vises nedenfor:

Resultatene vises som par med samsvarende filer, basert på en likhetsterskel som kan settes mellom 90 og 55% fra rullegardinmenyen for likhet over resultatlisten. Andre skannealternativer som styrer gjenkjenning av roterte, speilvendte eller negative bilder kan stilles inn.

Filer kan gjøres ved å høyreklikke på den valgte filen (eller filene) for å flytte, kopiere eller slette dem.

Likheten målt mellom de to testbildene var mindre enn 55%, som er den minste tilgjengelige verdien.

Visual Similarity Duplicate Image Finder

Dette er et kommersielt produkt fra MindGems. Demomodusen er at bare navnene på de ti første dupliserte gruppene vises og handling av filer deaktiveres. En lisens koster US $ 24,95. Den har en hjelpefil, og produktet er datert 2017. Grensesnittet går utover å vise dupliserte par, og dekker behovet for å se alle filene i en klynge før handling, men inneholder mye mer funksjonalitet enn en naiv bruker ønsker å se. For brukeren som er villig til å klatre i læringskurven, er det et stort antall alternativer og innstillinger tilgjengelig.

Etter at du har valgt mappen som inneholder bildene, og kjørt skanningen (som igjen tar mindre enn 3 minutter for 1288 filer), vises følgende skjermbilde.

Displayet viser miniatyrbilder av alle bildene som er gruppert sammen som en lignende klynge hvis alternativet Multi-Preview er valgt og en hvilken som helst fil i gruppen er valgt. I forhåndsvisningsmodus vises bare den første filen i gruppen, og filen er valgt. Gruppe-ID-en vises i høyre kolonne på skjermen.

En feil i likhetsalgoritmen er tydelig i bildet vist ovenfor, der to klynger av lignende filer er slått sammen, alle med en likhet på mer enn 90% med den første filen i gruppen. Dette problemet er det motsatte av klyngesplittingen som forekommer i andre produkter, men det ser ut til å være mye mer vanlig. På testbildeparet oppdaget Visual Similarity Duplicate Finder en likhet på 78%, noe som samsvarer med at likhetsalgoritmen er mer utsatt for falske positive enn andre programmer.

Handling utføres ved å velge Autocheck & Delete / Move eller Copy-fanen som vist nedenfor og klikke på merkelig utfør-knappen.

Duplicate Cleaner Pro (ver 4.1.1)

Dette produktet fra det britiske firmaet Digital Volcano inkluderer duplikatgjenkjenning for bilder, lydfiler og dokumenter ved hjelp av enten bilde-, dokument- eller lydmodus. Nøyaktig duplisering kan estimeres fra en rekke filmetadata og fra sjekksummer for binært innhold. Deteksjonsmodus inkluderer en terskel for variabel likhet for dokument- og bildeskanningsmodus.

Identifikasjon av lignende, men ikke identiske tekstdokumenter, er en viktig funksjon som bare finnes i noen få forbrukerprodukter (spesielt FindAlike). Programmet oppdager imidlertid ikke at PDF-versjoner av et Word-dokument er identiske, og det identifiserer ikke Word-dokumenter som er lagret på forskjellige tidspunkter, eller med små endringer i tekstinnholdet som like, selv med en likhetsterskel på 10%. Det ser ut til at begrepet lignende filinnhold ikke refererer til tekstinnholdet i dokumenter.

Produktet bærer noen av kjennetegnene ved funksjonskryp: det er veldig omfattende funksjonalitet tilgjengelig, men ikke alt er tilstrekkelig dokumentert, selv om hjelp- og supportfasilitetene ser veldig bra ut, med et online forum tilgjengelig for problemløsning. Noe eksperimentering er nødvendig for å bruke produktet effektivt, noe som kan utsette brukere uten tilbøyelighet til å utforske og eksperimentere med programvare. Et eksempel på detaljene som er tilgjengelige i søkekriteriene (eller rettere samsvarende) vises nedenfor.

De faste bildekategoriene av Very Close, Good og Loose tilsvarer likheter på 97%, 88% og 65%, men metoden for å estimere disse er ikke spesifisert. Det er sannsynlig at det er det samme som det som brukes av DupeGuru, hvor små posisjonsendringer har en dramatisk effekt på likhetstiltaket som vist nedenfor.

Alle de ovennevnte bildeparene ovenfor vil bli vurdert som veldig like av en menneskelig betrakter, men er ikke av likhetsalgoritmen.

Behandlingshastigheten for bildelignhet er moderat: ca. 5 bilder / sek. Nøyaktig kampbehandling er mye raskere. Det blir ikke gitt noe estimat for gjenværende tid for en skanning etter at den har startet.

Grupper av bilder gruppert av Duplicate Cleaner Pro vises via en egen knapp, og forskjellige grupper kan blas gjennom, og filer merkes for sletting, bevegelse eller omdøping. Mapper med lignende innhold kan også identifiseres.

Handling av filer i dupliserte eller nesten dupliserte klynger støttes godt, med en rekke alternativer for å bestemme hvilke filer som skal handles i en klyngegruppe, og for handlinger som skal utføres, som inkluderer sletting, flytting, kopiering og erstatning av en lenke. Identifikasjon av mapper med duplisert innhold er spesielt nyttig. Sortering av filer og mapper etter størrelse, som er veldig nyttig i denne prosessen, fungerer imidlertid ikke.

Til tross for disse begrensningene tilbyr Duplicate Cleaner Pro et bredt spekter av funksjoner til en rimelig pris (liste A $ 49, eller US $ 35), og ser ut til å ha blitt belønnet av over 2 millioner nedlastinger. Den tilbyr en gratis prøveperiode, men med noen ytelsesbegrensninger.

PictureEcho (v 2.0)

PictureEcho kommer fra Sorcim (Pvt) Ltd, et pakistansk selskap i Rawalpindi som tilbyr en rekke applikasjoner for av duplisering og datahåndtering. PictureEcho hevder å 'utføre en menneskelignende analyse av visuelt lignende bilder'. Registrering av programmet koster US $ 39,97 per år, men det er ingen indikasjoner på hvilke fasiliteter som gjøres tilgjengelige ved registrering: den uregistrerte versjonen kan være begrenset på noen måte, men begrensningene er ikke oppgitt.

Mens Exact Match-alternativet oppdager identiske bilder tilstrekkelig, gir Similar Match fire alternativer, hvorav tre grupperer bilder utelukkende på grunnlag av forskjellene mellom tidene for bildeopptak. Skanning med disse alternativene går veldig raskt. Det fjerde alternativet inkluderer ikke tidssammenligning og ser ut til å bruke en eller annen form for bildeanalyse. Skanneoperasjonen er mye tregere. Resultatene er ikke imponerende.

PictureEcho kan være nyttig hvis status nesten duplisert er indikert av tidsforskjellen mellom bilder, men bildeanalysen nesten samsvarende mangler kontroll over graden av likhet mellom bilder. Produktet anbefales ikke.

Sammendrag av lignende bildeprogramvare

Karakterskala: 1 (Dårlig), 3 (Gjennomsnitt), 5 (Utmerket).

Merk at ytelse på testbildeparet ikke nødvendigvis gjenspeiler ytelse på andre bilder, da den falske positive / negative frekvensen vil avhenge av naturen til bildene som matches.

ProduktKosteGrensesnittkvalitetHastighetYtelse på testbilderMerknader

dupeGuru

Gratis

2

1

1

Ingen innebygd visning av fyrstikker

Lignende bildesøker

Gratis

2

4

4

Ingen handlinger

Dupliser Photo Cleaner

USD 49,90

5

5

3

Enkel handling og betjening

Lignende bilder

Gratis

1

4

1

Kompleks handling, henger på noen mapper

Finn.Samme.Bilder.OK

Gratis

1

3

2

Idiosynkratisk grensesnitt

Visual Similarity Duplicate Image Finder

USD 24,95

3

4

5

Kompleks grensesnitt

Duplicate Cleaner Pro

USD 35

4

2

3

Inkluderer lyd og dokument nøyaktig samsvar. Utforsking og eksperimentering nødvendig.

Samlet sett vil Duplicate Photo Cleaner være det anbefalte produktet, men du må være forberedt på å betale lisensavgiften. Det har en tendens til å gi falske negative resultater, men dette kan overvinnes ved flere pasninger, først med høy terskel og deretter med en lavere for å plukke opp andre kamper. Grensesnittet er enkelt og godt designet. De gratis produktene har dårlige grensesnitt og krever litt tålmodighet fra brukeren. SimilarImages er sannsynligvis det beste, men det henger på noen mapper. Duplicate Cleaner Pro inkluderer matching for lyd og nøyaktig matching for dokumenter til en attraktiv pris. Grensesnittet er omfattende, men kan være skremmende for en naiv bruker.

Finne lignende tekstdokumenter

Programvare for å oppdage lignende tekstdokumenter er mye mindre vanlig enn for bilder. Foreløpig er denne funksjonen mest brukt i lovlig oppdagelse, og mange programvarepakker beregnet for dette formålet inkluderer en viss kapasitet for å finne slike dokumenter. Disse pakkene er vanligvis ikke tilgjengelige for nedlasting og test. Området er av betydelig forskningsinteresse som en av grensene for kunstig intelligens, og det er mange artikler om metoder for likhetsestimering.

Oppgaven med å finne den nyeste versjonen av et dokument er grei hvis alle dokumenter alltid er lagret i et dokumentstyringssystem, men lagring og behandling utenfor systemet ofte forekommer, noe som gjør at den siste versjonen i dokumentstyringssystemet ikke nødvendigvis er den siste versjon.

Det ser ut til å være bare ett lignende gjenkjenningsprodukt for tekstdokumenter som er målrettet bredere enn lovlig funn og tilgjengelig for nedlasting og test.

FindAlike

FindAlike er et produkt fra Aleka Consulting, et australsk selskap. Det koster $ 89 for en enkeltbrukerlisens, og nedlastinger har en 30-dagers evalueringsperiode. FindAlike fungerer ved å lage en dokumentvektor fra tekstinnholdet i dokumenter og matche disse vektorene for å estimere likhet og oppdage klynger av lignende dokumenter. Dokumentoppretting og bevegelse på lokale og delte filsystemer spores ved hjelp av Microsoft Windows Indexing.

FindAlike består av en frittstående komponent og et Office-tillegg. Når du bruker Office-tillegget, vises filer med tekst som ligner teksten i det nåværende åpne dokumentet, sammen med den endrede datoen, noe som gjør det enkelt å oppdage nyere versjoner av det åpne dokumentet. Den frittstående komponenten tillater valg av en hvilken som helst fil som mål for likhetstilpasning. Begge komponentene støtter merking (manuell og automatisk basert på innhold) og søk, og et forslag til en container destinasjon hvis det brukes sammen med et dokumenthåndteringssystem. Der lignende filer er vedlagt e-postmeldinger, vises e-postavsenderen og mottakeren.

FindAlike har justerbar likhetstoleranse og skanning av disklagring kan omfatte lokale stasjoner og nettverksstasjoner. Nettverksstasjonene trenger ikke nødvendigvis å kjøre et Windows-operativsystem. Det gir også indeksert søk over disse stasjonene (og lokale e-poster).

Denne artikkelen er nøyaktig og sann etter best forfatterens viten. Innholdet er kun for informasjons- eller underholdningsformål og erstatter ikke personlig rådgivning eller profesjonell rådgivning i forretningsmessige, økonomiske, juridiske eller tekniske forhold.

Vi Anbefaler Deg Å Se

Dukket I Dag

Gjennomgang av Oittm Smart Dimmer Light Switch (Fungerer med Amazon Alexa og Google Home)
Datamaskiner

Gjennomgang av Oittm Smart Dimmer Light Switch (Fungerer med Amazon Alexa og Google Home)

Krzy ztof er en liv lang fremtidig tekni k narkoman om under øker de nye te hi toriene fra el kaper om Apple, am ung, Google og Amazon.Oittm mart Dimmer Light witch er en alt-i-ett-tilnærmin...
Slik aktiverer og bruker du Bing Maps-tillegget i Excel
Datamaskiner

Slik aktiverer og bruker du Bing Maps-tillegget i Excel

Jame liker å lære om teknologi og dele det han lærer gjennom artiklene ine.Å lage et kart med teder og være i tand til å kille mellom di e tedene kan ta noen kreative fer...