Søk etter dupliserte filer. Hvordan finne dupliserte verdier i en Excel-kolonne. Søk etter matchende bilder ved hjelp av ulike algoritmer med AntiDupl

Noen ganger i hverdagen dataaktiviteter oppgaven oppstår for å finne dupliserte filer. Det kan være mange årsaker til dette: mangel på harddiskplass, forsøk på å redusere entropi i filene deres, håndtere annen tid fotografier fra kamera og mange andre nødvendige saker.

På nettet kan du finne et stort nummer av programmer som lar deg søke etter dupliserte filer. Men hvorfor se etter noen programmer, hvis et nydelig verktøy for slikt arbeid vanligvis alltid er tilgjengelig. Og dette verktøyet heter Total sjef (TC).

I denne artikkelen vil jeg vise alle metoder basert på Total sjef versjoner 8.5 , i denne versjonen har søket etter dupliserte filer blitt svært rikt på funksjonalitet.

!!! En liten viktig digresjon. Hva skal forstås som en duplikatfil? To filer er IDENTISKE bare når de samsvarer fullstendig bit for bit. De. all informasjon i en datamaskin er representert av en sekvens av nuller og enere. Så filene samsvarer bare når de samsvarer fullstendig med sekvensen av nuller og ener som utgjør disse filene. Alt snakket om at det er mulig å sammenligne to filer for et hvilket som helst annet kriterium er dypt feil.

TC har to, iboende forskjellige, metoder for å finne dupliserte filer:

  • Synkroniser kataloger;
  • Søk etter duplikater;

Deres særegenhet og anvendelse illustreres best med eksempler.

1.Synkronisering av kataloger.

Denne metoden brukes når du har to sammenlignede mapper med identisk struktur. Dette skjer vanligvis i mange tilfeller, her er noen av dem:

  • Du har jevnlig sikkerhetskopiert arbeidsmappen din. Etter en stund måtte du finne ut hvilke filer som ble lagt til eller endret siden arkivet ble opprettet. Du pakker ut hele arkivet inn egen mappe... Mappestrukturen i den sammenfaller praktisk talt med den fungerende. Du sammenligner to mapper «original» og «gjenopprettet fra arkiv» og får enkelt en liste over alle endrede, lagt til eller slettede filer... Et par enkle manipulasjoner - og du sletter alle dupliserte filer som er i arbeidsmappen fra den gjenopprettede mappen.
  • Du jobber i en mappe på nettverksstasjon og regelmessig lage en kopi til deg selv på lokal disk... Over tid din arbeidsmappe har blitt ganske stor og tiden brukt på full kopi, har blitt veldig stor. For ikke å kopiere hele mappen hver gang, kan du først sammenligne med sikkerhetskopien og kopiere bare de filene som er endret eller lagt til, samt slette i backup-mappen filer som er fjernet fra hovedsiden.

Når du først har fått en smakebit, føler den fulle kraften i denne metoden, kan du selv tenke på tusenvis av situasjoner der metoden for katalogsynkronisering vil være til stor hjelp for deg i arbeidet ditt.

Så hvordan skjer alt i praksis. La oss komme i gang.

Anta at vi har en hovedmappe "Jobber", som inneholder filene som arbeidet foregår med. Og det er en mappe "Arkiv" som ligger i gammelt eksemplar mapper "Jobber"... Vår oppgave er å finne dupliserte filer i begge mappene og fjerne dem fra mappen "Arkiv".

Åpning TC. Åpne de sammenlignede mappene i høyre og venstre panel:

Trykk på menyen "Kommandoer" - "Synkroniser kataloger ..."


Vinduet Sammenligning av kataloger åpnes

Deretter må vi angi sammenligningsparametrene. Sette hake i parametrene "Med underkataloger", "etter innhold", "ignorer dato"

  • "Med underkataloger"- filer i alle underkataloger til spesifiserte mapper vil bli sammenlignet;
  • "Etter innhold"- dette er nøkkelalternativet som får TC til å sammenligne filer OM !!! V ellers, vil filer bli sammenlignet etter navn, størrelse, dato;
  • "Ignorer dato"- Dette alternativet får TC til å vise forskjellige filer, uten å prøve automatisk deteksjon retninger for fremtidig kopiering;

!!! Bare filer med samme navn vil bli sammenlignet !!! Hvis filene er identiske, men de har et annet navn, vil de ikke bli sammenlignet!

Trykk på knappen "Sammenligne". Avhengig av størrelsen på filene, kan sammenligningen ta veldig lang tid, ikke bli skremt. Til slutt vil sammenligningen ende med bunnlinjen tilstand (del 1 i figuren) vil resultatet vises:


Hvis knappene i "Vis"-delen (seksjon 2 i figuren) trykkes inn, vil du se sammenligningsresultatet for hver fil.

- denne knappen slår på visningen av filer som er i venstre panel, men som ikke er i høyre;

- denne knappen gjør det mulig å vise identiske filer;

- denne knappen slår på visningen av forskjellige filer;

- denne knappen slår på visningen av filer som er i høyre panel, men som ikke er til venstre;

Hvis alle skjermknapper i utgangspunktet er deaktivert for deg, kan sammenligningsresultatet kun vurderes av statuslinjen (i bildet ovenfor, seksjon 1), i i dette tilfellet vi ser at 11 filer ble sammenlignet, hvorav 8 filer er like, 2 filer er forskjellige, og det er også en fil i venstre rute som ikke er i høyre rute.

For å fullføre oppgaven vår, er det nødvendig å la visningen av bare identiske (identiske) filer, så slå av alle andre skjermknapper


Nå har vi bare identiske filer igjen, og vi kan trygt slette dem i mappen "Arkiv"... For å gjøre dette, velg alle filene. Den enkleste måten å gjøre dette på er ved å trykke på den universelle kombinasjonen. CTRL + A... Eller velg først den første linjen med musen, og trykk deretter på tasten på tastaturet SKIFTE og uten å slippe den, velg den siste linjen med musen. Som et resultat bør du få noe som dette:

Det siste trinnet trykker vi på høyre nøkkel mus på hvilken som helst linje og i menyen som åpnes, velg elementet "Slett venstre"

TC spør oss vennlig om vårt ønske,

og hvis vi trykker "JA" så sletter den alle merkede filer i mappen "Arkiv".

Etter det, automatisk, er det en gjentatt sammenligning av de to mappene. Hvis du ikke trenger en ny sammenligning, kan prosessen avbrytes ved å klikke på knappen "Avbryte" eller trykk på tasten ESC på tastaturet. Hvis den gjentatte sammenligningen ikke ble avbrutt, og vi aktivert alle skjermknappene, vil vi se et slikt vindu

Alt. Oppgaven er fullført. Alt identiske filer funnet og slettet i mappen "Arkiv".

Relaterte videoopplæringer

2. Søk etter duplikater.

Den grunnleggende forskjellen denne metoden fra katalogsynkroniseringsmetoden er at TC ignorerer navnene på sammenlignede filer. Faktisk sammenligner den hver fil med hver enkelt, og viser oss identiske filer, uansett hvordan de heter ! Dette søket er veldig nyttig når du ikke kjenner mappestrukturen eller navnene på filene som skal sammenlignes. I alle fall, etter å ha søkt etter duplikater, vil du få en nøyaktig liste over identiske filer.

Jeg vil vise deg hvordan du finner duplikater i en praktisk oppgave, å finne dupliserte personlige bilder. Ganske ofte laster du opp bilder fra din digitale dingser... Ganske ofte blir situasjonen forvirret, noe tilbakestilles mange ganger, noe blir hoppet over. Hvordan sletter jeg raskt filer som er droppet flere ganger? Veldig enkelt!

La oss komme i gang.

La oss si at du alltid slipper alle bildene dine i en mappe "FOTO" på disk D. Etter alle tilbakestillingene ser mappen slik ut:

Som du kan se, er noen filer plassert i mapper navngitt etter opptaksdatoen, noen blir droppet til roten av mappen "_Ny" og "_Ny1"

For å begynne å søke etter duplikater, åpne mappen der vi skal søke i et hvilket som helst TC-panel. I vårt tilfelle er dette mappen "FOTO"

Deretter trykker du på tastekombinasjonen på tastaturet ALT + F7 eller velg fra menyen "Kommandoer" - "Filsøk"

Et vindu åpnes standard søk TC. String "Søk filer:" la stå tomt, så vil alle filene bli sammenlignet.

Gå deretter til bokmerket "I tillegg" og kryss av i boksene "Finn duplikater:", "etter størrelse", "etter innhold" og trykk "For å begynne å søke".


Søket kan ta VELDIG lang tid, ikke la deg skremme av dette, siden det er et stort antall sammenligninger av et stort volum av filer. I dette tilfellet viser statuslinjen fullføringsprosenten

Når søket er over, åpnes søkeresultatvinduet, der vi trykker på knappen "Filer til panel"


I søkevinduet og i panelvinduet er identiske filer samlet i seksjoner atskilt med stiplede linjer

Hver seksjon viser filnavnet og full vei til filen. Navn på IDENTISKE filer kan være helt forskjellige!
I dette tilfellet kan det ses at det samme bildet ble tatt TRE ganger, og to ganger under samme navn ( IMG_4187.JPG) og tredje gang dette bildet ble tatt under et helt annet navn ( IMG_4187_13.JPG).

Deretter gjenstår det å velge unødvendige identiske filer og slette dem. Dette kan gjøres manuelt ved å markere hver fil med et tastetrykk. Ins... Men dette er langt og ineffektivt. Det finnes mer riktige og raskere måter.

Så vår oppgave er å fjerne dupliserte filer i mapper "_Ny" og "_Ny1".
For å gjøre dette, klikk på ekstra tastatur, til høyre stor nøkkel [+] ... Vanligvis velger denne nøkkelen i TC filer etter maske. Den samme operasjonen kan gjøres gjennom menyen Velg - Velg gruppe

Ta i betraktning Til hvordan finne og fremheve samme verdier i Excel. Betinget formatering vil hjelpe oss. Hva er betinget formatering og hvordan du jobber med det, se artikkelen " Betinget formatering i Excel".Du kan velge dupliserte verdier i Excel både i hele tabellen og i viss rekkevidde(rad kolonne). Og funksjonen " Filtrer i Excel "vil bidra til å skjule dem, om nødvendig. La oss vurdere flere måter.
Den første måten.
Hvordan finne dupliserte verdier i Excel.
For eksempel nummer, etternavn osv. Hvordan du gjør dette, se artikkelen "Hvordan velge celler i Excel".
Andre vei.
Slik markerer du dupliserte verdier i Excel... I denne tabellen må vi fremheve fødselsåret 1960. Velg kolonnen "Fødselsår".På "Hjem"-fanen i "Stiler"-delen klikker du på knappen "Betinget formatering". Velg deretter "Dupliserte verdier" i delen "Valgte celleregler".
I dialogboksen som vises, velg det vi trenger å markere: dupliserte eller unike verdier. Velg cellefyllfargen eller skriftfargen.
For flere detaljer, se artikkelen "Uthevingsdato, ukedag i Excel, gitt".
Klikk "OK". Kolonne D fremhevet alle årene - 1960.

I betinget formatering kan du også velge funksjonen "Inneholder tekst" i delen "Valgte celleregler". Skriv denne teksten (for eksempel etternavn, nummer osv.), og alle cellene med denne teksten vil bli uthevet. Vi skrev etternavnet "Ivanov". Det er mange flere måter å finne de samme verdiene i Excel og markere dem ikke bare med farger, men også med ord, tall, tegn. Du kan tilpasse tabellen slik at duplikater ikke bare utheves, men også telles. Du kan velge dupliserte verdier fra det første ordet, eller du kan velge duplikater fra det andre og utover. Les om alt dette og mer i artikkelen "

Hvis du jobber med store tall informasjon i Excel og legg den regelmessig til, for eksempel data om skoleelever eller bedriftsansatte, så kan dupliserte verdier vises i slike tabeller, med andre ord - duplikater.

I denne artikkelen vil vi se på hvordan du finner, velger, sletter og teller antall dupliserte verdier i Excel.

Hvordan finne og fremheve

Du kan finne og markere duplikater i et dokument ved å bruke betinget formatering i Excel. Velg hele dataområdet i den ønskede tabellen. På "Hjem"-fanen klikker du på knappen "Betinget formatering", velg fra menyen "Regler for cellevalg"Dupliserte verdier.

I neste vindu velger du fra rullegardinlisten "gjentakende", og fargen for cellen og teksten som skal males over de funnet duplikatene. Klikk deretter "OK" og programmet vil søke etter duplikater.

V Excel eksempel uthevet i rosa all den samme informasjonen. Som du kan se, sammenlignes ikke dataene linje for linje, men utheves identiske celler i kolonner. Derfor er cellen "Sasha V." ... Det kan være flere slike elever, men med ulike etternavn.

Hvordan beregne

Hvis du trenger å finne og telle antall dupliserte verdier i Excel, lager vi en pivot for dette Excel regneark... Legg til "Code" til den opprinnelige kolonnen og fyll den med "1": legg inn 1, 1 i de to første cellene, velg dem og dra dem ned. Når duplikater blir funnet for rader, vil verdien i "Kode"-kolonnen øke med én hver gang.

Velg alt sammen med overskriftene, gå til "Sett inn"-fanen og trykk på knappen "Pivottabell".

For å lære mer om hvordan du arbeider med pivottabeller i Excel, les artikkelen ved å klikke på lenken.

I det neste vinduet er cellene i området allerede indikert, med en markør markerer vi "På nytt løv"Og klikk" OK ".

På høyre side drar du de tre første overskriftene til området "Linjenavn", og dra "Kode"-feltet til "Verdier"-området.

Som et resultat vil vi få en pivottabell uten duplikater, og i "Kode"-feltet vil det være tall som tilsvarer de gjentatte verdiene i den opprinnelige tabellen - hvor mange ganger denne raden har blitt gjentatt i den.

For enkelhets skyld, la oss velge alle verdiene i kolonnen "Beløp for kodefeltet", og sorter dem i synkende rekkefølge.

Jeg tror nå du kan finne, velge, slette og til og med telle antall duplikater i Excel for alle tabellrader eller bare for utvalgte kolonner.

Vurder artikkelen:

Et vanlig spørsmål er hvordan du finner og fjerner duplikater i Excel. Anta at du har lastet ned den månedlige rapporten fra din regnskapssystem, men til slutt må du forstå hvilke motparter som generelt samhandlet med selskapet i løpet av denne perioden - la listen over motparter stå uten repetisjon. Hvordan velge unike verdier?

Er det mulig å slette doble, overstyrte og så videre verdier i Excel på tvers av flere kolonner?

Det er mulig, og veldig enkelt. For dette er det spesiell funksjon... Forhåndsvelg området der du vil fjerne duplikater. På båndet går du til Data - Fjern duplikater (se bildet i begynnelsen av artikkelen).

Velge den første kolonnen

Det er viktig å forstå at hvis du bare velger den første kolonnen, vil alle data i de umarkerte kolonnene bli slettet i tilfelle ikke-unikk.

Veldig komfortabelt!

2. Hvordan velge alle duplikater i Excel?

Har du allerede hørt om? Ja, her vil det fortsatt hjelpe! Velg kolonnen du vil merke duplikater i, velg Hoved - Betinget formatering - Cellevalgsregler - Dupliserte verdier ...

I vinduet Dupliserte verdier som åpnes, velg hvilke celler vi velger (unike eller dupliserte), samt valgformatet, enten fra de oppgitte, eller lag et tilpasset format. Standardformatet vil være rødt fyll og rød tekst.

Klikk OK hvis du ikke vil endre formateringen. Nå vil alle data for de valgte forholdene bli farget.

Merk at verktøyet kun brukes på den valgte (!) kolonnen.

Forresten, hvis du vil se unike, så velg - unik i vinduet til venstre.

3. Unike verdier ved hjelp av pivottabeller

For å være ærlig hadde jeg ikke en gang mistanke om at det var en mulighet for å "fjerne duplikater" og brukte oppsummeringstabeller... Hvordan gjorde jeg det? Velg tabellen der du vil finne unike verdier - Sett inn -

Å finne duplikater i Excel kan være utfordrende, men hvis du er bevæpnet med noen grunnleggende kunnskap, vil du finne flere måter å håndtere det på. Da jeg først tenkte på dette problemet, kom jeg raskt på et par måter å finne duplikater på, og etter litt refleksjon oppdaget jeg flere måter. Så la oss først se på et par enkle, og deretter gå videre til mer avanserte.

Det første trinnet er at du må bringe dataene til et format som gjør det enkelt å manipulere og endre. Ved å lage overskrifter på den øverste raden og plassere alle dataene under disse overskriftene, kan du organisere dataene dine i en liste. Kort fortalt blir dataene til en database som kan sorteres og manipuleres på ulike måter.

Finn duplikater med innebygde Excel-filtre

Når du har organisert dataene dine i en liste, kan du bruke forskjellige filtre på den. Avhengig av datasettet du har, kan du filtrere listen etter én eller flere kolonner. Siden jeg bruker Office 2010 er det nok for meg å fremheve øverste linje hvor overskriftene er, gå deretter til fanen Data(Data) og trykk kommando Filter(Filter). Nedadgående trekantede piler (rullegardinmenyikoner) vises ved siden av hver av overskriftene, som vist nedenfor.

Hvis du klikker på en av disse pilene, åpnes en rullegardinmeny for filter, som inneholder all informasjon om denne kolonnen... Velg et element fra denne listen og Excel vil vise dataene i henhold til ditt valg. den rask måte oppsummere eller se mengden av valgte data. Du kan fjerne merket i boksen Velg alle(Velg alle) og velg deretter en eller flere nødvendige elementer... Excel viser bare de radene som inneholder elementene du valgte. Dette gjør det mye lettere å finne duplikater, hvis noen.

Etter å ha satt opp filteret, kan du fjerne dupliserte rader, delsum eller i tillegg filtrere dataene etter en annen kolonne. Du kan redigere dataene i tabellen etter behov. I eksemplet nedenfor har jeg valgt elementene XP og XP Pro.

Som et resultat av filteret viser Excel bare de radene som inneholder elementene jeg har valgt (dvs. personer på hvis datamaskin XP og XP Pro er installert). Du kan velge hvilken som helst annen kombinasjon av data, og om nødvendig til og med sette opp filtre i flere kolonner samtidig.

Avansert filter for å finne duplikater i Excel

I fanen Data(Data) til høyre for kommandoen Filter(Filter) det er en knapp for filterinnstillinger - Avansert(I tillegg). Dette verktøyet er litt mer komplisert å bruke og må justeres litt før du bruker det. Dine data bør organiseres som beskrevet tidligere, dvs. som en database.

Før du bruker et avansert filter, må du konfigurere et kriterium for det. Se på figuren under, du kan se en liste med data, og til høyre i kolonnen L kriteriet er angitt. Jeg skrev ned kolonneoverskriften og kriteriene under samme overskrift. Figuren viser en tabell over fotballkamper. Det kreves kun å vise hjemmemøter. Derfor kopierte jeg overskriften til kolonnen jeg vil filtrere på, og satte kriteriet (H) under som jeg vil bruke.

Nå som kriteriet er konfigurert, velg en hvilken som helst celle i dataene våre og trykk på kommandoen Avansert(I tillegg). Excel vil velge hele listen med data og åpne følgende dialogboks:

Som du kan se, har Excel valgt hele tabellen og venter på at vi skal indikere et område med et kriterium. Velg feltet i dialogboksen Kriterieområde(Utvalg av forhold), velg deretter cellene med musen L1 og L2(eller de der kriteriet ditt er plassert) og klikk OK... Tabellen viser bare de radene hvor i kolonnen Hjem / Besøkende verdt verdien H, og vil skjule resten. Dermed fant vi dupliserte data (en kolonne om gangen), som bare viser hjemmemøter:

Dette er en enkel måte å finne duplikater på, noe som kan bidra til å spare tid og få nødvendig informasjon fort nok. Det bør huskes at kriteriet må plasseres i en celle atskilt fra datalisten slik at du kan finne det og bruke det. Du kan endre filteret ved å endre kriteriet (jeg har det i celle L2). I tillegg kan du slå av filteret ved å klikke på knappen Klar(Tøm) fanen Data(Data) i en gruppe Sorter og filtrer(Sorter og filtrer).

Innebygd Excel Duplicate Remover-verktøy

Excel har en innebygd funksjon Fjern duplikater(Fjern duplikater). Du kan velge en kolonne med data og bruke denne kommandoen til å fjerne alle duplikater, og bare etterlate unike verdier. Bruk verktøyet Fjern duplikater(Slett duplikater) ved å bruke knappen med samme navn, som du finner på fanen Data(Data).

Pass på å velge hvilken kolonne du vil beholde bare unike verdier i. Hvis dataene ikke inneholder overskrifter, vises dialogboksen Kolonne A, Kolonne B(Kolonne A, Kolonne B) og så videre, så det er mye lettere å jobbe med overskrifter.

Når du er ferdig med innstillingene, klikker du OK... Excel vil vises informasjonsvindu med resultatet av funksjonen (eksempel i figuren under), der du også må trykke OK... Excel vil automatisk eliminere rader med dupliserte verdier, og etterlate deg bare unike verdier i kolonnene du har valgt. Forresten, dette verktøyet finnes i Excel 2007 og nyere versjoner.

Finn duplikater ved å bruke Finn-kommandoen

Hvis du trenger å finne et lite antall dupliserte verdier i Excel, kan du gjøre det ved å bruke søket. Gå til fanen Hom e (Hjem) og klikk Finn og velg(Finn og fremhev). En dialogboks åpnes der du kan angi hvilken som helst verdi du vil søke etter i tabellen. For å unngå skrivefeil kan du kopiere verdien direkte fra datalisten.

I tilfellet når informasjonsmengden er veldig stor og du trenger å øke hastigheten på søket, velg raden eller kolonnen du vil søke i, og start deretter søket. Hvis du ikke gjør dette, vil Excel søke i alle tilgjengelige data og finne unødvendige resultater.

Hvis du vil søke i alle tilgjengelige data, kanskje knappen Finn alle(Finn alle) vil være mer nyttig for deg.

Endelig

Alle tre metodene er enkle å bruke og vil hjelpe deg å finne duplikater:

  • Filter- ideell når dataene inneholder flere kategorier som du kanskje må dele, oppsummere eller slette. Å lage underseksjoner er mest beste bruk for et avansert filter.
  • Fjerner duplikater vil redusere mengden data til et minimum. Jeg bruker denne metoden når jeg skal lage en liste over alle unike verdier en av kolonnene, som jeg senere bruker til vertikalt søk ved hjelp av VLOOKUP-funksjonen.
  • Jeg bruker kommandoen Finne(Finn) bare hvis du trenger å finne et lite antall verdier, og verktøyet Finne og Erstatt (Finn og erstatt) når jeg finner feil og vil fikse alle på en gang.

Dette er langt fra en uttømmende liste over metoder for å finne duplikater i Excel. Det er mange måter, og dette er bare noen av dem jeg bruker jevnlig i mitt daglige arbeid.