Sök efter identiska filer. Hur man hittar samma värden i en Excel-kolumn. Sök efter matchande bilder med hjälp av olika algoritmer med AntiDupl

Ibland i vardagen datoraktiviteter Uppgiften uppstår att hitta dubbletter av filer. Det kan finnas många anledningar till detta: brist på utrymme på hårddisken, försök att minska entropin i dina filer, hantera de som dumpas i annan tid fotografier från kameran och många andra nödvändiga fall.

Du kan hitta den på nätet Ett stort antal program som låter dig söka efter dubbletter av filer. Men varför leta efter några program om ett smart verktyg för sådant arbete vanligtvis alltid finns till hands. Och detta verktyg kallas Total befälhavare (TC).

I den här artikeln kommer jag att visa alla metoder baserade på Total befälhavare versioner 8.5 , i den här versionen har sökningen efter dubbletter av filer blivit mycket rik på funktionalitet.

!!!En liten viktig avvikelse. Vad menar du med dubblettfil? Två filer är IDENTISKA endast om de är exakt samma bit för bit. De där. All information i en dator representeras av en sekvens av nollor och ettor. Så filer matchar endast när de helt matchar sekvensen av nollor och ettor som utgör dessa filer. Allt prat om hur du kan jämföra två filer på någon annan grund är djupt felaktigt.

TC har två, väsentligen olika, metoder för att hitta dubbletter av filer:

  • Synkronisera kataloger;
  • Sök efter dubbletter;

Deras funktioner och tillämpning illustreras bäst med exempel.

1. Katalogsynkronisering.

Denna metod används när dina två mappar som jämförs har en identisk struktur. Detta händer vanligtvis i många fall, här är några av dem:

  • Har du regelbundet arkiverat din arbetsmapp? Efter en tid måste du ta reda på vilka filer som har lagts till eller ändrats sedan arkivet skapades. Du packar upp hela arkivet i separat mapp. Mappstrukturen i den sammanfaller praktiskt taget med den fungerande. Du jämför två mappar "original" och "återställd från arkiv" och får enkelt en lista över alla ändrade, tillagda eller raderade filer. Ett par enkla manipulationer - och du kommer att ta bort från den återställda mappen alla dubbletter av filer som finns i den fungerande.
  • Du arbetar i en mapp på nätverksenhet och gör regelbundet en kopia till dig själv lokal disk. I tiden din arbetsmapp har blivit ganska stor och den tid som läggs på fullständig kopia, har blivit mycket stor. För att inte kopiera hela mappen varje gång kan du först jämföra den med säkerhetskopian och kopiera endast de filer som har ändrats eller lagts till, och även radera dem i backup-mapp filer som raderades från den huvudsakliga.

När du väl fått kläm på det och känner den fulla kraften i denna metod kommer du själv att kunna komma upp i tusentals situationer där katalogsynkroniseringsmetoden kommer att vara till stor hjälp för dig i ditt arbete.

Så, hur går allt till i praktiken? Låt oss börja.

Låt oss anta att vi har en huvudmapp "Arbetssätt", som innehåller filerna som du arbetar med. Och det finns en mapp "Arkiv", i vilken ligger gammalt exemplar mappar "Arbetssätt". Vår uppgift är att hitta dubbletter av filer i båda mapparna och ta bort dem från mappen "Arkiv".

Öppna TC. I den högra och vänstra panelen öppnar du mapparna som jämförs:

Tryck på meny "Kommandon" - "Synkronisera kataloger..."


Fönstret för katalogjämförelse öppnas

Därefter måste vi ställa in jämförelseparametrarna. Kontrollera parametrarna "med underkataloger", "efter innehåll", "ignorera datum"

  • "med underkataloger"— filer i alla underkataloger till de angivna mapparna kommer att jämföras;
  • "efter innehåll"- detta är nyckelalternativet som tvingar TC att jämföra filer BIT för BIT!!! I annat, filer kommer att jämföras efter namn, storlek, datum;
  • "ignorera datum"- det här alternativet tvingar TC att visa olika filer utan att försöka automatisk detektering anvisningar för framtida kopiering;

!!! Endast filer med samma namn kommer att jämföras!!! Om filerna är identiska, men de har ett annat namn, kommer de inte att jämföras!

tryck på knappen "Jämföra". Beroende på storleken på filerna kan jämförelsen ta väldigt lång tid, var inte orolig. Så småningom kommer jämförelsen att sluta i slutsats tillstånd (avsnitt 1 i figuren) kommer resultatet att visas:


Om knapparna i avsnittet "Visa" (avsnitt 2 i figuren) trycks in, kommer du att se jämförelseresultatet för varje fil.

— den här knappen möjliggör visning av filer som finns i den vänstra panelen, men inte i den högra;

— Denna knapp möjliggör visning av identiska filer;

— denna knapp möjliggör visning av olika filer;

— den här knappen möjliggör visning av filer som finns i höger panel, men som inte är till vänster;

Om du initialt har alla skärmknappar avstängda, kan resultatet av jämförelsen endast bedömas av statusfältet (avsnitt 1 i figuren ovan), i I detta fall vi ser att 11 filer jämfördes, varav 8 filer är lika, 2 filer är olika och det finns även en fil i den vänstra panelen som inte finns i den högra panelen.

För att slutföra vår uppgift är det nödvändigt att lämna visningen av endast identiska (identiska) filer, så vi stänger av alla andra visningsknappar


Nu har vi bara identiska filer kvar, och vi kan säkert radera dem i mappen "Arkiv". För att göra detta, välj alla filer. Det enklaste sättet att göra detta är genom att trycka på den universella kombinationen CTRL+A. Eller välj först den första raden med musen och tryck sedan på tangenten på tangentbordet FLYTTA och utan att släppa den, välj den sista raden med musen. Som ett resultat bör du få något i stil med detta:

Det sista steget är att klicka höger nyckel musen på valfri rad och välj objektet i menyn som öppnas "Radera till vänster"

TC frågar oss vänligt om vår önskan,

och om vi trycker "JA" sedan raderas alla markerade filer i mappen "Arkiv".

Efter detta jämförs de två mapparna automatiskt igen. Om du inte behöver en upprepad jämförelse kan processen avbrytas genom att klicka på knappen "Avbryta" eller tryck på knappen ESC på tangentbordet. Om den upprepade jämförelsen inte avbröts och vi slog på alla displayknappar, kommer vi att se ett fönster som detta

Allt. Uppgiften har slutförts. Allt identiska filer hittade och raderade i mappen "Arkiv".

Pedagogisk video om ämnet

2.Sök efter dubbletter.

Grundläggande skillnad den här metoden från katalogsynkroniseringsmetoden är att TC ignorerar namnen på filerna som jämförs. Faktum är att den jämför varje fil med varje, och visar oss identiska filer oavsett vad de heter ! Denna sökning är mycket bekväm när du inte känner till vare sig mappstrukturen eller namnen på filerna som jämförs. I vilket fall som helst, efter att ha sökt efter dubbletter får du en exakt lista med identiska filer.

Jag kommer att demonstrera att hitta dubbletter med en praktisk uppgift, att hitta dubbletter av personliga foton. Ganska ofta du dumpar bilder från din digitala prylar. Ofta blir situationen förvirrad, något återställs många gånger, något hoppas över. Hur tar man snabbt bort filer som har tappats flera gånger? Väldigt enkelt!

Låt oss börja.

Låt oss säga att du alltid dumpar alla dina foton i en mapp "FOTO" på enhet D. Efter alla återställningar ser mappen ut ungefär så här:

Som du kan se finns vissa filer i mappar som namnges efter inspelningsdatumet, vissa släpps till roten av mappen "_Ny" Och "_Ny1"

För att börja söka efter dubbletter, öppna mappen där vi ska söka i valfri TC-panel. I vårt fall är detta mappen "FOTO"

Tryck sedan på tangentkombinationen på tangentbordet ALT+F7 eller välj från menyn "Kommandon" - "Sök filer"

Ett fönster öppnas standardsökning TC. Sträng "Sök filer:" lämna det tomt, då jämförs alla filer.

Gå sedan till bokmärket "Dessutom" och kryssa i rutorna "Sök efter dubbletter:", "efter storlek", "efter innehåll" och tryck "För att börja söka".


Sökningen kan ta MYCKET lång tid, var inte rädd för detta, eftersom det finns ett stort antal jämförelser av en stor volym filer. Samtidigt visas framstegsprocenten i statusfältet

När sökningen avslutas öppnas ett sökresultatfönster där vi trycker på knappen "Filer till panel"


I sökfönstret och i panelfönstret samlas identiska filer i sektioner åtskilda av streckade linjer

Varje avsnitt visar filnamnet och fullständig sökväg till filen. Namnen på IDENTISKA filer kan vara helt olika!
I det här fallet är det tydligt att samma fotografi spelades in TRE gånger, två gånger under samma namn( IMG_4187.JPG) och tredje gången detta fotografi togs under ett helt annat namn ( IMG_4187_13.JPG).

Därefter återstår det att välja onödiga identiska filer och ta bort dem. Detta kan göras manuellt genom att välja varje fil genom att trycka på en tangent Ins. Men det tar lång tid och är inte effektivt. Det finns bättre och snabbare sätt.

Så vår uppgift är att ta bort dubbletter av filer i mappar "_Ny" Och "_Ny1".
För att göra detta, klicka på extra tangentbord, till höger stor nyckel [+] . Vanligtvis, med hjälp av denna nyckel i TC, väljs filer med mask. Samma operation kan göras via menyn "Val" - "Välj grupp"

Låt oss överväga Till Hur man hittar och väljer samma värden i Excel. Villkorlig formatering hjälper oss. Vad är villkorlig formatering och hur man arbetar med det, se artikeln " Villkorlig formatering i Excel".Du kan markera dubbletter av värden i Excel både i hela tabellen och i visst intervall(rad kolumn). En funktion " Filtrera i Excel " hjälper till att dölja dem om det behövs. Låt oss överväga flera sätt.
Första sättet.
Hur man hittar samma värden i Excel.
Till exempel nummer, efternamn osv. Hur du gör detta, se artikeln " Hur man markerar celler i Excel".
Andra sättet.
Hur man markerar dubbletter av värden i Excel. I den här tabellen måste vi lyfta fram födelseåret 1960. Välj kolumnen "Födelseår".På fliken "Hem", i avsnittet "Stilar", klicka på knappen "Villkorlig formatering". Sedan, i avsnittet "Valda cellregler", välj "Duplicera värden".
I dialogrutan som visas väljer du vad vi behöver markera: dubbletter eller unika värden. Välj cellfyllningsfärg eller teckensnittsfärg.
För mer information, se artikeln "Markera datum, veckodag i Excel tillhandahålls".
Klicka på "OK". I kolumn D är alla årtal markerade - 1960.

I villkorlig formatering kan du också välja funktionen "Innehåller text" i avsnittet "Regler för markerade celler". Skriv den här texten (till exempel efternamn, nummer, etc.), och alla celler med denna text kommer att markeras i färg. Vi skrev efternamnet "Ivanov". Det finns många fler sätt att hitta identiska värden i Excel och markera dem inte bara med färg, utan också med ord, siffror och tecken. Du kan konfigurera tabellen så att dubbletter inte bara kommer att markeras, utan också räknas. Du kan välja upprepade betydelser från det första ordet, eller så kan du välja dubbletter från det andra och framåt. Läs om allt detta och mer i artikeln "

Om du arbetar med stora mängder information i Excel och regelbundet lägga till den, till exempel data om skolelever eller företagsanställda, då kan dubbletter av värden visas i sådana tabeller, med andra ord dubbletter.

I den här artikeln kommer vi att titta på hur man hittar, väljer, tar bort och räknar antalet dubbletter av värden i Excel.

Hur man hittar och markerar

Du kan hitta och markera dubbletter i ett dokument med villkorlig formatering i Excel. Välj hela dataområdet i den önskade tabellen. På fliken "Hem", klicka på knappen "Villkorlig formatering", välj från menyn "Regler för att markera celler""Duplicerade värden".

I nästa fönster väljer du från rullgardinsmenyn "repetitiv", och färgen för cellen och texten där de hittade dubbletterna ska målas. Klicka sedan på "OK" och programmet söker efter dubbletter.

I Excel exempel Jag markerade i rosa all samma information. Som du kan se jämförs inte data rad för rad, utan markeras identiska celler i kolumner. Därför är cellen "Sasha V." . Det kan finnas flera sådana elever, men med olika efternamn.

Hur man räknar

Om du behöver hitta och räkna antalet upprepade värden i Excel kommer vi att skapa en sammanfattning för detta Excel kalkylark. Lägg till kolumnen "Kod" till den ursprungliga och fyll den med "1": lägg 1, 1 i de två första cellerna, markera dem och dra ner dem. När dubbletter hittas för rader kommer värdet i kodkolumnen att ökas med en varje gång.

Välj allt tillsammans med rubrikerna, gå till fliken "Infoga" och tryck på knappen "Pivottabell".

För att lära dig mer om hur du arbetar med pivottabeller i Excel, läs artikeln genom att följa länken.

I nästa fönster är cellerna i området redan indikerade med en markör för att markera "På nytt löv" och klicka på "OK".

På höger sida, dra de tre första rubrikerna in i området "Radtitlar" och dra fältet "Kod" till området "Värden".

Som ett resultat kommer vi att få en pivottabell utan dubbletter, och i fältet "Kod" kommer det att finnas siffror som motsvarar de upprepade värdena i källtabellen - hur många gånger den här raden upprepades i den.

För enkelhetens skull, låt oss markera alla värden i kolumnen "Belopp per fältkod", och sortera dem i fallande ordning.

Jag tror att du nu kan hitta, välja, ta bort och till och med räkna antalet dubbletter i Excel för alla rader i tabellen eller bara för valda kolumner.

Betygsätt den här artikeln:

En vanlig fråga är hur man hittar och tar bort dubbletter i Excel. Låt oss anta att du laddade ner en månadsrapport från din redovisningssystemet, men i slutändan måste du förstå vilka motparter som i allmänhet interagerade med företaget under denna period - lämna listan över motparter utan upprepning. Hur väljer man unika värden?

Är det möjligt att ta bort dubblerade, tredubblade, etc. värden i Excel över flera kolumner?

Det är möjligt, och väldigt enkelt. För detta finns speciell funktion. Förvälj intervallet där du vill ta bort dubbletter. På menyfliksområdet går du till Data - Ta bort dubbletter (se bilden i början av artikeln).

Välj den första kolumnen

Det är viktigt att förstå att om du bara väljer den första kolumnen kommer all data i de omarkerade kolumnerna att raderas om den inte är unik.

Mycket bekvämt!

2. Hur väljer man alla dubbletter i Excel?

Har du redan hört talas om? Ja, det är här det kommer att hjälpa! Välj kolumnen där du vill markera dubbletter, välj från menyn Main - Villkorlig formatering - Regler för att markera celler - Duplicera värden...

I fönstret Upprepande värden som öppnas, välj vilka celler som ska väljas (unika eller upprepande), såväl som urvalsformatet, antingen från de föreslagna, eller skapa ett anpassat format. Det förinställda formatet kommer att vara röd fyllning och röd text.

Klicka på OK om du inte vill ändra formateringen. Nu kommer all data för de valda förhållandena att färgas.

Jag noterar att verktyget endast tillämpas på den valda kolumnen (!).

Förresten, om du behöver se unika, välj sedan unika i fönstret till vänster.

3. Unika värden med pivottabeller

Jag erkänner ärligt att jag en gång inte misstänkte existensen av förmågan att "ta bort dubbletter" och använde pivottabeller. Hur gjorde jag det? Välj tabellen där du behöver hitta unika värden - Infoga -

Att hitta dubbletter i Excel kanske inte är en lätt uppgift, men om du är beväpnad med några få grundläggande kunskap, då hittar du flera sätt att hantera det på. När jag först tänkte på det här problemet kom jag snabbt på ett par sätt att hitta dubbletter, och efter att ha funderat lite på det upptäckte jag några fler sätt. Så låt oss först titta på ett par enkla och sedan gå vidare till mer komplexa metoder.

Det första steget är att du måste lägga in data i ett format som gör det enkelt att manipulera och ändra. Genom att skapa rubriker på den översta raden och placera all data under dessa rubriker kan du organisera dina data i en lista. Med ett ord, data förvandlas till en databas som kan sorteras och olika manipulationer utföras med den.

Hitta dubbletter med inbyggda Excel-filter

Genom att organisera dina data i form av en lista kan du använda olika filter på den. Beroende på vilken datauppsättning du har kan du filtrera listan efter en eller flera kolumner. Eftersom jag använder Office 2010 behöver jag bara välja översta raden, som innehåller rubrikerna, gå sedan till fliken Data(Data) och tryck på kommando Filtrera(Filtrera). Nedåtriktade triangulära pilar (rullgardinsmenyikoner) visas bredvid varje rubrik, som i bilden nedan.

Om du klickar på en av dessa pilar öppnas en filterrullgardinsmeny som innehåller all information om denna kolumn. Välj ett objekt från den här listan och Excel kommer att visa data enligt ditt val. Detta snabbt sätt sammanfatta eller se volymen av valda data. Du kan avmarkera objektet Välj alla(Välj alla) och välj sedan en eller flera nödvändiga element. Excel visar bara rader som innehåller de objekt du valt. Detta gör det mycket lättare att hitta dubbletter om det finns några.

När du har ställt in filtret kan du ta bort dubbletter av rader, sammanfatta delsummor eller dessutom filtrera data efter en annan kolumn. Du kan redigera data i tabellen efter behov. I exemplet nedan har jag valt elementen XP Och XP Pro.

Som ett resultat av filtret visar Excel endast de rader som innehåller de element jag valt (det vill säga personer på vars datorer XP och XP Pro är installerade). Du kan välja vilken annan kombination av data som helst, och vid behov även ställa in filter i flera kolumner samtidigt.

Avancerat filter för att hitta dubbletter i Excel

På fliken Data(Data) till höger om kommandot Filtrera(Filter) det finns en knapp för filterinställningar – Avancerad(Dessutom). Det här verktyget är lite svårare att använda och kräver lite installation innan du kan använda det. Dina uppgifter ska vara organiserade enligt tidigare beskrivning, dvs. som en databas.

Innan du kan använda ett avancerat filter måste du ställa in ett kriterium för det. Titta på bilden nedan, den visar en lista med data, och till höger i kolumnen L kriterium anges. Jag har skrivit kolumnrubrik och kriterium under en rubrik. Bilden visar en tabell över fotbollsmatcher. Kräver att den endast visar hemmamöten. Det var därför jag kopierade rubriken på kolumnen jag vill filtrera på och under den placerade jag kriteriet (H) som jag behöver använda.

Nu när kriteriet är konfigurerat, välj valfri cell av våra data och tryck på kommandot Avancerad(Dessutom). Excel kommer att markera hela listan med data och öppna den här dialogrutan:

Som du kan se har Excel valt hela tabellen och väntar på att vi ska specificera ett intervall med ett kriterium. Välj fältet i dialogrutan Kriterieintervall(Konditionsintervall), välj sedan cellerna med musen L1 Och L2(eller de som innehåller ditt kriterium) och klicka OK. Tabellen visar endast de rader där i kolumnen Hem / Besökare värt värdet H, och kommer att dölja resten. Således hittade vi dubbletter av data (en kolumn i taget), som endast visar hemmamöten:

Detta är ett ganska enkelt sätt att hitta dubbletter, vilket kan hjälpa till att spara tid och få nödvändig information snabb nog. Du måste komma ihåg att kriteriet måste placeras i en cell separat från datalistan så att du kan hitta det och använda det. Du kan ändra filtret genom att ändra kriteriet (mitt finns i cell L2). Dessutom kan du inaktivera filtret genom att klicka på knappen Klar(Rensa) fliken Data(Data) i grupp Sortera & Filtrera(Sortera och filtrera).

Inbyggt verktyg för att ta bort dubbletter i Excel

Excel har en inbyggd funktion Ta bort dubbletter(Ta bort dubbletter). Du kan välja en kolumn med data och använda det här kommandot för att ta bort alla dubbletter och bara lämna unika värden. Använd verktyget Ta bort dubbletter(Radera dubbletter) kan göras med knappen med samma namn, som du hittar på fliken Data(Data).

Se till att välja vilken kolumn du bara vill behålla unika värden. Om data inte innehåller rubriker visas dialogrutan Kolumn A, Kolumn B(kolumn A, kolumn B) och så vidare, så det är mycket bekvämare att arbeta med rubriker.

Klicka på när du är klar med inställningarna OK. Excel kommer att visas informationsfönster med resultatet av funktionen (exempel i figuren nedan), där du också måste klicka OK. Excel eliminerar automatiskt rader med dubbletter av värden, vilket ger dig endast unika värden i de kolumner du väljer. Förresten, det här verktyget finns i Excel 2007 och nyare versioner.

Hitta dubbletter med kommandot Hitta

Om du behöver hitta ett litet antal dubbletter av värden i Excel kan du göra detta med sök. Gå till fliken Hom e (Hem) och klicka Hitta och välj(Hitta och markera). En dialogruta öppnas där du kan ange valfritt värde för att söka i din tabell. För att undvika stavfel kan du kopiera värdet direkt från datalistan.

Om informationsvolymen är mycket stor och du behöver snabba på sökningen, välj den rad eller kolumn som du vill söka i, och först därefter starta sökningen. Om du inte gör detta kommer Excel att söka igenom all tillgänglig data och hitta onödiga resultat.

Om du behöver söka igenom all tillgänglig data, kanske knappen Hitta alla(Hitta alla) kommer att vara mer användbar för dig.

Till sist

Alla tre metoderna är enkla att använda och hjälper dig att hitta dubbletter:

  • Filtrera– Perfekt när din data innehåller flera kategorier som du kan behöva dela upp, sammanfatta eller ta bort. Att skapa underavdelningar är mest bästa användning för avancerat filter.
  • Ta bort dubbletter kommer att minska mängden data till ett minimum. Jag använder den här metoden när jag behöver göra en lista över alla unika värden en av kolumnerna som jag senare kommer att använda för vertikal sökning med funktionen VLOOKUP.
  • Jag använder kommandot Hitta(Sök) bara om du behöver hitta ett litet antal värden och verktyget Hitta och Byt ut (Sök och ersätt) när jag hittar fel och vill korrigera dem på en gång.

Detta är inte en uttömmande lista över metoder för att hitta dubbletter i Excel. Det finns många sätt, och det här är bara några av dem som jag använder regelbundet i mitt dagliga arbete.