Търсене на дублиращи се файлове. Как да намерите дублиращи се стойности в колона на Excel. Търсете съвпадащи снимки по различни алгоритми с AntiDupl

Понякога в ежедневието компютърни дейностивъзниква задачата за намиране на дублиращи се файлове. Може да има много причини за това: липса на пространство на твърдия диск, опити за намаляване на ентропията в техните файлове, справяне с различно времеснимки от фотоапарата и много други необходими случаи.

В нета можете да намерите голям бройпрограми, които ви позволяват да търсите дублиращи се файлове. Но защо да търсите някакви програми, ако разкошен инструмент за такава работа обикновено винаги е под ръка. И този инструмент се нарича Тотален командир (TC).

В тази статия ще покажа всички методи, базирани на Тотален командирверсии 8.5 , в тази версия търсенето на дублиращи се файлове стана много богато на функционалност.

!!! Малко важно отклонение. Какво трябва да се разбира като дублиран файл? Два файла са ИДЕНТИЧНИ само когато напълно съвпадат малко по малко. Тези. всяка информация в компютъра е представена от поредица от нули и единици. Така че файловете съвпадат само когато съвпадат напълно с последователността от нули и единици, които съставляват тези файлове. Всички приказки, че е възможно да се сравнят два файла за всеки друг критерий, са дълбоко погрешни.

TC има два, по своята същност различни, метода за намиране на дублиращи се файлове:

  • Синхронизирайте директории;
  • Търсене на дубликати;

Тяхната особеност и приложение се илюстрират най-добре с примери.

1.Синхронизиране на директории.

Този метод се използва, когато имате две сравнени папки с идентична структура. Това обикновено се случва в много случаи, ето някои от тях:

  • Редовно архивирате работната си папка. След известно време трябваше да разберете кои файлове са добавени или променени след създаването на архива. Разопаковате целия архив отделна папка... Структурата на папките в него практически съвпада с работната. Сравнявате две папки "оригинална" и "възстановена от архив" и лесно получавате списък с всички променени, добавени или изтрити файлове... Няколко прости манипулации - и изтривате всички дублиращи се файлове, които са в работната папка, от възстановената папка.
  • Работите в папка на мрежово устройствои редовно правете копие за себе си местен диск... С течение на времето вашите работна папкае станал доста голям и времето, прекарано в пълно копие, стана много голям. За да не копирате цялата папка всеки път, можете първо да сравните с архива и да копирате само онези файлове, които са били променени или добавени, както и да изтриете в архивна папкафайлове, които са били премахнати от главния.

След като усетите вкуса, усетите пълната сила на този метод, вие сами можете да се сетите за хиляди ситуации, в които методът за синхронизиране на директории ще ви бъде от голяма полза в работата ви.

И така, как се случва всичко на практика. Да започваме.

Да предположим, че имаме основна папка "работя", който съдържа файловете, с които се извършва работата. И има папка "Архив"в която лежи старо копиепапки "работя"... Нашата задача е да намерим дублиращи се файлове в двете папки и да ги премахнем от папката "Архив".

Отваряне на TC. Отворете сравнените папки в десния и левия панел:

Натиснете менюто "Команди" - "Синхронизиране на директории ..."


Отваря се прозорец за сравнение на директории

След това трябва да зададем параметрите за сравнение. Поставяне на отметки в параметрите "С поддиректории", "по съдържание", "игнориране на дата"

  • "С поддиректории"- файловете във всички поддиректории на посочените папки ще бъдат сравнени;
  • "По съдържание"- това е ключовата опция, която кара TC да сравнява файлове ЗА !!! V в противен случай, файловете ще се сравняват по име, размер, дата;
  • "Игнориране на дата"- тази опция кара TC да показва различни файлове, без да се опитва автоматично откриваненасоки за бъдещо копиране;

!!! Ще се сравняват само файлове със същите имена !!! Ако файловете са идентични, но имат различно име, тогава те няма да се сравняват!

Натиснете бутона „Сравни“.В зависимост от размера на файловете, сравнението може да отнеме много време, не се тревожете. В крайна сметка сравнението ще завърши с долната линиясъстояние (раздел 1 на фигурата) ще се покаже резултатът:


Ако бутоните в секцията "Покажи" (раздел 2 на фигурата) са натиснати, тогава ще видите резултата от сравнението за всеки файл.

- този бутон включва показването на файлове, които са в левия панел, но които не са в десния;

- този бутон позволява показването на идентични файлове;

- този бутон включва показването на различни файлове;

- този бутон включва показването на файловете, които са в десен панел, но които не са отляво;

Ако първоначално всички бутони на дисплея са деактивирани за вас, тогава резултатът от сравнението може да бъде оценен само от лентата на състоянието (на снимката по-горе, раздел 1), в в такъв случайвиждаме, че са сравнени 11 файла, от които 8 файла са еднакви, 2 файла се различават, а също така има файл в левия панел, който не е в десния панел.

За да изпълним нашата задача, е необходимо да оставим дисплея само на идентични (идентични) файлове, така че изключете всички други бутони на дисплея


Сега имаме само идентични файлове и можем спокойно да ги изтрием в папката "Архив"... За да направите това, изберете всички файлове. Най-лесният начин да направите това е като натиснете универсалната комбинация. CTRL + A... Или първо изберете първия ред с мишката, след което натиснете клавиша на клавиатурата SHIFTи без да го пускате, изберете последния ред с мишката. В резултат на това трябва да получите нещо подобно:

Последната стъпка, която натискаме десен ключмишката върху произволен ред и в менюто, което се отваря, изберете елемента "Изтриване наляво"

TC любезно ни пита за нашето желание,

и ако натиснем "ДА"след това изтрива всички маркирани файлове в папката "Архив".

След това автоматично се извършва повторно сравнение на двете папки. Ако нямате нужда от второ сравнение, процесът може да бъде прекъснат чрез щракване върху бутона "Прекратяване"или натиснете клавиша ESCна клавиатурата. Ако повторното сравнение не е било прекъснато и сме активирали всички бутони на дисплея, тогава ще видим такъв прозорец

Всичко. Задачата е изпълнена. Всичко идентични файловенамерени и изтрити в папката "Архив".

Свързани видео уроци

2. Търсене на дубликати.

Основната разлика този методот метода за синхронизиране на директорията е, че TC игнорира имената на сравняваните файлове. Всъщност той сравнява всеки файл с всеки един, и ни показва идентични файлове, без значение как се наричат ! Това търсене е много полезно, когато не знаете структурата на папките или имената на файловете за сравнение. Във всеки случай, след търсене на дубликати, ще получите точен списък с идентични файлове.

Ще ви покажа как да намерите дубликати в една практическа задача, намирайки дублирани лични снимки. Доста често качвате снимки от своя цифрови джаджи... Доста често ситуацията се обърква, нещо се нулира много пъти, нещо се пропуска. Как бързо да изтриете файлове, изпуснати няколко пъти? Много просто!

Да започваме.

Да кажем, че винаги пускате всичките си снимки в папка "СНИМКА"на диск D. След всички нулирания папката изглежда така:

Както можете да видите, някои файлове се намират в папки, наречени по датата на заснемане, някои са пуснати в корена на папката "_Ново"и "_New1"

За да започнете да търсите дубликати, отворете папката, в която ще търсим във всеки TC панел. В нашия случай това е папката "СНИМКА"

След това натиснете клавишната комбинация на клавиатурата ALT + F7или изберете от менюто "Команди" - "Търсене на файл"

Отваря се прозорец стандартно търсене TC. низ "Търсене на файлове:"оставете празно, тогава всички файлове ще бъдат сравнени.

След това отидете на отметката "Допълнително"и поставете отметка в квадратчетата "Намиране на дубликати:", "по размер", "по съдържание"и натиснете "За да започнете да търсите".


Търсенето може да отнеме МНОГО дълго време, не се плашете от това, тъй като има огромен брой сравнения на голям обем файлове. В този случай лентата на състоянието показва процента на завършеност

Когато търсенето приключи, ще се отвори прозорецът с резултати от търсенето, в който натискаме бутона "Файлове към панела"


В прозореца за търсене и в прозореца на панела идентичните файлове се събират в секции, разделени с пунктирани линии

Всеки раздел показва името на файла и пълен пъткъм файла. Имената на ИДЕНТИЧНИ файлове могат да бъдат напълно различни!
В този случай се вижда, че една и съща снимка е записана ТРИ пъти и два пъти под едно и също име ( IMG_4187.JPG) и третият път тази снимка е записана под съвсем различно име ( IMG_4187_13.JPG).

След това остава да изберете ненужни идентични файлове и да ги изтриете. Това може да стане ръчно, като маркирате всеки файл с натискане на клавиш. Ins... Но това е дълго и неефективно. Има по-правилни и по-бързи начини.

Така че, нашата задача е да премахнем дублиращи се файлове в папки "_Ново"и "_New1".
За да направите това, щракнете върху допълнителна клавиатура, на дясно голям ключ [+] ... Обикновено този ключ в TC избира файлове по маска. Същата операция може да се извърши чрез менюто Изберете - Изберете Група

Обмисли Да се как да намерите и подчертаете същите стойностив Excel. Условното форматиране ще ни помогне. Какво е условно форматиране и как да работите с него, вижте статията " Условно форматиранев Excel“.Можете да изберете дублиращи се стойности в Excel както в цялата таблица, така и в определен диапазон(ред колона). И функцията "Филтрирайте в Excel „ще помогне да ги скрием, ако е необходимо. Нека разгледаме няколко метода.
Първият начин.
Как да намерите дублиращи се стойности в Excel.
Например номер, фамилия и т.н. Как да направите това, вижте статията "Как да изберете клетки в Excel".
Втори начин.
Как да маркирате дублиращи се стойности в Excel... В тази таблица трябва да подчертаем годината на раждане 1960. Изберете колоната "Година на раждане".В раздела "Начало" в секцията "Стилове" щракнете върху бутона "Условно форматиране". След това в секцията „Правила за избрани клетки“ изберете „Дублиращи се стойности“.
В диалоговия прозорец, който се показва, изберете това, което трябва да подчертаем: дублирани или уникални стойности. Изберете цвета на запълване на клетката или цвета на шрифта.
За повече подробности вижте статията „Открояване на дата, ден от седмицата в Excel, предоставено“.
Щракнете върху "OK". В колона D са отбелязани всички години - 1960 г.

При условно форматиране можете също да изберете функцията „Съдържа текст“ в секцията „Правила за избрани клетки“. Напишете този текст (например фамилия, номер и т.н.) и всички клетки с този текст ще бъдат маркирани. Написахме фамилията "Иванов". Има много повече начини да намерите същите стойности в Excel и да ги подчертаете не само с цвят, но и с думи, цифри, знаци. Можете да персонализирате таблицата, така че дубликатите не само да бъдат маркирани, но и да се броят. Можете да изберете дублиращи се стойности от първата дума или можете да изберете дубликати от втората нататък. Прочетете за всичко това и повече в статията "

Ако работите с големи числаинформация в Excel и редовно я добавяйте, например, данни за ученици или служители на компанията, след което в такива таблици могат да се появят дублирани стойности, с други думи - дубликати.

В тази статия ще разгледаме как да намерите, изберете, изтриете и преброим броя на дублирани стойности в Excel.

Как да намерите и подчертаете

Можете да намерите и маркирате дубликати в документ, като използвате условно форматиране в Excel. Изберете целия диапазон от данни в желаната таблица. В раздела "Начало" кликнете върху бутона "Условно форматиране", изберете от менюто "Правила за избор на клетки"Дублиращи се стойности.

В следващия прозорец изберете от падащия списък "повтарящ се", и цвета на клетката и текста, в който да рисувате върху намерените дубликати. След това щракнете върху "OK" и програмата ще търси дубликати.

V Пример за Excelподчертана в розово цялата информация. Както можете да видите, данните не се сравняват ред по ред, а се подчертават идентични клеткив колони. Следователно клетката "Саша V." ... Може да има няколко такива ученици, но с различни фамилии.

Как да изчислим

Ако трябва да намерите и преброите броя на дублираните стойности в Excel, ние ще създадем опорна точка за това Excel електронна таблица... Добавете „Код“ към оригиналната колона и я попълнете с „1“: поставете 1, 1 в първите две клетки, изберете ги и ги плъзнете надолу. Когато се намерят дубликати за редове, всеки път стойността в колоната "Код" ще се увеличава с едно.

Изберете всичко заедно със заглавките, отидете в раздела "Вмъкване" и натиснете бутона "Въртяща таблица".

За да научите повече за това как да работите с обобщени таблици в Excel, прочетете статията, като щракнете върху връзката.

В следващия прозорец клетките на диапазона вече са посочени, с маркер маркираме „Включено нов лист„И щракнете върху „OK“.

От дясната страна плъзнете първите три заглавия в областта "Имена на редове"и плъзнете полето „Код“ в областта „Стойности“.

В резултат на това ще получим централна таблица без дубликати, а в полето „Код“ ще има числа, съответстващи на повтарящите се стойности в оригиналната таблица - колко пъти този ред се е повторил в нея.

За удобство нека изберем всички стойности в колоната "Сума за полето Код"и ги сортирайте в низходящ ред.

Мисля, че сега можете да намерите, изберете, изтриете и дори да преброите броя на дубликатите в Excel за всички редове на таблицата или само за избрани колони.

Оцени статията:

Често срещан въпрос е как да намерите и премахнете дубликати в Excel. Да предположим, че сте изтеглили месечния отчет от вашия счетоводна система, но в крайна сметка трябва да разберете кои контрагенти обикновено са взаимодействали с компанията през този период - оставете списъка с контрагенти без повторение. Как да изберете уникални стойности?

Възможно ли е да изтриете удвоени, отменени и така нататък стойности в Excel в множество колони?

Възможно е и много просто. За това има специална функция... Предварително изберете диапазона, в който искате да премахнете дубликати. На лентата отидете на Данни - Премахване на дубликати (вижте снимката в началото на статията).

Избиране на първата колона

Важно е да разберете, че ако изберете само първата колона, тогава всички данни в неизбраните колони ще бъдат изтрити в случай на неуникални.

Много удобно!

2. Как да изберете всички дубликати в Excel?

Чухте ли вече за? Да, тук пак ще помогне! Изберете колоната, в която искате да маркирате дубликати, изберете Основно - Условно форматиране - Правила за избор на клетки - Дублиращи се стойности...

В прозореца за дублирани стойности, който се отваря, изберете кои клетки избираме (уникални или дублирани), както и формата за избор, или от предоставените, или създайте персонализиран формат. Форматът по подразбиране ще бъде червен запълване и червен текст.

Щракнете върху OK, ако не искате да променяте форматирането. Сега всички данни за избраните условия ще бъдат оцветени.

Имайте предвид, че инструментът се прилага само към избраната (!) колона.

Между другото, ако искате да видите уникални, тогава в прозореца вляво изберете - уникални.

3. Уникални стойности с помощта на централни таблици

Честно казано, веднъж не подозирах, че има възможност за "премахване на дубликатите" и използваните обобщени таблици... Как го направих? Изберете таблицата, в която искате да намерите уникални стойности - Вмъкване -

Намирането на дубликати в Excel може да бъде предизвикателство, но ако сте въоръжени с някои основни знания, ще намерите няколко начина да се справите с него. Когато за първи път помислих за този проблем, бързо измислих няколко начина за намиране на дубликати и след малко размисъл открих още няколко начина. Така че нека първо да разгледаме няколко лесни и след това да преминем към по-напреднали.

Първата стъпка е, че трябва да приведете данните във формат, който улеснява манипулирането и модифицирането им. Като създадете заглавки в горния ред и поставите всички данни под тези заглавки, можете да организирате данните си в списък. Накратко, данните се превръщат в база данни, която може да бъде сортирана и манипулирана по различни начини.

Намерете дубликати с вградени филтри на Excel

След като организирате данните си в списък, можете да приложите различни филтри към него. В зависимост от набора от данни, който имате, можете да филтрирате списъка по една или повече колони. Тъй като използвам Office 2010, ми е достатъчно да подчертая горна линиякъдето са заглавките, след което отидете на раздела Данни(Данни) и натиснете команда Филтрирайте(Филтър). Триъгълни стрелки надолу (икони на падащо меню) се появяват до всяко от заглавията, както е показано по-долу.

Ако щракнете върху една от тези стрелки, ще се отвори падащо меню с филтър, което съдържа цялата информация за тази колона... Изберете произволен елемент от този списък и Excel ще покаже данните според вашия избор. то бърз начинобобщете или вижте количеството избрани данни. Можете да премахнете отметката от квадратчето Избери всичко(Изберете всички) и след това изберете един или повече необходими елементи... Excel ще покаже само онези редове, които съдържат избраните от вас елементи. Това прави много по-лесно намирането на дубликати, ако има такива.

След като настроите филтъра, можете да премахнете дублиращи се редове, междинна сума или допълнително да филтрирате данните по друга колона. Можете да редактирате данните в таблицата, както ви е необходимо. В примера по-долу имам избрани елементи XPи XP Pro.

В резултат на филтъра Excel показва само онези редове, които съдържат елементите, които съм избрал (т.е. хора, на чийто компютър са инсталирани XP и XP Pro). Можете да изберете всяка друга комбинация от данни и ако е необходимо, дори да настроите филтри в няколко колони наведнъж.

Разширен филтър за намиране на дубликати в Excel

В раздела Данни(Данни) вдясно от командата Филтрирайте(Филтър) има бутон за настройки на филтъра - Разширено(Допълнително). Този инструмент е малко по-сложен за използване и трябва да бъде настроен малко, преди да го използвате. Вашите данни трябва да бъдат организирани, както е описано по-рано, т.е. като база данни.

Преди да използвате разширен филтър, трябва да конфигурирате критерий за него. Погледнете фигурата по-долу, можете да видите списък с данни, а вдясно в колоната Ле посочен критерият. Записах заглавието на колоната и критериите под същото заглавие. Фигурата показва таблица с футболни мачове. Изисква се да се показват само домашни срещи. Ето защо копирах заглавката на колоната, по която искам да филтрирам, и поставих критерия (H) по-долу, който искам да използвам.

Сега, когато критерият е конфигуриран, изберете която и да е клетка от нашите данни и натиснете командата Разширено(Допълнително). Excel ще избере целия списък с данни и ще отвори следния диалогов прозорец:

Както виждате, Excel е избрал цялата таблица и чака да посочим диапазон с критерий. Изберете полето в диалоговия прозорец Диапазон на критериите(Обхват от условия), след това изберете клетките с мишката L1и L2(или тези, в които се намира вашият критерий) и щракнете Добре... Таблицата ще показва само онези редове, където са в колоната Начало / Посетителструва стойността Х, и ще скрие останалите. По този начин открихме дублиращи се данни (една колона в даден момент), показващи само домашни срещи:

Това е достатъчно прост начин за намиране на дубликати, което може да ви помогне да спестите време и да получите необходимата информациядостатъчно бързо. Трябва да се помни, че критерият трябва да бъде поставен в клетка, отделна от списъка с данни, за да можете да го намерите и да го използвате. Можете да промените филтъра, като промените критерия (имам го в клетка L2). Освен това можете да изключите филтъра, като щракнете върху бутона Яснораздел (Изчистване). Данни(Данни) в група Сортиране и филтриране(Сортиране и филтриране).

Вграден инструмент за премахване на дубликати в Excel

Excel има вградена функция Премахване на дубликати(Премахнете дубликатите). Можете да изберете колона с данни и да използвате тази команда, за да премахнете всички дубликати, оставяйки само уникални стойности. Използвайте инструмента Премахване на дубликати(Изтриване на дубликати) с помощта на едноименния бутон, който ще намерите в раздела Данни(Данни).

Не забравяйте да изберете в коя колона искате да запазите само уникални стойности. Ако данните не съдържат заглавки, ще се покаже диалоговият прозорец колона А, Колона Б(Колона A, Колона B) и така нататък, така че е много по-лесно да се работи със заглавки.

Когато приключите с настройките, щракнете Добре... Excel ще покаже информационен прозорецс резултата от функцията (пример на фигурата по-долу), в който също трябва да натиснете Добре... Excel автоматично ще елиминира редове с дублиращи се стойности, оставяйки ви само уникални стойности в колоните, които сте избрали. Между другото, този инструмент присъства в Excel 2007 и по-нови версии.

Намерете дубликати с помощта на командата Find

Ако трябва да намерите малък брой дублирани стойности в Excel, можете да го направите с помощта на търсенето. Отидете в раздела Hom e (Начало) и щракнете Намерете и изберете(Намерете и маркирайте). Ще се отвори диалогов прозорец, в който можете да въведете всяка стойност, която да търсите във вашата таблица. За да избегнете печатни грешки, можете да копирате стойността директно от списъка с данни.

В случай, че количеството информация е много голямо и трябва да ускорите търсенето, изберете реда или колоната, в която искате да търсите, и едва след това започнете търсенето. Ако не направите това, Excel ще търси всички налични данни и ще намери ненужни резултати.

Ако искате да търсите всички налични данни, може би бутона Намерете всички(Намерете всички) ще ви бъде по-полезно.

Накрая

И трите метода са лесни за използване и ще ви помогнат да намерите дубликати:

  • Филтрирайте- идеален, когато данните съдържат няколко категории, които може да се наложи да разделите, обобщите или изтриете. Създаването на подраздели е най-много най-добра употребаза усъвършенстван филтър.
  • Премахване на дубликатище намали количеството данни до минимум. Използвам този метод, когато трябва да направя списък на всички уникални стойностиедна от колоните, която по-късно използвам за вертикално търсене с помощта на функцията VLOOKUP.
  • Използвам командата намирам(Намерете) само ако трябва да намерите малък брой стойности и инструмента намирам и Замени (Намерете и заменете), когато намеря грешки и искам да ги поправя наведнъж.

Това далеч не е изчерпателен списък с методи за намиране на дубликати в Excel. Има много начини и това са само някои от тях, които използвам редовно в ежедневната си работа.