Интернет търсачки на руски човешки език. Програми за търсене на файлове на компютър. Какви търсачки има: списък с малко известни търсачки

Интернет е необходим на много потребители, за да получават отговори на заявки (въпроси), които въвеждат.

Ако нямаше търсачки, потребителите ще трябва самостоятелно да търсят сайтовете, от които се нуждаят, да ги запомнят и да ги записват. В много случаи намирането на нещо подходящо „ръчно“ би било много трудно, а често и просто невъзможно.

Търсачките извършват цялата тази рутинна работа по търсене, съхраняване и сортиране на информация в уебсайтове вместо нас.

Да започнем с известни търсачки Runet.

Интернет търсачки на руски

1) Да започнем с местната търсачка. Yandex работи не само в Русия, но и в Беларус и Казахстан, Украйна и Турция. Има и Yandex на английски език.

2) Google търсачкадойде при нас от Америка, има локализация на руски език:

3) Вътрешна търсачка Mail ru, която едновременно представлява социалната мрежа VKontakte, Odnoklassniki, също My World, известните Answers Mail.ru и други проекти.

4) Интелигентна търсачка

Нигма (Нигма) http://www.nigma.ru/

От 19 септември 2017 г. нигмата „интелектуалец“ не работи. Тя престана да представлява финансов интерес за създателите си; те преминаха към друга търсачка, наречена CocCoc.

5) Известната компания Rostelecom създаде търсачката Sputnik.

Има търсачка Sputnik, предназначена специално за деца, за която писах.

6) Rambler беше една от първите местни търсачки:

Има и други известни търсачки в света:

  • Бинг,
  • Yahoo!,
  • DuckDuckGo,
  • Baidu,
  • Екозия,

Нека се опитаме да разберем как работи една търсачка, а именно как се индексират сайтовете, анализират резултатите от индексирането и генерират резултати от търсенето. Принципите на работа на търсачките са приблизително еднакви: търсене на информация в Интернет, съхраняването и сортирането й за доставка в отговор на потребителски заявки. Но алгоритмите, които търсачките използват, могат да се различават значително. Тези алгоритми се пазят в тайна и тяхното разкриване е забранено.

Като въведете една и съща заявка в низовете за търсене на различни търсачки, можете да получите различни отговори. Причината е, че всички търсачки използват собствени алгоритми.

Целта на търсачките

На първо място, трябва да знаете, че търсачките са търговски организации. Тяхната цел е печалба. Може да се направи печалба от контекстна реклама, други видове реклама, от популяризиране на необходимите сайтове до горни редовеиздаване. Като цяло начините са много.

Зависи от размера на аудиторията, тоест колко хора използват тази търсачка. Колкото по-голяма е аудиторията, толкова Повече ▼рекламите ще се показват на хората. Съответно тази реклама ще струва повече. Търсачките могат да увеличат аудиторията си чрез собствена реклама, както и чрез привличане на потребители чрез подобряване на качеството на своите услуги, алгоритъм и удобство при търсене.

Най-важното и най-трудното нещо тук е разработването на напълно функциониращ алгоритъм за търсене, който да предостави подходящи резултати за повечето потребителски заявки.

Работата на търсачката и действията на уеб администраторите

Всяка търсачка има свой собствен алгоритъм, който трябва да вземе предвид огромен брой различни фактори, когато анализира информация и съставя резултати в отговор на заявка на потребителя:

  • възрастта на конкретен сайт,
  • характеристики на домейна на уебсайта,
  • качество на съдържанието на сайта и неговите видове,
  • характеристики на навигацията и структурата на сайта,
  • използваемост (удобство за потребителите),
  • поведенчески фактори (търсачката може да определи дали потребителят е намерил това, което е търсил на сайта или потребителят се е върнал отново в търсачката и там отново търси отговор на същата заявка)
  • и т.н.

Всичко това е необходимо именно така, че резултатите по заявка на потребителя да са възможно най-подходящи, задоволяващи заявките на потребителя. В същото време алгоритмите на търсачките непрекъснато се променят и усъвършенстват. Както се казва, няма ограничение за съвършенството.

От друга страна, уеб администраторите и оптимизаторите непрекъснато измислят нови начини за популяризиране на сайтовете си, които не винаги са честни. Задачата на разработчиците на алгоритъма търсачки– направете промени в него, които да не позволят на „лошите“ сайтове на нечестни оптимизатори да се появят в ТОП.

Как работи търсачката?

Сега за това как се случва директна работатърсачка. Състои се от поне три етапа:

  • сканиране,
  • индексиране,
  • вариращи.

Броят на сайтовете в интернет е просто астрономически. А всеки сайт е информация, информационно съдържание, което се създава за читатели (живи хора).

Сканиране

Това е търсачка, която се скита из интернет, за да събира нова информация, да анализира връзки и да търси ново съдържание, което може да се използва за връщане на потребителя в отговор на неговите заявки. За сканиране търсачките имат специални роботи, които се наричат ​​роботи за търсене или паяци.

Роботите за търсене са програми, които автоматичен режимпосещавайте уебсайтове и събирайте информация от тях. Обхождането може да бъде основно (роботът посещава нов сайт за първи път). След първоначалното събиране на информация от сайта и въвеждането й в базата данни на търсачката, роботът започва да посещава страниците му с известна редовност. Ако са настъпили промени (добавени ново съдържание, старият беше изтрит), тогава всички тези промени ще бъдат записани от търсачката.

Основната задача на паяка за търсене е да намери нова информация и да я изпрати на търсачката за следващия етап на обработка, тоест за индексиране.

Индексиране

Търсачката може да търси информация само сред тези сайтове, които вече са включени в нейната база данни (индексирани от нея). Ако обхождането е процесът на търсене и събиране на информация, която е налична на определен сайт, тогава индексирането е процесът на въвеждане на тази информация в базата данни на търсачката. На този етап търсачката автоматично решава дали да въведе тази или онази информация в своята база данни и къде да я въведе, в кой раздел на базата данни. Например Google индексира почти цялата информация, открита от неговите роботи в интернет, докато Yandex е по-придирчив и не индексира всичко.

За нови сайтове етапът на индексиране може да бъде дълъг, така че посетителите от търсачките може да чакат дълго време за нови сайтове. А нова информация, който се появява на стари, добре популяризирани сайтове, може да бъде индексиран почти моментално и почти веднага да влезе в „индекса“, тоест в базата данни на търсачката.

Ранжиране

Класирането е подреждането на информация, която преди това е била индексирана и въведена в базата данни на определена търсачка, според ранга, тоест каква информация търсачката ще покаже на своите потребители на първо място и каква информация ще бъде поставена “ ранг” по-нисък. Класирането може да се припише на етапа на обслужване на търсачката на нейния клиент - потребителя.

На сървърите на търсачката получената информация се обработва и се генерират резултати за огромен набор от всякакви заявки. Тук влизат в действие алгоритмите на търсачката. Всички сайтове, включени в базата данни, са класифицирани по теми, а темите са разделени на групи заявки. За всяка група заявки може да се състави предварителен брой, който впоследствие да се коригира.

Издадохме нова книга, Маркетинг на съдържание в социалните медии: Как да влезете в главите на вашите последователи и да ги накарате да се влюбят във вашата марка.

Абонирай се

Ако наистина разбирате нещо, тогава напълно. И ако се абонирате за нашия блог, това означава, че вероятно искате да станете готин специалист или искате да научите повече за търсенето в Интернет. За да постигнете това, което искате, трикове и лайфхакове не са достатъчни. Трябва да разширим хоризонтите си.

Търсачката е голяма и комплексна програмапредназначен за търсене на информация в интернет.

Чудили ли сте се някога как е възникнало това, което използваме всеки ден, какви видове неща съществуват в интернет и защо всички студия работят само с и? Не трябва да отлагате такива въпроси. Само 10 минути и ето още една тема за разговор, която можете лесно да подкрепите.

Как се появиха търсачките

Преди много време, когато интернет беше млад и зелен...

Потребителите, които, трябва да се каже, бяха много малко, имаха достатъчно свои собствени отметки. Но това не продължи дълго: скоро за човек стана трудно да се ориентира в разнообразието, което се появи в интернет за кратко време.

И за да рационализират по някакъв начин хаоса, бяха измислени Yahoo, DMOZ и други директории (някои все още съществуват и до днес), в които авторите добавяха и сортираха нововъзникващите сайтове в категории. За известно време животът стана по-лесен.

Но Интернет продължи да се разширява и скоро размерът на каталозите стана нещо умопомрачително гигантско. Тогава разработчиците първо помислиха за търсене в директории и едва след това за създаване автоматизирана системаиндексиране на всичко, което е в интернет, за да улесни всички потребители.

Така се появяват първите роботи за търсене.

Коя търсачка беше първата?

Разглежда се първата търсачка Wandex (добре, объркано с Yandex!).Тази и други ранни услуги, разбира се, далеч не бяха перфектни. Когато отговарят на заявка за търсене, те връщат нещо съвсем различно от това, което сме свикнали да виждаме сега, т.е. не най-многорелевантни страници и всичко подред, игнорирайки класирането. На 1 януари 2012 г. Wandex беше рестартиран.

Така започва работата си първият ПС.Какви търсачки има?V модерен интернет? Приложен е списъкът.

Какви видове търсачки има: кралете на дансинга

Изненадващо, има и такива, които споряткак е по-добра търсачката. Не бих го направил, просто защото са различни и като цяло всичко зависи от целта и какъв потребител сте.

Яндекс

Това е най-популярната търсачка у нас. LiveInternet твърди товаЯндекс използван от 50,9%, докато Google отчита 40,6% (данни от юни 2015 г.).

Има мит, според който Yandex има многократно повече търговски заявки от най-близкия си конкурент. Няколко пъти се натъкнах на идеята, че благодарение на регионализма, усъвършенстван през годините, типът аудитория или нейният брой може да варира - това е причината за първенството на Yandex в търговските заявки. Така че не вярвайте на това. Те лъжат.

Google

Търсачката Google е най-популярната навсякъде с изключение на Русия :) Има много възможности различни посоки. Като цяло безспорният световен лидер сред роботите за търсене.

Самият Google се появи приблизително по същото време като Yandex и дойде при нас в Русия едва през 2004 г., когато Yandex засили позициите си.

Процесът на търсене в Google вече се е превърнал в нарицателно за много земляни. Но когато кажа на майка ми „Гугъл“, тя все още отива да търси информацията, от която се нуждае в Яндекс :) ​​Тя изобщо не знаекакви търсачки съществуват в интернет.

Какви търсачки има: списък с малко известни търсачки

Повечето интернет потребители дори не знаятКакви търсачки има освен Yandex?и Google. И така, ето ги;) Запознайте се с нас!

Делът на търсене на тази търсачка трудно може да се нарече голям, но показателите постепенно нарастват. Въпреки че не трябва да пропускате факта, че тези номера пряко зависят от Odnoklassniki, пощата Mail.ru и други неща от корпорацията Mail.

Това е истинска стара школа. Само си представете: когато се появи тази търсачка, някои SEO специалисти просто се учеха да ходят. Като цяло Рамблер имаше шанс да управлява шоуто, но това не се случи по ред причини. В момента това вече не е търсачка, а вид набор от услуги, които използват машината Yandex като търсене - например, те имат свои собствени . Посещаемостта, между другото, е доста прилична: на ден начална страница Rambler се посещава от малко над милион потребители.

Рамблер също има версия Rambler Lite (все същото, само без време, новини, реклама и други неща) и XRambler , който комбинира 15 търсачки наведнъж.

Колко имена смени тази търсачка! За 8 години той успя да очерни името MSN Search, тогава Windows Live Search, след това съкрати предишното име на Live Search и сега стигна до името Bing. Мнозина твърдят, че качеството на търсенето е близко до стандарта на Google.

Сега е трудно Yahoo да се нарече търсачка, тъй като според споразумението всички сайтове, собственост на Yahoo, използват търсачката Bing. Последни новиниМожете да се запознаете със споразумението наТърсачки.

Webalta

Със сигурност тази така наречена търсачка ви е позната. Трябвало ли е да го избирате като тик от браузъра си?Отдавна всички знаят за мрачните дела на тази търсачка. Уви, никой не се интересува от този PS. Потребителите търсят само статии за това как да премахнат тези глупости от компютъра си.

Нигма

Тази търсачка е значително по-различна от останалите. И ако индексната база на други търсачки не изненадва никого, тогава способността за решаване на проблеми по химия и математика отличава Nigma от другите търсачки. Nigma също предлага търсене на музика, книги, игри и торенти.

Търсачката, създадена по поръчка на руското правителство, се счита за първата в света държавна търсачка. Предлага отделно медицинско търсене (търсене на аптеки, лекарства и статии за болести). Много удобна тема с „Удобна държава“, където всички препоръки, които помагат на гражданите, са събрани на едно място. Ето, например, разделът „Документи“.

Този PS е значително различен от тозикакви видове търсачки има в интернет?. DuckDuckGo - търсачка с отворен програмен коди интересна политика, която е да се откаже от използването на „филтър балон“. За тези, които не знаят: „филтърен балон“ е, когато търсачката показва в резултатите от търсенето само онези резултати от търсенето, които тя (този PS) смята за необходими за конкретен потребител. В същото време никой не се интересува от мнението на самия потребител. DuckDuckGo уверява, че използването на тяхната търсачка гарантира, че получавате цялата информация, която търсачката има.

“DuckDuckGo” набира скорост. Още това лято (2015 г.) създателят на PS отчете три милиарда заявки годишно.

Докато пишех тази статия, имах няколко въпроса. В такива случаи не разчитам на екстрадиция, да, и защо, ако до мен седи човек, който знае всичко за интернет? Мини-интервю с Игор Иванов.

Игор Иванов

Ръководител на студио SEMANTICA

Ако сайтът ми е в Google и Yandex, ще бъде ли сайтът ми на върха на резултатите от търсенето в други, по-малки търсачки?

Има много Голям шансче така ще бъде. Yandex и Google разработват своите алгоритми в в правилната посокаи други търсачки следват примера им. Имаше случай, когато специалисти на Googleзабеляза, че търсачката система Bingне само копира техните алгоритми, но и техните резултати от търсене.

Защо вероятност, а не абсолютна сигурност? Защото другите търсачки няма да имат време да коригират своите алгоритми за класиране към стандарта, зададен от по-успешните им конкуренти.

Струва ли си изобщо да се рекламира в Sputnik, Mail и други „наши“ търсачки? Коя търсачка е по-добра?

Очаквано, Google заема първо място в световната класация. Неговият дял е повече от 70% от заявките за търсенеот жители от цял ​​свят. Освен това една трета от целия трафик на google.com идва от граждани на САЩ. Освен това Google е най-посещаваният уебсайт в света. Средната дневна продължителност на използване на търсачката Google е 9 минути.

Предимството на търсачката Google е липсата ненужни елементиНа страницата. Само лента за търсене и логото на компанията. Чипса анимирани картинки и браузър игри, посветени на популярни и местни празници.

2. Bing

Bing - търсачка от Microsoft, датираща от 2009г. От този момент нататък той се превърна в задължителен атрибут на смартфони, работещи под Windows OS. Bing също се отличава с минимализъм - в допълнение към заглавката със списък на всички продукти на Microsoft, на страницата има само низ за търсенеи името на системата. Bing е най-популярен в САЩ (31%), Китай (18%) и Германия (6%).

3. Yahoo!

Трето място зае една от най-старите търсачки - Yahoo. По-голямата част от потребителите също живеят в САЩ (24%). Изглежда, че останалият свят умишлено избягва помощта на роботите за търсене...Търсачката е популярна и в Индия, Индонезия, Тайван и Обединеното кралство. В допълнение към лентата за търсене, на Yahoo! предлага прогноза за времето във вашия регион, както и глобални тенденции под формата на новинарска емисия.

4. Baidu

Китайска търсачка, която в Русия е спечелила известност. Поради агресивната си политика и липсата на превод на руски или английски, разширенията на тази търсачка се възприемат като вируси. Много е трудно да ги премахнете напълно и да се отървете от изскачащи прозорци с йероглифи. Този сайт обаче е четвърти в светапо посещаемост. 92% от аудиторията му са китайски граждани.

5. AOL

AOL е американска търсачка, чието име означава America Online. Популярността му е значително по-ниска от тази на предишните системи. Разцветът му е през 90-те и 00-те години. Почти 70% от аудиторията на AOL са жители на Съединените щати.

6.Ask.com

Тази търсачка, датираща от 1995 г., има доста необичаен интерфейс. Тя възприема всички заявки като въпроси и предлага опции за отговор в съответствие с резултатите от търсенето. Това донякъде напомня на услугата Answers.Mail. В резултатите от търсенето обаче не се включват аматьорски отговори, а пълноценни статии. Отзад Миналата годинасайтът е загубил около 50 позиции в световната класация на най-популярните интернет ресурси и днес заема едва 104-то място.

7.Възбудете

Тази търсачка е незабележима и подобна на много други сайтове. Той предлага на потребителите много услуги (като новини, поща, прогноза за времето, пътуване и т.н.) Интерфейсът на сайта също предизвиква спомени за мрежата от 90-те години и, може да се предположи, не се е променил малко оттогава.

8.DuckDuckGo

Разработчиците незабавно предупреждават, че тази търсачка не проследява вашите действияна линия. В днешно време това е съществен аргумент при избора на търсачка. Дизайнът на сайта е направен в модерен стил, използвайки ярки цветове и забавни картинки. За разлика от други търсачки, „търсачката за патици“ е преведена на руски. През изминалата година сайтът е спечелил около 400 позиции и през март 2017г. е класиран на 504-то място в класацията за популярност на Alexa.

9. Волфрам Алфа

Отличителна черта на това търсене е разнообразието от спомагателни услуги, предназначени за заявки, свързани с определени знания. Тоест в резултатите от търсенето няма да видите връзки към публикации в социалните мрежи или статии от жълтата преса. Ще ви бъдат предложени конкретни числа и проверени факти под формата на един документ. Този браузър е идеален за ученици и студенти.

10. Яндекс

Търсачка, най-популярната в Русия и страните от ОНД. Освен това около 3% от аудиторията на сайта са жители на Германия. Сайтът е забележителен голяма сумауслуги за всякакви поводи (музика, радио, разписания на градския транспорт, недвижими имоти, преводач и др.) Ресурсът предлага и голям избориндивидуален дизайн на уеб сайт, както и персонализиране на джаджи за себе си. Yandex е на 31-во място в света по популярност, като е загубил 11 позиции през последната година.

Те отдавна са се превърнали в неразделна част руски интернет. Търсачкисега това са огромни и сложни механизми, които представляват не само инструмент за търсене на информация, но и примамливи области за бизнеса.

Повечето потребители на търсачки никога не са се замисляли (или са се замисляли, но не са намерили отговор) за принципа на работа на търсачките, за схемата за обработка на потребителските заявки, за това от какво се състоят тези системи и как функционират...

Този майсторски клас е предназначен да отговори на въпроса как работят търсачките. Тук обаче няма да намерите фактори, които влияят върху класирането на документите. И още повече, че не трябва да разчитате подробно обяснениеАлгоритъм на Yandex. Той, според Иля Сегалович, директор по технологиите и развитието на търсачката Yandex, може да бъде разпознат само „под мъчения“ от самия Иля Сегалович...

2. Понятие и функции на търсачката

Системата за търсене е софтуерен и хардуерен комплекс, предназначен да търси в Интернет и да отговаря на потребителска заявка, посочена под формата на текстова фраза ( заявка за търсене), издаване на списък с връзки към източници на информация, по ред на уместност (според заявката). Най-големите международни търсачки: "гугъл", Yahoo , MSN . В руския интернет това са Yandex, Rambler, Aport.

Нека разгледаме по-подробно концепцията за заявка за търсене, като използваме търсачката Yandex като пример. Заявката за търсене трябва да бъде формулирана от потребителя в съответствие с това, което той иска да намери, възможно най-кратко и просто. Да приемем, че искаме да намерим информация в Yandex как да изберем кола. За да направите това, отворете главната страница на Yandex и въведете текста на заявката за търсене „как да изберем кола“. След това нашата задача се свежда до отваряне на предоставените по наша заявка връзки към източници на информация в Интернет. Напълно възможно е обаче да не намерим нужната ни информация. Ако това се случи, тогава или трябва да преформулирате заявката си, или базата данни на търсачката наистина няма подходяща информация за нашата заявка (това може да се случи, когато задавате много „тесни“ заявки, като например „как да избера кола в Архангелск”)

Основната цел на всяка търсачка е да достави на хората точно тази информация, която търсят. И научете потребителите да правят „правилни“ заявки към системата, т.е. заявки, които отговарят на принципите на работа на търсачките, са невъзможни. Ето защо разработчиците създават алгоритми и принципи на работа за търсачките, които биха позволили на потребителите да намерят информацията, която търсят.

Това означава, че търсачката трябва да „мисли“ по същия начин, по който мисли потребителят, когато търси информация. Когато потребител направи заявка към търсачка, той иска да намери това, от което се нуждае възможно най-бързо и лесно. Получавайки резултата, той оценява производителността на системата, като се ръководи от няколко основни параметъра. Намери ли това, което търсеше? Ако не го намери, колко пъти е трябвало да преформулира заявката, за да намери това, което търси? Колко подходяща информация би могъл да намери? Колко бързо търсачката обработи заявката? Колко удобни бяха представените резултати от търсенето? Първият ли беше резултатът, който търсехте, или стотният? Колко ненужен боклукбеше установено наравно с полезна информация? Ще бъде ли намерена необходимата информация при достъп до търсачка, да речем, след седмица или след месец?

За да отговорят на всички тези въпроси, разработчиците на търсачки непрекъснато подобряват алгоритмите и принципите на търсене, добавят нови функции и възможности и се опитват по всякакъв начин да ускорят работата на системата.

3. Основни характеристики на търсачката

Нека опишем основните характеристики на търсачките:

  • Пълнота

    Пълнотата е една от основните характеристики на системата за търсене, която е съотношението на броя на документите, намерени чрез заявка, към общ бройдокументи в интернет, които удовлетворяват това искане. Например, ако в интернет има 100 страници, съдържащи фразата „как да изберем кола“ и само 60 от тях са намерени за съответната заявка, тогава пълнотата на търсенето ще бъде 0,6. Очевидно какво по-пълно търсене, толкова по-малка е вероятността потребителят да не намери документа, от който се нуждае, при условие че той изобщо съществува в Интернет.

  • точност

    Точността е друга основна характеристика на търсачката, която се определя от степента, в която намерените документи съответстват на заявката на потребителя. Например, ако заявката „как да избера кола“ съдържа 100 документа, 50 от тях съдържат фразата „как да изберем кола“, а останалите просто съдържат тези думи („как да избера правилното радио и да го инсталирам в кола”), тогава точността на търсенето се счита за равна на 50/100 (=0,5). как по-точно търсене, толкова по-бързо потребителят ще намеридокументи, от които се нуждае, колкото по-малко различни видове „боклуци“ ще бъдат намерени сред тях, толкова по-рядко намерените документи няма да отговарят на искането.

  • Уместност

    Уместността е също толкова важен компонент на търсенето, който се характеризира с времето, което минава от момента на публикуване на документите в Интернет до въвеждането им в индексната база данни на търсачката. Например ден след появата на интересна новина, голям бройпотребителите се обърнаха към търсачките с подходящи заявки. Обективно не е минало и един ден от публикуването на новинарска информация по тази тема, но основните документи вече са индексирани и достъпни за търсене, благодарение на съществуването на т. нар. „бърза база данни“ на големите търсачки, която се актуализира няколко пъти на ден.

  • Скорост на търсене

    Скоростта на търсене е тясно свързана с неговата устойчивост на натоварване. Например, според Rambler Internet Holding LLC, днес, в работно време, търсачката Rambler получава около 60 заявки в секунда. Такова натоварване изисква намаляване на времето за обработка на отделна заявка. Тук интересите на потребителя и търсачката съвпадат: посетителят иска да получи резултати възможно най-бързо, а търсачката трябва да обработи заявката възможно най-бързо, за да не забави изчисляването на следващите заявки.

  • Видимост

4. Разказразвитие на търсачката

В началния период на развитие на интернет броят на потребителите му беше малък, а обемът налична информацияотносително малък. В по-голямата си част само научният персонал имаше достъп до интернет. По това време задачата за търсене на информация в Интернет не беше толкова спешна, колкото сега.

Един от първите начини за организиране на достъп до информационни ресурсимрежата беше творението отворени директориисайтове, връзки към ресурси, в които бяха групирани по теми. Първият такъв проект беше уебсайтът Yahoo.com, който отвори врати през пролетта на 1994 г. След като броят на сайтовете в директорията се увеличи значително, беше добавена функция за търсене необходимата информацияпо каталог. В пълния смисъл това все още не беше търсачка, тъй като областта за търсене беше ограничена само до ресурсите, присъстващи в каталога, а не до всички интернет ресурси.

Директориите с връзки са били широко използвани в миналото, но почти напълно са загубили своята популярност в момента. Тъй като дори съвременните каталози, огромни по обем, съдържат информация само за незначителна част от Интернет. Най-голямата директория на мрежата DMOZ (наричана още Open Directory Project) съдържа информация за 5 милиона ресурса, докато базата данни за търсене Google системисе състои от повече от 8 милиарда документа.

През 1995 г. се появяват търсачките Lycos и AltaVista. Последният е лидер в областта на търсенето на информация в интернет от много години.

През 1997 г. Сергей Брин и Лари Пейдж създават търсачката Google като част от изследователски проектв Станфордския университет. IN понастоящем Google е най-популярната търсачка в света!

През септември 1997 г. търсачката беше официално обявена Yandex система, който е най-популярен в рускоезичния интернет.

В момента има три основни търсачки (международни) - Google, Yahoo и, като собствени базии алгоритми за търсене. Повечето други търсачки (които са голям брой) използват под една или друга форма резултатите от трите изброени. Например търсенето на AOL (search.aol.com) използва базата данни на Google, докато AltaVista, Lycos и AllTheWeb използват базата данни на Yahoo.

5. Състав и принципи на работа на търсещата система

В Русия основната търсачка е Yandex, следвана от Rambler.ru, Google.ru, Aport.ru, Mail.ru. Освен това, на този момент, Mail.ru използва търсачката и базата данни Yandex.

Почти всички големи търсачки имат своя собствена структура, различна от другите. Въпреки това е възможно да се идентифицират основните компоненти, общи за всички търсачки. Разликите в структурата могат да бъдат само във формата на изпълнение на механизмите на взаимодействие на тези компоненти.

Модул за индексиране

Модулът за индексиране се състои от три поддържащи програми(роботи):

Spider е програма, предназначена за изтегляне на уеб страници. „Паякът“ гарантира, че страницата е изтеглена и извлича всичко вътрешни връзкиот тази страница. Изтегля се html кодът на всяка страница. Роботите използват за изтегляне на страници HTTP протоколи. Паякът работи по следния начин. Роботът изпраща заявката „get/path/document“ и някои други HTTP команди за заявка към сървъра. В отговор роботът получава текстов поток, съдържаща служебна информация и самия документ.

  • URL адрес на страницата
  • датата на изтегляне на страницата
  • http заглавка на отговора на сървъра
  • тяло на страницата (html код)

Crawler („пътуващ“ паяк) е програма, която автоматично следва всички връзки, намерени на страницата. Избира всички налични връзки на страницата. Неговата задача е да определи къде следва да отиде паякът въз основа на препратки или на базата на предварително даден списъкадреси. Crawler, следвайки намерените връзки, търси нови документи, които все още не са известни на търсачката.

Indexer (робот индексатор) е програма, която анализира уеб страници, изтеглени от паяци. Индексаторът анализира страницата на нейните съставни части и ги анализира, използвайки свои собствени лексикални и морфологични алгоритми. Анализират се различни елементи на страницата, като текст, заглавия, връзки, структурни и стилови характеристики, специални сервизни HTML тагове и др.

По този начин модулът за индексиране ви позволява да обхождате даден набор от ресурси с помощта на връзки, да изтегляте открити страници, да извличате връзки към нови страници от получените документи и да произвеждате пълен анализтези документи.

База данни

Базата данни или индексът на търсачката е система за съхранение на данни, информационен масив, в който се съхраняват специално преобразувани параметри на всички документи, изтеглени и обработени от модула за индексиране.

Сървър за търсене

Сървърът за търсене е най-важният елемент от цялата система, тъй като качеството и скоростта на търсенето пряко зависят от алгоритмите, които са в основата на неговото функциониране.

Сървърът за търсене работи по следния начин:

  • Получената от потребителя заявка се подлага на морфологичен анализ. Генерирани информационна средавсеки документ, съдържащ се в базата данни (който впоследствие ще бъде показан във формуляра, т.е. съответстващ на заявката текстова информацияна страницата с резултати от търсенето).
  • Получените данни се предават като входни параметриспециален модул за класиране. Данните се обработват за всички документи, в резултат на което всеки документ има своя собствена оценка, която характеризира уместността на заявката, въведена от потребителя, и различните компоненти на този документ, съхранявани в индекса на търсачката.
  • В зависимост от избора на потребителя, тази оценка може да бъде коригирана допълнителни условия(например така нареченото „разширено търсене“).
  • След това се генерира фрагмент, т.е. за всеки намерен документ заглавието, кратко резюме, което най-добре отговаря на заявката, и връзка към самия документ се извличат от таблицата с документи и намерените думи се маркират.
  • Получените резултати от търсенето се предават на потребителя под формата на SERP (Search Engine Result Page) – страница с резултати от търсенето.

Както можете да видите, всички тези компоненти са тясно свързани помежду си и работят във взаимодействие, образувайки ясна, достатъчно сложен механизъмработа на търсачката, която изисква огромни количества ресурси.

6. Заключение

Сега нека обобщим всичко по-горе.

  • Основната цел на всяка търсачка е да достави на хората точно тази информация, която търсят.
  • Основни характеристики на търсачките:
    1. Пълнота
    2. точност
    3. Уместност
    4. Скорост на търсене
    5. Видимост
  • Първата пълноценна търсачка беше проектът WebCrawler, публикуван през 1994 г.
  • Системата за търсене включва следните компоненти:
    1. Модул за индексиране
    2. База данни
    3. Сървър за търсене

Надяваме се, че нашият майсторски клас ще ви позволи да се запознаете по-добре с концепцията за търсачка и да разберете по-добре основните функции, характеристики и принципи на работа на търсачките.

На пръв поглед може да изглежда, че има по-добре от Googleможе би само Yandex и дори това не е факт. Тези компании инвестират огромни суми пари в иновации и развитие. Има ли наистина някой шанс не само да се мери с лидерите, но и да спечели? Отговорът на Lifehacker: "Да!" Има няколко търсачки, които са успели. Нека погледнем нашите герои.

Какво е това

Това е доста добре позната търсачка с отворен код. Сървърите се намират в САЩ. В допълнение към собствения си робот, търсачката използва резултати от други източници: Yahoo! Търсене в BOSS, Wikipedia, Wolfram|Alpha.

Колкото по-добре

DuckDuckGo се позиционира като търсачка, която осигурява максимална поверителност и поверителност. Системата не събира никакви данни за потребителя, не съхранява регистрационни файлове (няма история на търсенията), използва бисквиткивъзможно най-ограничено.

DuckDuckGo не събира лична информацияпотребители и не го споделя. Това е нашата политика за поверителност.
Габриел Вайнберг, основател на DuckDuckGo

Защо ви трябва това

Всички големи търсачки се опитват да персонализират Резултати от търсенетовъз основа на данни за човека пред монитора. Това явление се нарича „филтърен балон“: потребителят вижда само онези резултати, които са в съответствие с неговите предпочитания или които системата счита за такива.

DuckDuckGo създава обективна картина, която не зависи от миналото ви поведение в интернет, и елиминира тематичната реклама от Google и Yandex въз основа на вашите заявки. С DuckDuckGo е лесно да търсите информация на чужди езици: Google и Yandex по подразбиране дават предпочитание на сайтове на руски език, дори ако заявката е въведена на друг език.

Какво е това

"" е руска система за метатърсене, разработена от завършилите Московския държавен университет Виктор Лавренко и Владимир Чернишов. Търси в индексите на Google, Bing, Yandex и други, като има и собствен алгоритъм за търсене.

Колкото по-добре

Търсенето в индексите на всички основни търсачки ви позволява да генерирате подходящи резултати. Освен това Nigma разделя резултатите на няколко тематични групи(клъстери) и подканва потребителя да стесни полето за търсене, като изхвърли ненужните или маркира приоритетните. Благодарение на модулите „Математика“ и „Химия“ можете да решавате задачи директно в лентата за търсене задачи по математикаи потърсете резултатите от химичните реакции.

Защо ви трябва това

Елиминира необходимостта от търсене на същата заявка в различни търсачки. Клъстерна системави позволява лесно да манипулирате резултатите от търсенето. Например Nigma събира резултати от онлайн магазини в отделен клъстер. Ако нямате намерение да купувате нищо, просто изключете тази група. Избирайки клъстера „Сайтове на английски език“, ще получите резултати само на английски език. Модулите по математика и химия ще помогнат на учениците.

За съжаление в момента проектът не се разработва, тъй като разработчиците са прехвърлили дейността си на виетнамския пазар. Въпреки това „Нигма“ не само че все още не е остаряла, но в някои неща все още дава преднина на Google. Да се ​​надяваме, че развитието ще се възобнови.

Какво е това

not Evil - система, която търси анонимно Tor мрежи. За да го използвате, трябва да отидете в тази мрежа, например, като стартирате специализиран браузър със същото име. not Evil не е единствената търсачка по рода си. Има LOOK (търсене по подразбиране в браузъра Tor, достъпно от редовен интернет) или TORCH (една от най-старите търсачки в мрежата Tor) и други. Спряхме се на not Evil поради ясната алюзия към самия Google (само вижте началната страница).

Колкото по-добре

Търси там, където Google, Yandex и други търсачки обикновено са затворени.

Защо ви трябва това

Мрежата Tor съдържа много ресурси, които не могат да бъдат намерени в спазващия закона интернет. И тъй като правителственият контрол върху съдържанието на интернет се затяга, техният брой ще расте. Tor е един вид мрежа в мрежата: със своите социални мрежи, торент тракери, медии, платформи за търговия, блогове, библиотеки и т.н.

YaCy

Какво е това

YaCy е децентрализирана търсачка, която работи на принципа на P2P мрежите. Всеки компютър, на който е инсталиран основният софтуерен модул, сканира интернет независимо, тоест е аналог робот за търсене. Получените резултати са събрани в обща база, който се използва от всички членове на YaCy.

Колкото по-добре

Трудно е да се каже дали това е по-добро или по-лошо, тъй като YaCy е напълно различен подход за организиране на търсенето. Липсата на един сървър и компания собственик прави резултатите напълно независими от нечии предпочитания. Автономността на всеки възел елиминира цензурата. YaCy може да търси в дълбоката мрежа и неиндексирани обществени мрежи.

Защо ви трябва това

Ако сте привърженик на софтуер с отворен код и безплатен интернет, не подлежи на влияние правителствени агенциии големи корпорации, тогава YaCy е вашият избор. Може да се използва и за организиране на търсене в рамките на корпоративна или друга автономна мрежа. И въпреки че YaCy не е много полезен в ежедневието, той си заслужава алтернатива на Googleпо отношение на процеса на търсене.

Пипл

Какво е това

Pipl е система, предназначена за търсене на информация за конкретно лице.

Колкото по-добре

Авторите на Pipl твърдят, че техните специализирани алгоритми търсят по-ефективно от „обикновените“ търсачки. По-специално, приоритетните източници на информация са профилите социални мрежи, коментари, списъци с участници и различни бази данни, където се публикува информация за хора, като бази данни със съдебни решения. Лидерството на Pipl в тази област се потвърждава от оценки на Lifehacker.com, TechCrunch и други публикации.

Защо ви трябва това

Ако трябва да намерите информация за човек, живеещ в САЩ, тогава Pipl ще бъде много по-полезен. по-ефективен от Google. Базите данни на руските съдилища очевидно са недостъпни за търсачката. Следователно той не се справя толкова добре с руските граждани.

Какво е това

Друга специализирана търсачка. Търси различни звуци (къща, природа, коли, хора и др.) в отворени източници. Услугата не поддържа заявки на руски, но има впечатляващ списък с тагове на руски език, които можете да използвате за търсене.

Колкото по-добре

Резултатът съдържа само звуци и нищо допълнително. В настройките за търсене можете да зададете желания формат и качество на звука. Всички намерени звуци са достъпни за изтегляне. Има търсене на звуци по модел.

Защо ви трябва това

Ако трябва бързо да намерите звука на изстрел от мускет, ударите на бозаещ кълвач или вика на Хоумър Симпсън, тогава тази услуга е за вас. И аз избрах това само от наличните заявки на руски език. На английски спектърът е още по-широк. Но сериозно, специализиран сервизпредполага специализирана публика. Но какво ще стане, ако е полезно и за вас?

Животът на алтернативните търсачки често е мимолетен. Lifehacker попита първия за дългосрочните перспективи на подобни проекти Генералният директорУкраински клон на компанията Yandex Сергей Петренко.

Що се отнася до съдбата на алтернативните търсачки, тя е проста: да бъдат много нишови проекти с малка аудитория, следователно без ясни търговски перспективи или, обратно, с пълна яснота за липсата им.

Ако погледнете примерите в статията, можете да видите, че такива търсачки или се специализират в тясна, но популярна ниша, която може би все още не е нараснала достатъчно, за да бъде забележима на радарите на Google или Yandex, или тестват оригинална хипотеза в класирането, която все още не е приложима при редовно търсене.

Например, ако търсенето в Tor изведнъж се окаже търсено, тоест резултатите от там са необходими на поне процент от аудиторията на Google, тогава, разбира се, обикновените търсачки ще започнат да решават проблема как да намерете ги и ги покажете на потребителя. Ако поведението на аудиторията показва, че за значителна част от потребителите в значителен брой заявки резултатите, дадени без да се вземат предвид фактори, зависещи от потребителя, изглеждат по-подходящи, тогава Yandex или Google ще започнат да произвеждат такива резултати.

„Бъди по-добър“ в контекста на тази статия не означава „бъди по-добър във всичко“. Да, в много аспекти нашите герои са далеч от Google и Yandex (дори далеч от Bing). Но всяка от тези услуги дава на потребителя нещо, което гигантите в търсачката не могат да предложат.