Търсачките описват накратко всеки. Съвременни търсачки. Защо ти трябва

Класификация

По зона за търсене (условно)

Местни

Проектиран за търсене на информация за всяка част световна мрежа, например, един или повече сайтове или локална мрежа.

Глобални

Проектиран за търсене на информация в Интернет или значителна част от него. Представители на такива търсачки са търсачки Google, Yandex и др. Търсачките търсят информация от различни видове, например текстове, видеоклипове, изображения, географски обекти, лични данни и т.н. В този случай файловете, с които търсачката може да работи, могат да бъдат в текстов формат (напр. html, .htm, .txt, .doc , .rtf ...) и графични (.gif, .png, .svg ...) или мултимедийни (видео и звук). Засега най-разпространеното е търсенето в текстови документи.

Заявка за търсене

Първоначалната информация за търсенето е заявката за търсене.

Функции

Търсачките изпълняват няколко функции:

Търсете връзки

Търсете връзки към страници и други документи на сайта.

Автоматичен

Ръчно управление

Самите потребители добавят връзки към страниците на своите сайтове към базата данни на търсачките

Индексиране на документи на сайта

Извличане на релевантна за търсене информация от документи, преобразуване на тази информация в удобен за търсачката формат и съхраняване на тази информация в базата данни на търсачката

Търсене в базата данни с индексирани документи

Може да се състои от няколко етапа

Намиране на документи, съответстващи на заявка за търсене

Класиране на документи според тяхната релевантност към заявките за търсене

Групиране на документи

Бележки (редактиране)

Вижте също


Фондация Уикимедия. 2010 г.

Вижте какво е "търсачка" в други речници:

    Търсачка- (търсачка): уеб сървър, който индексира уеб страници на налични сървъри (например Yandex) ... Източник: INTERNET RESOURCES. ИЗИСКВАНИЯ ЗА ДОСТЪПНОСТ ЗА ИНВАЛИДИ. GOST R 52872 2007 (одобрен със Заповед на Ростехрегулиране от ... ... Официална терминология

    търсачка- Уеб сървър, който индексира уеб страници на налични сървъри (например Yandex). [GOST R 52872 2007] Теми информационни технологииобщо взето EN търсачка... Ръководство за технически преводач

    Специален уебсайт в Интернет, където потребителят при дадено искане може да получи връзки към уебсайтове, които отговарят на това искане. Търсачката има три компонента: 1 робот за търсене; 2 системни индекса; и 3 програми, ...... Финансов речник

    В Интернет търсачка, която: изпраща заявка за търсене до няколко търсачки; и генерира обобщение (на една страница) от получените отговори. На английски: Meta търсачка Синоними: Meta caterpillar Английски Синоними: Metacrawler ... ... Финансов речник

    Тази статия трябва да бъде напълно пренаписана. Може да има обяснения на страницата за разговор. Търсачката програмно хардуерен комплексс уеб интерфейс, предоставящ възможност за ... Wikipedia

    Система за търсене- - (Английска търсачка, синоними: търсачка, сървър за търсене, търсачка) - Инструмент за намиране на информация в Интернет. По правило работата на търсачката се състои от два етапа. Специална програма (робот за търсене, картечница, агент, ... ... Енциклопедичен речник на медиите – Уебсайт на търсачката, който предоставя възможност за търсене на информация в Интернет. Повечето от търсачките търсят информация в сайтовете на World Wide Web, но има и системи, които могат да търсят файлове на ftp сървъри, стоки в ... ... Wikipedia

Книги

  • По въпроса за ефективността на търсенето на специфики в Интернет, I. A. Semyonov. Според проучване на Berkley, количеството информация в Интернет към 2003 г. е оценено на 258,85 терабайта и това са само публично достъпни данни. от Интернет данниСветовна статистика, растеж... електронна книга

Лабораторна работа No10.

Намиране на информация в Интернет мрежи

цел на работа

Запознайте се с основните търсачки в Интернет. Овладейте уменията за работа в търсачките. Научете се да избирате оптималната търсачка, като вземете предвид спецификата на задачите.

Устройства и материали

За изпълнение лабораторна работаизисква персонален компютър, който работи под контрола на операционна системаот семейството на WINDOWS. Трябва да се инсталира Интернет програмаИзследовател.

Съвременни търсачки

Интернет е огромно хранилище на информация. Много страници, ценни и не толкова, съществуват без никакъв ред и са свързани само чрез произволни връзки, в зависимост от квалификацията и личните предпочитания на авторите на сайтовете. Въпреки това, потребителят трябва да се ориентира в това разнообразие и да намери, за предпочитане за минути, необходимата информация.

В интернет има голям брой търсачки. Според най-консервативните оценки има повече от осем хиляди от тях, включително и класическите търсачки, общи и специализирани директории, и сайтове за метатърсене(които изпращат заявки до няколко търсачки наведнъж). В допълнение към това има редица алтернативни инструменти за търсене, които може да ви бъдат полезни, включително помощни програми, които, работещи във връзка с браузъра, извличат информация от мрежата, и т.нар "експертни възли"където истински хора работят с вашите заявки. В момента се разработват интелигентни търсачки. Пример за такава система е, например, интелигентна търсачка. Нигма(www.nigma.ru).

Търсачки и директории

При цялото изобилие от методи за търсене в Интернет, най-често срещаните средства за намиране на информация все още са търсачките и каталозите. Всеки от тези инструменти има различни предимства, като основната разлика между тях е човешко участие/неучастие.

ТърсачкиКомплекс е специални програмида потърся в нета.

Главни части софтуерен пакет:

1. Робот паяк(Паяк). Самостоятелна програма, която минава през страниците на сайтове, които са на опашката за индексиране. Той изтегля съдържанието на изследваните страници на диска на сървъра за търсене.

2. Робот обхождащ("Пътуващ" паяк). Неговата задача е да събере всички връзки на проучваната страница, да намери нови сред тях, непознати за търсачката, и да ги добави към списъка с предстоящи индексиране.

3. Индексатор.Обработва страници от опашката за индексиране. За да направи това, той съставя „речник“ на страницата, запаметява „честотата“ на използване на думи. Акценти ключови думиизползвани в заглавия, подчертани в текста с удебелен... Помества всичко това в специален файл - "индекс".


5. Система за обработка на заявки и издаване на резултати.Приема заявката на потребителя, формира заявка към базата данни, получава резултата от там и го прехвърля на потребителя.

Търсачкитичам в Уеб софтуер„паяци“, които пътуват от страница на страница и индексират пълния й текст на всяка страница.

Почти всички търсачки имат една и съща форма на заявка и приблизително същия формат за показване на резултати (вижте параграф " Външен видстраници за търсене "), но работата на търсачките варира значително. Първо, уместността (степента, в която резултатите от търсенето съответстват на заявката на потребителя), второ, размерът и честотата на актуализации на базата данни и трето, скоростта на резултатите. И, разбира се, търсачките се различават по удобството на тяхната работа.

Днес търсачките са най-популярните уеб страници, на които потребителите прекарват много време. Ето защо, когато избирате търсачка, свързаните услуги (поща, новинарски емисии, търговски платформи и др.).

Каталози- традиционно средство за организиране на информация. Вероятно всички трябваше да се срещнем с библиотечни каталози, продуктови каталози. Директориите се използват в много системи. Почти навсякъде, където трябва да съхранявате и организирате информация.

Едно от основните предизвикателства, пред които са изправени каталогизаторите, е да създават заглавия, които са естествени и интуитивни за обикновения потребител. За жалост, тази задачаможе да се реши само с различна степен на приближение. Светът е непрекъснат, в него няма строги граници. Един и същ сайт може да се гледа от различни ъгли и да се видят различни функции. Директориите се създават от човешки редактори, които четат страниците, филтрират неподходящите и класифицират сайтовете по теми.

Недостатъците на каталозите включват следното.

Първо, неяснотата на структурата е ясен минус на каталожната организация на информацията (въпреки че е донякъде изгладена от факта, че търсенето по каталог се изпълнява във всеки основен каталог).

Второ, хората правят директории. Тяхната пълнота и качество зависят от броя и квалификацията на хората, заети в каталога, техните лични вкусове и предпочитания. Неравномерността на попълването на рубриките е характерна особеност на всички каталози.

На трето място, трудоемката ръчна рубрикация ограничава обема на каталогизираната информация.

В същото време безусловните предимства на каталозите са, че информацията в тях се съхранява подредено, в съответствие с елементарната човешка логика и уместностнамерени страници при търсене в директорията обикновено е с порядък по-висок, отколкото при търсене от търсачките.

Както бе споменато по-горе, поради факта, че директориите се създават на ръка, те покриват много по-малко ресурси от търсачките. Сега Мрежата има, според най-консервативните оценки, милиард страници (и броят им нараства с милион всеки ден). Повечето търсачки не са се доближили до индексиране на цялата мрежа. Изключение прави Google (за Русия www.google.ru), който твърди точно тази цифра – милиард страници, частично или изцяло покрити от индексите си. Най-голямата директория - Open Directory Project (www.dmoz.org) - изглежда малка на този фон: съдържа само около 2 милиона страници.

През 1994 г., с експлозивния растеж на World Wide Web, изборът на инструменти за търсене в мрежата беше много ограничен: Yahoo (www.yahoo.com). Този сървър остава крайъгълен камък и до днес. Уеб проучванено като директория сега е изправена пред остра конкуренция от Open Directory Project.

Много директории са доста полезни, но като се има предвид всичко, трябва да се предпочита Open Directory Project. Проектът Open Directory, иницииран от Netscape, се изпълнява от над 24 000 редактори-доброволци от цял ​​свят, които са индексирали около 2 милиона възли и са ги класифицирали в повече от 200 000 категории. Всеки сървър за търсене може да получи лиценз за Open Directory Project и да използва своята база данни при обработка на заявки и много го правят: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co. uk ) и около сто други сървъра се гмуркат там за връзки.

Човек може да очаква, че докато проектът Open Directory се изгражда от доброволци, качеството на резултатите ще варира. Но резултатът е добре организирани списъци със свързани страници с ясни описания на всяка връзка. И сайтът Open Directory Project има същото усещане като Google: това е „чисто търсене“ без разсейване като връзки към магазини.

Който и каталог да изберете, всеки има едно предимство пред търсачките: те могат да бъдат систематично преглеждани с помощта йерархична системаменю.

Как работят търсачките, предимства и недостатъци

Наред с каталозите (и дори много по-често) се използват машини за търсене. Вече е по-модерно и удобен начиннавигация и търсене в мрежата. За разлика от директориите, търсачката е напълно автоматизирана структура.

Предимствата на търсачките включват: малък брой остарели връзки в резултатите от търсенето; много голямо количествоУеб сайтове, които се търсят; Повече ▼ висока скоростТърсене; висока релевантност на търсенето; наличието на допълнителни сервизни функции, които улесняват работата на потребителя, например, възможността за превод на текста на документ на чужд език, възможността за избор на всички документи от конкретен сайт, стесняване на критериите по време на търсене, намиране на документи " по проба" и така нататък.

Търсачките се основават на напълно различни технологични принципи. Задачата на търсачките е да осигурят подробно търсене на информация в електронната вселена, което може да се постигне само чрез отчитане (индексиране) на цялото съдържание на максималния възможен брой уеб страници. За разлика от каталозите, търсачките работят в автоматизиран режим и имат същия принцип на работа. Търсачките имат два основни компонента. Първият компонент е програма-робот, чиято задача е да пътува от сървър до сървър, да намира там нови или променени документи и да ги изтегля основен компютърсистеми. В същото време роботът, разглеждайки съдържанието на документа, намира нови връзки, както към други документи този сървъри към външни сайтове. Програмата се насочва самостоятелно към посочените връзки, намира нови документи и връзки в тях, след което процесът се повтаря отново, напомнящ добре познатия в библиографията „метод на снежна топка“. Идентифицираните документи се обработват (индексират) от втория компонент на търсачката. Това обикновено взема предвид цялото съдържание на страницата, включително текст, илюстрации, аудио и видео файлове. Всички думи в документа са индексирани, което прави възможно използването на търсачки за подробни търсения по най-тесните теми. Формирани гигантски индексни файлове, които съхраняват информация за това коя дума, колко пъти, в кой документ и на кой сървър се използва, и създават база данни, до която имат достъп потребители, въвеждащи комбинации от ключови думи в низа на заявката. Браун Маркус .: Методи за намиране на информация в Интернет. - М .: Ново издателство, 2005. - 136 стр.

Издаването на резултатите се извършва с помощта на специален модул, който интелигентно класира резултатите. В този случай местоположението на термина в документа (заглавие, заглавие, основен текст), честотата на неговото повторение, процентът на думата за търсене спрямо останалия текст на страницата, както и номерът и разрешението на външни връзки към тази страница от други сайтове се вземат предвид.

Въпреки това, търсачките имат някои недостатъци: ограничен обхват на търсене. Ако някой сайт не е бил въведен в базата данни на търсачката, той не „съществува” за него и документите му не могат да бъдат включени в резултатите от търсенето; относителна сложностизползване. За да може съставената заявка за търсене да съответства точно на това, което точно искате да намерите, трябва поне малко да разберете как работи търсачката и да можете да използвате най-простата логически оператори. Търсене в директориив този смисъл е по-просто и по-познато; по-малко визуална форма на представяне на резултатите от заявката. Каталогът дава името на сайта с неговата кратка анотация и друго полезна информация... Резултатите от търсачката са ми ясни; Тъй като базата данни на машините за търсене се допълва от програми - роботи, нечестните собственици на рекламни сайтове могат да ги "измамят", поради което уместността на търсенето може да бъде значително намалена.

Търсачките (search enginus) са по-разпространени от директориите и техният брой, който днес възлиза на няколко десетки, продължава постоянно да расте. Професионална работаизисква специални умения с тях, тъй като простото въвеждане на дума за търсене в линия за търсене ще доведе до създаването на списък от стотици хиляди еквивалентни суми.

Тази търсачка стартира през 1998 г. V понастоящемТази система по всички значими параметри е единственият лидер сред глобалните системи за търсене. Google е една от най-популярните търсачки. Тази търсачка получи името си от думата "Googol", което означава число, изписано като единица, последвано от 100 нули. Google има поддомейни за Голям бройдържави - за Русия например това е www.google.com.ru.

Търсачката на Google ще намери по желание на потребителя не само хипертекстови документи, но също и doc, pdf, mp3 и така нататък файлове. Google може да се похвали със своя висококачествен „двигател“, който търси в интернет заявки от потребители. Уместността - степента, в която намерените резултати от търсенето съответстват на заявката - често е по-висока за Google, отколкото за руските търсачки като Yandex. Именно поради тази причина всички повече потребителиИнтернет започва да използва Google като основна търсачка. Търсачката на Googleизползва алгоритъма за класиране на връзки PageRank, който определя авторитета на даден сайт при генериране на списък с резултати от търсенето. PageRank е подобен на индекса за цитиране на Yandex и зависи от качеството и броя на връзките към този сайт. Благодарение на PageRank потребителите намират точно това, което търсят в интернет.

Търсачката на Google копира всички страници в своята база данни (кешове), така че потребителят да може да види страницата, като я отвори от кеша на Google, а не от оригиналния източник, което може значително да намали времето за търсене. Характеристика на Google е, че търсачката напълно индексира всички страници. Също така си струва да се отбележи Възможност за Googleтърсене на изображения с различно качество, размер, формат. Като въведете аритметичен израз в лентата за търсене, можете да получите правилния отговор от Google. За да се възползвате от Търсене в Googleне е необходимо да отидете на www.google.com.ru - можете да инсталирате google програмаЛента с инструменти, която ще създаде лента с инструменти в браузъра с лента за търсенекъдето можете да въведете вашата заявка.

В допълнение към изброените глобални търсачки, в някои случаи, по-скоро по инерция, продължават да се използват остарели. услуги за търсенесред които най-забележителни са HotBot (http://www.hotbot.com/) и Excite (http://www.excite.com/). Малкият обем на техните индексни файлове днес не позволява да се разчита на информацията, която предоставят. Една „млада“ търсачка като Ask (http://www.ask.com/), въпреки впечатляващия обем индексирани документи, все още не представлява особен интерес. Ask например не може да търси документи на руски език.

Търсачката или просто „търсачката“ е тази, която търси интернет страници в съответствие с искането на потребителя. Най-известната търсачка в света е Google, най-популярната в Русия е Yandex, а една от най-старите търсачки е Yahoo. Може да се различи архитектурата на търсачката търсачка- ядрото на системата, представено от набор от софтуерни модули; база данни или индекскойто съхранява информация за всички интернет ресурси, известни на търсачката; и набор от сайтове, които са входни точкипотребители към системата (www.google.com, www.yandex.ru, ru.yahoo.com и др.). Всичко това отговаря на класиката тристепенна архитектураинформационни системи: има потребителски интерфейс, бизнес логика, която в случая е представена чрез внедряване на алгоритми за търсене и база данни.

Специфика на търсенето в Интернет

На пръв поглед търсенето в интернет не се различава много от обичайното извличане на информация, например от обработка към база данни или от задача за търсене на файл. Разработчиците на първите търсачки в Интернет мислеха така, но с течение на времето разбраха, че са се объркали ...

Първата разлика между търсене в Интернет и обичайното е, че алгоритъмът за търсене на една и съща база данни предполага, че структурата й е известна предварително от търсачката и автора на заявката. В интернет по очевидни причини това не е така. Интернет страниците не образуват структура на директории, а мрежа, което също влияе върху алгоритмите за търсене, а форматът на данните, публикувани в интернет ресурси, не се контролира от никого.

Втората разлика, като едно от последствията от първата, е, че заявката се представя не като набор от стойности на параметри (критерии за търсене), а като текст, написан от човек на естествен език за него. По този начин, преди да започнете търсене, все още трябва да разберете какво точно иска заявителят. Имайте предвид, че не трябва да бъде разбран от друг човек, а от компютър.

Третата разлика е по-малко очевидна, но не по-малко фундаментална: в каталог или база данни всички елементи са равни. В Интернет има конкуренция и следователно разделение на по-надеждни доставчици на информация и източници, близки по статут до „информационен боклук“. Така хората класифицират ресурсите, а търсачките също ги класифицират.

И в заключение трябва да се добави, че областта за търсене е милиарди страници, по няколко килобайта или повече всяка. Около десет милиона страници се добавят ежедневно и същият брой се актуализира. Всичко това е представено от различни цифрови формати... За съжаление дори съвременни технологииа ресурсите, с които разполагат лидерите на пазара за услуги за търсене в интернет, не им позволяват да се справят с цялото това разнообразие в движение и в пълен обем.

От какво се състои търсачката?

Преди всичко е важно да се осъзнае още една и може би най-съществена разлика между работата на търсачката в Интернет и работата на всяка друга информационна система, която търси в различни видове каталози и бази данни. Интернет търсачкамашината не търси информация сред това, което има в Интернет към момента на заявката, а се опитва да формира отговор въз основа на собственото си съхранение на информация - база данни, наречена индекс, където съхранява досие за всичко, което знае и периодично го актуализира. С други думи, търсачката не работи с оригинала, а с проекцията на площта приемливи стойностиТърсене. Всичко последните променив интернет може да се отрази в резултатите от търсенето само след като съответните страници са индексиран- добавен към индекса на търсачката. И така, търсачката в първо приближение се състои от търсачка, база данни или индекс (индекс) и входни точки в системата.

Сега накратко за това от какво се състои търсачката:

  • Паяк или паяк (паяк).Приложение, което изтегля страници от интернет ресурси. Паякът не "пълзи" никъде - той само изисква съдържанието на страниците по същия начин, както прави обикновен интернет браузър, изпращайки до HTTP сървърискане и получаване на отговор от него. След като съдържанието на страницата бъде изтеглено, то се изпраща до индексатора и робота, които са описани по-долу.

  • Индексатор.Индексаторът извършва първоначален анализ на съдържанието на изтеглената страница, подчертава основните части (заглавие на страницата, описание, връзки, заглавия и т.н.) и разлага всичко това на секции от базата данни за търсене - поставя го в индекса на търсачката . Този процес се нарича индексиране на интернет ресурси, откъдето идва и името на самата подсистема. Въз основа на резултатите от първоначалния анализ, индексаторът може също да реши, че страницата като цяло е „недостойна“ да бъде в индекса. Причините за това решение може да са различни: страницата няма заглавие, е точно копие на друга страница, която вече е в индекса, или съдържа връзки към ресурси, забранени от закона.

  • CrawlerТова „животно“ е предназначено да „пълзи“ по връзките, налични на страницата, изтеглена от паяка. Обхождането анализира пътеките, водещи от текуща страницакъм други раздели на сайта или към страници външен интернетресурси и определя по-нататъшния ред на паяка, преминаващ през нишките на световната мрежа. Роботът е този, който намира нови страници за търсачката и ги прехвърля на паяка. Работата на кроулера се основава на алгоритми за търсене на графики по ширина и дълбочина.

  • Подсистема за обработка и издаване на резултати (Search Engine and Results Engine).Най-важната част от всяка търсачка. Разработчиците пазят алгоритмите за работа на тази подсистема на компанията в строга тайна, тъй като са търговска тайна. Именно тази част от търсачката е отговорна за адекватността на отговора на търсачката на заявката на потребителя. Тук има два основни компонента:
    • Подсистема за класиране. Обхват- това са страници на интернет сайтове в съответствие с тяхната релевантност за конкретна заявка. Релевантност на страницата- това от своя страна е степента, в която съдържанието на страницата съответства на смисъла на заявката, а търсачката определя тази стойност независимо, въз основа на огромен брой параметри. Класирането е най-загадъчната и противоречива част от „изкуствения интелект“ на търсачката. Класирането на една страница, освен нейната структура и съдържание (съдържание), се влияе и от: броя и качеството на връзките, водещи до тази страницаот други сайтове; възрастта на домейна на самия сайт; естеството на поведението на потребителите, които разглеждат страницата и много други фактори.

    • Подсистема за издаване на резултати.Задачите на тази подсистема включват интерпретацията на потребителската заявка, нейния превод на езика структурирани заявкикъм индекса и формирането на страници с резултати от търсенето. В допълнение към анализирането на самия текст на заявката, търсачката може да вземе предвид и:
      • Заявете контекстобразуван от въз основа на значението на предишни заявки, направени от потребителя... Например, ако потребител често посещава сайтове на автомобилна тематика, тогава когато го попитат с думата "Волга" или "Ока", той вероятно иска да получи информация за автомобили от тези марки, а не за това къде започват курса си и къде Руснаците със същото име се вливат в реки. Нарича се персонализирано търсенекогато резултатите за една и съща заявка за различни потребители са значително различни.

      • Потребителски предпочитанияза които тя (търсачката) може да „предполага“, чрез анализиране на избрани от потребителя връзкина страниците с резултати от търсенето. Това е друг начин за коригиране на контекста на заявката: потребителят с действията си сякаш казва на машината какво точно иска да намери. По правило търсачките се опитват да добавят към резултатите от търсенето страници, които са подходящи за заявката, но свързани с доста различни областиживот. Да приемем, че потребителят се интересува от филми и затова често избира връзки към страници с нови филмови съобщения, дори ако тези страници не са съвсем подходящи за оригиналната заявка. При генериране на отговор на следващата си заявка системата може да даде предпочитание на страници с описания на филми, чието заглавие съдържа думи от текста на заявката.

      • регионкоето е много важно при обработка на търговски запитвания, свързани с покупка на стоки и услуги от местни доставчици. Ако се интересувате от разпродажби и отстъпки и сте в Москва, тогава най-вероятно изобщо не се интересувате какви промоции по тази тема се провеждат в Санкт Петербург, освен ако не сте посочили това изрично в текста на вашата заявка. На първо място, в резултатите от търсенето трябва да се появи информация за продажбите в Москва. По този начин съвременните търсачки разделят заявките на геозависимии геонезависими... Най-вероятно, ако търсачката реши, че вашата заявка е геозависима, тя автоматично добавя атрибут за регион към нея, който се опитва да определи от информация за вашия интернет доставчик.

      • Време. Търсачкипонякога е необходимо да се анализира кога са се случили събитията, описани на страницата. В крайна сметка информацията постоянно става остаряла и потребителят се нуждае преди всичко от връзки към последните новини, текущи прогнози и съобщения за събития, които все още не са приключили или трябва да дойдат в бъдеще. Разбирането, че уместността на дадена страница зависи от времето, и съпоставянето й с момента на изпълнение на заявката също изисква доста интелигентност от търсачката.

      Освен това търсачката търси най-близкото по значение ключово исканев индекса и генерира резултати чрез сортиране на връзките в низходящ ред на уместност. Всяка ключова дума в индекса има отделен ранг за страниците, които са подходящи за нея. Не за всяка комбинация от букви и цифри, системата стартира нова заявка за ключ, но прави това въз основа на анализ на честотата на определени потребителски заявки. Търсачката може също да разбърка класирането от различни ключови думи в резултатите от търсенето, ако смята, че това е, което потребителят иска.

Общи принципи на търсачката

Трябва да разберете, че услугите за търсене в Интернет са много, много печеливш бизнес... Не е нужно да навлизате в подробности как живеят компании като Google и Yandex, тъй като основната част от печалбата им е приходите от контекстна реклама. И тъй като търсенето в интернет е изключително печеливш бизнес, тогава конкуренцията между такива компании е много сериозна. Какво определя конкурентоспособността на пазара за търсене в Интернет? Отговорът е качеството на резултатите от търсачката. Логично е, че колкото по-високо е, толкова повече нови потребители има системата и толкова по-ценно е съдържанието, публикувано на страниците на точно този брой контекстна реклама... Разработчиците на търсачки полагат много усилия, за да „изчистят“ резултатите от своите резултати от търсенето от всякакъв вид информационен боклук, популярно наричан спам (спам). Повече подробности за това как се прави това ще бъдат описани в отделна статия и тук ще дам основни принципиповедението на търсачката, формулирано под формата на заключения по всичко изброено по-горе.

  1. Търсачката, представена от своите паяци и обходници, непрекъснато сканира интернет за появата на нови и актуализации на съществуващи страници, тъй като неподходящата информация се оценява по-долу.

  2. Търсачката периодично актуализира класацията на ресурсите според тяхната релевантност ключови запитваниязащото в индекса постоянно се появяват нови страници. Този процес се нарича SERP актуализация.

  3. Поради огромното количество информация, публикувана в световна мрежаи ограничените ресурси на самата търсачка, търсачката винаги се опитва да изтегли само най-необходимото (според нея). В неговия арсенал има всякакви филтри, които отрязват много ненужни още на етапа на индексиране или изхвърлят спам от индекса въз основа на резултатите от актуализацията на резултатите от търсенето.

  4. Когато анализират заявка, съвременните търсачки се опитват да вземат предвид не само текста на самата заявка, но и нейната среда: контекста и предпочитанията на потребителя, които бяха споменати по-рано, както и времето на заявката, регион и много други.

  5. Уместността на дадена страница се влияе не само от нейните вътрешни параметри (структура, съдържание), но и от външни параметри, като връзки към страницата от други сайтове и поведението на потребителите при преглеждането й.

Търсачките непрекъснато се подобряват. Перфектна работатърсачката (за лице) е възможна само ако всички решения относно индексирането и класирането се вземат от комисия, състояща се от Голям бройспециалисти от всички области и направления човешка дейност... Тъй като това е нереалистично, такава комисия се заменя експертни системи, евристични алгоритми за търсене и други елементи на изкуствения интелект. Вероятно работата на всички тези подсистеми също би могла да даде по-адекватни резултати, ако беше възможно да се обработват абсолютно всички налични данни в свободен достъпв интернет, но това е почти невъзможно. Несъвършен изкуствен интелекти ресурсните ограничения са две основни причини, поради които резултатите от търсенето не винаги са приятни за потребителите, но всичко това може да бъде излекувано с времето. Днес според мен работата на най-известните и големи търсачки е напълно съобразена с нуждите и очакванията на техните потребители.

Какво е

DuckDuckGo е доста добре позната търсачка с отворен код. програмен код... Сървърите се намират в САЩ. В допълнение към собствения си робот, търсачката използва резултатите от други източници: Yahoo, Bing, Wikipedia.

толкова по-добре

DuckDuckGo се позиционира като търсачка, която осигурява максимална поверителност и поверителност. Системата не събира никакви потребителски данни, не съхранява регистрационни файлове (без история на търсене), използвайте бисквиткивъзможно най-ограничен.

DuckDuckGo не събира и не споделя лична информация от потребителите. Това е нашата политика за поверителност.

Габриел Вайнберг, основател на DuckDuckGo

Защо ти трябва

Всички големи търсачки се опитват да персонализират въз основа на данните за човека пред монитора. Това явление се нарича "филтърен балон": потребителят вижда само онези резултати, които са в съответствие с неговите предпочитания или които системата счита за такива.

DuckDuckGo създава обективна картина, която не зависи от миналото ви поведение в мрежата, и премахва тематичните Google Adsи Yandex въз основа на вашите запитвания. DuckDuckGo улеснява търсенето на информация на чужди езици: Google и Yandex по подразбиране дават предпочитание на сайтове на руски език, дори ако заявката е въведена на друг език.


Какво е

not Evil е търсачка за анонимната мрежа Tor. За да го използвате, трябва да отидете в тази мрежа, например, като стартирате специализирана със същото име.

not Evil не е единствената по рода си търсачка. Има ПОГЛЕД (търсене по подразбиране в браузъра Tor, достъпно от обикновен интернет) или TORCH (една от най-старите търсачки в мрежата на Tor) и други. Ние се спряхме на не Evil поради недвусмисления намек на Google (само погледнете началната страница).

толкова по-добре

Търсения, при които Google, Yandex и други търсачки са затворени по принцип.

Защо ти трябва

В мрежата Tor има много ресурси, които не могат да бъдат намерени в спазващия закона интернет. И техният брой ще нараства, тъй като правителството затяга контрола си върху съдържанието в мрежата. Tor е вид мрежа в мрежата със собствени социални мрежи, торент тракери, медии, платформи за търговия, блогове, библиотеки и т.н.

3. YaCy

Какво е

YaCy е децентрализирана търсачка, базирана на P2P мрежи. Всеки компютър, на който е основната програмен модул, сканира интернет самостоятелно, тоест е аналогичен на робот за търсене. Резултатите се събират в обща базакойто се използва от всички членове на YaCy.

толкова по-добре

Трудно е да се каже дали тук е по-добре или по-лошо, тъй като YaCy е напълно различен подход за организиране на търсене. Липсата на един сървър и собственик на фирма прави резултатите напълно независими от нечии предпочитания. Автономията на всеки възел изключва цензурата. YaCy е в състояние да търси в дълбоката мрежа и неиндексирани публични мрежи.

Защо ти трябва

Ако сте привърженик на софтуер с отворен код и безплатния интернет, незасегнат от правителствени агенциии големи корпорации, тогава YaCy е вашият избор. Може да се използва и за организиране на търсения в рамките на корпоративна или друга автономна мрежа. И въпреки че YaCy не е много полезен в ежедневието, той си заслужава алтернатива на googleпо отношение на процеса на търсене.

4. Пипл

Какво е

Pipl е система, предназначена за търсене на информация за конкретно лице.

толкова по-добре

Авторите на Pipl твърдят, че техните специализирани алгоритми търсят по-ефективно от "обикновените" търсачки. По-специално, приоритетните източници на информация са профилите социални мрежи, коментари, списъци с участници и различни бази данни, където се публикува информация за хора, например бази данни със съдебни решения. Лидерството на Pipl в тази област е потвърдено от Lifehacker.com, TechCrunch и други.

Защо ти трябва

Ако трябва да намерите информация за човек, живеещ в Съединените щати, тогава Pipl ще бъде много по-ефективен от Google. Базите данни на руските съдилища очевидно са недостъпни за търсачката. Следователно той не се справя толкова добре с гражданите на Русия.

Какво е

FindSounds е друга специализирана търсачка. Търси различни звуци (къща, природа, коли, хора и т.н.) в отворени източници. Услугата не поддържа заявки на руски език, но има впечатляващ списък с рускоезични тагове, които можете да търсите.

толкова по-добре

Резултатите са само звуци и нищо повече. В настройките за търсене можете да зададете желания формат и качество на звука. Всички намерени звуци са достъпни за изтегляне. Има търсене на звуци по модел.

Защо ти трябва

Ако трябва бързо да откриете звука на изстрел от мускет, ударите на смучещ кълвач или писъка на Хоумър Симпсън, тогава тази услуга е за вас. И ние избрахме това само от наличните заявки на руски език. На английски спектърът е още по-широк.

Но сериозно, специализирана услуга включва специализирана аудитория... Но какво ще стане, ако е полезно?

Какво е

Wolfram | Alpha е изчислителна търсачка. Вместо връзки към статии, които съдържат ключови думи, той предоставя готов отговор на заявка на потребителя. Например, ако въведете „сравнете населението на Ню Йорк и Сан Франциско“ на английски във формуляра за търсене, Wolfram | Alpha незабавно ще покаже таблици и графики със сравнение.

толкова по-добре

Тази услуга е по-добра от другите за намиране на факти и изчисляване на данни. Wolfram | Alpha събира и организира знанията, налични в мрежата от различни областивключително наука, култура и развлечения. Ако тази база данни съдържа готов отговор на заявка за търсене, системата го показва, ако не, изчислява и показва резултата. В този случай потребителят вижда само необходимата информацияи нищо повече.

Защо ти трябва

Ако сте например студент, анализатор, журналист или изследовател, можете да използвате Wolfram | Alpha, за да намерите и изчислите данни, свързани с вашата работа. Услугата не разбира всички заявки, но непрекъснато се развива и става все по-умна.

Какво е

Метатърсачката Dogpile показва комбиниран списък с резултати от резултати от търсенето от Google, Yahoo и други популярни търсачки.

толкова по-добре

Първо, Dogpile показва по-малко реклами. Второ, услугата използва специален алгоритъм за намиране и показване най-добри резултатиот различни търсачки... Според разработчиците на Dogpile тяхната система генерира най-пълните резултати от търсенето в целия Интернет.

Защо ти трябва

Ако не можете да намерите информация в Google или друга стандартна търсачка, потърсете я в няколко търсачки едновременно с помощта на Dogpile.

Какво е

BoardReader е система за текстово търсеневъв форуми, услуги за въпроси и отговори и други общности.

толкова по-добре

Услугата ви позволява да стесните полето за търсене до социални платформи... Благодарение на специалните филтри можете бързо да намерите публикации и потребителски коментари, които отговарят на вашите критерии: език, дата на публикуване и име на сайта.

Защо ти трябва

BoardReader може да бъде полезен за PR специалисти и други медийни професионалисти, които се интересуват от мнението на масовата аудитория по определени въпроси.

Накрая

Животът на алтернативните търсачки често е мимолетен. Lifehacker попита Сергей Петренко, бивш генерален директор на украинския клон на Yandex, за дългосрочните перспективи на подобни проекти.


Сергей Петренко

Бивш главен изпълнителен директор на Yandex.Ukraine.

Що се отнася до съдбата на алтернативните търсачки, тя е проста: да бъдат много нишови проекти с малка аудитория, следователно, без ясни търговски перспективи, или, обратно, с пълна яснота за тяхното отсъствие.

Ако погледнете примерите в статията, можете да видите, че такива търсачки или се специализират в тясна, но търсена ниша, която, може би само досега, не е нараснала достатъчно, за да бъде забележима в радарите на Google или Yandex, или те тестват оригинална хипотеза в класирането, която все още не е приложима при редовно търсене.

Например, ако търсенето в Tor изведнъж се окаже търсено, тоест резултатите от там ще са необходими поне за процент от аудиторията на Google, тогава, разбира се, обикновените търсачки ще започнат да решават проблема как за да ги намерите и покажете на потребителя. Ако поведението на аудиторията покаже, че резултатите изглеждат по-подходящи за забележим дял от потребители в забележим брой заявки, данни без да се вземат предвид зависими от потребителя фактори, тогава Yandex или Google ще започнат да дават такива резултати.

„Да бъдеш по-добър“ в контекста на тази статия не означава „да бъдеш по-добър във всичко“. Да, в много аспекти нашите герои са далеч от Google и Yandex (дори Bing е далеч). Но от друга страна, всяка от тези услуги дава на потребителя нещо, което гигантите на индустрията за търсене не могат да предложат. Със сигурност и вие познавате подобни проекти. Споделете с нас - ще обсъдим.