1 какво е търсачка. Търсачки: състав, функции, принципи на работа. Кратка история на развитието на търсачките

Оставете коментар 6,950

Интернет е необходим на много потребители, за да получават отговори на заявките (въпросите), които въвеждат.

Ако нямаше търсачки, потребителите ще трябва самостоятелно да търсят необходимите сайтове, да ги запомнят, да ги записват. В много случаи намирането на нещо подходящо „ръчно“ би било много трудно, а често и просто невъзможно.

За нас цялата тази рутинна работа по намиране, съхраняване и сортиране на информация в сайтовете се извършва от търсачките.

Да започнем с известни търсачкиРунет.

Търсачки в интернет на руски език

1) Да започнем с местната търсачка. Yandex работи не само в Русия, но работи и в Беларус и Казахстан, в Украйна, в Турция. Има и Yandex на английски.

2) Търсачката на Googleдойде при нас от Америка, има рускоезична локализация:

3) Домашна търсачка Mile ru, която едновременно представлява социалната мрежа VKontakte, Odnoklassniki, също My World, известните Mail.ru Answers и други проекти.

4) Интелигентна търсачка

Нигма (Nigma) http://www.nigma.ru/

От 19 септември 2017 г. "интелектуалната" нигма не работи. Той престана да представлява финансов интерес за създателите си, те преминаха към друга търсачка, наречена CocCoc.

5) Известната компания Rostelecom създаде търсачката Sputnik.

Има търсачка Sputnik, създадена специално за деца, за която писах.

6) Rambler беше една от първите местни търсачки:

Има и други добре познати търсачки в света:

Bing,
Yahoo!,
DuckDuckGo,
Байду,
Екозия,

Нека се опитаме да разберем как работи търсачката, а именно как се индексират сайтовете, анализът на резултатите от индексирането и формирането на резултатите от търсенето. Принципите на работа на търсачките са приблизително еднакви: търсене на информация в Интернет, съхраняване и сортиране за издаване в отговор на заявки на потребителя. Но алгоритмите, по които работят търсачките, могат да бъдат много различни. Тези алгоритми се пазят в тайна и разкриването им е забранено.

Като въведете същата заявка в низове за търсене различни търсачки, можете да получите различни отговори. Причината е, че всички търсачки използват свои собствени алгоритми.

Целта на търсачките

На първо място, трябва да знаете, че търсачките са търговски организации. Тяхната цел е печалба. Печалбата може да се получи от контекстна реклама, други видове реклама, от популяризиране на желаните сайтове до горни линиииздаване. Като цяло има много начини.

Зависи какъв размер на аудиторията има, тоест колко хора използват тази търсачка. Колкото по-голяма е публиката, толкова Повече ▼на хората ще се показват реклами. Съответно тази реклама ще струва повече. Търсачките могат да увеличат аудиторията си чрез собствена реклама, както и чрез привличане на потребители чрез подобряване на качеството на своите услуги, алгоритъма и удобството на търсене.

Най-важната и трудна част тук е разработването на напълно функционален алгоритъм за търсене, който ще осигури подходящи резултати за повечето потребителски заявки.

Работата на търсачките и действията на уеб администраторите

Всяка търсачка има свой собствен алгоритъм, който трябва да вземе предвид огромен брой различни фактори при анализиране на информация и компилиране на резултати в отговор на заявка на потребителя:

възрастта на конкретен сайт,
характеристики на домейна на сайта,
качеството на съдържанието на сайта и неговите видове,
характеристики на навигацията и структурата на сайта,
използваемост (удобство за потребителите),
поведенчески фактори (търсачката може да определи дали потребителят е намерил това, което е търсил на сайта или потребителят се е върнал отново в търсачката и там отново търси отговор на същата заявка)
и т.н.

Всичко това е необходимо именно за да може изходът по желание на потребителя да бъде максимално релевантен, задоволяващ нуждите на потребителя. В същото време алгоритмите на търсачката непрекъснато се променят, усъвършенстват. Както се казва, няма граници за съвършенството.

От друга страна, уеб администраторите и оптимизаторите постоянно измислят нови начини за популяризиране на своите сайтове, които не винаги са честни. Задачата на разработчиците на алгоритъма търсачки- направете промени в него, които не позволяват на "лошите" сайтове на нечестни оптимизатори да бъдат в ТОП.

Как работи търсачката?

Сега как върви директна работатърсачка. Състои се от поне три етапа:

сканиране,
индексиране,
вариращи.

Броят на сайтовете в Интернет е просто астрономически. И всеки сайт е информация, информационно съдържание, който е създаден за читатели (живи хора).

Сканиране

Това е търсачка, която се лута из интернет, за да събира нова информация, да анализира връзки и да намира ново съдържание, което може да се използва за показване на потребителя в отговор на неговите искания. За сканиране търсачките имат специални роботинаречени роботи за търсене или паяци.

Търсачките са програми, които автоматичен режимпосещавайте уебсайтове и събирайте информация от тях. Сканирането може да бъде основно (роботът влиза в нов сайт за първи път). След първоначалното събиране на информация от сайта и въвеждането й в базата данни на търсачката, роботът започва да посещава страниците му с определена редовност. Ако има някакви промени (добавено ново съдържание, изтрихте стария), тогава всички тези промени ще бъдат записани от търсачката.

Основната задача на паяка за търсене е да намери нова информация и да я даде на търсачката за следващия етап на обработка, тоест за индексиране.

Индексиране

Търсачката може да търси информация само между тези сайтове, които вече са въведени в нейната база данни (индексирани от нея). Ако сканирането е процес на търсене и събиране на информация, която е налична на конкретен сайт, тогава индексирането е процесът на въвеждане на тази информация в базата данни на търсачката. На този етап търсачката автоматично решава дали да въведе тази или онази информация в своята база данни и къде да я въведе, в кой раздел на базата данни. Например, Google индексира почти цялата информация, намерена от неговите роботи в Интернет, докато Yandex е по-придирчив и не индексира всичко.

За новите сайтове етапът на индексиране може да бъде дълъг, така че новите сайтове могат да чакат дълго време за посетители от търсачките. А новата информация, която се появява на стари, добре популяризирани сайтове, може да бъде индексирана почти незабавно и почти веднага да влезе в „индекса“, тоест в базата данни на търсачките.

Обхват

Класирането е изграждането на информация, която преди това е била индексирана и въведена в базата на тази или онази търсачка, по ранг, тоест каква информация търсачката ще покаже на своите потребители на първо място и каква информация трябва да се постави в "ранга" по-долу. Класирането може да се припише на етапа, на който търсачката обслужва своя клиент – потребител.

На сървърите на търсачката получената информация се обработва и се генерират резултатите за огромен набор от всякакви заявки. Това е мястото, където алгоритмите на търсачката влизат в игра. Всички сайтове, включени в базата данни, са класифицирани по теми, темите са разделени на групи заявки. За всяка от групите искания може да се състави предварителен въпрос, който впоследствие ще бъде коригиран.

Какво е

DuckDuckGo е доста добре позната търсачка с отворен код. програмен код... Сървърите се намират в САЩ. В допълнение към собствения си робот, търсачката използва резултатите от други източници: Yahoo, Bing, Wikipedia.

толкова по-добре

DuckDuckGo се позиционира като търсачка, която осигурява максимална поверителност и поверителност. Системата не събира никакви потребителски данни, не съхранява логове (без история на търсене), използването на бисквитки е възможно най-ограничено.

DuckDuckGo не събира лична информацияпотребители и не го споделя. Това е нашата политика за поверителност.
Габриел Вайнберг, основател на DuckDuckGo

защо ти трябва

Всички големи търсачки се опитват да персонализират въз основа на данните за човека пред монитора. Това явление се нарича „филтърен балон“: потребителят вижда само онези резултати, които са в съответствие с неговите предпочитания или които системата счита за такива.

DuckDuckGo създава обективна картина, която не зависи от миналото ви поведение в мрежата, и елиминира темата Google Adsи Yandex въз основа на вашите запитвания. DuckDuckGo улеснява търсенето на информация на чужди езици: Google и Yandex по подразбиране дават предпочитание на сайтове на руски език, дори ако заявката е въведена на друг език.

Какво е

not Evil е система, която търси анонимна мрежа Tor. За да го използвате, трябва да отидете в тази мрежа, например, като стартирате специализирана със същото име.

not Evil не е единствената по рода си търсачка. Има ПОГЛЕД (търсене по подразбиране в браузъра Tor, достъпно от обикновен интернет) или TORCH (една от най-старите търсачки в мрежата Tor) и други. Ние се спряхме на не Evil заради недвусмисления намек на Google (само погледнете началната страница).

толкова по-добре

Търсения, при които Google, Yandex и други търсачки са затворени по принцип.

защо ти трябва

В мрежата Tor има много ресурси, които не могат да бъдат намерени в спазващия закона интернет. И техният брой ще расте, тъй като правителството затяга контрола си върху съдържанието в мрежата. Tor е вид мрежа в мрежата със собствени социални мрежи, торент тракери, медии, пазари, блогове, библиотеки и т.н.

3. YaCy

Какво е

YaCy е децентрализирана търсачка, базирана на P2P мрежи. Всеки компютър, на който е основната програмен модул, сканира интернет самостоятелно, тоест е аналог на робот за търсене... Резултатите се събират в обща базакойто се използва от всички членове на YaCy.

толкова по-добре

Трудно е да се каже дали тук е по-добре или по-лошо, тъй като YaCy е напълно различен подход за организиране на търсене. Липсата на един сървър и собственик на фирма прави резултатите напълно независими от нечии предпочитания. Автономията на всеки възел изключва цензурата. YaCy е в състояние да търси в дълбоката мрежа и неиндексирани публични мрежи.

защо ти трябва

Ако сте привърженик на софтуер с отворен код и безплатния интернет, незасегнат от правителствени агенциии големи корпорации, тогава YaCy е вашият избор. Може да се използва и за организиране на търсения в рамките на корпоративна или друга автономна мрежа. И въпреки че YaCy не е много полезен в ежедневието, това е така достойна алтернатива Google по отношение на процеса на търсене.

4. Пипл

Какво е

Pipl е система, предназначена за търсене на информация за конкретно лице.

толкова по-добре

Авторите на Pipl твърдят, че техните специализирани алгоритми търсят по-ефективно от "обикновените" търсачки. По-специално, приоритетните източници на информация са профилите в социалните медии, коментарите, списъците с членове и различни бази данни, където се публикува информация за хора, като бази данни със съдебни решения. Лидерството на Pipl в тази област е потвърдено от Lifehacker.com, TechCrunch и други.

защо ти трябва

Ако трябва да намерите информация за човек, живеещ в САЩ, тогава Pipl ще бъде много по-ефективен от google... Базите данни на руските съдилища очевидно са недостъпни за търсачката. Следователно той не се справя толкова добре с гражданите на Русия.

Какво е

FindSounds е друга специализирана търсачка. Търси различни звуци (къща, природа, коли, хора и др.) в отворени източници... Услугата не поддържа заявки на руски, но има впечатляващ списък с рускоезични тагове, които можете да търсите.

толкова по-добре

Резултатите са само звуци и нищо повече. В настройките за търсене можете да зададете желания формат и качество на звука. Всички намерени звуци са достъпни за изтегляне. Има търсене на звуци по модел.

защо ти трябва

Ако трябва бързо да откриете звука на изстрел от мускет, ударите на смучещ кълвач или писъка на Хоумър Симпсън, тогава тази услуга е за вас. И ние избрахме това само от наличните рускоезични заявки. На английски спектърът е още по-широк.

Но сериозно, специализирана услугапредполага специализирана аудитория... Но какво ще стане, ако е полезно?

Какво е

Wolfram | Alpha е изчислителна търсачка. Вместо връзки към статии, които съдържат ключови думи, дава готов отговор на заявката на потребителя. Например, ако въведете „сравнете населението на Ню Йорк и Сан Франциско“ на английски във формуляра за търсене, Wolfram | Alpha незабавно ще покаже таблици и графики със сравнение.

толкова по-добре

Тази услуга е по-добра от другите за намиране на факти и изчисляване на данни. Wolfram | Alpha събира и организира знанията, налични в мрежата от различни областивключително наука, култура и развлечения. Ако тази база данни съдържа готов отговор на заявка за търсене, системата го показва, ако не, изчислява и показва резултата. В този случай потребителят вижда само необходимата информация и нищо излишно.

защо ти трябва

Ако сте например студент, анализатор, журналист или изследовател, можете да използвате Wolfram | Alpha, за да намерите и изчислите данни, свързани с вашата работа. Услугата не разбира всички заявки, но непрекъснато се развива и става все по-умна.

Какво е

Метатърсачката Dogpile показва комбо поле с резултати от Резултати от търсенето Google, Yahoo и други популярни системи.

толкова по-добре

Първо, Dogpile показва по-малко реклами. Второ, услугата използва специален алгоритъм за намиране и показване на най-добрите резултати от различни търсачки. Според разработчиците на Dogpile техните системи са оформени от най-много пълен бройнавсякъде в интернет.

защо ти трябва

Ако не можете да намерите информация в Google или друга стандартна търсачка, потърсете я в няколко търсачки едновременно с помощта на Dogpile.

Какво е

BoardReader е система за текстово търсеневъв форуми, услуги за въпроси и отговори и други общности.

толкова по-добре

Услугата ви позволява да стесните полето за търсене до социални платформи... Благодарение на специалните филтри можете бързо да намерите публикации и потребителски коментари, които отговарят на вашите критерии: език, дата на публикуване и име на сайта.

защо ти трябва

BoardReader може да бъде полезен за PR специалисти и други медийни професионалисти, които се интересуват от мнението на масовата аудитория по определени въпроси.

Най-накрая

Животът на алтернативните търсачки често е мимолетен. Lifehacker попита Сергей Петренко, бивш генерален директор на украинския клон на Yandex, за дългосрочните перспективи на подобни проекти.

Сергей Петренко

Бивш управител Yandex.Украйна.

Що се отнася до съдбата на алтернативните търсачки, тя е проста: да бъдат много нишови проекти с малка аудитория, следователно, без ясни търговски перспективи, или, обратно, с пълна яснота за тяхното отсъствие.

Ако погледнете примерите в статията, можете да видите, че такива търсачки или се специализират в тясна, но търсена ниша, която, може би само досега, не е нараснала достатъчно, за да бъде забележима в радарите на Google или Yandex, или те тестват оригинална хипотеза в класирането, която все още не е приложима при редовно търсене.

Например, ако търсенето в Tor изведнъж се окаже търсено, тоест резултатите от там ще са необходими поне за процент от аудиторията на Google, тогава, разбира се, обикновените търсачки ще започнат да решават проблема как за да ги намерите и покажете на потребителя. Ако поведението на аудиторията покаже, че резултатите изглеждат по-подходящи за забележим дял от потребители в забележим брой заявки, данни без да се вземат предвид зависими от потребителя фактори, тогава Yandex или Google ще започнат да дават такива резултати.

„Да бъдеш по-добър“ в контекста на тази статия не означава „да бъдеш по-добър във всичко“. Да, в много аспекти нашите герои са далеч от Google и Yandex (дори Bing е далеч). Но от друга страна, всяка от тези услуги дава на потребителя нещо, което гигантите на индустрията за търсене не могат да предложат. Със сигурност и вие познавате подобни проекти. Споделете с нас - ще обсъдим.

V последните годиниуслугите на Google и Yandex станаха част от нашия живот. В тази връзка мнозина вероятно се чудят какво е търсачка? Говорейки с прости думи, това е софтуерна система, предназначени за търсене на информация в В световен мащабуеб. Резултатите му обикновено се представят под формата на списък, често наричан Страници с резултати от търсене (SERP). Информацията може да бъде комбинация от уеб страници, изображения и други типове файлове. Някои търсачки също съдържат информация, налична в бази данни или отворени директории.

За разлика от уеб директориите, които се поддържат само от техните собствени редактори, търсачките също съдържат информация в реално време, като изпълняват алгоритъм на уеб робота.

История на произхода

Самите търсачки се появиха по-рано световна мрежа- през декември 1990 г. Първата такава услуга се наричаше Archie и търсеше съдържанието на FTP файлове чрез команда.

Какво е интернет търсачка? До септември 1993 г. World Wide Web беше изцяло индексирана на ръка. Имаше списък с уеб сървъри, редактиран от Тим Бърнърс-Лий и хостван на уеб сървъра на CERN. Тъй като все повече и повече сървъри влизаха онлайн, горепосочената услуга не можеше да се справи с обработката на такова количество информация.

Една от първите търсачки, базирани на уеб търсене, беше WebCrawler, която излезе през 1994 г. За разлика от своите предшественици, той позволява на потребителите да търсят всяка дума на всяка уеб страница. Оттогава този алгоритъм се превърна в стандарт за всички големи търсачки. Това беше и първото решение, широко известно на обществеността. Също през 1994 г. стартира услугата Lycos, която по-късно се превърна в голям комерсиален проект.

Скоро след това се появиха много търсачки и тяхната популярност се увеличи значително. Те включват Magellan, Excite, Infoseek, Inktomi, Northern Light и AltaVista. Yahoo! беше един от най- популярни начининамира интересни уеб страници, но алгоритъмът му за търсене работеше в собствената си уеб директория, а не в пълнотекстови копия на страниците. Търсещите информация биха могли също да преглеждат директорията, вместо да търсят ключови думи.

Нов кръг на развитие

Google приема идеята за продажба заявки за търсенепрез 1998 г., започвайки от малка компания goto.com. Този ход оказа значително влияние върху SEO бизнеса, който с течение на времето се превърна в едно от най-доходоносните занимания в Интернет.

Около 2000 г. търсачката Google става широко известна. Компанията е постигнала по-добри резултатиза много търсения, използващи иновация, наречена PageRank. Този итеративен алгоритъм оценява уеб страниците въз основа на техните връзки към други сайтове и страници, като приема, че добрите или желаните източници често се цитират от други. Google също поддържа минималистичен интерфейс за своята търсачка. Напротив, много от конкурентите са вградили търсачка в уеб портала. Всъщност Google стана толкова популярен, че се появиха измамни двигатели като Mystery Seeker. Днес има много регионални версии на тази услуга, по-специално търсачката Google.ru, предназначена за рускоговорящи потребители.

Как работят тези услуги?

Как работи класирането и предоставянето на резултати? Какво представляват търсачките по отношение на алгоритъм на действия? Те получават информация чрез уеб обхождане от сайт на сайт. Роботът или "паякът" проверява често срещано име robots.txt файл, адресиран до него, преди да изпрати определена информация за индексиране. Той се фокусира върху много фактори, а именно заглавки, съдържание на страницата, JavaScript, каскадни стилови таблици (CSS) и стандартна маркировка HTML съдържание или метаданни в HTML мета тагове.

Индексирането означава свързване на думи и други разпознаваеми токени, намиращи се на уеб страниците, с техните имена на домейнии полета на HTML базиран... Асоциациите се създават в публична база данниналични данни за заявки за търсене в мрежата. Заявката от потребител може да бъде една дума. Индексът ви помага да намерите информация, свързана със заявка, възможно най-бързо.

Някои от техниките за индексиране и кеширане са търговски тайни, докато обхождането в мрежата е прост процес на посещение на всички сайтове по систематичен начин.

Между посещенията на робота, кешираната версия на страницата (част или цялото съдържание, необходимо за показването й), съхранявана в работна паметтърсачката се изпраща бързо до заявения потребител. Ако посещението е просрочено, търсачката може просто да действа като уеб прокси. В този случай страницата може да се различава от индексите за търсене. Кешираният източник показва версията, чиито думи са индексирани, така че може да бъде полезно, ако действителната страница е загубена.

Архитектура на високо ниво

Обикновено потребителят въвежда заявка в търсачката под формата на няколко ключови думи. Индексът вече съдържа имената на сайтове, съдържащи тези ключови думи, и те се показват незабавно. Истинското натоварване е в създаването на уеб страници, които са списък с резултати от търсенето. Всяка страница в целия списък трябва да бъде класирана според информацията в индексите.

В този случай горният елемент на резултата изисква търсене, реконструкция и маркиране на фрагменти, показващи контекст от съвпадащите ключови думи. Това е само част от обработката на всяка уеб страница в резултатите от търсенето, а следващите страници (до нея) изискват по-голямата част от тази последваща обработка.

В допълнение към простите търсения по ключови думи, търсачките предлагат свои собствени GUI или управлявани от команди оператори и параметри за търсене за прецизиране на резултатите.

Те предоставят необходимите контроли на потребителя чрез цикъл обратна връзка, чрез филтриране и претегляне при уточняване на необходимите данни, като се съобразят начални страниципърви резултати от търсенето. Например от 2007 г. Google.com направи възможно филтрирането на получения списък по дата, като щракнете върху Показване на инструменти за търсене в най-лявата колона на оригиналната страница с резултати и след това изберете желания период от време.

Различни заявки

Повечето търсачки поддържат използването на логически И оператори, ИЛИ и НЕ, за да помогне крайни потребителиизяснете искането. Някои оператори са за литерали, които позволяват на потребителя да прецизира и разширява думите за търсене. Роботът търси думи или фрази по същия начин като въведените команди. Някои търсачки предоставят разширена функционалност за търсене, която позволява на потребителите да определят разстоянието между ключовите думи.

Съществува и търсене, базирано на концепции, при което изследването включва използването на Статистически анализна страници, съдържащи думите или фразите, които търсите. В допълнение, заявките на естествен език позволяват на потребителя да въведе въпрос по същия начин, по който биха задали на човек (най-вече ask.com).

Полезността на търсачката зависи от уместността на набора от резултати, които тя произвежда. Може да има милиони уеб страници, които съдържат определена дума или фраза, но някои може да са по-подходящи, популярни или авторитетни от други. Повечето търсачки използват техники за класиране, за да осигурят най-добри резултати.

Как търсачката решава кои страници са най-подходящи за заявка и в какъв ред трябва да се показват намерените източници, варира значително от един робот до друг. Тези методи също се променят с времето, тъй като използването на Интернет се променя и се развиват нови технологии.

Какво е търсачка: сортове

Има два основни типа търсачки. Първата е система от предварително дефинирани и йерархично подредени ключови думи, които хората масово са програмирали в нея. Втората е система, която генерира "обърнат индекс" чрез анализиране на намерените текстове.

Повечето търсачки са търговски услуги, поддържани от приходи от реклами и като такива, някои от тях позволяват на рекламодателите да се класират в показаните резултати срещу заплащане. Услугите, които не приемат пари за класиране, правят пари чрез стартиране контекстни рекламидо показаните сайтове. Днес промоцията в търсачките е една от най-доходоносните печалби в мрежата.

Кои услуги са най-разпространени?

Google е най-популярната търсачка в света с пазарен дял от 80,52% към март 2017 г.

Google - 80,52%
Bing - 6,92%
Baidu - 5,94%
Yahoo! - 5,35%

Търсачки в Русия и Източна Азия

В Русия и някои източноазиатски страни Google не е най-популярната услуга. Сред руските потребители търсачката Yandex е лидер по популярност (61,9%) в сравнение с Google (28,3%). В Китай най-много е Baidu популярна услуга. Портал за търсенеЮжна Корея – Naver се използва за 70% от онлайн търсенията в страната. Също така Yahoo! в Япония и Тайван е най-много популярно средствоза да намерите нужните ви данни.

Други известни руски търсачки са Mail и Rambler. С началото на развитието на Runet те се радваха на широка популярност, но в момента те значително загубиха позициите си.

Ограничения и критерии за търсене

Въпреки че търсачките са програмирани да класират уебсайтове въз основа на част от тяхната популярност и уместност, емпирично изследванепосочват различни политически, икономически и социални критерии за избор на информацията, която предоставят. Тези пристрастия може да са пряк резултат от икономически (например компании, които рекламират търсачка, също могат да станат по-популярни в резултатите от търсачките нормално търсене) и политически процеси (например премахване на резултати от търсенето в съответствие с местните закони). Например, Google няма да показва някои неонацистки сайтове във Франция и Германия, където отричането на Холокоста е незаконно.

Християнски, ислямски и еврейски търсачки

Глобалният растеж на Интернет и електронни средстваМедиите в мюсюлманския свят през последното десетилетие накараха ислямските привърженици в Близкия изток и азиатския субконтинент да се опитат да създадат свои собствени търсачки и филтрирани портали, които ще позволят на потребителите да търсят безопасно.

Такива услуги съдържат филтри, които допълнително класифицират уебсайтовете като „халал“ или „харам“ въз основа на съвременната експертна интерпретация на „Закона на исляма“.

ImHalal беше онлайн през септември 2011 г., а Halalgoogling през юли 2013 г. Те използват харам филтри, базирани на алгоритми от Google и Bing.

Други търсачки, ориентирани към религията, са Jewgle (еврейски google версия), както и Christian SeekFind.org. Те филтрират сайтове, които отричат или омаловажават техните вярвания.

Система за търсене- софтуерен и хардуерен комплекс с уеб интерфейс, който дава възможност за търсене на информация в Интернет.

Всички търсачки са обединени от факта, че са разположени на специализирани мощни сървъри и са обвързани с ефективни комуникационни канали. Търсачките се наричат още системи за извличане на информация (ISS). Броят на едновременно обслужваните посетители на най-популярните системи достига много хиляди. Най-известните обслужват милиони клиенти на ден. В случаите, когато търсачката е базирана на директория, тя се нарича директория. Той се основава на работата на модераторите. В основата на МКС с пълнотекстово търсене е автоматичното събиране на информация. Извършва се със специални програми. Тези програми периодично проверяват съдържанието на всички интернет ресурси. За да направят това, те се движат или, както се казва, пълзят по различни ресурси. Съответно такива програми се наричат роботи. Има и други имена: тъй като WWW е съкращение за израза World Wide Web, естествено е да наречем такава програма паяк на английски. - Паяк. Напоследък се използват и други имена: автоматични индекси или директории. Всички тези програми разглеждат и "изтеглят" информация от различни URL адреси. Програми от този тип посещават всеки ресурс след определено време. Никоя търсачка не може да индексира целия интернет. Следователно базите данни, в които се събират адресите на индексираните ресурси, са различни за различните търсачки. Въпреки това много от тях се стремят, когато е възможно, да обхванат в работата си цялото пространство на World Wide Web.

За да търси информация с помощта на търсачка, потребителят формулира заявка за търсене. Въз основа на заявката на потребителя търсачката генерира страница с резултати от търсенето. Такива резултати от търсене могат да комбинират различни типове файлове, например: уеб страници, изображения, видео файлове. Някои търсачки също изтеглят данни от бази данни и директории с ресурси в Интернет.

Според методите за търсене и обслужване се разделят четири типа търсачки:

1.Системи, използващи роботи за търсене.

2.системи, контролирани от човека

3.хибридни системи

4.мета системи.

Архитектурата на търсачката включва: робот за търсене, който обхожда интернет сайтове, индексатор, който осигурява бързо търсене, и търсачка, графичен интерфейс за потребителя.

Целта на търсачката е да намери документи, съдържащи или ключови думи, или думи по някакъв начин, свързани с ключови думи. Търсачката е по-добра, толкова повече документи, подходящи за заявката на потребителя, ще върне.

Примери за търсачки

Google- един от най-пълните и популярни чуждестранни IPS. Отличителна черта на Google ISS е технологията за определяне на степента на уместност на документ чрез анализиране на връзки от други източници към този ресурс. Колкото повече връзки към една страница има на други страници, толкова по-високо е нейното класиране в Google IPS. Google използва алгоритъм за изчисляване на авторитета на PageRank. PageRank е един от участниците в класирането на сайтовете в резултатите от търсенето. PageRank не е единственият, но много важен начинопределяне на позицията на сайта в резултатите от търсенето в Google. Google използва PageRank на страниците, които посещава, за да определи реда, в който тези страници се появяват в резултатите от търсенето. През 2010 г. Google стартира гласово търсенев Русия. За да извършите търсене, трябва да натиснете бутона на телефона до лентата за търсене и да кажете вашата заявка, телефонът ще изпрати вашия глас до сървъра, а браузърът ще покаже ред с вашата разпозната заявка и резултати от търсене за то.

ЯндексВ момента е най-популярната местна търсачка. Започва работа през 1997 г. Поддържа собствен каталог с интернет ресурси. Това е и най-добрата търсачка за идентифициране на илюстрации. Версията на английски език е снабдена с директория с интернет ресурси. Има обширна система за генериране на заявка. По-специално е разрешено въвеждането на предписание за търсене на естествен език - в този случай всички необходими разширения се правят автоматично.

В допълнение към HTML уеб страниците, Yandex индексира документи в PDF (Adobe Acrobat), Rich Text Format (RTF), двоичен Word (.doc), Excel (.xls), PowerPoint (.ppt), RSS (блогове и форуми).

Компанията за търсачки Mail.ruзапочва работа през 2007г. Обемът на индексния файл през пролетта на 2009 г. беше повече от 1,5 милиарда страници, разположени на рускоезични сървъри. В допълнение към търсенето на текстове, системата търси илюстрации и видеоклипове, публикувани на специализирани "самозапълнени" руски сървъри: Photo @ Mail.Ru, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Video @ Mail.Ru, RuTube, Loadup, Rambler Vision и други подобни. Gogo.ru ви позволява да ограничите търсенето си до търговски сайтове, информационни сайтове, както и форуми и блогове. Формулярът „Разширено търсене“ също дава възможност за ограничаване на търсенията определени видовефайлове (PDF, DOC, XLS, PPT), местоположението на думите за търсене в документа или конкретен домейн. През ноември 2013 г. в Google Play се появи нова версия на приложението за търсене Mail.Ru, което ви позволява да навигирате от началния екран до всякакви социални мрежи и съдържа бърз достъп за търсене на снимки, видеоклипове и новини. Приложението за Android се превърна в мини-браузър, изострен за ефективно намиране на необходимата информация. Помощната програма също се научи да разпознава заявки за търсене, зададени не от текст, а от глас. Разработчиците също така отбелязват, че са създали специална джаджа, която може да бъде поставена начален екранбазиран на смартфон или таблет google системи Android. Изводът е, че това допълнително ще намали времето, прекарано в търсене.

AltaVista- една от най-старите търсачки заема едно от първите места по обем на документи - повече от 350 милиона. AltaVista позволява лесни и разширени търсения. „Помощ“ позволява на дори необучени потребители да формират правилно прости и сложни заявки.

Rambler- един от първите руски IPS, открит през 1996 г. В края на 2002 г. беше направена радикална модернизация, след която Rambler отново влезе в групата на лидерите търсене в мрежата... В момента обемът на индекса е около 150 милиона документа. За съставяне на сложни заявки се препоръчва да използвате режима "Подробна заявка", който предоставя широки възможности за съставяне на предписание за търсене с помощта на елементи от менюто.

APORT... Днес обемът на неговата база данни е повече от 20 милиона документа. Системата има широк спектър от възможности за търсене. APORT има функцията на вграден преводач, което позволява на потребителя да формулира заявки, както на руски, така и на Английски... Освен това APORT има специални режимиза търсене на илюстрации и аудио файлове.

Търсачките от последно поколение индексират всички думи на уеб страница или в статия от конференция, докато преди това областта на индексиране обикновено се ограничаваше до заглавието, заглавията, първите няколко реда и адреса на документа. Това значително ограничава възможността за идентифициране на материали по тясна тема, тъй като резултатите от търсенето не винаги отразяват действителните данни. Чрез премахването на този недостатък съвременните търсачки станаха много по-надеждни от своите предшественици.

Следващата най-важна характеристика е подобряването на вътрешната търсачка, което се изразява в увеличаване на броя на операторите и други елементи на съставянето на заявки. Преди няколко години се използваха само два, в най-добрия случай, три класически булеви оператора: И (и), ИЛИ (или) и НЕ (не). Сега има NEAR (до, близо) в Alta Vista и FOLLOWED BY (следва) в OpenText - в най-високата степенполезни оператори за разстояние, които ви позволяват да направите заявката си възможно най-конкретна. Много системи ви позволяват да съкратите окончанията на термините, да ограничите търсенето до датата на създаване на документа, да търсите ключови думи само в определени елементи на уеб страници (заглавие, заглавия, имейл адрес и т.н.), а също и да търсите точния фраза. Най-новите разработки също позволяват откриване на определени типове файлове (например графики или аудио) и са чувствителни към малки и главни букви. Възможността за търсене на данни на всеки език става все по-често срещана. Всичко това дава възможност да се състави предписание за търсене с висока степен на точност, което, разбира се, повишава уместността на получените резултати.

На този моментнай-популярните търсачки Google и Yandex, нека ги сравним:

Броят на индексираните страници. Google има 8 милиарда, докато Yandex има само 2 милиарда. Тоест четири пъти по-малко. Печели за Google.

Скорост на индексиране на страницата. Google индексира нови страници в рамките на 24 часа, докато Yandex може да отнеме няколко дни. Отново Google печели.

Актуалността на въпроса. Уместността се отнася до уместността на резултатите, показани на страницата на търсачката, спрямо вашата заявка. Веднага трябва да кажа, че тук е трудно да се определи победителят. Google показа добри резултати в чуждия сегмент на Интернет, но в Runet Yandex винаги е бил малко по-напред.

Допълнителни интернет услуги. Тук предимството очевидно е с Yandex. Той има десетки различни услуги, които са удобно групирани в категории, докато Google има по-малко от тях, плюс има интеграция със социалните мрежата на google+ което много хора не харесват.

Търсачката е база данни с конкретна информация в Интернет. Много потребители вярват, че веднага щом въведат заявка в търсачката, те веднага започват да сканират целия интернет, но това изобщо не е така. Интернет се сканира постоянно, от много програми, данните за сайтове се въвеждат в база данни, където по определени критерии всички сайтове и всичките им страници се разпределят в различни видове списъци и бази данни. Тоест, това е един вид шкаф за архивиране на данни и търсенето не се извършва в интернет, а според този кабинет.

Популярни търсачки

Yandex е най-голямата търсачка в руския интернет.

В допълнение към търсачката, Yandex предлага 77 допълнителни услуги, най-популярните от които са пощенската услуга Yandex, браузър Yandex, Yandex диск, информация за трафика и времето, Yandex money и много други. Търсачката взема предвид вашето местоположение, когато показва резултати от търсенето. Същия начин програма за търсененепрекъснато се модернизира, за да предоставя по-правилни резултати, предназначени за най-голямо информационно съдържание за потребителя.

Google е най-популярната търсачка в света.

Освен търсачката, Google предлага много допълнителни услуги, програми и хардуер, включително пощенската услуга, браузърът Google Chrome, най-голямата видеотека в YouTube и много други проекти. Google уверено купува много проекти, които генерират големи печалби. Повечето от услугите не са насочени към директен потребител, но за печелене на пари в Интернет и интегрирани с фокус върху интересите на европейските и американските потребители.

Mail е търсачка, популярна главно със своята имейл услуга.

Има много допълнителни услуги, ключът от които е Mail, в момента компанията Mail притежава социалната мрежа Odnoklassniki, собствена мрежа"Моят свят", услуга Money-mail, много онлайн игри, три почти идентични браузъра с различни имена. Всички приложения и услуги имат много рекламно съдържание. Социалната мрежа "VKonatkte" блокира директните връзки към пощенските услуги, като се допълва голяма сумавируси.

Уикипедия.

Wikipedia е помощна система за търсене.

Търсачка с нестопанска цел, задвижвана от частни дарения, така че не попълва страници с реклами. Многоезичен проект, чиято цел е да създаде пълна референтна енциклопедия на всички езици по света. Той няма конкретни сътрудници, завършва се и се управлява от доброволци от цял свят. Всеки потребител може да пише и редактира статията.

Официална страница- www.wikipedia.org.

Youtube е най-голямата библиотека от видео файлове.

Видео хостинг с елементи социална мрежакъдето всеки потребител може да добави видео. От момента, в който ги закупите от Google Ink, не се изисква отделна регистрация за YouTube, просто се регистрирайте в пощенската услуга на Google.

Официалната страница е youtube.com.

Yahoo! - втората най-важна търсачка в света.

Има допълнителни услуги, най-известният от които е Yahoo поща... Като част от подобряването на качеството на търсачката, Yahoo изпраща данни за потребителите и техните заявки до Microsoft... От тези данни се формира представа за интересите на потребителите, както и се формира пазар за рекламно съдържание. Търсачката Yahoo, както и, се занимава с поглъщането на други компании, например Yahoo принадлежи услуга за търсенеСайт за електронна търговия Altavista и Alibaba.

Официалната страница е www.yahoo.com.

WDL е цифрова библиотека.

Библиотеката събира книги, които предоставят културна стойност v цифрова форма... Основната цел е повишаване нивото на културно съдържание в Интернет. Достъпът до библиотеката е безплатен.

Официалната страница е www.wdl.org/ru/.

Bing е търсачка на Microsoft.

Официалната страница е www.baidu.com.

Търсачки в Русия

Rambler е "проамериканска" търсачка.

Първоначално е създаден като интернет медиен портал. Подобно на много други търсачки, той има услуги за търсене на изображения, видео файлове, карти, прогноза за времето, раздел с новини и много други. Издателите предлагат и безплатен браузър Rambler-Nichrome.

Официалната страница е www.rambler.ru.

Nigma е интелигентна търсачка.

По-удобна търсачка поради наличието на много филтри и настройки. Интерфейсът ви позволява да включите или изключите предложени подобни стойности в търсенето за по-добри резултати. Също така, когато получавате резултат от търсенето, ви позволява да използвате информацията от други големи търсачки.

Официалната страница е www.nigma.ru.

Aport - онлайн каталог на стоки.

В миналото търсачката, но след прекратяването на разработката и иновациите, бързо загуби позиции и. V понастоящем Aport е платформа за търговиякъдето са представени продуктите на повече от 1500 фирми.

Официалната страница е www.aport.ru.

Sputnik е национална търсачка и интернет портал.

Създаден от Ростелеком. В момента е в процес на тестване.

Официалната страница е www.sputnik.ru.

Metabot е развиваща се търсачка.

Задачите на Metabot са създаване на търсачка за всички останали търсачки, създаване на позиции за издаване на резултати, като се вземат предвид данните от целия списък с търсачки. Тоест, това е търсачка за търсачки.

Официалната страница е www.metabot.ru.

Търсачката е спряна.

Официалната страница е www.turtle.ru.

KM е мултипортал.

Първоначално сайтът беше мултипортал с последващо въвеждане на търсачка. Търсенето може да се извърши както в рамките на сайта, така и на всички проследявани сайтове на руския интернет.

Официална страница - www.km.ru.

Gogo - не работи, пренасочва към търсачка.

Официална страница - www.gogo.ru.

Руският мултипортал, който не е много популярен, се нуждае от работа. Търсачката включва новини, телевизия, игри, карта.

Официалната страница е www.zoneru.org.

Търсачката не работи, разработчиците предлагат да използвате търсачката.

Официална страница - www.au.ru.