Chum ham-zoekmachine. Overzicht van programma's voor het zoeken naar documenten en gegevens

Ze zijn al lang een integraal onderdeel van het Russische internet geworden. Zoekmachines zijn nu enorme en complexe mechanismen die niet alleen een hulpmiddel zijn om informatie te vinden, maar ook verleidelijke gebieden voor bedrijven.

De meeste gebruikers van zoekmachines hebben nooit nagedacht (of gedacht, maar geen antwoord gevonden) over het werkingsprincipe van zoekmachines, over het schema voor het verwerken van gebruikersverzoeken, over waar deze systemen uit bestaan ​​en hoe ze werken ...

Deze masterclass is bedoeld om antwoord te geven op de vraag hoe zoekmachines werken. U vindt hier echter niet de factoren die van invloed zijn op de rangschikking van documenten. En meer nog, je moet niet rekenen op een uitgebreide uitleg van het Yandex-algoritme. Hij, volgens Ilya Segalovich, - de directeur van technologie en ontwikkeling van de Yandex-zoekmachine, kan alleen "onder marteling" worden herkend door Ilya Segalovich zelf ...

2. Het concept en de functies van de zoekmachine

Een zoekmachine is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op het verzoek van een gebruiker, gespecificeerd in de vorm van een tekstuitdrukking (zoekopdracht), door een lijst met links naar informatiebronnen op te geven, in volgorde van relevantie (in in overeenstemming met het verzoek). De grootste internationale zoekmachines: Google, Yahoo , MSN . Op het Russische internet is dit Yandex, Rambler, Aport.

Laten we het concept van een zoekopdracht in meer detail bekijken met de Yandex-zoekmachine als voorbeeld. De zoekopdracht moet door de gebruiker zo kort en eenvoudig mogelijk worden geformuleerd in overeenstemming met wat hij wil vinden. Laten we zeggen dat we in Yandex informatie willen vinden over het kiezen van een auto. Open hiervoor de hoofdpagina van "Yandex" en voer de tekst in van de zoekopdracht "hoe een auto te kiezen". Verder is het onze taak om de op ons verzoek verstrekte links naar informatiebronnen op internet te openen. Het is echter heel goed mogelijk om de informatie die we nodig hebben niet te vinden. Als dit is gebeurd, moet u ofwel uw verzoek herformuleren, of de database van de zoekmachine heeft echt geen relevante informatie over ons verzoek (dit kan gebeuren bij het instellen van zeer "smalle" zoekopdrachten, zoals "hoe een auto te kiezen in Archangelsk ”)

Het primaire doel van elke zoekmachine is om precies de informatie te leveren waarnaar ze op zoek zijn. En om gebruikers te leren "juiste" verzoeken aan het systeem te doen, d.w.z. verzoeken die overeenkomen met de werkingsprincipes van zoekmachines zijn niet mogelijk. Daarom creëren ontwikkelaars dergelijke algoritmen en werkingsprincipes van zoekmachines waarmee gebruikers de informatie kunnen vinden waarnaar ze op zoek zijn.

Dit betekent dat de zoekmachine op dezelfde manier moet "denken" als de gebruiker denkt bij het zoeken naar informatie. Wanneer een gebruiker een aanvraag doet bij een zoekmachine, wil hij zo snel en eenvoudig mogelijk vinden wat hij nodig heeft. Hij ontvangt het resultaat en evalueert de prestaties van het systeem, geleid door verschillende basisparameters. Heeft hij gevonden wat hij zocht? Indien niet gevonden, hoe vaak moest hij de zoekopdracht opnieuw formuleren om te vinden wat hij zocht? Hoe actuele informatie zou hij kunnen vinden? Hoe snel heeft de zoekmachine het verzoek verwerkt? Hoe handig werden de zoekresultaten gepresenteerd? Was het gewenste resultaat de eerste of de honderdste? Hoeveel rommel is er samen met nuttige informatie gevonden? Zal de vereiste informatie worden gevonden bij het openen van de zoekmachine, bijvoorbeeld in een week of in een maand?

Om al deze vragen met antwoorden te beantwoorden, verbeteren ontwikkelaars van zoekmachines voortdurend de zoekalgoritmen en -principes, voegen ze nieuwe functies en mogelijkheden toe en proberen ze op alle mogelijke manieren het systeem te versnellen.

3. Belangrijkste kenmerken van de zoekmachine

Laten we de belangrijkste kenmerken van zoekmachines beschrijven:

  • volledigheid

    Volledigheid is een van de belangrijkste kenmerken van een zoekmachine, namelijk de verhouding tussen het aantal op verzoek gevonden documenten en het totale aantal documenten op internet dat aan dit verzoek voldoet. Als er bijvoorbeeld 100 pagina's op internet zijn met de zin "hoe een auto te kiezen", en er zijn er slechts 60 gevonden voor de bijbehorende zoekopdracht, dan is de zoekopdracht 0,6. Het is duidelijk dat hoe completer de zoekopdracht is, hoe kleiner de kans is dat de gebruiker het document dat hij nodig heeft niet zal vinden, op voorwaarde dat het al op internet bestaat.

  • Nauwkeurigheid

    Nauwkeurigheid is een ander belangrijk kenmerk van een zoekmachine, die wordt bepaald door de mate waarin de gevonden documenten overeenkomen met de zoekopdracht van de gebruiker. Als de vraag "hoe een auto kiezen" bijvoorbeeld 100 documenten bevat, bevatten 50 ervan de zin "hoe een auto kiezen", en de rest bevat alleen deze woorden ("hoe de juiste radio kiezen en installeren in een auto”), dan wordt de zoeknauwkeurigheid geacht gelijk te zijn aan 50/100 (=0,5). Hoe nauwkeuriger de zoekopdracht, hoe sneller de gebruiker de documenten vindt die hij nodig heeft, hoe minder verschillende soorten "vuilnis" er zullen voorkomen, hoe minder vaak de gevonden documenten niet overeenkomen met het verzoek.

  • Relevantie

    Relevantie is een even belangrijk onderdeel van de zoekopdracht, die wordt gekenmerkt door de tijd die verstrijkt vanaf het moment dat documenten op internet worden gepubliceerd totdat ze worden ingevoerd in de indexdatabase van de zoekmachine. Zo wendde een groot aantal gebruikers zich de dag na het verschijnen van interessant nieuws tot zoekmachines met relevante zoekopdrachten. Objectief gezien is er minder dan een dag verstreken sinds de publicatie van nieuwsinformatie over dit onderwerp, maar de belangrijkste documenten zijn al geïndexeerd en kunnen worden doorzocht, dankzij het bestaan ​​van de zogenaamde "fast base" van grote zoekmachines , die meerdere keren per dag wordt bijgewerkt.

  • Zoeksnelheid

    De zoeksnelheid hangt nauw samen met de belastingstolerantie. Zo komen er volgens OOO Rambler Internet Holding vandaag de dag ongeveer 60 verzoeken per seconde binnen bij de Rambler-zoekmachine tijdens kantooruren. Een dergelijke werkdruk vereist een vermindering van de verwerkingstijd van een enkele aanvraag. Hier vallen de interesses van de gebruiker en de zoekmachine samen: de bezoeker wil zo snel mogelijk resultaten krijgen, en de zoekmachine moet het verzoek zo snel mogelijk verwerken om de berekening van de volgende verzoeken niet te vertragen.

  • zichtbaarheid

4. Een korte geschiedenis van de ontwikkeling van zoekmachines

In de beginperiode van de ontwikkeling van internet was het aantal gebruikers klein en de hoeveelheid beschikbare informatie relatief klein. Voor het grootste deel hadden alleen onderzoekers toegang tot internet. In die tijd was het zoeken naar informatie op internet niet zo relevant als nu.

Een van de eerste manieren om de toegang tot informatiebronnen van het netwerk te organiseren, was het creëren van open catalogi van sites, links naar bronnen die waren gegroepeerd op onderwerp. Het eerste dergelijke project was Yahoo.com, dat in het voorjaar van 1994 werd geopend. Nadat het aantal sites in de catalogus aanzienlijk was toegenomen, werd de mogelijkheid toegevoegd om de benodigde informatie in de catalogus te zoeken. In de volle zin was het nog geen zoekmachine, aangezien het zoekbereik beperkt was tot alleen de bronnen die in de directory aanwezig waren, en niet tot alle internetbronnen.

Link-directories werden in het verleden veel gebruikt, maar hebben hun populariteit op dit moment bijna volledig verloren. Omdat zelfs moderne, enorme catalogi informatie bevatten over slechts een verwaarloosbaar deel van internet. De grootste netwerkdirectory DMOZ (ook wel het Open Directory Project genoemd) bevat informatie over 5 miljoen bronnen, terwijl de Google-zoekmachinedatabase uit meer dan 8 miljard documenten bestaat.

In 1995 verschenen de zoekmachines Lycos en AltaVista. Laatstgenoemde is al jaren toonaangevend op het gebied van informatie zoeken op internet.

In 1997 creëerden Sergey Brin en Larry Page de Google-zoekmachine als onderdeel van een onderzoeksproject aan de Stanford University. Google is momenteel de populairste zoekmachine ter wereld!

In september 1997 werd de Yandex-zoekmachine, de meest populaire op het Russisch sprekende internet, officieel aangekondigd.

Momenteel zijn er drie belangrijke zoekmachines (internationaal) - Google, Yahoo en die hun eigen bases en zoekalgoritmen hebben. De meeste andere zoekmachines (waarvan er een groot aantal zijn) gebruiken de resultaten van de drie in een of andere vorm. AOL Search (search.aol.com) gebruikt bijvoorbeeld Google, terwijl AltaVista, Lycos en AllTheWeb Yahoo gebruiken.

5. De samenstelling en principes van de zoekmachine

In Rusland is Yandex de belangrijkste zoekmachine, verder - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bovendien gebruikt Mail.ru momenteel de Yandex-zoekmachine en -database.

Bijna alle grote zoekmachines hebben hun eigen structuur, anders dan andere. Het is echter mogelijk om de belangrijkste componenten te onderscheiden die alle zoekmachines gemeen hebben. Verschillen in de structuur kunnen alleen in de vorm van implementatie van de mechanismen van interactie van deze componenten zijn.

Indexeringsmodule

De indexeringsmodule bestaat uit drie hulpprogramma's (robots):

Spider (spider) - een programma dat is ontworpen om webpagina's te downloaden. De "spin" downloadt de pagina en haalt alle interne links uit deze pagina. De html-code van elke pagina wordt gedownload. Robots gebruiken HTTP-protocollen om pagina's te downloaden. De "spin" werkt als volgt. De robot stuurt het "get/path/document"-verzoek en enkele andere HTTP-verzoekopdrachten naar de server. Als reactie ontvangt de robot een tekststroom met daarin service-informatie en het document zelf.

  • pagina URL
  • de datum waarop de pagina is gedownload
  • serverreactie http-header
  • paginatekst (html-code)

Crawler ("reizende" spider) - een programma dat automatisch alle links op de pagina volgt. Selecteert alle links op de pagina. Zijn taak is om op basis van links of op basis van een vooraf gedefinieerde lijst met adressen te bepalen waar de spider vervolgens heen moet. Crawler zoekt, na de gevonden links, naar nieuwe documenten die nog onbekend zijn bij de zoekmachine.

Indexer (robot-indexer) - een programma dat webpagina's analyseert die door spiders zijn gedownload. De indexeerder ontleedt de pagina in zijn samenstellende delen en analyseert deze met zijn eigen lexicale en morfologische algoritmen. Verschillende elementen van de pagina worden geanalyseerd, zoals tekst, koppen, links, structurele en stijlkenmerken, speciale service-html-tags, enz.

De indexeringsmodule maakt het dus mogelijk om een ​​bepaalde reeks bronnen door te verwijzen, gevonden pagina's te downloaden, koppelingen naar nieuwe pagina's uit ontvangen documenten te extraheren en een volledige analyse van deze documenten uit te voeren.

Database

Een database, of zoekmachine-index, is een gegevensopslagsysteem, een informatiearray waarin speciaal geconverteerde parameters zijn opgeslagen van alle documenten die zijn gedownload en verwerkt door de indexeringsmodule.

zoekserver

De zoekserver is het belangrijkste element van het hele systeem, aangezien de kwaliteit en snelheid van de zoekopdracht rechtstreeks afhangen van de algoritmen die ten grondslag liggen aan de werking ervan.

De zoekserver werkt als volgt:

  • Het van de gebruiker ontvangen verzoek wordt onderworpen aan morfologische analyse. De informatieomgeving van elk document in de database wordt gegenereerd (die vervolgens wordt weergegeven in de vorm , dat wil zeggen overeenkomend met het verzoek om tekstuele informatie op de pagina voor het verstrekken van zoekresultaten).
  • De ontvangen gegevens worden als invoerparameters doorgegeven aan een speciale rangschikkingsmodule. Van alle documenten worden gegevens verwerkt, waardoor voor elk document een eigen beoordeling wordt berekend, die de relevantie van de door de gebruiker ingevoerde zoekopdracht en de verschillende componenten van dit document die in de index van de zoekmachine zijn opgeslagen, kenmerkt.
  • Afhankelijk van de keuze van de gebruiker kan deze beoordeling worden aangepast door aanvullende voorwaarden (bijvoorbeeld het zogenaamde "uitgebreid zoeken").
  • Vervolgens wordt een fragment gegenereerd, dat wil zeggen, voor elk gevonden document, een titel, een korte annotatie die het beste overeenkomt met het verzoek, en een link naar het document zelf wordt uit de documententabel gehaald en de gevonden woorden worden gemarkeerd.
  • De ontvangen zoekresultaten worden naar de gebruiker verzonden in de vorm van SERP (Search Engine Result Page) - de pagina voor het uitgeven van zoekresultaten.

Zoals je kunt zien, zijn al deze componenten nauw met elkaar verbonden en werken ze in interactie, en vormen ze een duidelijk, vrij complex mechanisme voor de zoekmachine, waarvoor een enorme hoeveelheid middelen nodig is.

6. Conclusie

Laten we nu al het bovenstaande samenvatten.

  • Het primaire doel van elke zoekmachine is om precies de informatie te leveren waarnaar ze op zoek zijn.
  • Belangrijkste kenmerken van zoekmachines:
    1. volledigheid
    2. Nauwkeurigheid
    3. Relevantie
    4. Zoeksnelheid
    5. zichtbaarheid
  • De eerste volwaardige zoekmachine was het WebCrawler-project, dat in 1994 werd uitgebracht.
  • De zoekmachine bevat de volgende onderdelen:
    1. Indexeringsmodule
    2. Database
    3. zoekserver

We hopen dat onze masterclass u in staat zal stellen om meer vertrouwd te raken met het concept van PS, om de belangrijkste functies, kenmerken en werkingsprincipes van zoekmachines beter te begrijpen.

De zoekmachine is een van de belangrijkste niveaus van internet, samen met inhoud en de browser. De "Yandex"-zoekmachine of gelijkaardige systemen ("Google", "Bing", DuckDuckGo en anderen) stellen de gebruiker in staat om informatie op het World Wide Web te zoeken door een verzoek te formuleren.

De taak van de zoekmachine is om alle documenten, pagina's, video's, dat wil zeggen alle inhoud voor deze zoekopdracht (trefwoord of woordgroep) te vinden.

Wat is de beste zoekmachine? Zijn er alternatieve opties, iets anders dan Google en Yandex? Welke internetzoekmachine is geschikter voor het scannen van Engelstalige bronnen of bijvoorbeeld muziek? Dit is precies wat in het artikel zal worden besproken.

Beoordeling: marktleiders

Als we het over de wereld als geheel hebben, dan is Google de populairste zoekmachine. Het bedrijf bezet bijna 70% van de markt. De tweede positie in de rating wordt ingenomen door "Bing" (aandeel - 12,26%). Het Baidu-systeem (6,48% per september 2015) vecht voor de tweede linie. Af en toe wisselen ze van plaats.

Zo waren in 2014 bijvoorbeeld de “bevoegdheden” anders verdeeld: de eerste plaats werd ingenomen door Google, een zoekmachine met 68,69%, de tweede door Baidu (17,7%), de derde door Bing met een marktkapitalisatie van 6, 22%.

Maar de wereldwijde gegevens zijn erg algemeen. Wat is de beste zoekmachine?

In China scant bijvoorbeeld een heel klein percentage van de bevolking met Google, de meerderheid gebruikt het binnenlandse Soso-systeem. In Zuid-Korea gebruiken de meeste inwoners hun eigen ontwikkeling - de internetzoekmachine Naver. Het is waar dat de afgelopen maanden het aantal verzoeken in dit systeem snel begon af te nemen.

In Japan en Taiwan gebruiken gebruikers eerder Yahoo!

Beoordeling: Russisch sprekende systemen

Wat is de beste zoekmachine? In Rusland is de rangschikking van zoekmachines helemaal niet vergelijkbaar met de wereldwijde. De marktleider in het Russisch sprekende segment van internet is Yandex, dat door meer dan 55% van de gebruikers wordt gebruikt.

Op de tweede plaats staat Google met een score van 37,6%. Volgens de LiveInternet-service was de dekking van zoekopdrachten in de Russische taal op het World Wide Web als volgt verdeeld:

  1. Universele zoekmachines: Google (37,6%), Bing (0,3%), Yahoo! (0,1%)
  2. Engelstalig en internationaal (AskJeeves bijvoorbeeld).
  3. Russischtalige zoekmachines: Yandex (56,2%), Mail (5,3%), Rambler (0,5%).

DuckDuckGo

Laten we beginnen te praten over alternatieve zoekmachines met DuckDuckGo. Dit is een redelijk bekend en wijdverbreid open source systeem. DuckDuckGo-servers bevinden zich in de Verenigde Staten van Amerika. De zoekresultaten zijn vrij uitgebreid, aangezien het systeem niet alleen zijn eigen algoritmen gebruikt, maar ook de resultaten van enkele andere bronnen, zoals Wikipedia, de Bing-zoekmachine en Yahoo!

De DuckDuckGo-zoekmachine zorgt voor maximale beveiliging van de persoonlijke informatie van de gebruiker, privacy en vertrouwelijkheid. Het systeem verzamelt geen gebruikersgegevens, slaat geen geschiedenis op en beperkt het gebruik van cookies zoveel mogelijk.

Het verschil met DuckDuckGo is dat dit systeem de zoekresultaten niet personaliseert, zoals andere systemen doen. In "Google" of "Yandex" ziet de gebruiker bijvoorbeeld alleen de informatie die overeenkomt met zijn voorkeuren. Maar DuckDuckGo vormt een reëel beeld en stelt u in staat zich te ontdoen van opdringerige specifieke advertenties. De zoekservice zoekt gemakkelijk naar informatie in vreemde talen, terwijl Yandex en Google standaard de voorkeur geven aan bronnen in het Russisch, zelfs als de zoekopdracht in het Engels, Duits of een andere taal wordt ingevoerd.

U kunt de interface in het systeem aanpassen: u kunt kleuren, lettertypen, koppelingen en andere parameters met slechts een paar klikken wijzigen.

Tot nu toe is deze zoekmachine verre van de gigantische Google, maar het eendje ontwikkelt zich, dus het is goed mogelijk dat DuckDuckGo in de toekomst een van de leidende posities inneemt. Het team heeft een geweldig product gemaakt dat een anonieme, snelle en functionele zoekopdracht biedt die de aandacht van de gebruiker verdient.

Niet Kwaad

Dit is een systeem dat het anonieme Tor-netwerk doorzoekt. De zoekmachine is vooraf geïnstalleerd in de browser met dezelfde naam. Waarom is notEvil beter? Het "gaat voorbij" waar de zoekmachine van Google of Yandex niet kan komen. Over het algemeen zijn er veel bronnen in het Tor-netwerk die niet kunnen worden bezocht op het "gewone" (wettelijke) internet. Dit is zo'n platform binnen het netwerk met zijn sociale platforms, torrent-trackers, media, blogs, winkelcentra, forums, bibliotheken, enzovoort.

NotEvil is trouwens niet de enige zoekmachine in zijn soort. Er is ook Look, dat standaard beschikbaar is in dezelfde Tor-browser, en TORCH is een van de oudste zoekmachines op het anonieme web.

YaCy

De gratis YaCy-zoekmachine is een heel andere benadering van het organiseren van zoekopdrachten op het World Wide Web. Het systeem werkt volgens het P2P-principe. Dit betekent dat elke computer waarop de module is geïnstalleerd onafhankelijk het internet scant, en vervolgens worden alle resultaten verzameld in een enkele database die alle YaCy-gebruikers kunnen gebruiken.

Het systeem is volledig onafhankelijk, autonoom en garandeert de anonimiteit van elke gebruiker. YaCy is geschikt voor aanhangers van het open internet, dat niet onderhevig is aan de invloed van grote bedrijven en overheidsinstanties.

In het dagelijks leven is de zoekmachine nog niet erg handig, maar in de toekomst is het een waardig alternatief voor Google, ook vanuit het oogpunt van het organiseren van het informatiezoekproces.

pipl

Pipl is een systeem dat is ontworpen om informatie over een specifieke persoon te zoeken. De ontwikkelaars beweren dat algoritmen van zoekmachines efficiënter naar mensen zoeken dan Google of Yandex, die over de hele wereld gebruikelijk zijn.

Prioritaire bronnen zijn sociale-mediaprofielen, commentaren, deelnemerslijsten, databases waarin verschillende gegevens over personen worden gepubliceerd, bijvoorbeeld databases met rechterlijke uitspraken. Maar er is ook een nadeel. Russische databases zijn niet beschikbaar voor Pipl, dus het is alleen nuttig voor het vinden van informatie over Amerikaanse burgers.

Vind geluiden

Wat is de beste zoekmachine? Als je muziek of geluiden moet vinden, dan is FindSounds natuurlijk de beste. Dit is een gespecialiseerde zoekmachine met een lijst met tags. Hier kunt u het gewenste audiobestandsformaat of de gewenste kwaliteit selecteren. Alle zoekresultaten zijn beschikbaar om te downloaden.

wolfram|alfa

Dit systeem toont geen pagina's die de informatie bevatten die de gebruiker nodig heeft, maar het eindresultaat. Bijvoorbeeld kaarten, grafieken, tabellen, korte antwoorden. De service is het meest geschikt voor het berekenen van gegevens en het zoeken naar specifieke feiten. De zoekmachine begrijpt nog niet alle verzoeken, maar evolueert voortdurend.

Met Wolfram|Alpha is het handig om bijvoorbeeld parameters te vergelijken voor het instellen van een camera, smartphone of laptop. Bereken ook het alcoholgehalte in het bloed (het systeem vraagt ​​de gebruiker om gewicht en lengte, de hoeveelheid alcohol die wordt genuttigd, de tijd en meldt vervolgens hoe lang de alcohol volledig uit het lichaam zal zijn verwijderd).

De tool kan schoen- en kledingmaten omrekenen, calorieën tellen, valutakoersen bekijken of een muziekinstrument stemmen.

Dogpile

Dogpile geeft de resultaten van alle grote zoekmachines tegelijk weer. De dienst maakt gebruik van een verbeterd algoritme en genereert volgens de ontwikkelaars de beste zoekresultaten op internet. Daarnaast zijn er weinig advertenties. Je kunt Dogpile proberen als de informatie die je nodig hebt niet in de standaard Google of Yandex staat.

Bordlezer

Dit systeem zoekt naar informatie op forums, opiniepeilingen, vraag- en antwoorddiensten, sociale gemeenschappen, en beperkt het zoekveld tot sociale sites. U kunt filters instellen: taal en publicatiedatum, sitenaam en dergelijke.

De zoekmachine kan handig zijn voor advertentiespecialisten die geïnteresseerd zijn in de mening van het publiek.

Eindelijk

Vaak zijn alternatieve zoekmachines vluchtig. Ze verschijnen even snel als ze sterven. De meeste alternatieve systemen zijn tegenwoordig gespecialiseerd in een smalle niche of testen het oorspronkelijke algoritme bij het genereren van zoekresultaten.

In de context van het beschrijven van alternatieve zoekmachines betekent het criterium "beter" helemaal niet "beter in alles". Elk van de hierboven genoemde services geeft een specifieke gebruiker iets dat niet in Google of Yandex staat. In ieder geval is het voor elke gebruiker interessant en nuttig om kennis te maken met alternatieve opties (tegenover het feit dat het systeem praktisch gemonopoliseerd lijkt te worden door zoekgiganten).

Een zoekmachine is een database met specifieke informatie op internet. Veel gebruikers denken dat zodra ze een zoekopdracht in een zoekmachine invoeren, ze onmiddellijk het hele internet beginnen te scannen, maar dit is helemaal niet het geval. Internetscanning vindt voortdurend plaats, veel programma's, gegevens over sites worden ingevoerd in een database, waar, volgens bepaalde criteria, alle sites en al hun pagina's worden verdeeld in verschillende lijsten en databases. Dat wil zeggen, het is een soort gegevensbestand en het zoeken vindt niet op internet plaats, maar in dit bestand.

Google is de populairste zoekmachine ter wereld.

Naast de zoekmachine biedt Google vele aanvullende diensten, software en hardware, waaronder de mailservice, de Google Chrome browser, de grootste youtube videotheek en vele andere projecten. Google koopt vol vertrouwen veel projecten op die grote winsten opleveren. De meeste diensten zijn niet gericht op een directe gebruiker, maar op het verdienen van geld op internet en zijn geïntegreerd met een focus op de belangen van Europese en Amerikaanse gebruikers.

Mail is een zoekmachine die vooral populair is vanwege de mailservice.

Er zijn veel aanvullende diensten, waarvan de sleutel mail Mail is, op dit moment bezit Mail het sociale netwerk Odnoklassniki, zijn eigen My World-netwerk, de Money-mail-service, veel online games, drie bijna identieke browsers met verschillende namen. Alle applicaties en services hebben veel advertentie-inhoud. Het sociale netwerk "VKonatkte" blokkeert directe overgangen naar e-mailservices en argumenteert met een groot aantal virussen.

Wikipedia.

Wikipedia is een doorzoekbaar referentiesysteem.

Een non-profit zoekmachine die bestaat op particuliere donaties, daarom vult het de pagina's niet met advertenties. Een meertalig project waarvan het doel is om een ​​complete referentie-encyclopedie te creëren in alle talen van de wereld. Het heeft geen specifieke auteurs, wordt ingevuld en beheerd door vrijwilligers van over de hele wereld. Elke gebruiker kan zowel een artikel schrijven als bewerken.

De officiële pagina is www.wikipedia.org.

Youtube is de grootste videotheek.

Videohosting met elementen van een sociaal netwerk, waar elke gebruiker een video kan toevoegen. Vanaf het moment dat ze door Google Ink zijn verkregen, is een aparte registratie voor YouTube niet vereist, het is voldoende om je te registreren in de Google-mailservice.

De officiële pagina is youtube.com.

Yahoo! is de op één na belangrijkste zoekmachine ter wereld.

Er zijn aanvullende diensten, waarvan Yahoo mail de bekendste is. Als onderdeel van het verbeteren van de kwaliteit van de zoekmachine verzendt Yahoo gegevens over gebruikers en hun vragen naar Microsoft. Uit deze gegevens wordt een idee gevormd van de interesses van gebruikers, evenals een markt voor advertentie-inhoud. De Yahoo-zoekmachine houdt zich ook bezig met het opslorpen van andere bedrijven, Yahoo is bijvoorbeeld eigenaar van de Altavista-zoekservice en de e-commercesite van Alibaba.

De officiële pagina is www.yahoo.com.

WDL is een digitale bibliotheek.

De bibliotheek verzamelt boeken van culturele waarde in digitale vorm. Het belangrijkste doel is om het niveau van de culturele inhoud van internet te verhogen. De toegang tot de bibliotheek is gratis.

De officiële pagina is www.wdl.org/ru/.

Bing is een zoekmachine van Microsoft.

De officiële website is www.baidu.com.

Zoekmachines in Rusland

Rambler is een "pro-Amerikaanse" zoekmachine.

Het is oorspronkelijk gemaakt als een media-internetportaal. Net als veel andere zoekmachines heeft het beeldzoekdiensten, videobestanden, kaarten, weersvoorspelling, nieuwssectie en nog veel meer. Uitgevers bieden ook een gratis browser Rambler-Nichrome aan.

De officiële pagina is www.rambler.ru.

Nigma is een intelligente zoekmachine.

Een handigere zoekmachine door de aanwezigheid van veel filters en instellingen. Met de interface kunt u voorgestelde vergelijkbare waarden in de zoekopdracht opnemen of uitsluiten om betere resultaten te krijgen. Wanneer u een zoekresultaat ontvangt, kunt u ook informatie van andere grote zoekmachines gebruiken.

De officiële pagina is www.nigma.ru.

Aport - online catalogus van goederen.

In het verleden verloor de zoekmachine, maar nadat ontwikkelingen en innovaties werden stopgezet, al snel terrein en . Op dit moment is Aport een handelsplatform, waar goederen van meer dan 1500 bedrijven worden gepresenteerd.

De officiële pagina is www.aport.ru.

Spoetnik is een nationale zoekmachine en internetportaal.

Gemaakt door Rostelecom. Het bevindt zich momenteel in de testfase.

De officiële website is www.sputnik.ru.

Metabot is een zich ontwikkelende zoekmachine.

De taken van Metabot zijn het creëren van een zoekmachine voor alle andere zoekmachines, het creëren van posities voor het uitgeven van resultaten, rekening houdend met de gegevens van de volledige lijst met zoekmachines. Dat wil zeggen, het is een zoekmachine voor zoekmachines.

De officiële pagina is www.metabot.ru.

De zoekmachine is opgeschort.

De officiële pagina is www.turtle.ru.

KM - multiportaal.

Aanvankelijk was de site een multi-portal met de daaropvolgende introductie van een zoekmachine. De zoekopdracht kan zowel binnen de site als op alle gevolgde Runet-sites worden uitgevoerd.

De officiële pagina is www.km.ru.

Gogo - werkt niet, verwijst door naar een zoekmachine.

De officiële pagina is www.gogo.ru.

De Russische multiportal, die niet erg populair is, moet worden verbeterd. De zoekmachine bevat nieuws, tv, games, kaart.

De officiële pagina is www.zoneru.org.

De zoekmachine werkt niet, de ontwikkelaars stellen voor om de zoekmachine te gebruiken.


Tot voor kort was het vinden van de benodigde informatie op het World Wide Web niet zo eenvoudig. Maar dankzij de snelle ontwikkeling en de opkomst van nieuwe zoekmachines is dit proces veel handiger en sneller geworden. In onze recensie van vandaag van de 10 beste services voor het zoeken naar verschillende soorten gegevens die alles kunnen vinden wat je nodig hebt in de diepten van internet.

1. Internetzoekmachine - Bing


Bing is een bekende internetzoekmachine die in juni 2009 is gemaakt. Deze dienst is beschikbaar in 40 talen. Het maandelijkse aantal unieke bezoekers bedraagt ​​ongeveer 350 miljoen.

2. Metasearch internetsysteem - AOL Search.com


AOL Search.com is een internet-metazoekmachine die in 1985 in de Verenigde Staten van Amerika is opgericht. Het maandelijkse aantal bezoekers van deze dienst is ongeveer 75 miljoen mensen. Tim Armstrong is de CEO.

3. Internetzoekmachine - DuckDuckGo


DuckDuckGo is een open source internetzoekmachine die in 2008 werd gelanceerd door Gabriel Weinberg. Het hoofdkantoor van het bedrijf is gevestigd in Valley Forge, Pennsylvania. Het aantal unieke bezoekers dat DuckDuckGo gebruikt, is ongeveer 13 miljoen per maand.

4. Internetzoekmachine - Ask.com


Ask.com is een internetzoeksysteem met als belangrijkste kenmerk het zoeken naar antwoorden op vragen. De dienst werd in juni 1996 in Berkeley, Californië opgericht door Garrett Gruner en David Wharton. Het maandelijkse aantal unieke bezoekers van deze dienst is ongeveer 145 miljoen mensen.

5. Internetzoekmachine - Google


Google is de meest bekende internetzoekmachine met het hoofdkantoor in Mountain View, Californië, Verenigde Staten van Amerika. Het bedrijf werd op 4 september 1998 opgericht door Larry Page en Sergey Mikhailovich Brin. Het maandelijkse aantal unieke bezoekers is ongeveer 1.100.000.000 mensen.

6. Metasearch internetsysteem - MyWebSearch.com


MyWebSearch.com is een internet-metazoekmachine met nummer 73 op de lijst van de meest populaire websites. Het maandelijkse aantal unieke bezoekers bedraagt ​​ongeveer 60 miljoen.

7. Metasearch internetsysteem - Infospace.com


De gepresenteerde zoekmachine werd opgericht in 1996. Het hoofdkantoor is gevestigd in Bellevue, Washington, Verenigde Staten. Aantal unieke bezoekers per maand infospace.com is ongeveer 24 miljoen mensen.

8. Metasearch internetsysteem - WebCrawler.com


WebCrawler.com is een meta-zoekmachine aangedreven door Yahoo en Google. Het bedrijf werd opgericht in april 1994. Het maandelijkse aantal unieke bezoekers bedraagt ​​ongeveer 65 miljoen.

9. Metasearch internetsysteem - Info.com


info.com is een metazoekmachine met het hoofdkantoor in Londen, de hoofdstad van Groot-Brittannië. Info.com heeft ongeveer 13 miljoen unieke bezoekers per maand.

10. Internetzoekmachine - Yahoo


Internetzoekmachine genaamd - Yahoo, die in januari 1994 werd opgericht door Jerry Yang en David Phil. De CEO van het bedrijf is Marissa Mayer. Het maandelijkse aantal unieke bezoekers is ongeveer 300 miljoen mensen. Het hoofdkantoor van de dienst is gevestigd in Santa Clara, Californië, Verenigde Staten van Amerika.

En liefhebbers van mobiele apparaten en computertechnologieën zullen zeker geïnteresseerd zijn in het kijken naar

Hallo, beste lezers van de blogsite. , dan hadden de weinige gebruikers genoeg van hun eigen bladwijzers. Zoals je je herinnert, gebeurde het echter exponentieel en al snel werd het moeilijker om in al zijn diversiteit te navigeren.

Toen verschenen er mappen (Yahu, Dmoz en anderen), waarin hun auteurs verschillende sites toevoegden en in categorieën sorteerden. Dit maakte het leven van de toen nog niet zo talrijke gebruikers van het wereldwijde netwerk meteen gemakkelijker. Veel van deze mappen zijn nog steeds in leven.

Maar na een tijdje werd de omvang van hun databases zo groot dat de ontwikkelaars er eerst over dachten om er een zoekopdracht in te maken en vervolgens over het creëren van een geautomatiseerd indexeringssysteem voor alle internetinhoud om het voor iedereen beschikbaar te maken.

De belangrijkste zoekmachines van het Russisch sprekende segment van internet

Zoals je je kunt voorstellen, werd dit idee met doorslaand succes gerealiseerd, maar alles bleek echter alleen goed voor een handvol geselecteerde bedrijven die erin slaagden niet op internet te verdwijnen. Bijna alle zoekmachines die op de eerste golf verschenen zijn nu ofwel verdwenen, of vegeteren, of werden gekocht door meer succesvolle concurrenten.

Het zoeksysteem is een zeer complex en, belangrijker nog, een zeer arbeidsintensief mechanisme (dat wil zeggen niet alleen materiële, maar ook menselijke). Achter de ogenschijnlijk eenvoudige, of zijn ascetische tegenhanger van Google, zijn er duizenden werknemers, honderdduizenden servers en vele miljarden investeringen die nodig zijn om deze kolos te laten blijven werken en concurrerend te blijven.

Nu deze markt betreden en alles opnieuw beginnen is meer een utopie dan een echt zakelijk project. Een van de rijkste bedrijven ter wereld, Microsoft, probeert bijvoorbeeld al tientallen jaren voet aan de grond te krijgen op de zoekmarkt, en pas nu begint hun Bing-zoekmachine langzaam hun verwachtingen te rechtvaardigen. En daarvoor was er een hele reeks mislukkingen en mislukkingen.

Wat kunnen we zeggen over het betreden van deze markt zonder speciale financiële invloeden. Onze binnenlandse zoekmachine Nigma heeft bijvoorbeeld veel nuttige en innovatieve dingen in zijn arsenaal, maar hun aanwezigheid is duizenden malen lager dan die van de leiders van de Russische markt. Kijk bijvoorbeeld eens naar het dagelijkse publiek van Yandex:

In dit opzicht kunnen we aannemen dat de lijst met de belangrijkste (beste en meest succesvolle) zoekmachines van de Runet en het hele internet al is gevormd, en de hele intrige ligt alleen in wie uiteindelijk wie zal verslinden, nou ja, of hoe hun percentage zal worden verdeeld als ze allemaal overleven en blijven drijven.

Russische zoekmachine markt is zeer goed zichtbaar, en hier zijn waarschijnlijk twee of drie hoofdspelers en een paar secundaire te onderscheiden. Over het algemeen heeft zich in Runet een nogal unieke situatie ontwikkeld, die, zoals ik het begrijp, slechts in twee andere landen in de wereld is herhaald.

Ik heb het over het feit dat de Google-zoekmachine, die in 2004 naar Rusland is gekomen, nog niet het voortouw heeft kunnen nemen. In feite probeerden ze rond deze periode Yandex te kopen, maar daar werkte iets niet, en nu zijn "ons Rusland", samen met de Tsjechische Republiek en China, de plaatsen waar de almachtige Google, zo niet verslagen, dan, stuitte in ieder geval op ernstige weerstand.

Zie in feite de huidige stand van zaken onder: beste zoekmachines in runet iedereen kan. Het volstaat om deze URL in de adresbalk van uw browser te plakken:

http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Het feit is dat de meeste van hen .

Na het invoeren van de opgegeven URL, ziet u een afbeelding die niet erg aantrekkelijk en toonbaar is, maar die de essentie van de zaak goed weergeeft. Besteed aandacht aan de top vijf zoekmachines waarvan sites in het Russisch verkeer ontvangen:

Ja, natuurlijk worden niet alle bronnen met Russischtalige inhoud in deze zone gehost. Er zijn ook SU en de Russische Federatie, en gemeenschappelijke ruimtes zoals COM of NET staan ​​vol met internetprojecten gericht op Runet, maar toch is de steekproef behoorlijk representatief.

Deze afhankelijkheid kan op een kleurrijkere manier worden getekend, zoals bijvoorbeeld iemand online deed voor zijn presentatie:

Het verandert niets aan de essentie. Er zijn een paar leiders en een paar heel, heel ver achter op zoekmachines. Over velen heb ik trouwens al geschreven. Soms is het best vermakelijk om in de geschiedenis van succes te duiken of, omgekeerd, in de redenen voor de mislukkingen van ooit veelbelovende zoekmachines.

Dus, in volgorde van belangrijkheid voor Rusland en de Runet als geheel, zal ik ze opsommen en korte kenmerken geven:

    Google zoeken is al een begrip geworden voor veel bewoners van de planeet - daarover kun je lezen op de link. Ik vond de optie "resultaten vertalen" in deze zoekmachine leuk, toen je antwoorden van over de hele wereld ontving, maar in je eigen taal, maar nu is het helaas niet beschikbaar (tenminste op google.ru).

    Ook ben ik onlangs verbaasd over de kwaliteit van hun uitgifte (Search Engine Result Page). Persoonlijk gebruik ik altijd eerst de zoekmachine van de Runet mirror (ik ben er wel aan gewend) en pas als ik daar geen begrijpelijk antwoord vind, wend ik me tot Google.

    Meestal maakte hun uitgifte me blij, maar de laatste tijd verbaast het me alleen maar - soms komt zulke onzin naar buiten. Het is mogelijk dat hun strijd om hun PPC-inkomsten te verhogen en hun constante schuifelen van SERP's om SEO-promotie in diskrediet te brengen averechts kunnen werken. In ieder geval heeft deze zoekmachine een concurrent in RuNet, en zelfs welke.

    Ik denk dat bijna niemand specifiek naar Go.mail.ru zal gaan om in Runet te zoeken. Daarom kan het verkeer op entertainmentprojecten van deze zoekmachine aanzienlijk meer dan tien procent bedragen. Eigenaren van dergelijke projecten moeten aandacht besteden aan dit systeem.

Afgezien van de prominente leiders op de markt van zoekmachines in het Russisch sprekende segment van internet, zijn er echter verschillende andere spelers waarvan het aandeel vrij laag is, maar niettemin alleen al het feit van hun bestaan ​​doet me een paar woorden over hen zeggen .

Runet-zoekmachines uit het tweede echelon


Internetbrede zoekmachines

Over het algemeen is er op de schaal van het hele internet maar één serieuze speler - Google. Dit is de onbetwiste leider, maar hij heeft nog wel wat concurrentie.

Ten eerste is het nog steeds hetzelfde bing, dat bijvoorbeeld zeer goede posities heeft op de Amerikaanse markt, vooral gezien het feit dat zijn engine ook wordt gebruikt op alle Yahoo-diensten (bijna een derde van de gehele Amerikaanse zoekmarkt).

Welnu, en ten tweede, vanwege het enorme aandeel dat gebruikers uit China uitmaken in het totale aantal internetgebruikers, noemde hun belangrijkste zoekmachine Baidu ingeklemd in de verdeling van plaatsen op de wereld Olympus. Hij werd geboren in 2000 en nu is zijn aandeel ongeveer 80% van het totale nationale publiek in China.

Het is moeilijk om iets begrijpelijks over Baidu te zeggen, maar op internet zijn er oordelen dat de plaatsen in zijn Top niet alleen worden ingenomen door de meest relevante sites, maar ook door degenen die ervoor hebben betaald (direct naar de zoekmachine, en niet naar het SEO-kantoor). Dit geldt natuurlijk in de eerste plaats voor de commerciële uitgifte.

Over het algemeen wordt, als we naar de statistieken kijken, duidelijk waarom Google daar gemakkelijk heen gaat om zijn uitgifte te verslechteren in ruil voor toenemende winsten uit contextuele advertenties. Sterker nog, ze zijn niet bang voor de uitstroom van gebruikers, omdat ze in de meeste gevallen nergens heen en nergens heen kunnen. Deze situatie is enigszins triest, maar laten we eens kijken wat er daarna gebeurt.

Trouwens, om het leven van optimizers nog ingewikkelder te maken en misschien om de gemoedsrust van gebruikers van deze zoekmachine te behouden, heeft Google onlangs codering gebruikt bij het verzenden van verzoeken van de browsers van gebruikers naar de zoekreeks. Binnenkort is in de statistieken van bezoekerstellers niet meer te zien waarvoor gebruikers van Google bij jou zijn gekomen.

Naast de zoekmachines die in deze publicatie worden genoemd, zijn er natuurlijk meer dan duizend andere - regionaal, gespecialiseerd, exotisch, enz. Het zal niet mogelijk zijn om ze allemaal op te sommen en te beschrijven in het kader van één artikel, en waarschijnlijk is het ook niet nodig. Laten we een paar woorden zeggen over hoe gemakkelijk het is om een ​​zoekmachine te maken en hoe niet eenvoudig en niet goedkoop om het up-to-date te houden.

De overgrote meerderheid van de systemen werkt volgens vergelijkbare principes (lees daarover en over) en streeft hetzelfde doel na: gebruikers een antwoord geven op hun vraag. Bovendien moet dit antwoord relevant zijn (overeenkomend met de vraag), uitputtend en, niet onbelangrijk, relevant (van de eerste versheid).

Het oplossen van dit probleem is niet zo eenvoudig, vooral gezien het feit dat de zoekmachine de inhoud van miljarden internetpagina's on-the-fly moet analyseren, onnodige pagina's moet verwijderen en een lijst (output) van de rest moet vormen, met de meest geschikte antwoorden naar de vraag van de gebruiker zal eerst gaan.

Deze uiterst complexe taak wordt opgelost door vooraf informatie van deze pagina's te verzamelen met behulp van verschillende indexerende robots. Ze verzamelen links van reeds bezochte pagina's en laden informatie daaruit in de database van de zoekmachine. Er zijn tekstindexerende bots (normale en snelle bots die op nieuws en regelmatig bijgewerkte bronnen leven, zodat de meest recente gegevens altijd in de resultaten worden weergegeven).

Daarnaast zijn er robots die afbeeldingen indexeren (voor hun latere uitvoer naar), favicons, site mirrors (voor hun latere vergelijking en mogelijke verlijming), bots die de prestaties van internetpagina's controleren die gebruikers of via tools voor webmasters (hier kunt u lezen over, en).

Het indexeringsproces zelf en het daaropvolgende proces van het bijwerken van indexdatabases zijn behoorlijk tijdrovend. Hoewel Google dit veel sneller doet dan zijn concurrenten, in ieder geval Yandex, wat een week of twee nodig heeft om dit te doen (lees meer).

Meestal splitst de zoekmachine de tekstinhoud van een webpagina in afzonderlijke woorden, wat leidt tot de basisfundamenten, zodat u later de juiste antwoorden kunt geven op vragen die in verschillende morfologische vormen worden gesteld. Alle overbodige bodykit in de vorm van Html-tags, spaties, etc. dingen worden verwijderd en de overige woorden worden alfabetisch gesorteerd en daarnaast wordt hun positie in dit document aangegeven.

Deze shnyaga wordt een reverse index genoemd en stelt u in staat niet langer op webpagina's te zoeken, maar op gestructureerde gegevens die zich op de servers van de zoekmachine bevinden.

Het aantal van dergelijke servers bij Yandex (die voornamelijk alleen zoekt op Russischtalige sites en een beetje op Oekraïens en Turks) loopt in de tien- of zelfs honderdduizenden, en Google (die in honderden talen zoekt) loopt in de miljoenen.

Veel servers hebben kopieën die zowel dienen om de veiligheid van documenten te vergroten als om de snelheid van het verwerken van een verzoek te verhogen (vanwege de verdeling van de belasting). Schat de kosten van het in stand houden van deze hele economie.

Het verzoek van de gebruiker wordt door de load balancer doorgestuurd naar het serversegment dat momenteel het minst wordt belast. Vervolgens wordt de analyse van de regio uitgevoerd, van waaruit de gebruiker van de zoekmachine zijn verzoek heeft verzonden, en wordt de morfologische analyse gedaan. Als onlangs een soortgelijk verzoek in de zoekregel is ingevoerd, worden de gegevens uit de cache naar de gebruiker geschoven om de server niet opnieuw te laden.

Als het verzoek nog niet in de cache is opgeslagen, wordt het doorgegeven aan het gebied waar de indexbasis van de zoekmachine zich bevindt. Het antwoord zal een lijst zijn van alle webpagina's die op zijn minst enige relatie hebben met het verzoek. Er wordt niet alleen rekening gehouden met directe voorvallen, maar ook met andere morfologische vormen, enz. dingen.

Hen moet worden gesorteerd en in dit stadium komt het algoritme (kunstmatige intelligentie) in het spel. In feite wordt het verzoek van de gebruiker vermenigvuldigd vanwege alle mogelijke opties voor de interpretatie en antwoorden op vele verzoeken worden gelijktijdig doorzocht (door het gebruik van zoektaaloperatoren, waarvan sommige beschikbaar zijn voor gewone gebruikers).

In de regel is er in het nummer één pagina van elke site (soms meer). zijn nu zeer complex en houden rekening met veel factoren. Bovendien, voor hun aanpassing, en worden gebruikt, die de referentiesites handmatig evalueren, waardoor u de werking van het algoritme als geheel kunt aanpassen.

Over het algemeen is het duidelijk dat de zaak donker is. Je kunt hier lang over praten, maar toch is het duidelijk dat gebruikerstevredenheid met een zoekmachine wordt bereikt, oh, hoe niet gemakkelijk. En er zullen altijd mensen zijn die iets niet leuk vinden, zoals bijvoorbeeld jij en ik, beste lezers.

Veel succes! Tot snel op de blogpagina's site

Je kunt meer video's bekijken door naar . te gaan
");">

Misschien ben je geïnteresseerd

Yandex People - zoeken naar mensen op sociale netwerken Apometr is een gratis service voor het volgen van wijzigingen in de uitgifte en updates van zoekmachines DuckDuckGo is een zoekmachine die u niet volgt.
Hoe de internetsnelheid te controleren - online verbindingstest op een computer en telefoon, SpeedTest, Yandex en andere meters
Yandex- en Google-foto's, evenals zoeken op afbeeldingsbestand in Tineye en Google