Zoekmachines beschrijven ze allemaal kort. Moderne zoekmachines. Waarom heb je dit nodig

Classificatie

Per zoekgebied (voorwaardelijk)

Lokaal

Ontworpen om informatie over elk onderdeel te zoeken wereldwijd netwerk bijvoorbeeld via een of meer sites, of via een lokaal netwerk.

Globaal

Ontworpen om informatie op het hele internet of een aanzienlijk deel ervan te zoeken. Vertegenwoordigers van dergelijke zoekmachines zijn dat wel zoekmachines Google, Yandex, etc. Zoekmachines zoeken naar informatie verschillende types, bijvoorbeeld teksten, video's, afbeeldingen, geografische objecten, persoonlijke gegevens, enz. In dit geval kunnen de bestanden waarmee een zoekmachine kan werken de tekstindeling hebben (bijvoorbeeld .html, .htm, .txt, . doc, .rtf...) en grafisch (.gif, .png, .svg...) of multimedia (video en geluid). Tot nu toe is het zoeken in tekstdocumenten het meest gebruikelijk.

Zoekopdracht

De initiële informatie voor de zoekopdracht is de zoekopdracht.

Functies

Zoekmachines vervullen verschillende functies:

Zoek naar koppelingen

Zoek naar links naar pagina's en andere sitedocumenten.

Auto

Handmatige modus

Gebruikers voegen zelf links naar de pagina's van hun sites toe aan de database van de zoekmachine

Websitedocumenten indexeren

Het extraheren van zoekrelevante informatie uit documenten, het omzetten van die informatie in een zoekmachinevriendelijk formaat en het opslaan van die informatie in een zoekmachinedatabase

Doorzoek de database met geïndexeerde documenten

Kan uit verschillende fasen bestaan

Documenten zoeken die overeenkomen met een zoekopdracht

Documenten rangschikken op basis van hun relevantie voor zoekopdrachten

Documentclustering

Opmerkingen

zie ook


Stichting Wikimedia. 2010.

Bekijk wat een ‘zoekmachine’ is in andere woordenboeken:

    Zoekmachine- (zoekmachine): een webserver die webpagina's indexeert op beschikbare servers (bijvoorbeeld Yandex)... Bron: INTERNET RESOURCES. TOEGANKELIJKHEIDSEISEN VOOR VISUEEL GEHANDICAPTEN. GOST R 52872 2007 (goedgekeurd bij besluit van Rostekhregulirovaniya gedateerd... ... Officiële terminologie

    zoekmachine- Webserver die webpagina's indexeert op beschikbare servers (bijvoorbeeld Yandex). [GOST R 52872 2007] Onderwerpen informatie Technologie in het algemeen NL zoekmachine... Handleiding voor technische vertalers

    Op internet: een speciale website waarop een gebruiker op een gegeven verzoek links kan ontvangen naar sites die aan dit verzoek voldoen. Het zoeksysteem bestaat uit drie componenten: 1 zoekrobot; 2 systeemindexen; en 3 programma's,... ... Financieel woordenboek

    Op internet: een zoekmachine die: een zoekopdracht naar meerdere zoekmachines stuurt; en genereert een samenvatting (op één pagina) van de ontvangen antwoorden. In het Engels: Meta-zoekmachine Synoniemen: Meta caterpillar Engelse synoniemen: Metacrawler... ... Financieel woordenboek

    Dit artikel moet volledig herschreven worden. Mogelijk staat er uitleg op de overlegpagina. Zoekmachine programmatisch hardware-complex met een webinterface die de mogelijkheid biedt ... Wikipedia

    Zoeksysteem- – (Engelse zoekmachine, synoniemen: zoekmachine, zoekserver, zoekmachine) – Een hulpmiddel voor het zoeken naar informatie op internet. In de regel bestaat het werk van een zoekmachine uit twee fasen. Speciaal programma (zoekrobot, machine, agent,... ... Encyclopedic Dictionary of Media - Zoekmachine is een website die de mogelijkheid biedt om informatie op internet te zoeken. De meeste zoekmachines zoeken naar informatie op World Wide Web-sites, maar er zijn ook systemen die kunnen zoeken naar bestanden op ftp-servers, producten in ... ... Wikipedia

Boeken

  • Over de kwestie van de effectiviteit van het zoeken naar details op internet, I. A. Semenov. Volgens onderzoek van Berkley werd de hoeveelheid informatie op internet vanaf 2003 geschat op 258,85 terabytes, en dit zijn alleen openbaar beschikbare gegevens. Door Internetgegevens Wereldstatistieken, groei... eBoek

Laboratoriumwerk nr. 10.

Zoek informatie in Internetnetwerken

Doel van het werk

Maak kennis met de belangrijkste internetzoekmachines. Beheers de vaardigheden van het werken in zoekmachines. Leer de optimale zoekmachine te kiezen, rekening houdend met de specifieke kenmerken van de taken.

Apparaten en materialen

Voor uitvoering laboratorium werk een personal computer die onder controle werkt, is vereist besturingssysteem WINDOWS-familie. Moet geïnstalleerd worden Internetprogramma Ontdekkingsreiziger.

Moderne zoekmachines

Het internet is een gigantische opslagplaats van informatie. Veel pagina's, waardevol en niet zo waardevol, bestaan ​​zonder enige volgorde en zijn alleen met elkaar verbonden door willekeurige links, afhankelijk van de kwalificaties en persoonlijke voorkeuren van de auteurs van de site. De gebruiker moet echter door deze diversiteit navigeren en, bij voorkeur binnen enkele minuten, de nodige informatie vinden.

Er zijn een groot aantal zoekmachines op internet. Volgens de meest conservatieve schattingen zijn er meer dan achtduizend, inclusief klassiekers zoekmachines, algemene en gespecialiseerde gidsen, En metasearch-websites(die verzoeken naar meerdere zoekservers tegelijk sturen). Daarnaast zijn er een aantal alternatieve zoekhulpmiddelen die u wellicht nuttig vindt, waaronder hulpprogramma's die, in samenwerking met de browser, informatie uit het web halen en de zogenaamde "expertknooppunten", waar echte mensen met uw verzoeken werken. Momenteel worden er intelligente zoeksystemen ontwikkeld. Een voorbeeld van zo’n systeem is bijvoorbeeld een intelligent zoeksysteem Nigma(www.nigma.ru).

Zoekmachines en mappen

Ondanks de overvloed aan zoekmethoden op internet zijn zoekmachines en catalogi nog steeds de meest gebruikte middelen om informatie te vinden. Elk van deze instrumenten heeft bepaalde voordelen, en het belangrijkste verschil ertussen is menselijke participatie/niet-participatie.

Zoekmachines– dit is complex speciale programma's om op internet te zoeken.

Hoofd onderdelen software pakket:

1. Robotspin(spin). Een zelfstandig programma dat door pagina's van sites loopt die in de wachtrij staan ​​voor indexering. Het downloadt de inhoud van de gezochte pagina's naar de zoekserverschijf.

2. Robotcrawler(“reizende” spin). Zijn taak is om alle links op de onderzochte pagina te verzamelen, nieuwe links te vinden die onbekend zijn bij de zoekmachine, en ze toe te voegen aan de lijst van links die wachten op indexering.

3. Indexeerder. Verwerkt pagina's uit de wachtrij voor indexering. Om dit te doen, stelt hij een 'woordenboek' van de pagina samen en onthoudt hij de 'frequentie' van woorden. Speciale opmerkingen trefwoorden, gebruikt in kopjes, gemarkeerd in tekst vetgedrukt. Plaatst dit alles in een speciaal bestand - "index".


5. Systeem voor het verwerken van aanvragen en het uitgeven van resultaten. Accepteert het verzoek van de gebruiker, genereert een zoekopdracht in de database, ontvangt het resultaat van daaruit en verzendt dit naar de gebruiker.

Zoekmachines lanceren in Websoftware"spinnen" die van pagina naar pagina reizen en de volledige tekst van elke pagina indexeren.

Bijna alle zoekmachines hebben hetzelfde zoekformulier en ongeveer hetzelfde formaat voor het leveren van resultaten (zie paragraaf “ Verschijning zoekpagina's"), maar de werking van zoekmachines varieert aanzienlijk. Ten eerste de relevantie (de mate waarin zoekresultaten overeenkomen met het verzoek van de gebruiker), ten tweede de omvang en frequentie van database-updates, en ten derde de snelheid waarmee resultaten worden gepubliceerd. En natuurlijk verschillen zoekmachines in gebruiksgemak.

Tegenwoordig zijn zoekmachines de populairste webpagina’s waarop gebruikers veel tijd doorbrengen. Daarom moeten bij het kiezen van een zoekmachine gerelateerde diensten (mail, nieuwsfeeds, handelsplatformen, enz.).

Catalogi- een traditionele manier om informatie te organiseren. We zijn waarschijnlijk allemaal bibliotheekcatalogi en productcatalogi tegengekomen. Directory's worden in verschillende systemen gebruikt. Bijna overal waar u informatie moet opslaan en ordenen.

Een van de belangrijkste uitdagingen waarmee catalogussamenstellers worden geconfronteerd, is het creëren van categorieën die natuurlijk en intuïtief zijn voor de gemiddelde gebruiker. Helaas, deze opdracht kan alleen worden opgelost met verschillende graden van benadering. De wereld is continu, er zijn geen strikte grenzen in. Eén en dezelfde site kan vanuit verschillende hoeken worden bekeken en de verschillende functies ervan worden bekeken. Directory's worden gemaakt door menselijke redacteuren die pagina's lezen, ongepaste verwijderen en knooppunten classificeren op onderwerp.

De nadelen van catalogi zijn onder meer de volgende.

Ten eerste is de dubbelzinnigheid van de structuur een duidelijk nadeel van de catalogusorganisatie van informatie (hoewel dit enigszins wordt verzacht door het feit dat elke grote catalogus een cataloguszoekfunctie heeft).

Ten tweede worden catalogi door mensen gemaakt. Hun volledigheid en kwaliteit zijn afhankelijk van het aantal en de kwalificaties van de mensen die in de catalogus werken, en hun persoonlijke smaak en voorkeuren. Kenmerkend voor alle catalogi is de oneffenheid van de inhoud van de kopjes.

Ten derde beperkt de bewerkelijkheid van het handmatig categoriseren de hoeveelheid gecatalogiseerde informatie.

Tegelijkertijd zijn de onbetwiste voordelen van catalogi dat de informatie erin op een ordelijke manier wordt opgeslagen, in overeenstemming met de elementaire menselijke logica en relevantie Het aantal gevonden pagina's bij zoeken in een catalogus is doorgaans een orde van grootte hoger dan bij zoeken met zoekmachines.

Zoals hierboven vermeld, dekken ze veel minder bronnen af ​​dan zoekmachines, omdat ze handmatig worden aangemaakt. Volgens conservatieve schattingen zijn er nu een miljard pagina's op internet (en hun aantal groeit elke dag met een miljoen). De meeste zoekmachines zijn nog lang niet in de buurt gekomen van het indexeren van het hele internet. De uitzondering is Google (voor Rusland www.google.ru), dat precies dit cijfer claimt: een miljard pagina's, gedeeltelijk of volledig gedekt door zijn indexen. De grootste catalogus - het Open Directory Project (www.dmoz.org) - lijkt tegen deze achtergrond klein: er staan ​​slechts ongeveer 2 miljoen pagina's in.

In 1994, toen de snelle groei van het World Wide Web begon, was de keuze aan zoekhulpmiddelen op het web zeer beperkt: Yahoo (www.yahoo.com). Deze server is tot op de dag van vandaag de hoeksteen Webonderzoek, maar als directory wordt het nu geconfronteerd met hevige concurrentie van het Open Directory Project.

Veel mappen zijn behoorlijk nuttig, maar alles bij elkaar genomen heeft het Open Directory Project de voorkeur. Het Open Directory Project, geïnitieerd door Netscape, wordt geleid door ruim 24.000 vrijwillige redacteuren over de hele wereld die bijna 2 miljoen knooppunten hebben geïndexeerd en in meer dan 200.000 categorieën hebben ingedeeld. Elke zoekserver kan het Open Directory Project licentiëren en de database gebruiken bij het verwerken van zoekopdrachten, en vele doen dat: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) en ongeveer honderd andere servers duiken daar op zoek naar links.

Je zou verwachten dat, aangezien het Open Directory Project een door vrijwilligers aangestuurde directory is, de kwaliteit van de resultaten zou fluctueren. Maar het resultaat zijn overzichtelijke lijsten met gerelateerde pagina's met duidelijke beschrijvingen van elke link. En de Open Directory Project-site heeft hetzelfde gevoel als Google: het is 'puur zoeken' zonder afleidingen zoals links naar winkels.

Welke directory u ook kiest, ze hebben allemaal één voordeel ten opzichte van zoekmachines: ze kunnen systematisch worden bekeken met behulp van hiërarchisch systeem menu.

Werkingsprincipe, voor- en nadelen van zoekmachines

Naast catalogi (en zelfs veel vaker) worden zoekmachines gebruikt. Dit is al moderner en handige manier navigatie en zoeken op internet. In tegenstelling tot telefoongidsen is een zoekmachine een volledig geautomatiseerde structuur.

De voordelen van zoekmachines zijn onder meer: ​​een klein aantal verouderde links in zoekresultaten; veel grote hoeveelheid Websites waarop wordt gezocht; meer hoge snelheid zoekopdracht; hoge zoekrelevantie; de aanwezigheid van extra servicefuncties die het werk van de gebruiker vergemakkelijken, bijvoorbeeld de mogelijkheid om de tekst van een document in een vreemde taal te vertalen, de mogelijkheid om alle documenten van een specifieke site te selecteren, criteria te verfijnen tijdens een zoekopdracht, documenten te vinden “op basis op een monster”, enzovoort.

De werking van zoekmachines is gebaseerd op totaal verschillende technologische principes. De taak van zoekmachines is om gedetailleerd naar informatie in het elektronische universum te zoeken, wat alleen kan worden bereikt door rekening te houden (indexeren) met de volledige inhoud van het maximaal mogelijke aantal webpagina's. In tegenstelling tot directories werken zoekmachines in een geautomatiseerde modus en hebben ze hetzelfde werkingsprincipe. Zoekmachines hebben twee basiscomponenten. Het eerste onderdeel is een robotprogramma dat tot taak heeft van server naar server te reizen, daar nieuwe of gewijzigde documenten te vinden en deze te downloaden hoofdcomputer systemen. Tegelijkertijd vindt de robot, die de inhoud van het document bekijkt, nieuwe links, net als naar andere documenten van deze server en naar externe sites. Het programma volgt zelfstandig de opgegeven links, vindt nieuwe documenten en links daarin, waarna het proces opnieuw wordt herhaald, wat doet denken aan de "sneeuwbalmethode" die bekend is in de bibliografie. De geïdentificeerde documenten worden verwerkt (geïndexeerd) door de tweede component van de zoekmachine. In dit geval wordt in de regel rekening gehouden met de volledige inhoud van de pagina, inclusief tekst, illustraties, audio- en videobestanden. Alle woorden in een document worden geïndexeerd, waardoor het mogelijk is zoekmachines te gebruiken voor gedetailleerde zoekopdrachten over de kleinste onderwerpen. De resulterende gigantische indexbestanden slaan informatie op over welk woord wordt gebruikt, hoe vaak, in welk document en op welke server, en vormen een database die toegankelijk is voor gebruikers die combinaties van trefwoorden in de queryreeks invoeren. Brown Marcus: Methoden voor het zoeken naar informatie op internet. - M.: Nieuwe uitgeverij, 2005. - 136 pagina's

De resultaten worden geleverd met behulp van een speciale module die de resultaten op intelligente wijze rangschikt. In dit geval zijn de locatie van de term in het document (titel, kop, hoofdtekst), de frequentie van de herhaling, het percentage van de gezochte term ten opzichte van de rest van de paginatekst, evenals het aantal en de autoriteit van externe Er wordt rekening gehouden met links naar deze pagina vanaf andere sites.

Zoekmachines hebben echter enkele nadelen: beperkt zoekgebied. Als een site niet in de database van een zoekmachine is opgenomen, ‘bestaat’ deze er niet voor en kunnen de documenten ervan niet in de zoekresultaten worden opgenomen; relatieve moeilijkheid gebruik. Om ervoor te zorgen dat de zoekopdracht precies overeenkomt met wat er precies moet worden gevonden, moet u op zijn minst een beetje begrijpen hoe een zoekmachine werkt en de eenvoudigste logische operatoren. Zoek in mappen in die zin is het eenvoudiger en vertrouwder; een minder visuele vorm van het presenteren van zoekopdrachtresultaten. De directory toont de naam van de site met een korte samenvatting en andere bruikbare informatie. De resultaten van de zoekmachine zijn minder duidelijk; Omdat de database van zoekmachines wordt aangevuld door robotprogramma's, kunnen oneerlijke eigenaren van advertentiesites hen "misleiden", waardoor de relevantie van de zoekopdracht aanzienlijk kan worden verminderd.

Zoekmachines (zoekmachines) komen vaker voor dan catalogi, en hun aantal, nu enkele tientallen, blijft gestaag toenemen. Professioneel werk hiermee zijn speciale vaardigheden vereist, omdat het simpelweg invoeren van de gewenste term in de zoekbalk hoogstwaarschijnlijk zal leiden tot een lijst van honderdduizenden documenten die dit concept bevatten, wat bijna gelijk staat aan een nulresultaat u.(http://www. google.com/)

Deze zoekmachine werd gelanceerd in 1998. IN momenteel In alle belangrijke opzichten is dit systeem de enige leider onder de wereldwijde zoekmachines. Google is een van de populairste zoekmachines. Deze zoekmachine dankt zijn naam aan het woord ‘Googol’, wat een getal betekent geschreven als één gevolgd door 100 nullen. Google heeft subdomeinen voor grote hoeveelheid landen - voor Rusland is dit bijvoorbeeld www.google.com.ru.

De Google-zoekmachine vindt niet alleen hypertekstdocumenten, maar ook bestanden in doc, pdf, mp3 enzovoort. Google beschikt over een hoogwaardige ‘engine’ die het internet doorzoekt op basis van gebruikersverzoeken. De relevantie – de mate waarin de gevonden zoekresultaten overeenkomen met de zoekopdracht – is bij Google vaak hoger dan bij Russische zoekmachines, bijvoorbeeld Yandex. Het is om deze reden dat alles meer gebruikers Het internet begint Google als belangrijkste zoekmachine te gebruiken. Google-zoekmachine maakt gebruik van het PageRank-algoritme voor het rangschikken van links, dat de autoriteit van een site bepaalt bij het genereren van een lijst met zoekresultaten. PageRank is vergelijkbaar met de Yandex-citatie-index en is afhankelijk van de kwaliteit en kwantiteit van links naar deze site. PageRank helpt gebruikers precies te vinden wat ze zoeken op internet.

De Google-zoekmachine kopieert alle pagina's naar zijn database (caches), waardoor de gebruiker de pagina kan bekijken door deze te openen vanuit de Google-cache, en niet vanuit de oorspronkelijke bron, wat de zoektijd aanzienlijk kan verkorten. Bijzonder aan Google is dat de zoekmachine alle pagina’s volledig indexeert. Ook het vermelden waard Google-mogelijkheid zoek naar afbeeldingen van verschillende kwaliteit, grootte en formaat. Door een rekenkundige uitdrukking in de zoekbalk in te voeren, kunt u het juiste antwoord van Google krijgen. Om te profiteren Google zoeken het is niet nodig om naar www.google.com.ru te gaan - u kunt installeren Google-programma Toolbar, waarmee een werkbalk in de browser wordt gemaakt zoekbalk, waar u uw verzoek kunt invoeren.

Naast de genoemde wereldwijde zoekmachines zijn ze in sommige gevallen nogal uit traagheid verouderd zoekdiensten, waarvan de meest opvallende HotBot (http://www.hotbot.com/) en Excite (http://www.excite.com/) zijn. Door de kleine omvang van hun indexbestanden kunnen we tegenwoordig niet vertrouwen op de informatie die ze verstrekken. Een “jonge” zoekmachine als Ask (http://www.ask.com/) is, ondanks het indrukwekkende volume aan geïndexeerde documenten, nog niet van bijzonder belang. Ask kan bijvoorbeeld niet zoeken naar documenten in het Russisch.

Een zoekmachine of kortweg ‘zoekmachine’ is een zoekmachine die internetpagina’s doorzoekt in overeenstemming met het verzoek van de gebruiker. De bekendste zoekmachine ter wereld is Google, de meest populaire in Rusland is Yandex en een van de oudste zoekmachines is Yahoo. In de zoekmachinearchitectuur kunnen we onderscheid maken zoekmachine– de kern van het systeem, vertegenwoordigd door een reeks softwaremodules; databank of inhoudsopgave, dat informatie opslaat over alle internetbronnen die de zoekmachine kent; en een reeks sites die dat wel zijn toegangspunten gebruikers in het systeem (www.google.com, www.yandex.ru, ru.yahoo.com, enz.). Dit alles komt overeen met de klassieker drieledige architectuur informatiesystemen: er is een gebruikersinterface, bedrijfslogica, die in dit geval wordt vertegenwoordigd door de implementatie van zoekalgoritmen en een database.

Bijzonderheden over zoeken op internet

Op het eerste gezicht verschilt zoeken op internet niet veel van gewoon zoeken. ophalen van informatie, bijvoorbeeld van verwerking naar een database of van een bestandszoektaak naar . Dat dachten de ontwikkelaars van de eerste internetzoekmachines ook, maar na verloop van tijd beseften ze dat ze zich vergisten...

Het eerste verschil tussen zoeken op internet en normaal zoeken is dat het zoekalgoritme voor dezelfde database ervan uitgaat dat de structuur ervan vooraf bekend is bij de zoekmachine en de auteur van de zoekopdracht. Op internet is dit om voor de hand liggende redenen niet het geval. Internetpagina's vormen geen directorystructuur, maar een netwerk, dat ook de zoekalgoritmen beïnvloedt, en het formaat van de gegevens die op internetbronnen worden geplaatst, wordt door niemand beheerd.

Het tweede verschil, als een van de gevolgen van het eerste, is dat het verzoek niet wordt gepresenteerd als een reeks parameterwaarden (zoekcriteria), maar als tekst die door een persoon in zijn natuurlijke taal is geschreven. Voordat u begint met zoeken, moet u dus nog steeds begrijpen wat de auteur van het verzoek precies wil. Ik wil opmerken dat het niet aan iemand anders is om het te begrijpen, maar aan een computer.

Het derde verschil is minder voor de hand liggend, maar niet minder fundamenteel: in een catalogus of database hebben alle elementen gelijke rechten. Er is concurrentie op internet, en als gevolg daarvan is er sprake van een opdeling in ‘betrouwbare informatieleveranciers’ en bronnen die qua status dicht bij ‘informatieafval’ staan. Dit is hoe mensen bronnen classificeren, en dit geldt ook voor zoekmachines.

En tot slot moet hieraan worden toegevoegd dat het zoekgebied miljarden pagina's omvat, elk enkele kilobytes of meer. Er worden dagelijks ongeveer tien miljoen pagina's toegevoegd en hetzelfde aantal wordt bijgewerkt. Dit alles wordt vertegenwoordigd door verschillende digitale formaten. Helaas zelfs moderne technologieën en de middelen waarover de leiders van de markt voor internetzoekdiensten beschikken, stellen hen niet in staat al deze diversiteit “on the fly” en volledig te verwerken.

Waaruit bestaat een zoekmachine?

Allereerst is het belangrijk om nog een en waarschijnlijk het belangrijkste verschil te begrijpen tussen het werk van een zoekmachine op internet en het werk van elk ander informatiesysteem dat in verschillende soorten catalogi en databases zoekt. Internetzoekmachine de machine zoekt niet naar informatie tussen wat er op internet staat op het moment dat het verzoek wordt ontvangen, maar probeert een antwoord te genereren op basis van zijn eigen informatieopslag - een database die een index wordt genoemd en waarin hij een dossier opslaat over alles wat hem bekend is en werkt deze regelmatig bij. Met andere woorden: de zoekmachine werkt niet met het origineel, maar met een projectie van het gebied aanvaardbare waarden zoekopdracht. Alle laatste wijzigingen op internet kan pas in de zoekresultaten worden weergegeven nadat de overeenkomstige pagina's zijn bezocht geïndexeerd- toegevoegd aan de zoekmachine-index. Een zoeksysteem bestaat dus in eerste benadering uit een zoekmachine, een database of index (index) en toegangspunten tot het systeem.

Nu kort over waar een zoekmachine uit bestaat:

  • Spin of spin. Een applicatie die pagina's met internetbronnen downloadt. De spider ‘kruipt’ nergens – hij vraagt ​​alleen de inhoud van pagina’s op, op dezelfde manier als een gewone internetbrowser, en verzendt HTTP-server verzoek en het ontvangen van een antwoord daarop. Zodra de pagina-inhoud is gedownload, wordt deze naar de indexer en crawler verzonden, die hieronder worden besproken.

  • Indexeerder. De indexer voert een eerste analyse uit van de inhoud van de gedownloade pagina, selecteert de belangrijkste onderdelen (paginatitel, beschrijving, links, koppen, enz.) en rangschikt alles in secties van de zoekdatabase - plaatst deze in de index van de zoekmachine. Dit proces wordt genoemd indexering van internetbronnen, vandaar de naam van het subsysteem zelf. Op basis van de resultaten van de initiële analyse kan de indexeerder ook besluiten dat de pagina helemaal niet ‘waardig’ is om in de index te worden opgenomen. De redenen voor deze beslissing kunnen verschillend zijn: de pagina heeft geen naam, is een exacte kopie van een andere pagina die al in de index staat, of bevat links naar bronnen die bij wet verboden zijn.

  • Kruiper. Dit “dier” is ontworpen om te “kruipen” langs de links die beschikbaar zijn op de pagina die door de spin is gedownload. De crawler analyseert de paden die leiden naar huidige pagina naar andere delen van de site of naar pagina's extern internet bronnen en bepaalt de verdere volgorde waarin de spin de draden van het World Wide Web doorkruist. Het is de crawler die pagina's vindt die nieuw zijn voor de zoekmachine en deze doorstuurt naar de spider. Het werk van de crawler is gebaseerd op grafiekzoekalgoritmen die eerst in de breedte en in de diepte zoeken.

  • Subsysteem voor het verwerken en uitgeven van resultaten (Search Engine en Results Engine). Het belangrijkste onderdeel van elke zoekmachine. De ontwikkelaars van het bedrijf houden de operationele algoritmen van dit subsysteem strikt geheim, omdat ze een bedrijfsgeheim zijn. Het is dit deel van de zoekmachine dat verantwoordelijk is voor de adequaatheid van het antwoord van de zoekmachine op het verzoek van de gebruiker. Er zijn hier twee hoofdcomponenten:
    • Ranking subsysteem. Variërend– dit zijn pagina's van internetsites in overeenstemming met hun relevantie voor een specifiek verzoek. Relevantie van de pagina– dit is op zijn beurt de mate waarin de inhoud van de pagina overeenkomt met de betekenis van het verzoek, en de zoekmachine bepaalt deze waarde onafhankelijk, op basis van een groot aantal parameters. Ranking is het meest mysterieuze en controversiële onderdeel van de ‘kunstmatige intelligentie’ van een zoekmachine. De ranking van een pagina wordt, naast de structuur en inhoud (inhoud), ook beïnvloed door: het aantal en de kwaliteit van links die leiden naar deze pagina van andere sites; leeftijd van het domein van de site zelf; de aard van het gedrag van gebruikers die de pagina bekijken en vele andere factoren.

    • Subsysteem voor het uitgeven van resultaten. De taken van dit subsysteem omvatten het interpreteren van het gebruikersverzoek en het vertalen ervan in taal gestructureerde zoekopdrachten aan de index en het genereren van zoekresultatenpagina's. Naast het parseren van de zoektekst zelf, kan de zoekmachine ook rekening houden met:
      • Vraag context aan, gevormd op basis van de betekenis van eerder gedane verzoeken van de gebruiker. Als een gebruiker bijvoorbeeld vaak sites over auto-onderwerpen bezoekt, wil hij, wanneer hem wordt gevraagd naar het woord 'Volga' of 'Oka', waarschijnlijk informatie ontvangen over auto's van deze merken, en niet over waar de Russen met dezelfde naam beginnen en waar rivieren stromen. Het heet gepersonaliseerde zoekopdracht, wanneer de uitvoer voor hetzelfde verzoek voor verschillende gebruikers aanzienlijk verschillend is.

      • Gebruiker voorkeuren, waar het (de zoekmachine) naar kan ‘raden’, het analyseren van de links die de gebruiker selecteert op zoekresultatenpagina's. Dit is een andere manier om de context van een verzoek aan te passen: de gebruiker lijkt door zijn acties de machine te vertellen wat hij precies wilde vinden. In de regel proberen zoekmachines pagina's aan de zoekresultaten toe te voegen die relevant zijn voor de zoekopdracht, maar gerelateerd zijn aan een bepaald onderwerp verschillende gebieden leven. Stel dat een gebruiker geïnteresseerd is in films en daarom vaak links selecteert naar pagina's met filmaankondigingen, zelfs als deze pagina's niet helemaal relevant zijn voor het oorspronkelijke verzoek. Bij het genereren van een antwoord op zijn volgende verzoek kan het systeem de voorkeur geven aan pagina's met beschrijvingen van films waarvan de titels woorden uit de tekst van het verzoek bevatten.

      • Regio, wat erg belangrijk is bij het verwerken van commerciële verzoeken met betrekking tot de aankoop van goederen en diensten bij lokale leveranciers. Als u geïnteresseerd bent in uitverkoop en kortingen en in Moskou bent, dan bent u hoogstwaarschijnlijk helemaal niet geïnteresseerd in welke promoties over dit onderwerp er in Sint-Petersburg worden gehouden, tenzij u dit expliciet aangeeft in de tekst van het verzoek. Allereerst moet informatie over de verkoop in Moskou in de zoekresultaten verschijnen. Moderne zoekmachines verdelen zoekopdrachten dus in geo-afhankelijk En geo-onafhankelijk. Als de zoekmachine besluit dat uw zoekopdracht geo-afhankelijk is, voegt deze hoogstwaarschijnlijk automatisch een regio-indicator toe, die hij probeert te bepalen op basis van informatie over uw internetprovider.

      • Tijd. Zoekmachines soms moet je analyseren wanneer de op de pagina beschreven gebeurtenissen plaatsvonden. Informatie raakt immers voortdurend verouderd en de gebruiker heeft vooral links nodig naar het laatste nieuws, actuele voorspellingen en aankondigingen van evenementen die nog niet zijn afgelopen of die in de toekomst zullen plaatsvinden. Het begrijpen dat de relevantie van een pagina afhangt van de tijd, en het vergelijken ervan met het moment waarop het verzoek werd uitgevoerd, vergt ook behoorlijk wat intelligentie van de zoekmachine.

      Vervolgens zoekt de zoekmachine naar de betekenis die daar het dichtst bij ligt sleutel vraag in de index en genereert resultaten door links te sorteren in aflopende volgorde van relevantie. Elke sleutelzoekopdracht in de index heeft een afzonderlijke rangschikking voor relevante pagina's. Het systeem maakt niet voor iedere combinatie van letters en cijfers een nieuwe sleutelvraag aan, maar doet dit op basis van een analyse van de frequentie van bepaalde gebruikersvragen. De zoekmachine kan ook rangschikkingen van verschillende belangrijke zoekopdrachten in de zoekresultaten door elkaar halen als hij denkt dat dit is waar de gebruiker naar op zoek is.

Algemene principes van de werking van zoekmachines

U moet begrijpen dat zoekdiensten op internet heel erg zijn winstgevende zaak. U hoeft niet in details te treden over hoe bedrijven als Google en Yandex leven, aangezien het grootste deel van hun winst inkomsten uit contextuele advertenties zijn. En aangezien zoeken op internet een uiterst winstgevende onderneming is, is de concurrentie tussen dergelijke bedrijven zeer ernstig. Wat bepaalt de concurrentiekracht op de internetzoekmarkt? Het antwoord is de kwaliteit van de zoekresultaten van zoekmachines. Het is logisch dat hoe hoger het is, hoe meer nieuwe gebruikers het systeem krijgt en hoe waardevoller het op de pagina's met dezelfde zoekresultaten wordt geplaatst. contextuele reclame. Ontwikkelaars van zoekmachines besteden veel moeite aan het ‘opschonen’ van hun zoekresultaten van verschillende soorten informatieafval, in de volksmond spam genoemd. Hoe dit wordt gedaan, zal in een apart artikel in meer detail worden beschreven, maar hier zal ik het verstrekken algemene principes zoekmachinegedrag, geformuleerd in de vorm van conclusies op basis van al het bovenstaande.

  1. De zoekmachine, vertegenwoordigd door zijn spiders en crawlers, scant voortdurend het internet op nieuwe pagina's en updates van bestaande pagina's, omdat irrelevante informatie lager wordt gewaardeerd.

  2. De zoekmachine werkt periodiek de rangschikking van bronnen bij op basis van hun relevantie. belangrijkste vragen, omdat er voortdurend nieuwe pagina's in de index verschijnen. Dit proces wordt het bijwerken van de zoekresultaten genoemd.

  3. Vanwege de enorme hoeveelheid informatie die in World Wide Web en de beperkte middelen van de zoekmachine zelf, probeert de zoekmachine altijd alleen datgene te downloaden wat (naar zijn mening) noodzakelijk is. Het arsenaal omvat allerlei filters die al in de indexeringsfase veel afsnijden wat onnodig is, of die spam uit de index gooien op basis van de resultaten van het bijwerken van de zoekresultaten.

  4. Bij het analyseren van een verzoek proberen moderne zoekmachines niet alleen rekening te houden met de tekst van het verzoek zelf, maar ook met de omgeving: de context en voorkeuren van de gebruiker, die eerder werden genoemd, evenals het tijdstip van het verzoek, de regio , en nog veel meer.

  5. De relevantie van een bepaalde pagina wordt niet alleen beïnvloed door de interne parameters (structuur, inhoud), maar ook door externe parameters, zoals links naar de pagina vanaf andere sites en gebruikersgedrag bij het bekijken ervan.

Het werk van zoekmachines wordt voortdurend verbeterd. Perfecte baan zoekmachine (voor mensen) is alleen mogelijk als alle beslissingen met betrekking tot indexering en ranking worden genomen door een commissie bestaande uit groot nummer specialisten van alle vakgebieden en richtingen menselijke activiteit. Omdat dit onrealistisch is, wordt een dergelijke commissie vervangen expertsystemen, heuristische zoekalgoritmen en andere elementen van kunstmatige intelligentie. Waarschijnlijk zou het werk van al deze subsystemen ook adequatere resultaten kunnen opleveren als het mogelijk zou zijn om absoluut alle beschikbare gegevens in het systeem te verwerken. vrije toegang op internet, maar dit is bijna onmogelijk. Onvolmaakt kunstmatige intelligentie en beperkte middelen zijn twee belangrijke redenen waarom zoekresultaten niet altijd prettig zijn voor gebruikers, maar dit alles kan met de tijd worden verholpen. Tegenwoordig voldoet het werk van de beroemdste en grootste zoekmachines naar mijn mening volledig aan de behoeften en verwachtingen van hun gebruikers.

Wat is dit

DuckDuckGo is een redelijk bekende open source zoekmachine. broncode. Servers bevinden zich in de VS. Naast de eigen robot gebruikt de zoekmachine resultaten uit andere bronnen: Yahoo, Bing, Wikipedia.

Des te beter

DuckDuckGo positioneert zichzelf als een zoekmachine die maximale privacy en vertrouwelijkheid biedt. Het systeem verzamelt geen gegevens over de gebruiker, slaat geen logs op (geen zoekgeschiedenis), gebruik koekjes zo beperkt mogelijk.

DuckDuckGo verzamelt of deelt geen persoonlijke informatie van gebruikers. Dit is ons privacybeleid.

Gabriel Weinberg, oprichter van DuckDuckGo

Waarom heb je dit nodig

Alle grote zoekmachines proberen te personaliseren op basis van gegevens over de persoon voor de monitor. Dit fenomeen wordt de ‘filterbubbel’ genoemd: de gebruiker ziet alleen die resultaten die consistent zijn met zijn voorkeuren of die het systeem als zodanig beschouwt.

DuckDuckGo creëert een objectief beeld dat niet afhankelijk is van uw eerdere gedrag op internet, en elimineert thematische beelden Google-advertenties en Yandex, op basis van uw verzoeken. Met DuckDuckGo is het eenvoudig om informatie in vreemde talen te zoeken: Google en Yandex geven standaard de voorkeur aan Russischtalige sites, zelfs als de zoekopdracht in een andere taal wordt ingevoerd.


Wat is dit

not Evil is een systeem dat het anonieme Tor-netwerk doorzoekt. Om het te gebruiken, moet je naar dit netwerk gaan, bijvoorbeeld door een gespecialiseerd netwerk met dezelfde naam te lanceren.

not Evil is niet de enige zoekmachine in zijn soort. Er is LOOK (standaardzoekopdracht in de Tor-browser, toegankelijk via regulier internetten) of TORCH (een van de oudste zoekmachines op het Tor-netwerk) en anderen. We hebben gekozen voor not Evil vanwege de duidelijke hint van Google (kijk maar op de startpagina).

Des te beter

Het zoekt waar Google, Yandex en andere zoekmachines over het algemeen gesloten zijn.

Waarom heb je dit nodig

Het Tor-netwerk bevat veel bronnen die niet op het gezagsgetrouwe internet te vinden zijn. En hun aantal zal toenemen naarmate de controle van de overheid over de inhoud van het internet groter wordt. Tor is een soort netwerk binnen het internet met eigen sociale netwerken, torrent-trackers, media, handelsplatformen, blogs, bibliotheken enzovoort.

3. YaCy

Wat is dit

YaCy is een gedecentraliseerde zoekmachine die werkt volgens het principe van P2P-netwerken. Elke computer waarop de hoofdcomputer is geïnstalleerd softwaremodule, scant het internet onafhankelijk, dat wil zeggen, het is een analoog van een zoekrobot. De verkregen resultaten worden verzameld in gemeenschappelijke basis, dat door alle YaCy-leden wordt gebruikt.

Des te beter

Het is moeilijk te zeggen of dit beter of slechter is, omdat YaCy een heel andere benadering is van het organiseren van zoekopdrachten. De afwezigheid van een enkele server en eigenaarbedrijf maakt de resultaten volledig onafhankelijk van iemands voorkeuren. De autonomie van elk knooppunt elimineert censuur. YaCy kan zoeken op het deep web en niet-geïndexeerde openbare netwerken.

Waarom heb je dit nodig

Als u voorstander bent van open source software en een vrij internet, laat u dan niet beïnvloeden overheidsinstellingen en grote bedrijven, dan is YaCy uw keuze. Het kan ook worden gebruikt om een ​​zoekopdracht binnen een bedrijfs- of ander autonoom netwerk te organiseren. En ook al is YaCy niet erg nuttig in het dagelijks leven, het is het waard alternatief voor Google als het gaat om het zoekproces.

4. Pipl

Wat is dit

Pipl is een systeem dat is ontworpen om informatie over een specifieke persoon te zoeken.

Des te beter

De auteurs van Pipl beweren dat hun gespecialiseerde algoritmen efficiënter zoeken dan ‘gewone’ zoekmachines. De belangrijkste informatiebronnen zijn met name profielen sociale netwerken, commentaren, deelnemerslijsten en diverse databases waarin informatie over personen wordt gepubliceerd, zoals databases met rechterlijke uitspraken. Het leiderschap van Pipl op dit gebied wordt bevestigd door beoordelingen van Lifehacker.com, TechCrunch en andere publicaties.

Waarom heb je dit nodig

Als u informatie wilt vinden over een persoon die in de VS woont, dan zal Pipl veel effectiever zijn dan Google. De databases van Russische rechtbanken zijn blijkbaar niet toegankelijk voor de zoekmachine. Daarom kan hij niet zo goed omgaan met Russische burgers.

Wat is dit

FindSounds is een andere gespecialiseerde zoekmachine. Zoekt naar verschillende geluiden (huis, natuur, auto's, mensen, etc.) in open bronnen. De service ondersteunt geen zoekopdrachten in het Russisch, maar er is een indrukwekkende lijst met Russischtalige tags waarnaar u kunt zoeken.

Des te beter

De uitvoer bevat alleen geluiden en niets extra's. In de zoekinstellingen kun je het gewenste formaat en de geluidskwaliteit instellen. Alle gevonden geluiden kunnen worden gedownload. Er wordt gezocht naar geluiden op patroon.

Waarom heb je dit nodig

Als je snel het geluid van een musketschot, de slagen van een zogende specht of de kreet van Homer Simpson wilt vinden, dan is deze service iets voor jou. En we hebben dit alleen gekozen uit de beschikbare Russisch-talige zoekopdrachten. In het Engels is het spectrum nog breder.

Maar serieus, er is sprake van een gespecialiseerde dienst gespecialiseerd publiek. Maar wat als het voor jou ook handig is?

Wat is dit

Wolfram|Alpha is een computationele zoekmachine. In plaats van links naar artikelen die trefwoorden bevatten, biedt het een kant-en-klaar antwoord op de vraag van de gebruiker. Als u bijvoorbeeld “vergelijk de populaties van New York en San Francisco” in het zoekformulier in het Engels invoert, zal Wolfram|Alpha onmiddellijk tabellen en grafieken weergeven met de vergelijking.

Des te beter

Deze service is beter dan andere voor het vinden van feiten en het berekenen van gegevens. Wolfram|Alpha verzamelt en systematiseert kennis die beschikbaar is op internet verschillende gebieden, inclusief wetenschap, cultuur en entertainment. Als deze database een kant-en-klaar antwoord bevat op zoekopdracht, het systeem laat het zien, zo niet, dan berekent het het resultaat en geeft het weer. In dit geval ziet de gebruiker alleen Nodige informatie en niets extra's.

Waarom heb je dit nodig

Bent u bijvoorbeeld student, analist, journalist of onderzoeker, dan kunt u Wolfram|Alpha gebruiken om gegevens gerelateerd aan uw werk te vinden en te berekenen. De dienst begrijpt niet alle verzoeken, maar ontwikkelt zich voortdurend en wordt steeds slimmer.

Wat is dit

De Dogpile-metazoekmachine geeft een gecombineerde lijst met resultaten weer uit zoekresultaten van Google, Yahoo en andere populaire systemen.

Des te beter

Ten eerste geeft Dogpile minder advertenties weer. Ten tweede gebruikt de dienst een speciaal algoritme om te vinden en te tonen topscores van verschillende zoekmachines. Volgens de Dogpile-ontwikkelaars genereren hun systemen de meest complete zoekresultaten op het hele internet.

Waarom heb je dit nodig

Als u geen informatie kunt vinden op Google of een andere standaardzoekmachine, zoek deze dan in meerdere zoekmachines tegelijk met behulp van Dogpile.

Wat is dit

BoardReader - een systeem voor tekst zoeken op forums, vraag- en antwoorddiensten en andere communities.

Des te beter

Met de service kunt u het zoekveld beperken tot sociale platforms. Dankzij speciale filters kunt u snel berichten en gebruikersreacties vinden die aan uw criteria voldoen: taal, publicatiedatum en sitenaam.

Waarom heb je dit nodig

BoardReader kan nuttig zijn voor PR-mensen en andere mediaspecialisten die geïnteresseerd zijn in de mening van een groot publiek over bepaalde kwesties.

Eindelijk

Het leven van alternatieve zoekmachines is vaak vluchtig. Lifehacker vroeg de voormalige algemeen directeur van de Oekraïense tak van Yandex, Sergei Petrenko, naar de langetermijnvooruitzichten van dergelijke projecten.


Sergej Petrenko

Voormalig algemeen directeur van Yandex.Oekraïne.

Wat het lot van alternatieve zoekmachines betreft, is het eenvoudig: het zijn zeer nicheprojecten met een klein publiek, dus zonder duidelijke commerciële vooruitzichten of, omgekeerd, met volledige duidelijkheid over hun afwezigheid.

Als je naar de voorbeelden in het artikel kijkt, kun je zien dat dergelijke zoekmachines zich specialiseren in een smalle maar populaire niche, die misschien nog niet genoeg is gegroeid om op te vallen op de radars van Google of Yandex, of dat ze aan het testen zijn een originele hypothese in ranking, die nog niet toepasbaar is in regulier zoeken.

Als er bijvoorbeeld plotseling veel vraag blijkt te zijn naar een zoekopdracht op Tor, dat wil zeggen dat de resultaten daarvan nodig zijn voor ten minste een percentage van het publiek van Google, dan zullen gewone zoekmachines natuurlijk het probleem beginnen op te lossen: hoe vind ze en laat ze aan de gebruiker zien. Als uit het gedrag van het publiek blijkt dat voor een aanzienlijk deel van de gebruikers in een aanzienlijk aantal zoekopdrachten de resultaten relevanter lijken zonder rekening te houden met factoren die afhankelijk zijn van de gebruiker, dan zullen Yandex of Google dergelijke resultaten gaan produceren.

‘Beter zijn’ betekent in de context van dit artikel niet ‘beter zijn in alles’. Ja, in veel opzichten zijn onze helden ver verwijderd van Google en Yandex (zelfs ver van Bing). Maar elk van deze diensten biedt de gebruiker iets dat de giganten in de zoekindustrie niet kunnen bieden. Jij kent vast ook soortgelijke projecten. Deel het met ons - laten we bespreken.