1 wat is een zoekmachine. Zoekmachines: samenstelling, functies, werkprincipes. Een korte geschiedenis van de ontwikkeling van zoekmachines

laat een reactie achter 6,950

Internet is voor veel gebruikers noodzakelijk om antwoord te krijgen op de verzoeken (vragen) die ze binnenkomen.

Als er geen zoekmachines waren, zouden gebruikers zelfstandig naar de benodigde sites moeten zoeken, onthouden en opschrijven. In veel gevallen zou het erg moeilijk en vaak gewoon onmogelijk zijn om 'handmatig' iets geschikts te vinden.

Voor ons wordt al dit routinewerk van het vinden, opslaan en sorteren van informatie op sites gedaan door zoekmachines.

Laten we beginnen met beroemde zoekmachines Rune.

Zoekmachines op internet in het Russisch

1) Laten we beginnen met de binnenlandse zoekmachine. Yandex werkt niet alleen in Rusland, maar ook in Wit-Rusland en Kazachstan, in Oekraïne, in Turkije. Er is ook Yandex in het Engels.

2) Google-zoekmachine kwam naar ons uit Amerika, heeft een Russischtalige lokalisatie:

3) Binnenlandse zoekmachine Mile ru, die tegelijkertijd het sociale netwerk VKontakte, Odnoklassniki, ook My World, de beroemde Mail.ru Answers en andere projecten vertegenwoordigt.

4) Intelligente zoekmachine

Nigma (Nigma) http://www.nigma.ru/

Sinds 19 september 2017 werkt de "intellectuele" nigma niet meer. Het was niet langer van financieel belang voor de makers, ze stapten over op een andere zoekmachine genaamd CocCoc.

5) Het bekende bedrijf Rostelecom heeft de Sputnik-zoekmachine gemaakt.

Er is een zoekmachine Sputnik, speciaal ontworpen voor kinderen, waarover ik schreef.

6) Rambler was een van de eerste binnenlandse zoekmachines:

Er zijn andere bekende zoekmachines in de wereld:

Bing,
Yahoo!,
DuckDuckGo,
Baidu,
Ecosia,

Laten we proberen uit te zoeken hoe de zoekmachine werkt, namelijk hoe sites worden geïndexeerd, de analyse van indexeringsresultaten en de vorming van zoekresultaten. De principes van het werk van zoekmachines zijn ongeveer hetzelfde: zoeken naar informatie op internet, deze opslaan en sorteren voor uitgifte in reactie op verzoeken van gebruikers. Maar de algoritmen waarmee zoekmachines werken, kunnen heel verschillend zijn. Deze algoritmen worden geheim gehouden en openbaarmaking is verboden.

Door dezelfde zoekopdracht in te voeren in zoekreeksen verschillende zoekmachines, kunt u verschillende antwoorden krijgen. De reden is dat alle zoekmachines hun eigen algoritmen gebruiken.

Het doel van zoekmachines

Allereerst moet u weten dat zoekmachines commerciële organisaties zijn. Hun doel is om winst te maken. Winst kan worden ontvangen van contextuele reclame, andere soorten advertenties, van het promoten van de gewenste sites tot bovenste regels uitgifte. Over het algemeen zijn er veel manieren.

Het hangt af van de grootte van het publiek dat hij heeft, dat wil zeggen hoeveel mensen deze zoekmachine gebruiken. Hoe groter het publiek, hoe meer mensen krijgen advertenties te zien. Dienovereenkomstig zal deze advertentie meer kosten. Zoekmachines kunnen hun publiek vergroten door hun eigen advertenties, maar ook door gebruikers aan te trekken door de kwaliteit van hun diensten, het algoritme en het zoekgemak te verbeteren.

Het belangrijkste en moeilijkste deel hier is de ontwikkeling van een volledig functioneel zoekalgoritme dat relevante resultaten zou opleveren voor de meeste zoekopdrachten van gebruikers.

Zoekmachinewerk en acties van webmasters

Elke zoekmachine heeft zijn eigen algoritme, dat rekening moet houden met een groot aantal verschillende factoren bij het analyseren van informatie en het samenstellen van resultaten op verzoek van een gebruiker:

de leeftijd van een bepaalde site,
kenmerken van het domein van de site,
de kwaliteit van de inhoud op de site en de soorten ervan,
kenmerken van navigatie en sitestructuur,
bruikbaarheid (gemak voor gebruikers),
gedragsfactoren (de zoekmachine kan bepalen of de gebruiker heeft gevonden wat hij zocht op de site of de gebruiker keerde terug naar de zoekmachine en er wordt opnieuw gezocht naar een antwoord op dezelfde zoekopdracht)
enzovoort.

Dit alles is juist nodig om de output op verzoek van de gebruiker zo relevant mogelijk te laten zijn en aan de behoeften van de gebruiker te voldoen. Tegelijkertijd veranderen de algoritmen van zoekmachines voortdurend, verfijnd. Zoals ze zeggen, er is geen limiet aan perfectie.

Aan de andere kant bedenken webmasters en SEO's voortdurend nieuwe manieren om hun sites te promoten, wat niet altijd eerlijk is. De taak van de algoritme-ontwikkelaars zoekmachines- breng er wijzigingen in aan waardoor "slechte" sites van oneerlijke optimizers niet in de TOP mogen komen.

Hoe werkt een zoekmachine?

Hoe gaat het nu direct werk zoekmachine. Het bestaat uit minimaal drie fasen:

scannen,
indexeren,
variërend.

Het aantal sites op internet is gewoonweg astronomisch. En elke site is informatie, informatieve inhoud, die is gemaakt voor lezers (levende mensen).

Scannen

Dit is een zoekmachine die op internet ronddwaalt om nieuwe informatie te verzamelen, links te analyseren en nieuwe inhoud te vinden die kan worden gebruikt om de gebruiker weer te geven als reactie op zijn verzoeken. Voor het scannen hebben zoekmachines: speciale robots zogenaamde zoekrobots of spiders.

Zoekrobots zijn programma's die: automatische modus websites bezoeken en er informatie van verzamelen. Scannen kan primair zijn (de robot betreedt voor het eerst een nieuwe site). Nadat de eerste informatie van de site is verzameld en in de database van de zoekmachine is ingevoerd, begint de robot zijn pagina's met een zekere regelmaat te bezoeken. Als er wijzigingen zijn (toegevoegd nieuwe inhoud, de oude verwijderd), dan worden al deze wijzigingen geregistreerd door de zoekmachine.

De belangrijkste taak van de zoekspin is om nieuwe informatie te vinden en deze aan de zoekmachine te geven voor de volgende verwerkingsfase, dat wil zeggen voor indexering.

Indexeren

De zoekmachine kan alleen naar informatie zoeken tussen die sites die al in zijn database zijn ingevoerd (door hem geïndexeerd). Als scannen het proces is van het zoeken en verzamelen van informatie die beschikbaar is op een bepaalde site, dan is indexeren het proces van het invoeren van deze informatie in de database van de zoekmachine. In dit stadium beslist de zoekmachine automatisch of deze of gene informatie in zijn database moet worden ingevoerd en waar deze moet worden ingevoerd, in welk gedeelte van de database. Google indexeert bijvoorbeeld bijna alle informatie die door zijn robots op internet wordt gevonden, terwijl Yandex kieskeuriger is en niet alles indexeert.

Voor nieuwe sites kan de indexeringsfase lang zijn, dus nieuwe sites kunnen lang wachten op bezoekers van zoekmachines. En nieuwe informatie die op oude, goed gepromote sites verschijnt, kan bijna onmiddellijk worden geïndexeerd en komt vrijwel onmiddellijk in de "index", dat wil zeggen in de database van zoekmachines.

Variërend

Ranking is het opbouwen van informatie die eerder was geïndexeerd en ingevoerd in de basis van een bepaalde zoekmachine, op rangorde, dat wil zeggen welke informatie de zoekmachine in de eerste plaats aan zijn gebruikers zal tonen en welke informatie in de database moet worden geplaatst. "rang" hieronder. Ranking kan worden toegeschreven aan het stadium van de zoekmachine die zijn klant - gebruiker bedient.

Op de servers van de zoekmachine wordt de ontvangen informatie verwerkt en worden de resultaten gegenereerd voor een enorm scala aan allerlei soorten verzoeken. Dit is waar de algoritmen van zoekmachines in het spel komen. Alle sites die in de database zijn opgenomen, zijn geclassificeerd op onderwerp, onderwerpen zijn onderverdeeld in groepen verzoeken. Voor elk van de groepen verzoeken kan een voorvraag worden opgesteld, die vervolgens wordt aangepast.

Wat is het

DuckDuckGo is een vrij bekende open source-zoekmachine. broncode... De servers bevinden zich in de VS. Naast een eigen robot gebruikt de zoekmachine de resultaten van andere bronnen: Yahoo, Bing, Wikipedia.

Des te beter

DuckDuckGo positioneert zichzelf als een zoekmachine die maximale privacy en vertrouwelijkheid biedt. Het systeem verzamelt geen gebruikersgegevens, slaat geen logs op (geen zoekgeschiedenis), het gebruik van cookies is zo beperkt mogelijk.

DuckDuckGo verzamelt niet persoonlijke informatie gebruikers en deelt deze niet. Dit is ons privacybeleid.
Gabriel Weinberg, oprichter van DuckDuckGo

Waarom heb je het nodig

Alle grote zoekmachines proberen te personaliseren op basis van de gegevens over de persoon voor de monitor. Dit fenomeen wordt de "filterbubbel" genoemd: de gebruiker ziet alleen die resultaten die overeenkomen met zijn voorkeuren of die het systeem als zodanig beschouwt.

DuckDuckGo creëert een objectief beeld dat niet afhankelijk is van uw eerdere gedrag op internet en elimineert het thema Google-advertenties en Yandex op basis van uw vragen. DuckDuckGo maakt het gemakkelijk om informatie in vreemde talen te zoeken: Google en Yandex geven standaard de voorkeur aan Russischtalige sites, zelfs als het verzoek in een andere taal is ingevoerd.

Wat is het

not Evil is een systeem dat zoekt op anoniem netwerk Tor. Om het te gebruiken, moet u naar dit netwerk gaan, bijvoorbeeld door een gespecialiseerd netwerk met dezelfde naam te gebruiken.

not Evil is niet de enige zoekmachine in zijn soort. Er is een LOOK (standaard zoekopdracht in de Tor-browser, toegankelijk via normaal internet) of TORCH (een van de oudste zoekmachines in het Tor-netwerk) en andere. We hebben gekozen voor niet Evil vanwege de ondubbelzinnige hint van Google (kijk maar op de startpagina).

Des te beter

Zoekopdrachten waarbij Google, Yandex en andere zoekmachines in principe gesloten zijn.

Waarom heb je het nodig

Er zijn veel bronnen op het Tor-netwerk die niet te vinden zijn op het gezagsgetrouwe internet. En hun aantal zal toenemen naarmate de overheid haar controle over de inhoud van het web verscherpt. Tor is een soort netwerk binnen het Netwerk met eigen sociale netwerken, torrent-trackers, media, marktplaatsen, blogs, bibliotheken, enzovoort.

3. YaCy

Wat is het

YaCy is een gedecentraliseerde zoekmachine op basis van P2P-netwerken. Elke computer waarop de hoofd programma module, scant het internet alleen, dat wil zeggen, het is analoog aan zoekrobot... De resultaten worden verzameld in gemeenschappelijke basis die wordt gebruikt door alle leden van YaCy.

Des te beter

Het is moeilijk te zeggen of het hier beter of slechter is, aangezien YaCy een heel andere benadering is van het organiseren van zoeken. De afwezigheid van een enkele server en bedrijfseigenaar maakt de resultaten volledig onafhankelijk van iemands voorkeuren. De autonomie van elk knooppunt sluit censuur uit. YaCy is in staat om het deep web en niet-geïndexeerde openbare netwerken te doorzoeken.

Waarom heb je het nodig

Als je een voorstander bent van open source software en het gratis internet dat niet wordt beïnvloed door overheidsinstellingen en grote bedrijven, dan is YaCy uw keuze. Het kan ook worden gebruikt om zoekopdrachten te organiseren binnen een zakelijk of ander autonoom netwerk. En hoewel YaCy niet erg handig is in het dagelijks leven, is het dat wel waardig alternatief Google in termen van het zoekproces.

4. Pijp

Wat is het

Pipl is een systeem dat is ontworpen om informatie over een specifieke persoon te zoeken.

Des te beter

De auteurs van Pipl beweren dat hun gespecialiseerde algoritmen efficiënter zoeken dan "gewone" zoekmachines. De prioritaire informatiebronnen zijn met name sociale-mediaprofielen, commentaren, ledenlijsten en verschillende databases waarin informatie over personen wordt gepubliceerd, zoals databases met rechterlijke uitspraken. Het leiderschap van Pipl op dit gebied is gevalideerd door Lifehacker.com, TechCrunch en anderen.

Waarom heb je het nodig

Als je informatie nodig hebt over een persoon die in de VS woont, dan zal Pipl veel zijn efficiënter dan google... De databases van Russische rechtbanken zijn blijkbaar niet toegankelijk voor een zoekmachine. Daarom gaat hij niet zo goed om met de burgers van Rusland.

Wat is het

FindSounds is een andere gespecialiseerde zoekmachine. Zoekt naar verschillende geluiden (huis, natuur, auto's, mensen, enz.) in open bronnen... De service ondersteunt geen verzoeken in het Russisch, maar er is een indrukwekkende lijst met tags in de Russische taal waarnaar u kunt zoeken.

Des te beter

De resultaten zijn alleen geluiden en niets meer. In de zoekinstellingen kun je het gewenste formaat en de geluidskwaliteit instellen. Alle gevonden geluiden zijn beschikbaar om te downloaden. Er wordt gezocht naar geluiden op patroon.

Waarom heb je het nodig

Als je snel het geluid van een musketschot, de slagen van een zuigende specht of de schreeuw van Homer Simpson wilt vinden, dan is deze service iets voor jou. En we kozen dit alleen uit de beschikbare verzoeken in de Russische taal. In het Engels is het spectrum nog breder.

Maar serieus, gespecialiseerde service veronderstelt gespecialiseerd publiek... Maar wat als het van pas komt?

Wat is het

Wolfram | Alpha is een computergestuurde zoekmachine. In plaats van links naar artikelen die: trefwoorden, het geeft een kant-en-klaar antwoord op de vraag van de gebruiker. Als u bijvoorbeeld "vergelijk de populaties van New York en San Francisco" in het Engels invoert in het zoekformulier, toont Wolfram | Alpha onmiddellijk tabellen en grafieken met een vergelijking.

Des te beter

Deze service is beter dan andere voor het vinden van feiten en het berekenen van gegevens. Wolfram | Alpha verzamelt en organiseert de kennis die op het web beschikbaar is van verschillende gebieden inclusief wetenschap, cultuur en entertainment. Als deze database een kant-en-klaar antwoord op een zoekopdracht bevat, toont het systeem dat, zo niet, dan berekent en toont het het resultaat. In dit geval ziet de gebruiker alleen de noodzakelijke informatie en niets overbodigs.

Waarom heb je het nodig

Bent u bijvoorbeeld student, analist, journalist of onderzoeker, dan kunt u Wolfram | Alpha gebruiken om gegevens over uw werk te vinden en te berekenen. De dienst begrijpt niet alle verzoeken, maar evolueert voortdurend en wordt steeds slimmer.

Wat is het

De Dogpile-metazoekmachine toont een keuzelijst met resultaten van: Zoekresultaten Google, Yahoo en andere populaire systemen.

Des te beter

Ten eerste geeft Dogpile minder advertenties weer. Ten tweede gebruikt de service een speciaal algoritme om de beste resultaten van verschillende zoekmachines te vinden en weer te geven. Volgens de ontwikkelaars van Dogpile worden hun systemen gevormd door de meest volledige uitgave overal op internet.

Waarom heb je het nodig

Als u informatie niet kunt vinden in Google of een andere standaardzoekmachine, zoek deze dan in meerdere zoekmachines tegelijk met Dogpile.

Wat is het

BoardReader is een systeem voor tekst zoeken op forums, Q&A-services en andere gemeenschappen.

Des te beter

Met de service kunt u het zoekveld verfijnen tot: sociale platforms... Dankzij speciale filters kunt u snel berichten en gebruikerscommentaar vinden die voldoen aan uw criteria: taal, publicatiedatum en sitenaam.

Waarom heb je het nodig

BoardReader kan nuttig zijn voor PR-specialisten en andere mediaprofessionals die geïnteresseerd zijn in de mening van een groot publiek over bepaalde kwesties.

Eindelijk

Het leven van alternatieve zoekmachines is vaak vluchtig. Lifehacker vroeg Sergei Petrenko, de voormalige algemeen directeur van de Oekraïense tak van Yandex, naar de langetermijnvooruitzichten van dergelijke projecten.

Sergey Petrenko

Vroegere algemeen manager Yandex.Oekraïne.

Wat betreft het lot van alternatieve zoekmachines, het is eenvoudig: zeer nicheprojecten zijn met een klein publiek, dus zonder duidelijke commerciële vooruitzichten, of, omgekeerd, met volledige duidelijkheid van hun afwezigheid.

Als je naar de voorbeelden in het artikel kijkt, kun je zien dat dergelijke zoekmachines ofwel gespecialiseerd zijn in een smalle maar veelgevraagde niche, die, misschien pas tot nu toe, niet genoeg is gegroeid om op te vallen op Google- of Yandex-radars, of ze testen een originele hypothese in ranking, die nog niet van toepassing is in de reguliere zoekopdracht.

Als bijvoorbeeld een zoekopdracht op Tor plotseling veelgevraagd blijkt te zijn, dat wil zeggen dat de resultaten daarvan nodig zijn voor ten minste een percentage van het Google-publiek, dan zullen gewone zoekmachines natuurlijk beginnen met het oplossen van het probleem van hoe om ze te vinden en aan de gebruiker te tonen. Als het gedrag van het publiek laat zien dat de resultaten relevanter lijken voor een merkbaar aantal gebruikers in een merkbaar aantal zoekopdrachten, gegevens zonder rekening te houden met gebruikersafhankelijke factoren, dan zullen Yandex of Google dergelijke resultaten beginnen te geven.

“Beter zijn” in de context van dit artikel betekent niet “in alles beter zijn”. Ja, in veel opzichten zijn onze helden ver verwijderd van Google en Yandex (zelfs Bing is ver weg). Maar aan de andere kant geeft elk van deze diensten de gebruiker iets dat de reuzen van de zoekindustrie niet kunnen bieden. U kent vast ook soortgelijke projecten. Deel met ons - we zullen bespreken.

V afgelopen jaren services van Google en Yandex zijn onderdeel van ons leven geworden. In dit verband vragen velen zich waarschijnlijk af wat een zoekmachine is? Spreken in eenvoudige woorden, dit is software systeem, ontworpen om informatie te zoeken in Wereldwijd Web. De resultaten worden meestal gepresenteerd in de vorm van een lijst, vaak Search Result Pages (SERP) genoemd. Informatie kan een combinatie zijn van webpagina's, afbeeldingen en andere soorten bestanden. Sommige zoekmachines bevatten ook informatie die beschikbaar is in databases of open directory's.

In tegenstelling tot webdirectories, die alleen door hun eigen editors worden ondersteund, bevatten zoekmachines ook informatie in realtime door een algoritme op de webcrawler uit te voeren.

Geschiedenis van oorsprong

De zoekmachines zelf verschenen eerder wereldwijd netwerk- in december 1990. De eerste dergelijke service heette Archie en het zocht de inhoud van FTP-bestanden op met een commando.

Wat is een internetzoekmachine? Tot september 1993 werd het World Wide Web volledig met de hand geïndexeerd. Er was een lijst met webservers bewerkt door Tim Berners-Lee en gehost op de CERN-webserver. Naarmate meer en meer servers online gingen, kon de bovenstaande service de verwerking van zo'n hoeveelheid informatie niet bijhouden.

Een van de eerste zoekmachines op basis van zoeken op het web was WebCrawler, die in 1994 uitkwam. In tegenstelling tot zijn voorgangers, konden gebruikers naar elk woord op elke webpagina zoeken. Dit algoritme is sindsdien de standaard geworden voor alle grote zoekmachines. Het was ook de eerste beslissing die algemeen bekend was bij het publiek. Eveneens in 1994 werd de Lycos-dienst gelanceerd, wat later een groot commercieel project werd.

Kort daarna verschenen er veel zoekmachines en hun populariteit nam aanzienlijk toe. Deze omvatten Magellan, Excite, Infoseek, Inktomi, Northern Light en AltaVista. Yahoo! was een van de meest populaire manieren het vinden van interessante webpagina's, maar zijn zoekalgoritme werkte in zijn eigen webdirectory, niet in full-text kopieën van de pagina's. Informatiezoekers kunnen ook door de directory bladeren in plaats van op trefwoorden te zoeken.

Een nieuwe ronde van ontwikkeling

Google omarmt het idee van verkopen zoekopdrachten in 1998, uitgaande van een klein bedrijf goto.com. De verhuizing had een aanzienlijke impact op de SEO-business, die in de loop van de tijd een van de meest lucratieve bezigheden op internet is geworden.

Rond 2000 kreeg de Google-zoekmachine grote bekendheid. Het bedrijf heeft bereikt betere resultaten voor veel zoekopdrachten via een innovatie genaamd PageRank. Dit iteratieve algoritme evalueert webpagina's op basis van hun links naar andere sites en pagina's, ervan uitgaande dat goede of wenselijke bronnen vaak door anderen worden geciteerd. Google handhaafde ook een minimalistische interface voor zijn zoekmachine. Integendeel, veel van de concurrenten hebben een zoekmachine in het webportaal ingebouwd. Google is zelfs zo populair geworden dat malafide engines zoals Mystery Seeker zijn ontstaan. Tegenwoordig zijn er veel regionale versies van deze service, met name de Google.ru-zoekmachine, ontworpen voor Russisch sprekende gebruikers.

Hoe werken deze diensten?

Hoe werkt de rangschikking en levering van resultaten? Wat zijn zoekmachines in termen van een algoritme van acties? Ze ontvangen informatie via webcrawling van site naar site. De robot of "spin" controleert gemeenschappelijke naam robots.txt-bestand dat eraan is geadresseerd, voordat bepaalde informatie voor indexering wordt verzonden. Het richt zich op vele factoren, namelijk kopteksten, pagina-inhoud, JavaScript, Cascading Style Sheets (CSS) en standaard opmaak HTML-inhoud of metadata in HTML-metatags.

Indexeren betekent het koppelen van woorden en andere identificeerbare tokens die op webpagina's worden gevonden aan hun domeinnamen en velden aan HTML gebaseerd... Verenigingen worden gemaakt in openbare database gegevens beschikbaar voor zoekopdrachten op het web. Een verzoek van een gebruiker kan uit één woord bestaan. De index helpt u om informatie met betrekking tot een zoekopdracht zo snel mogelijk te vinden.

Sommige van de indexerings- en caching-technieken zijn handelsgeheimen, terwijl webcrawlen een eenvoudig proces is om alle sites op een systematische manier te bezoeken.

Tussen bezoeken aan de robot, de gecachte versie van de pagina (een deel van of alle inhoud die nodig is om deze weer te geven), opgeslagen in werkgeheugen zoekmachine wordt snel naar de aanvragende gebruiker gestuurd. Als het bezoek te laat is, kan de zoekmachine gewoon fungeren als een webproxy. In dit geval kan de pagina afwijken van de zoekindexen. De in de cache opgeslagen bron geeft de versie weer waarvan de woorden zijn geïndexeerd, dus het kan handig zijn als de eigenlijke pagina verloren is gegaan.

Architectuur op hoog niveau

Gewoonlijk voert een gebruiker een zoekopdracht in een zoekmachine in in de vorm van verschillende trefwoorden. De index heeft al de namen van sites die deze trefwoorden bevatten, en ze worden onmiddellijk weergegeven. De echte belasting zit in het maken van webpagina's die een lijst met zoekresultaten zijn. Elke pagina in de hele lijst moet worden gerangschikt volgens de informatie in de indexen.

In dit geval vereist het bovenste element van het resultaat het zoeken, reconstrueren en markeren van fragmenten die de context van de overeenkomende zoekwoorden weergeven. Dit is slechts een deel van de verwerking van elke webpagina in de zoekresultaten, en volgende pagina's (ernaast) vereisen het grootste deel van deze nabewerking.

Naast eenvoudige zoekopdrachten op trefwoorden, bieden zoekmachines hun eigen GUI of opdrachtgestuurde operators en zoekparameters om hun resultaten te verfijnen.

Ze bieden de gebruiker de nodige bedieningselementen via een lus feedback, door te filteren en te wegen bij het specificeren van de benodigde gegevens, rekening houdend met startpagina's eerste zoekresultaten. Sinds 2007 heeft Google.com het bijvoorbeeld mogelijk gemaakt om de resulterende lijst op datum te filteren door te klikken op Zoekhulpmiddelen weergeven in de meest linkse kolom op de oorspronkelijke resultatenpagina en vervolgens het gewenste datumbereik te selecteren.

Verschillende verzoeken

De meeste zoekmachines ondersteunen het gebruik van logische AND-operators, OF en NIET om te helpen eindgebruikers het verzoek verduidelijken. Sommige operators zijn voor letterlijke waarden, waarmee de gebruiker de zoektermen kan verfijnen en uitbreiden. De robot zoekt naar woorden of zinnen op dezelfde manier als de ingevoerde commando's. Sommige zoekmachines bieden geavanceerde zoekfunctionaliteit waarmee gebruikers de afstand tussen trefwoorden kunnen bepalen.

Er is ook conceptgebaseerd zoeken, waarbij onderzoek wordt gedaan met behulp van statistische analyse op pagina's met de woorden of woordgroepen die u zoekt. Bovendien stellen zoekopdrachten in natuurlijke taal de gebruiker in staat om een vraag op dezelfde manier in te voeren als aan een persoon (met name ask.com).

Het nut van een zoekmachine hangt af van de relevantie van de reeks resultaten die het oplevert. Er kunnen miljoenen webpagina's zijn die een bepaald woord of bepaalde zin bevatten, maar sommige zijn relevanter, populairder of gezaghebbender dan andere. De meeste zoekmachines gebruiken rangschikkingstechnieken om de beste resultaten te leveren.

Hoe een zoekmachine bepaalt welke pagina's het beste passen bij een zoekopdracht en in welke volgorde de gevonden bronnen moeten worden weergegeven, verschilt sterk van robot tot robot. Deze methoden veranderen ook in de loop van de tijd naarmate het gebruik van internet verandert en nieuwe technologieën zich ontwikkelen.

Wat is een zoekmachine: variëteiten

Er zijn twee hoofdtypen zoekmachines. De eerste is een systeem van vooraf gedefinieerde en hiërarchisch geordende trefwoorden die mensen er massaal in hebben geprogrammeerd. De tweede is een systeem dat een "inverted index" genereert door de gevonden teksten te analyseren.

De meeste zoekmachines zijn commerciële diensten die worden ondersteund door advertentie-inkomsten, en als zodanig stellen sommige van hen adverteerders in staat om tegen betaling in de weergegeven resultaten te ranken. Diensten die geen geld accepteren voor rankings verdienen geld door te lanceren contextuele advertenties naast de weergegeven sites. Tegenwoordig is promotie in zoekmachines een van de meest lucratieve inkomsten op internet.

Welke diensten zijn het meest verspreid?

Google is de populairste zoekmachine ter wereld met een marktaandeel van 80,52% in maart 2017.

Google - 80,52%
Bing - 6,92%
Baidu - 5,94%
Yahoo! - 5,35%

Zoekmachines in Rusland en Oost-Azië

In Rusland en sommige Oost-Aziatische landen is Google niet de meest populaire service. Onder Russische gebruikers is de Yandex-zoekmachine de leider in populariteit (61,9%) in vergelijking met Google (28,3%). In China is Baidu het meest populaire dienst. Zoekportaal Zuid-Korea - Naver wordt gebruikt voor 70% van de online zoekopdrachten van het land. Ook Yahoo! in Japan en Taiwan is het meest populaire remedie om de gegevens te vinden die u nodig heeft.

Andere bekende Russische zoekmachines zijn Mail en Rambler. Met het begin van de ontwikkeling van Runet genoten ze een grote populariteit, maar op dit moment hebben ze hun posities sterk verloren.

Zoekbeperkingen en criteria

Hoewel zoekmachines zijn geprogrammeerd om websites te rangschikken op basis van een deel van hun populariteit en relevantie, empirisch onderzoek verschillende politieke, economische en sociale criteria aangeven voor het selecteren van de informatie die zij verstrekken. Deze vooroordelen kunnen een direct gevolg zijn van economische (bijvoorbeeld, bedrijven die adverteren voor een zoekmachine kunnen ook populairder worden in de zoekresultaten van zoekmachines normaal zoeken) en politieke processen (bijvoorbeeld verwijdering van zoekresultaten in overeenstemming met lokale wetgeving). Google zal bijvoorbeeld bepaalde neonazistische sites in Frankrijk en Duitsland, waar het ontkennen van de Holocaust illegaal is, niet weergeven.

Christelijke, Islamitische en Joodse zoekmachines

De wereldwijde groei van internet en elektronische middelen De media in de moslimwereld hebben de afgelopen tien jaar islamitische aanhangers in het Midden-Oosten en het Aziatische subcontinent ertoe aangezet om te proberen hun eigen zoekmachines en gefilterde portals te creëren waarmee gebruikers veilig kunnen zoeken.

Dergelijke diensten bevatten filters die websites verder classificeren als "halal" of "haram" op basis van een moderne deskundige interpretatie van de "wet van de islam".

ImHalal was online in september 2011 en Halalgoogling in juli 2013. Ze gebruiken haram-filters op basis van algoritmen van Google en Bing.

Andere religie-georiënteerde zoekmachines zijn Jewgle (Joods google-versie) en Christian SeekFind.org. Ze filteren sites die hun overtuigingen ontkennen of kleineren.

Zoeksysteem- een software- en hardwarecomplex met een webinterface, dat het zoeken naar informatie op internet mogelijk maakt.

Alle zoekmachines zijn verenigd door het feit dat ze zich op speciale krachtige servers bevinden en zijn gekoppeld aan effectieve communicatiekanalen. Zoekmachines worden ook wel information retrieval systems (ISS) genoemd. Het aantal gelijktijdig bediende bezoekers van de meest populaire systemen bereikt vele duizenden. De meest bekende bedienen miljoenen klanten per dag. In gevallen waarin een zoekmachine op directory's is gebaseerd, wordt dit een directory genoemd. Het is gebaseerd op het werk van moderators. De kern van het ISS met full-text zoeken is het automatisch verzamelen van informatie. Het wordt uitgevoerd door speciale programma's. Deze programma's onderzoeken periodiek de inhoud van alle internetbronnen. Om dit te doen, bewegen ze, of zoals ze zeggen, kruipen, over verschillende bronnen. Dienovereenkomstig worden dergelijke programma's robots genoemd. Er zijn andere namen: aangezien WWW een afkorting is voor de uitdrukking World Wide Web, is het logisch om zo'n programma in het Engels een spider te noemen. - Spin. Onlangs zijn er andere namen gebruikt: automatische indexen of mappen. Al deze programma's onderzoeken en "downloaden" informatie van verschillende URL's. Programma's van dit type bezoeken elke bron na een bepaalde tijd. Geen enkele zoekmachine kan het hele internet indexeren. Daarom zijn de databases waarin de adressen van de geïndexeerde bronnen worden verzameld, verschillend voor verschillende zoekmachines. Niettemin streven velen van hen ernaar om, waar mogelijk, in hun werk de volledige ruimte van het World Wide Web te bestrijken.

Om informatie te zoeken met behulp van een zoekmachine, formuleert de gebruiker een zoekopdracht. Op basis van het verzoek van de gebruiker genereert de zoekmachine een pagina met zoekresultaten. Dergelijke zoekresultaten kunnen verschillende soorten bestanden combineren, bijvoorbeeld: webpagina's, afbeeldingen, videobestanden. Sommige zoekmachines halen ook gegevens uit databases en bronnengidsen op internet.

Volgens zoek- en servicemethoden zijn er vier typen zoekmachines:

1.Systemen die zoekrobots gebruiken.

2.menselijke gecontroleerde systemen

3. hybride systemen

4.meta-systemen.

De architectuur van de zoekmachine omvat: een zoekrobot die internetsites doorzoekt, een indexer die snel zoeken mogelijk maakt en een zoekmachine, een grafische interface voor de gebruiker.

Het doel van een zoekmachine is om documenten te vinden die trefwoorden bevatten of woorden die op enigerlei wijze gerelateerd zijn aan trefwoorden. Hoe beter de zoekmachine is, hoe meer documenten die relevant zijn voor het verzoek van de gebruiker, zal worden geretourneerd.

Voorbeelden van zoekmachines

Google- een van de meest complete en populaire buitenlandse IPS. Een onderscheidend kenmerk van Google ISS is de technologie voor het bepalen van de mate van relevantie van een document door links van andere bronnen naar deze bron te analyseren. Hoe meer links naar een pagina op andere pagina's, hoe hoger de positie in de Google IPS. Google gebruikt een algoritme om de PageRank-autoriteit te berekenen. PageRank is een van de bijdragers aan de positie van sites in zoekresultaten. PageRank is niet de enige, maar zeer belangrijke manier het bepalen van de positie van de site in de zoekresultaten van Google. Google gebruikt de PageRank van de pagina's die het bereikt om de volgorde te bepalen waarin die pagina's in de zoekresultaten verschijnen. In 2010 lanceerde Google spraaksgewijs zoeken in Rusland. Om een zoekopdracht uit te voeren, moet u op de knop op de telefoon naast de zoekbalk drukken en uw verzoek uitspreken, de telefoon stuurt uw stem naar de server en de browser geeft een regel weer met uw herkende verzoek en zoekresultaten voor het.

index Is momenteel de meest populaire binnenlandse zoekmachine. Begonnen met werken in 1997. Het onderhoudt zijn eigen catalogus met internetbronnen. Het is ook de beste zoekmachine voor het identificeren van illustraties. De Engelstalige versie is voorzien van een directory met internetbronnen. Heeft een uitgebreid systeem voor het genereren van een aanvraag. Het is met name toegestaan om een zoekvoorschrift in een natuurlijke taal in te voeren - in dit geval worden alle benodigde uitbreidingen automatisch gemaakt.

Naast HTML-webpagina's indexeert Yandex documenten in PDF (Adobe Acrobat), Rich Text Format (RTF), binair Word (.doc), Excel (.xls), PowerPoint (.ppt), RSS (blogs en forums).

Zoekmachinebedrijf Mail.ru begon te werken in 2007. Het volume van het indexbestand bedroeg in het voorjaar van 2009 meer dan 1,5 miljard pagina's op Russischtalige servers. Naast het zoeken naar teksten, zoekt het systeem naar illustraties en videoclips die op gespecialiseerde "zelfgevulde" Russische servers zijn geplaatst: Photo @ Mail.Ru, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Video @ Mail.Ru, RuTube, Loadup, Rambler Vision en dergelijke. Met Gogo.ru kunt u uw zoekopdracht beperken tot commerciële sites, informatiesites, evenals forums en blogs. Het formulier "Geavanceerd zoeken" maakt het ook mogelijk om zoekopdrachten te beperken bepaalde types bestanden (PDF, DOC, XLS, PPT), de locatie van de zoekwoorden in het document of een specifiek domein. In november 2013 verscheen een nieuwe versie van de Mail.Ru-zoektoepassing op Google Play, waarmee u vanaf het startscherm naar sociale netwerken kunt navigeren en snelle toegang biedt om naar afbeeldingen, video's en nieuws te zoeken. De Android-applicatie is veranderd in een mini-browser, aangescherpt om efficiënt de informatie te vinden die je nodig hebt. Het hulpprogramma heeft ook geleerd om zoekopdrachten te herkennen die niet met tekst, maar met spraak zijn ingesteld. De ontwikkelaars merken ook op dat ze een speciale widget hebben gemaakt die op hoofdscherm smartphone of tablet gebaseerd google systemen Android. De implicatie is dat dit de zoektijd verder zal verminderen.

AltaVista- een van de oudste zoekmachines neemt een van de eerste plaatsen in wat betreft het aantal documenten - meer dan 350 miljoen. AltaVista maakt eenvoudige en geavanceerde zoekopdrachten mogelijk. "Help" stelt zelfs ongetrainde gebruikers in staat om op de juiste manier eenvoudige en complexe zoekopdrachten op te stellen.

wandelaar- een van de eerste Russische IPS, geopend in 1996. Eind 2002 vond een ingrijpende modernisering plaats, waarna Rambler weer in de kopgroep kwam netwerk zoeken... Momenteel is het volume van de index ongeveer 150 miljoen documenten. Voor het samenstellen van complexe zoekopdrachten is het raadzaam om de modus "Gedetailleerde zoekopdracht" te gebruiken, die voldoende mogelijkheden biedt om een zoekvoorschrift op te stellen met behulp van menu-items.

APORT... Vandaag is het volume van zijn database meer dan 20 miljoen documenten. Het systeem heeft een breed scala aan zoekmogelijkheden. APORT heeft de functie van een ingebouwde vertaler, hierdoor kan de gebruiker verzoeken formuleren, zowel in het Russisch als in Engels... Bovendien heeft APORT: speciale modi om illustraties en audiobestanden te zoeken.

Zoekmachines van de nieuwste generatie indexeren alle woorden op een webpagina of in een artikel van een congres, terwijl voorheen het gebied van indexeren zich meestal beperkte tot de titel, kopjes, de eerste paar regels en het adres van het document. Dit beperkte de mogelijkheid om materiaal over een beperkt onderwerp te identificeren aanzienlijk, aangezien de zoekresultaten niet altijd de werkelijke gegevens weerspiegelden. Door deze tekortkoming weg te werken, zijn moderne zoekmachines veel betrouwbaarder geworden dan hun voorgangers.

Het volgende belangrijkste kenmerk is de verbetering van de interne zoekmachine, die zich uit in een toename van het aantal operators en andere elementen van het opstellen van zoekopdrachten. Een paar jaar geleden waren er slechts twee, hoogstens drie klassieke Booleaanse operatoren in gebruik: AND (en), OR (or) en NOT (not). Nu zijn er NEAR (naast, nabij) in Alta Vista en FOLLOWED BY (volgt) in OpenText - in de hoogste graad handige afstandsoperatoren waarmee u uw vraag zo specifiek mogelijk kunt stellen. Met veel systemen kunt u de eindes van termen afkappen, de zoekopdracht beperken tot de datum waarop het document is gemaakt, alleen naar trefwoorden zoeken in aangewezen elementen van webpagina's (titel, kopjes, e-mailadres, enz.), en ook zoeken naar de exacte uitdrukking. De nieuwste ontwikkelingen maken het ook mogelijk om bepaalde soorten bestanden te detecteren (bijvoorbeeld afbeeldingen of audio) en zijn gevoelig voor kleine letters en hoofdletters. De mogelijkheid om naar gegevens in elke taal te zoeken, wordt steeds gebruikelijker. Dit alles maakt het mogelijk om met een hoge mate van nauwkeurigheid een zoekvoorschrift samen te stellen, wat uiteraard de relevantie van de verkregen resultaten vergroot.

Op dit moment de meest populaire zoekmachines Google en Yandex, laten we ze vergelijken:

Het aantal geïndexeerde pagina's. Google heeft 8 miljard, terwijl Yandex slechts 2 miljard heeft. Dat wil zeggen, vier keer minder. Winnen voor Google.

Pagina-indexeringssnelheid. Google indexeert nieuwe pagina's binnen 24 uur, terwijl Yandex enkele dagen kan duren. Opnieuw wint Google.

De relevantie van het probleem. Relevantie verwijst naar de relevantie van de resultaten die worden weergegeven op de pagina van de zoekmachine voor uw zoekopdracht. Ik moet meteen zeggen dat het hier moeilijk is om de winnaar te bepalen. Google heeft goede resultaten laten zien in het buitenlandse segment van internet, maar in Runet is Yandex altijd een beetje voor geweest.

Extra internetdiensten. Hier is het voordeel duidelijk bij Yandex. Het heeft tientallen verschillende services die handig zijn gegroepeerd in categorieën, terwijl Google er minder heeft, plus er is integratie met sociale het Google-netwerk+ die veel mensen niet leuk vinden.

Een zoekmachine is een database met specifieke informatie op internet. Veel gebruikers denken dat zodra ze een zoekopdracht in een zoekmachine invoeren, ze meteen het hele internet gaan scannen, maar dit is helemaal niet het geval. Het internet wordt voortdurend gescand, door veel programma's, gegevens over sites worden ingevoerd in een database, waar, volgens bepaalde criteria, alle sites en al hun pagina's worden verdeeld in verschillende soorten lijsten en databases. Dat wil zeggen, het is een soort gegevensarchiefkast, en de zoektocht vindt niet plaats op internet, maar volgens deze archiefkast.

Populaire zoekmachines

Yandex is de grootste zoekmachine op het Russische internet.

Naast de zoekmachine biedt Yandex 77 extra services, waarvan de meest populaire de Yandex-mailservice, Yandex-browser, Yandex-schijf, verkeers- en weersinformatie, Yandex-geld en nog veel meer zijn. De zoekmachine houdt bij het weergeven van zoekresultaten rekening met uw locatie. Zelfde manier zoekprogramma wordt voortdurend gemoderniseerd om correctere resultaten te bieden, ontworpen voor de beste informatie-inhoud voor de gebruiker.

Google is de populairste zoekmachine ter wereld.

Naast de zoekmachine biedt Google vele aanvullende diensten, programma's en hardware, waaronder de postdienst, de Google Chrome-browser, de grootste YouTube-videobibliotheek en vele andere projecten. Google koopt vol vertrouwen veel projecten op die grote winsten genereren. De meeste diensten zijn niet gericht op: directe gebruiker, maar om geld te verdienen op internet en geïntegreerd met een focus op de belangen van Europese en Amerikaanse gebruikers.

Mail is een zoekmachine die vooral populair is vanwege zijn e-mailservice.

Er zijn veel aanvullende diensten, waarvan Mail de sleutel is, op het moment dat het bedrijf Mail het sociale netwerk Odnoklassniki bezit, eigen netwerk"Mijn wereld", service Money-mail, veel online spelletjes, drie bijna identieke browsers met verschillende namen. Alle applicaties en services hebben veel advertentie-inhoud. Sociaal netwerk "VKonatkte" blokkeert directe links naar e-mailservices, agrumenting grote hoeveelheid virussen.

Wikipedia.

Wikipedia is een zoekhulpsysteem.

Een non-profit zoekmachine die wordt aangedreven door particuliere donaties, zodat pagina's niet worden gevuld met advertenties. Een meertalig project waarvan het doel is om een complete referentie-encyclopedie te creëren in alle talen van de wereld. Het heeft geen specifieke bijdragers, wordt voltooid en beheerd door vrijwilligers van over de hele wereld. Elke gebruiker kan het artikel zowel schrijven als bewerken.

Officiële Pagina- www.wikipedia.org.

YouTube is de grootste bibliotheek met videobestanden.

Videohosting met elementen sociaal netwerk waar elke gebruiker een video kan toevoegen. Vanaf het moment dat je ze koopt door Google Ink, een aparte registratie voor YouTube is niet vereist, registreer je gewoon bij de Google-mailservice.

De officiële pagina is youtube.com.

Yahoo! - de op één na belangrijkste zoekmachine ter wereld.

Er zijn aanvullende diensten, waarvan de meest bekende is Yahoo Mail... Als onderdeel van het verbeteren van de kwaliteit van de zoekmachine stuurt Yahoo gegevens over gebruikers en hun verzoeken naar: Microsoft... Uit deze gegevens wordt een idee gevormd van de interesses van gebruikers, evenals een markt voor advertentie-inhoud. De zoekmachine Yahoo, evenals, is betrokken bij de overname van andere bedrijven, bijvoorbeeld Yahoo behoort zoekdienst Altavista en Alibaba e-commercesite.

De officiële pagina is www.yahoo.com.

WDL is een digitale bibliotheek.

De bibliotheek verzamelt boeken die culturele waarde v digitaal formulier... Het belangrijkste doel is om het niveau van culturele inhoud op internet te verhogen. De toegang tot de bibliotheek is gratis.

De officiële pagina is www.wdl.org/ru/.

Bing is een zoekmachine van Microsoft.

De officiële pagina is www.baidu.com.

Zoekmachines in Rusland

Rambler is een "pro-Amerikaanse" zoekmachine.

Het is oorspronkelijk gemaakt als een internetmediaportaal. Net als veel andere zoekmachines heeft het beeldzoekdiensten, videobestanden, kaarten, weersvoorspelling, nieuwssectie en nog veel meer. Uitgevers bieden ook een gratis Rambler-Nichrome-browser aan.

De officiële pagina is www.rambler.ru.

Nigma is een intelligente zoekmachine.

Handigere zoekmachine door de aanwezigheid van veel filters en instellingen. Met de interface kunt u voorgestelde vergelijkbare waarden opnemen of uitsluiten bij het zoeken naar betere resultaten. Wanneer u een zoekresultaat ontvangt, kunt u ook de informatie van andere grote zoekmachines gebruiken.

De officiële pagina is www.nigma.ru.

Aport - online catalogus van goederen.

In het verleden verloor de zoekmachine, maar in de nasleep van het stopzetten van de ontwikkeling en innovaties, al snel terrein en. V momenteel Aport is ruilplatform waar de producten van meer dan 1500 bedrijven worden gepresenteerd.

De officiële pagina is www.aport.ru.

Spoetnik is een landelijke zoekmachine en internetportaal.

Gemaakt door Rostelecom. Het wordt momenteel getest.

De officiële pagina is www.sputnik.ru.

Metabot is een zich ontwikkelende zoekmachine.

De taken van Metabot zijn het creëren van een zoekmachine voor alle andere zoekmachines, het creëren van posities voor het uitgeven van resultaten, rekening houdend met de gegevens van de volledige lijst met zoekmachines. Dat wil zeggen, het is een zoekmachine voor zoekmachines.

De officiële pagina is www.metabot.ru.

De zoekmachine is opgeschort.

De officiële pagina is www.turtle.ru.

KM is een multi-portaal.

Aanvankelijk was de site een multi-portal met de daaropvolgende introductie van een zoekmachine. De zoekopdracht kan zowel binnen de site als op alle gevolgde sites van het Russische internet worden uitgevoerd.

Officiële pagina - www.km.ru.

Gogo - werkt niet, verwijst door naar een zoekmachine.

Officiële pagina - www.gogo.ru.

Russische multiportal, niet erg populair, heeft wat werk nodig. De zoekmachine bevat nieuws, televisie, games, een kaart.

De officiële pagina is www.zoneru.org.

De zoekmachine werkt niet, de ontwikkelaars stellen voor om de zoekmachine te gebruiken.

Officiële pagina - www.au.ru.