Sammendrag: Søkemotorer. Søkemotorer og kataloger

Innledning ………………………………………………………………………………… .2

1 Søkemotorer: sammensetning, funksjoner, operasjonsprinsipp

1.1 Sammensetning av søkemotorer ………………………………………………………………… 3

1.2 Funksjoner til søkemotorer ………………………………………………… ..4

1.3 Hvordan søkemotorer fungerer ………………………………………… ..4

2 Oversikt over funksjonen til søkemotorer

2.1 Utenlandske søkemotorer: sammensetning og operasjonsprinsipper ........................... 12

2.2 Russiskspråklige søkemotorer: sammensetning og arbeidsprinsipper .... ... ..14

Konklusjon ………………………………………………………………… .. ………………… 16

Liste over brukt litteratur ………………………………… .. ………… .17

Introduksjon

Søkemotorer har lenge blitt en integrert del av det russiske Internett. På grunn av det faktum at de, selv om de på forskjellige måter, uavhengig leverer alle stadier av informasjonsbehandling fra å motta den fra primære kilder til å gi brukeren et søkealternativ, er de ofte kalt autonomt søk systemer .

Søkemotorer er nå enorme og komplekse mekanismer som representerer ikke bare et verktøy for å finne informasjon, men også attraktive områder for virksomheten. Disse systemene kan variere i prinsippet om informasjonsvalg, som i en eller annen grad er tilstede i algoritmen til det automatiske indeksskanningsprogram, og i atferdsreglene for katalogansatte med ansvar for registrering. Vanligvis sammenlignes to hovedindikatorer:

Den romlige skalaen som ISS opererer i er

Og hennes spesialisering.

De fleste av brukerne av søkemotorer har aldri tenkt (eller tenkt, men ikke funnet svar) på prinsippet om søkemotorer, om ordningen for behandling av brukerforespørsler, om hva disse systemene består av og hvordan de fungerer .. Søkemotorer kan sammenlignes med en helpdesk, hvis agenter omgår bedrifter og samler informasjon til en database. Ved henvendelse til tjenesten returneres informasjon fra denne databasen. Dataene i databasen er utdaterte, så agentene oppdaterer dem med jevne mellomrom. Noen virksomheter sender selv data om seg selv, og agenter trenger ikke komme til dem. Med andre ord har helpdesken to funksjoner: opprette og kontinuerlig oppdatere data i databasen og søke etter informasjon i databasen på forespørsel fra klienten.

1 Søkemotorer: sammensetning, funksjoner, operasjonsprinsipp

1.1 Sammensetning av søkemotorer

En søkemotor er et programvare- og maskinvarekompleks designet for å utføre søk på Internett og svare på en brukers forespørsel, spesifisert i form av en tekstfrase (søkespørring), ved å utstede en liste med lenker til informasjonskilder, i rekkefølge av relevans (i samsvar med forespørselen). De største internasjonale søkemotorene: Google, Yahoo, MSN. På det russiske Internett er disse Yandex, Rambler og Aport.

Likeledes består en søkemotor av to deler: en såkalt robot (eller edderkopp) som går utenom nettserverne og danner søkemotorens database.

Basen til roboten er hovedsakelig dannet av seg selv (roboten finner selv lenker til nye ressurser) og i mye mindre grad av eierne av ressurser som registrerer nettstedene deres i en søkemotor. I tillegg til roboten (nettverksagent, edderkopp, orm) som danner databasen, er det et program som bestemmer vurderingen av lenkene som er funnet.

Prinsippet for operasjonen til en søkemotor koker ned til det faktum at den spør etter den interne katalogen (databasen) for søkeord som brukeren spesifiserer i søkefeltet, og produserer en liste over lenker rangert etter relevans.

Det skal bemerkes at når en spesifikk brukerforespørsel behandles, opererer søkemotoren med interne ressurser (og legger ikke ut på en reise på nettet, som uerfarne brukere ofte antar), og interne ressurser er selvfølgelig begrenset. Til tross for at databasen til søkemotoren oppdateres kontinuerlig, kan ikke søkemotoren indeksere alle nettdokumenter: det er for mange av dem. Derfor er det alltid en mulighet for at ressursen du leter etter rett og slett er ukjent for en bestemt søkemotor.

1.2 Funksjoner i søkemotorer

I arbeidet er søkeprosessen representert ved fire stadier: formulering (oppstår før starten av søket); handling (starter søk); en oversikt over resultatene (resultatet som brukeren ser etter søket); og forbedring (etter gjennomgang av resultatene og før du går tilbake til et søk med en annen formulering av samme behov). Et mer praktisk ikke-lineært informasjonsinnhentingsskjema består av følgende stadier:

Registrere informasjonsbehov på naturlig språk;

Valget av de nødvendige søketjenestene til nettverket og den nøyaktige formaliseringen av registreringen av informasjonsbehov på spesifikke informasjonshentingsspråk (IPL);

Utførelse av opprettede forespørsler;

Forhåndsbehandling og valg av mottatte lister over lenker til dokumenter;

Kontakt de valgte adressene for dokumentene du leter etter;

Forhåndsvisning av innholdet i de funnet dokumentene;

Lagre relevante dokumenter for senere studier;

Trekke ut lenker fra relevante dokumenter for å utvide forespørselen;

Studie av hele utvalget av lagrede dokumenter;

Hvis informasjonsbehovet ikke er fullt ut tilfredsstilt, gå tilbake til første trinn.

1.3 Hvordan søkemotorer fungerer

Oppgaven til enhver søkemotor er å gi folk informasjonen de leter etter. Lær folk å gjøre de "riktige" spørringene, dvs. spørringer som samsvarer med prinsippene til søkemotorer er umulige. Derfor lager utviklere algoritmer og prinsipper for søkemotorer som vil tillate brukere å finne akkurat den informasjonen de leter etter. Dette betyr at søkemotoren må "tenke" slik brukeren tenker når han leter etter informasjon.

De fleste søkemotorer arbeider etter prinsippet om forhåndsindeksering. Databasen til de fleste søkemotorer fungerer etter samme prinsipp.

Det er et annet prinsipp for konstruksjon. Direkte søk. Den består i at du blar i boken side for side på jakt etter et nøkkelord. Selvfølgelig er denne metoden mye mindre effektiv.

I varianten med en invertert indeks står søkemotorer overfor problemet med filstørrelse. Som regel er de betydelig store. Dette problemet løses vanligvis på to måter. Den første er at alt unødvendig fjernes fra filene, og bare det som virkelig trengs for søket gjenstår. Den andre metoden er at for hver posisjon lagres ikke en absolutt adresse, men en relativ, dvs. forskjell på adresser mellom nåværende og tidligere posisjoner.

Dermed er de to hovedprosessene som utføres av en søkemotor nettstedindeksering, sideindeksering og søk. Generelt sett forårsaker ikke indekseringsprosessen problemer for søkemotorer. Problemet er å behandle en million forespørsler per dag. Dette skyldes den store mengden informasjon som behandles av store datasystemer. Hovedfaktoren som bestemmer antall servere som er involvert i et søk, er søkebelastningen. Dette forklarer noen av raritetene som oppstår når man leter etter informasjon.

Søkemotorer består av fem separate programvarekomponenter:

edderkopp: et nettleserlignende program som laster ned nettsider.

crawler: En "reisende" edderkopp som automatisk følger alle lenker som finnes på siden.

indekserer: Et blindprogram som analyserer nettsider lastet ned av edderkopper.

databasen: lagring av nedlastede og behandlede sider.

søkemotorresultatmotor: henter søkeresultater fra databasen.

Edderkopp: En edderkopp er et program som laster ned nettsider. Det fungerer akkurat som nettleseren din når du kobler til et nettsted og laster inn en side. Edderkoppen har ingen visuelle komponenter. Du kan observere den samme handlingen (last ned) når du ser på en bestemt side og når du velger "vis HTML-kode" i nettleseren din.

Crawler: Akkurat som edderkoppen laster ned sider, kan den fjerne siden og finne alle koblingene. Det er hans jobb å bestemme hvor edderkoppen skal gå videre, basert på lenker eller basert på en forhåndsdefinert adresseliste.

Indekser: Indekseren analyserer siden i de ulike delene og analyserer dem. Elementer som sidetitler, overskrifter, lenker, tekst, strukturelle elementer, FET, KURSIV elementer og andre stilede deler av siden isoleres og analyseres.

Database: En database er et oppbevaringssted for all data som en søkemotor laster ned og analyserer. Dette krever ofte enorme ressurser.

Søk Motor Resultater: Systemet for å gi resultater omhandler rangeringen av sider. Den bestemmer hvilke sider som tilfredsstiller brukerens forespørsel og i hvilken rekkefølge de skal sorteres. Dette skjer i henhold til søkemotorrangeringsalgoritmene. Denne informasjonen er den mest verdifulle og interessante for oss - det er med denne komponenten av søkemotoren at optimalisereren samhandler og prøver å forbedre plasseringen til nettstedet i SERP, derfor vil vi i fremtiden vurdere i detalj alle faktorer som påvirker rangeringen av resultater.

Arbeidet med søkeindeksen skjer i tre stadier, hvorav de to første er forberedende og usynlige for brukeren. Søkeindeksen samler først informasjon fra Verden Bred Web . For å gjøre dette, bruk spesielle programmer som ligner på nettlesere. De er i stand til å kopiere en gitt webside til en søkeindeksserver, se den, finne alle hyperkoblingene den har, ressursene som finnes der, finne hyperkoblingene der igjen, osv. Slike programmer kalles ormer, edderkopper, larver, larver, edderkopper og andre lignende navn. Hver søkeindeks bruker sitt eget unike program til dette formålet, som det ofte utvikler selv. Mange moderne søkemotorer ble født ut av eksperimentelle prosjekter knyttet til utvikling og implementering av automatiserte programmer som overvåker nettet. Teoretisk sett, ved vellykket pålogging edderkopp er i stand til å finkjemme hele nettområdet i en fordypning, men det tar mye tid, og han må fortsatt periodisk gå tilbake til tidligere besøkte ressurser for å overvåke endringene som skjer der og identifisere "døde" lenker, det vil si, de som har mistet relevans.

Å søke etter informasjon på Internett er en av de mest etterspurte operasjonene på Internett. Internett-besøkende må ofte søke etter dokumenter om ethvert emne. Hvis du har den nøyaktige adressen til dokumentet på Internett, er det i dette tilfellet ingen problemer med søket: i nettleseren, i adresselinjen, kan du skrive inn den kjente adressen til ressursen, og hvis tilkoblingen er vellykket , vil nettleseren vise den nødvendige siden.

Hvis den nøyaktige adressen til dokumentet ikke er tilgjengelig, kan du bruke tjenestene til en søkemotor. Søkemotor? det er "en dedikert server på Internett som tilbyr en rekke verktøy for dokumentinnhenting." Et eksempel på en søkeserver er Rambler-serveren (Rambler.ru) som ligger på http://rambler.ru. Serverhjemmesiden er vist i figuren.

Ris. 1.

Søkemotorer vedlikeholder vanligvis sine egne kataloger over Internett-ressurser. Søkemotorkataloger oppdateres jevnlig med informasjon om ressursene som er opprettet på nettverket, som kommer fra søkeroboter. Søkeroboter eller edderkopper er spesielle nettverksprogrammer som får tilgang til tilgjengelige Internett-servere, analyserer dokumenter og fyller opp tabellene til søkemotoren deres. Søkeroboter utfører arbeid med å søke og organisere ressurser i bakgrunnen døgnet rundt.

En annen kilde til informasjon om eksisterende nettsteder for søkemotorer er eksplisitt registrering av ressurser av eierne av nettsider. På serveren er det skjemaer som ressurseiere fyller ut. Skjemaet spesifiserer ressursadresse, kort beskrivelse, nøkkelord, målgruppe osv. Denne informasjonen analyseres og legges til serverkatalogene automatisk av spesielle programmer eller "manuelt" av eksperter - spesialister som overvåker dannelsen av ressurskataloger.

Å forstå mekanismene for å søke etter informasjon på Internett gjør det mulig for utviklere av nettsider å forberede dokumentene sine slik at de kan bli funnet videre av søkemotorer og plassert i de aktuelle delene av ressurskatalogen.

Søk etter nøkkelord på Internett

En av de populære måtene å finne dokumenter på WWW er nøkkelordsøk. Når du spesifiserer nøkkelord i søkeskjemaet, vil søkemotoren søke etter dokumenter som inneholder de angitte nøkkelordene. Selvfølgelig, for å oppfylle et spørsmål, vil en søkemotor ikke undersøke innholdet på tusenvis av datamaskiner som jobber på Internett - du må vente mer enn én dag på resultatet av et slikt søk. Søket utføres blant ressursene (kataloger, tabeller) til søkemotoren som tidligere ble samlet inn og systematisert ved hjelp av roboter og eksperter.

Siden volumet av nettverksressurser virkelig blir ubegrenset, kan en søkemotor finne flere tusen dokumenter som inneholder det angitte nøkkelordet når den søker etter et dokument med et nøkkelord. Det er tydelig at det i så mange dokumenter er vanskelig å finne den som passer best til det gitte temaet. Imidlertid gir søkemotorer vanligvis en mulighet til å formulere et mer detaljert søk.

En spørring kan ha en kompleks form og være sammensatt ved hjelp av nøkkelord og logiske funksjoner OG (AND), OR (OR), negasjon (NOT). Alternativt kan en søkeforespørsel dannes ved hjelp av spesialtegn som lar deg angi (eller avbryte) ordformer for nøkkelord. Slike mekanismer bidrar til å formulere kravene til valg av dokumenter mer presist. Hver søkemotor har et hjelpesystem for å hjelpe besøkende med å skrive et søk.

En doktorgradsdoktor kan på Internett finne vitenskapelige artikler for å skrive en litteraturgjennomgang av en medisinsk doktorgradsavhandling, artikler på et fremmedspråk for forberedelse til kandidatens minimumseksamen, en beskrivelse av moderne forskningsmetoder og mye mer ...

Hvordan søke etter informasjon på Internett ved hjelp av søkemotorer vil bli diskutert i denne artikkelen.

For de som ennå ikke er så godt kjent med begreper som et nettsted, en server, gir jeg deg litt grunnleggende informasjon om Internett.

Internett er et sett med nettsteder som ligger på servere, forent av kommunikasjonskanaler (telefon-, fiber- og satellittlinjer).

Et nettsted er en samling av dokumenter i html-format (sidesider) koblet til med hyperkoblinger.

Et stort nettsted (for eksempel "Medlink" - den medisinske temakatalogen http://www.medlinks.ru - består av 30 000 sider, og mengden diskplass som den opptar på serveren er omtrent 400 MB).
Et lite nettsted består av flere titalls - hundrevis av sider og opptar 1 - 10 Mb (for eksempel bestod nettstedet mitt "Doctor-graduate student" 25. juli 2004 av 280 .htm-sider og okkuperte 6 Mb på serveren).

En server er en datamaskin som er koblet til Internett og jobber døgnet rundt. Serveren kan være vert for fra flere hundre til flere tusen nettsteder samtidig.

Nettsteder som ligger på en serverdatamaskin kan vises og kopieres av Internett-brukere.

For å sikre uavbrutt tilgang til nettstedene, drives serveren gjennom avbruddsfri strømforsyning, og rommet der serverne (datasenteret) opererer er utstyrt med et automatisk brannslokkingssystem, og det er organisert en døgnkontinuerlig vakt for teknisk personell. .

I mer enn 10 år av sin eksistens har Runet (russisktalende Internett) blitt en ryddig struktur og søket etter informasjon på nettet har blitt mer forutsigbart.

Hovedverktøyet for å finne informasjon på Internett er søkemotorer.

Søkemotoren består av et edderkoppprogram som gjennomsøker internettsidene og en database (indeks), som inneholder informasjon om de besøkte sidene.

På forespørsel fra webmaster kommer en edderkopprobot inn på nettstedet og ser gjennom sidene på nettstedet, og legger inn informasjon om sidene på nettstedet i søkemotorindeksen. En søkemotor kan finne et nettsted selv, selv om webmasteren ikke har søkt om registrering. Hvis en lenke til et nettsted kommer over et sted på banen til en søkemotor (på et annet nettsted, for eksempel), vil den umiddelbart indeksere nettstedet.

Edderkoppen kopierer ikke sidene på nettstedet inn i indeksen til søkemotoren, men lagrer informasjon om strukturen til hver side på nettstedet - for eksempel hvilke ord som forekommer i dokumentet og i hvilken rekkefølge, adressene til hyperkoblingene av sidesidene, størrelsen på dokumentet i kilobyte, datoen for opprettelsen og mye mer. Derfor er søkemotorindeksen flere ganger mindre enn volumet av indeksert informasjon.

Hva og hvordan søker en søkemotor på Internett?

Søkemotoren ble oppfunnet av folk for å hjelpe dem med å søke etter informasjon. Hva er informasjon i vår menneskelige forståelse og visuelle representasjon? De er ikke lukter eller lyder, ikke sensasjoner eller bilder. Dette er bare ord, tekst. Når vi søker etter noe på Internett, spør vi etter ord - et søkeord, og som svar håper vi å få en tekst som inneholder akkurat disse ordene. Fordi vi vet at søkemotoren vil se etter nøyaktig ordene vi har bedt om i utvalget av informasjon. For det var slik hun ble unnfanget for å søke etter ord.

Søkemotoren leter ikke etter ord på Internett, men i sin indeks. Søkemotorindeksen inneholder kun informasjon om et lite antall nettsteder. Det er søkemotorer som kun indekserer nettsteder på engelsk, og det er søkemotorer som kun lister opp russiskspråklige nettsteder i indeksen.

(indeksen inneholder nettsteder på engelsk, tysk og andre europeiske språk)

Runet søkemotorer(indeksen inneholder nettsteder på russisk)

Funksjoner av noen søkemotorer på Runet

Googles søkemotor tar ikke hensyn til morfologien til det russiske språket. For eksempel anser Google ordene «avhandling» og «avhandling» som forskjellige.

Det er nødvendig å se ikke bare den første siden av søkeresultatet, men også resten.

For ofte er nettsteder som inneholder informasjon som virkelig er nødvendig for brukeren, plassert på sidene 4 - 10 i søkeresultatet.

Hvorfor skjer det? For det første optimerer mange nettstedbyggere ikke nettstedsidene sine for søkemotorer, for eksempel inkluderer de ikke metakoder på nettstedsidene.

Metakoder er tjenesteelementer i et nettdokument som ikke er synlige på skjermen, men som er viktige når søkemotorer finner nettstedet ditt. Metakoder gjør det lettere for søkemotorer å søke slik at de ikke trenger å gå dypt inn i dokumentet og analysere hele teksten på nettstedet for å tegne et bestemt bilde av det. Den viktigste meta-taggen er meta NAME = "søkeord" - nøkkelord for siden. Hvis et ord fra hovedteksten i dokumentet ikke regnes som "søk spam" og er i "søkeordene" blant de første 50, så øker vekten av dette ordet i spørringen, det vil si at dokumentet får en høyere relevans .

For det andre er det hard konkurranse blant webansvarlige for sidene om de første posisjonene i resultatet av et søk.

I følge statistikk kommer 80 % av besøkende til nettstedet fra søkemotorer. Før eller siden innser webmastere dette og begynner å tilpasse nettstedene sine til søkemotorenes lover.

Dessverre bruker noen av nettstedskaperne en uærlig metode for å markedsføre nettstedet sitt gjennom søkemotorer - såkalt "søkespam" for å lage det som ser ut til å være samsvar mellom innholdet i metakodene og resten av teksten i nettsted - de plasserer skjulte ord på sidene på nettstedet, skrevet inn i bakgrunnsfargen, slik at de ikke forstyrrer besøkende på nettstedet. Skaperne av søkemotorer holder imidlertid styr på slike triks og nettstedet til "søkespameren" faller fra høyden nådd til bunnen.

På Internett er metaforer og figurative sammenligninger til liten nytte. De forvrenger sannheten, leder Internett-brukere bort fra nøyaktig og entydig informasjon. Jo mindre artisteri og mer nøyaktighet i stilen til forfatteren av nettstedet, desto høyere plasseringer i søkeresultatene tar nettstedet.

På sin side, hvis du vil at en søkemotor skal finne artikler for deg på Internett, tenk som en maskin, bli en maskin. I hvert fall for en stund. På tidspunktet for søket.

Søkemotorer

Søkemotorer lar deg finne WWW-dokumenter relatert til et gitt emne eller utstyrt med nøkkelord eller deres kombinasjoner. Søkemotorer håndterer to søkemetoder:

· Ved hierarkiet av begreper;

· Etter nøkkelord.

Søkeservere fylles ut automatisk eller manuelt. Søkemotoren har vanligvis lenker til resten av søkemotorene, og sender dem en søkeforespørsel på forespørsel fra brukeren.

Det finnes to typer søkemotorer.

1. «Fulltekst»-søkemotorer som indekserer hvert ord på en nettside, unntatt stoppord.

2. "Abstrakt" søkemotorer som lager et sammendrag av hver side.

For nettredaktører er fulltekstmaskiner mer nyttige, siden ethvert ord som vises på en nettside blir analysert for å bestemme deres relevans for brukerforespørsler. Imidlertid kan abstrakte maskiner indeksere sider bedre enn fulltekst. Det avhenger av, for eksempel av hvor ofte de samme ordene brukes.

De viktigste egenskapene til søkemotorer.

1. Størrelsen på søkemotoren bestemmes av antall indekserte sider. Men til enhver tid kan lenkene som er oppgitt som svar på brukerforespørsler være av forskjellig alder. Årsakene til at dette skjer:

· Noen søkemotorer indekserer siden umiddelbart på forespørsel fra brukeren, og fortsetter deretter å indeksere sidene som ennå ikke er indeksert.

· Andre er mer sannsynlig å indeksere de mest populære nettsidene.

2. Dato for indeksering. Noen søkemotorer viser datoen da dokumentet ble indeksert. Dette hjelper brukeren med å finne ut når dokumentet dukket opp på nettet.

3. Dybden av indeksering viser hvor mange sider etter den angitte søkemotoren vil indeksere. De fleste maskiner har ingen grenser for indekseringsdybde. Grunner til at ikke alle sider kan indekseres:

· Feil bruk av rammekonstruksjoner.

Bruk av et nettstedskart uten duplisering av vanlige lenker

4. Arbeid med rammer. Hvis søkeroboten ikke vet hvordan den skal jobbe med rammestrukturer, vil mange strukturer med rammer gå glipp av under indeksering.

5. Hyppighet av lenker. Store søkemotorer kan bestemme et dokuments popularitet etter hvor ofte det refereres til det. Noen maskiner "konkluderer" på grunnlag av slike data om det er verdt å indeksere et dokument eller ikke.

6. Serveroppdateringsfrekvens. Hvis serveren oppdateres ofte, vil søkemotoren indeksere den oftere.

7. Kontroll av indeksering. Viser med hvilke midler søkemotoren kan kontrolleres.

8 omdirigering. Noen nettsteder omdirigerer besøkende fra en server til en annen, og denne parameteren viser hvordan dette vil være relatert til dokumentene som ble funnet.

9. Stoppord. Noen søkemotorer inkluderer ikke bestemte ord i indeksene sine eller inkluderer kanskje ikke disse ordene i brukersøk. Disse ordene regnes vanligvis som preposisjoner eller ofte brukte ord.

10. Spam-straff. Muligheten til å blokkere spam.

11. Sletting av gamle data. En parameter som bestemmer handlingene til webmaster når serveren stenges eller flyttes til en annen adresse.

Eksempler på søkemotorer.

1. Altavista. Systemet ble åpnet i desember 1995. Det eies av DEC-selskapet. Siden 1996 har han jobbet med Yahoo. AltaVista er det beste valget for tilpassede søk ... Men sorterer resultatene etter kategori pits blir ikke utført, og du må manuelt gjennomgå informasjonen som er gitt. AltaVista tilbyr ikke et middel til å hente hotspot-lister, nyheter eller andre innholdssøkefunksjoner.

2. Excite Search. Lansert i slutten av 1995. September 1996 - kjøpt opp av WebCrawler. Denne knuten har en kraftig søkepelsnizm, muligheten til å tilpasse automatiskinformasjonen som er gitt, samt de kompilerte kvalifikasjoneneav kvalifisert personell for å beskrive settet med noder. Spennende skiller seg fra andre søkesider på detlar deg søke i nyhetstjenester og publisere anmeldelser Nettsider. Søkemotoren bruker virkemidlenestandard søkeordsøk og heuristikkmetoder for innholdssøk. Takket være denne kombinasjonen,du kan finne sider som samsvarer med betydningen Internett, hvis de ikke inneholder en brukerspesifisert nøkkel ut ord. Ulempen med Excite er et litt kaotisk grensesnitt.

3. HotBot. Lansert mai 1996. Eies av Wired. Basert på Berkeley Inktomi søkemotorteknologi. HotBot er en fulltekstindeksert dokumentdatabase og en av de mest omfattende søkemotorene på nettet. Dens boolske søke- og søkebegrensninger til enhver region eller nettside hjelper brukeren med å finne informasjonen de trenger mens de filtrerer ut unødvendig informasjon. HotBot gir muligheten til å velge de nødvendige søkeparametrene fra rullegardinlistene.

4.InfoSeek. Lansert før 1995 og er lett tilgjengelig. Den inneholder for tiden rundt 50 millioner nettadresser. Infoseek har et godt designet grensesnitt og utmerkede søkeverktøy. De fleste av svarene på forespørsler er ledsaget av "relaterte emner"-lenker, og hvert svar etterfølges av "lignende sider". Søkemotordatabasen med sider indeksert med fulltekst. Svarene er sortert etter to indikatorer: hyppigheten av forekomst av et ord eller fraser på siden tsakh, samt plasseringen av ord eller setninger på sidene. Det er en nettkatalog delt inn i 12 kategorier med hundrevis av underkategorier som kan søkes i. Hver side i katalogen inneholder en liste over re utvalgte noder.

5. Lycos. Har jobbet siden mai 1994. Det er viden kjent og brukt. Den inkluderer en katalog med et stort antall URL-er. og Point-søkemotoren med teknologien for statistisk analyse av sideinnhold, i motsetning til indeksering med fulltekst. Lycos inneholder nyheter, nettstedanmeldelser, lenker til populære nettsteder, bykart og verktøy for å finne adresser, fra bilder og lyd- og videoklipp. Lycos bestiller svarene etter korrespondansegradenresultatene av en spørring etter flere kriterier, for eksempel etter antalllu søkeord funnet i dokumentkommentarenpolitimann, intervallet mellomgjøre ord i en bestemt setning av dokumentet, plasseringvilkårene i dokumentet.

6. WebCrawler. Åpnet 20. april 1994 som et Washington University-prosjekt. Webcrawler gir muligheter syntaks for å spesifisere spørringer, samt et stort utvalg merknader av noder med et ukomplisert grensesnitt.


Etter hvert svar vil WebCrawler komme i veien for et lite piktogram med et omtrentlig estimat av samsvar med forespørselen. Coma Togo viser en side med en kort oppsummering for hvert svar, dens fulle URL, en nøyaktig samsvarsscore, og bruker også dette svaret i spørringen er modellert som søkeord.Et grafisk grensesnitt for å tilpasse spørringer i Web Crawler nr. N e er tillattbruk av jokertegn, og det er også umuligtilordne vekter til nøkkelord.Det er ingen måte å begrense søkefeltetspesifikt område.

7. Yahoo. Den eldste Yahoo-katalogen ble lansert tidlig i 1994. Allment kjent, hyppig brukt og mest respektert. I mars 1996 ble Yahooligans-katalogen for barn lansert. Yahoos regionale og toppkataloger vises. Yahoo er abonnementsbasert. Den kan tjene som utgangspunkt for ethvert nettsøk, siden den bruker klassifiseringssystemet for å finne et nettsted med godt organisert informasjon. Nettinnhold er delt inn i 14 generelle kategorier, oppført på Yahoo!-hjemmesiden. Avhengig av spesifikasjonene til brukerens forespørsel, er det mulig å enten arbeide med disse kategoriene for å bli kjent med underkategoriene og listene over noder, eller å søke etter spesifikke ord og termer gjennom hele databasen. Brukeren kan også begrense søket til en hvilken som helst seksjon eller underseksjon av Yahoo! På grunn av det faktum at klassifiseringen av noder utføres av mennesker, og ikke av en datamaskin, kvaliteten på koblingene er vanligvis svært høy. Det er imidlertid vanskelig å avgrense et søk i tilfelle feil. Til Yahoo ! søkemotor inkludert AltaVista, så hvis søket ditt mislykkes på Yahoo! det skjer automatisk repetisjon ved hjelp av en søkemotor AltaVista ... Resultatene overføres deretter til Yahoo!. Yahoo! gir muligheten til å sende forespørsler for å søke i Usenet og Fourl 1 etter e-postadresser.

Russiske søkemotorer inkluderer:

1. Rambler Dette er en russiskspråklig søkemotor. Seksjonene som er oppført på Rambler-hjemmesiden dekker russiskspråklige nettressurser. Det er en informasjonsklassifiserer. En praktisk mulighet til å jobbe er å gi en liste over de mest besøkte nettstedene for hver det foreslåtte emnet.

2. Aport-søk. Aport rangert blant de ledende sertifiserte søkemotorene Microsoft som lokale søkemotorersystemer for den russiske versjonen Microsoft Internet Explorer. En av fordelene med Aport er engelsk-russisk og russisk-engelsk online oversettelse av søk og søkeresultater, som gjør det mulig å søke i russiske Internett-ressurser. uten engang å kunne det russiske språket. Dessuten du kan søke etter informasjon bruk av uttrykk, selv for setninger.Blant hovedegenskapene til søkemotoren Aport kan dudel følgende:

Oversettelse av søket og søkeresultatene fra russisk til engelskhimmelspråk og omvendt;

Automatisk kontroll av stavefeil i forespørselen;

Informativ visning av søkeresultater for nettsteder som er funnet;

Evnen til å søke i enhver grammatisk form;


avansert spørrespråk for profesjonelle siste brukere.

Andre søkeegenskaper inkludererstøtte for fem hovedkodesider (ulik driftsystemer) for russisk språk, søketeknologi ved hjelp avvi har restriksjoner på URL og dato for dokumenter, gjennomføring av søketter titler, kommentarer og bildetekstergå til bilder osv., lagre søkeparametere og definer et begrenset antall tidligere brukerforespørsler, kombinerer kopier av dokumentet som ligger på forskjellige servere.

3. Liste. ru ( http://www.list.ru) Ved sin implementering har denne serveren mangetil felles med det engelsktalende systemet Yahoo!. Serverhjemmesiden inneholder lenker til de mest populære søkekategoriene.


Listen over lenker til hovedkategoriene i katalogen opptar den sentrale delen. Søket i katalogen er implementert på en slik måte at som et resultat av spørringen kan både individuelle nettsteder og kategorier bli funnet. Hvis søket er vellykket, vises URL, tittel, beskrivelse, nøkkelord. Tillatt å bruke Yandex. MEDlenke "Strukturkatalog "åpner i et eget vindu hele kategorien kataLogg. Muligheten til å bytte fra rubricator til hvilken som helst valgt underkategori er implementert. Mer detaljert tematisk inndelinggjeldende overskrift er representert av en liste med lenker. Katalogen er organisert slik på en slik måte at alle områder i de nedre nivåene av strukturenturer er presentert i overskriftene.Den viste listen over ressurser er sortert alfabetisk, men du kan velge å sortere: etter tid nye tillegg, ved overganger, av rekkefølgen for å legge til katalogen, avpopularitet blant katalogbesøkende.

4. Yandex. Programvareproduktene i Yandex-serien representerer et sett med verktøy for fulltekstindeksering og søk etter tekstdata, med tanke på morfologien til det russiske språket. Yandex inkluderer moduler for morfologisk analyse og syntese, indeksering og søk, samt et sett med hjelpemoduler som en dokumentanalysator, markeringsspråk, formatkonverterere, edderkopp.

Algoritmer for morfologisk analyse og syntese basert på det grunnleggende vokabularet er i stand til å normalisere ord, det vil si finne sin opprinnelige form, og også bygge hypoteser for ord som ikke finnes i det grunnleggende vokabularet. Fulltekstindekseringssystemet lar deg lage en kompakt indeks og raskt utføre søk basert på logiske operatorer.

Yandex er designet for å jobbe med tekster i det lokale og globale nettverket, og kan også kobles som en modul til andre systemer.

Laboratoriearbeid nr. 10.

Søker etter informasjon på Internett

formålet med arbeidet

Bli kjent med de viktigste søkemotorene på Internett. Mestre ferdighetene til å jobbe i søkemotorer. Lær å velge den optimale søkemotoren, ta hensyn til oppgavenes spesifikasjoner.

Enheter og materialer

For å utføre laboratoriearbeidet trenger du en personlig datamaskin som opererer under operativsystemet til WINDOWS-familien. Internet Explorer må være installert.

Moderne søkemotorer

Internett er et gigantisk depot av informasjon. Mange sider, verdifulle og ikke så, eksisterer uten rekkefølge og er kun koblet sammen med tilfeldige lenker, avhengig av kvalifikasjonene og personlige preferanser til forfatterne av nettstedene. Imidlertid må brukeren navigere i denne varianten og finne, helst i løpet av minutter, den nødvendige informasjonen.

Det finnes et stort antall søkemotorer på Internett. I følge de mest konservative estimatene er det mer enn åtte tusen av dem, inkludert klassikeren søkemotorer, generelle og spesialiserte kataloger, og metasøk-nettsteder(som sender forespørsler til flere søkemotorer samtidig). I tillegg til dette finnes det en rekke alternative søkeverktøy som du kan finne nyttige, bl.a verktøy som, i samarbeid med nettleseren, trekker ut informasjon fra nettet, og den såkalte "ekspertnoder" hvor ekte mennesker jobber med dine forespørsler. Intelligente søkemotorer utvikles for tiden. Et eksempel på et slikt system er for eksempel en intelligent søkemotor. Nigma(www.nigma.ru).

Søkemotorer og kataloger

Med all overflod av Internett-søkemetoder, er den vanligste måten å finne informasjon på fortsatt søkemotorer og kataloger. Hvert av disse verktøyene har distinkte fordeler, og hovedforskjellen mellom dem er menneskelig deltakelse/ikke-deltakelse.

Søkemotorer Er et kompleks av spesialprogrammer for å søke på nettet.

Hoveddelene av programvarepakken:

1. Edderkopprobot(Edderkopp). Et frittstående program som går gjennom sidene til nettsteder som står i køen for indeksering. Den laster ned innholdet på sidene som undersøkes til disken til søkeserveren.

2. Robotcrawler("Reisende" edderkopp). Dens oppgave er å samle alle lenker på den studerte siden, finne nye blant dem, ukjente for søkemotoren, og legge dem til listen over ventende indeksering.

3. Indekser. Behandler sider fra indekseringskøen. For å gjøre dette, kompilerer han en "ordbok" av siden, husker "hyppigheten" for bruk av ord. Fremhever nøkkelord brukt i overskrifter med fet skrift i teksten. Plasserer alt dette i en spesiell fil - "indeks".


5. System for behandling av forespørsler og utstedelse av resultater. Aksepterer brukerens forespørsel, danner en forespørsel til databasen, mottar resultatet derfra og overfører det til brukeren.

Søkemotorer kjøre programvareedderkopper på nettet som reiser fra side til side og indekserer hele teksten på hver side.

Nesten alle søkemotorer har samme søkeskjema og omtrent samme format for visning av resultater (se avsnittet "Utseende på søkesider"), men funksjonen til søkemotorene er betydelig forskjellig. For det første relevansen (i hvilken grad søkeresultatene samsvarer med brukerens forespørsel), for det andre størrelsen og frekvensen av databaseoppdateringer, og for det tredje hastigheten på resultatene. Og selvfølgelig er søkemotorer forskjellige når det gjelder praktiske arbeid.

I dag er søkemotorer de mest populære nettsidene som brukere bruker mye tid på. Derfor, når du velger en søkemotor, blir relaterte tjenester (post, nyhetsfeeds, handelsplattformer osv.) stadig viktigere.

Kataloger- en tradisjonell måte å organisere informasjon på. Sannsynligvis måtte vi alle møte med bibliotekskataloger, produktkataloger. Kataloger brukes i mange systemer. Nesten hvor som helst du trenger å lagre og organisere informasjon.

En av hovedutfordringene som katalogisere står overfor er å lage overskrifter som er naturlige og intuitive for den gjennomsnittlige brukeren. Dessverre kan dette problemet bare løses med ulik grad av tilnærming. Verden er kontinuerlig, det er ingen strenge grenser i den. En og samme side kan sees fra forskjellige vinkler og forskjellige funksjoner kan sees. Kataloger er laget av menneskelige redaktører som leser sidene, filtrerer ut uegnede og klassifiserer nettsteder etter emne.

Ulempene med kataloger inkluderer følgende.

For det første er tvetydigheten i strukturen et åpenbart minus ved katalogorganiseringen av informasjon (selv om det er noe jevnet ut av det faktum at et katalogsøk er implementert i hver hovedkatalog).

For det andre lager folk kataloger. Deres fullstendighet og kvalitet avhenger av antall og kvalifikasjoner til personer som er ansatt i katalogen, deres personlige smak og preferanser. Ujevnheten i fyllingen av overskriftene er et karakteristisk trekk ved alle kataloger.

For det tredje begrenser det arbeidskrevende ved manuell rubrikk volumet av katalogisert informasjon.

Samtidig er de ubetingede fordelene med kataloger at informasjonen i den lagres på en ryddig måte, i samsvar med elementær menneskelig logikk og relevans funnet sider når du søker i katalogen er vanligvis en størrelsesorden høyere enn når du søker med søkemotorer.

Som nevnt ovenfor, på grunn av det faktum at kataloger lages for hånd, dekker de mye mindre ressurser enn søkemotorer. Nettet har nå, ifølge de mest konservative anslagene, en milliard sider (og antallet vokser med en million hver dag). De fleste søkemotorer har ikke kommet i nærheten av å indeksere hele nettet. Unntaket er Google (for Russland www.google.ru), som hevder nøyaktig dette tallet - en milliard sider, delvis eller fullstendig dekket av indeksene. Den største katalogen - Open Directory Project (www.dmoz.org) - virker liten mot denne bakgrunnen: den inneholder bare rundt 2 millioner sider.

I 1994, med den eksplosive veksten av World Wide Web, var utvalget av søkeverktøy på nettet svært begrenset: Yahoo (www.yahoo.com). Denne serveren er fortsatt en hjørnestein i nettutforskning til i dag, men som katalog møter den nå hard konkurranse fra Open Directory Project.

Mange kataloger er ganske nyttige, men alt tatt i betraktning bør Open Directory Project foretrekkes. Open Directory Project, initiert av Netscape, er implementert av over 24 000 frivillige redaktører fra hele verden som har indeksert rundt 2 millioner noder og klassifisert dem i mer enn 200 000 kategorier. Enhver søkeserver kan få en Open Directory Project-lisens og bruke databasen ved behandling av forespørsler, og mange gjør det: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co. uk ) og rundt hundre andre servere dykker dit etter lenker.

Man kan forvente at så lenge Open Directory-prosjektet bygges av frivillige, vil kvaliteten på resultatene svinge. Men resultatet er velorganiserte lister over relaterte sider med klare beskrivelser av hver lenke. Og Open Directory Project-nettstedet har samme følelse som Google: det er et "rent søk" uten distraksjoner som butikkkoblinger.

Uansett hvilken katalog du velger, har alle én fordel fremfor søkemotorer: de kan ses systematisk ved hjelp av et hierarkisk menysystem.