Informationshämtningssystem Internet. Komponenternas sammansättning och tekniken för att arbeta med IPS

Lämna en kommentar 6,950

I den här artikeln skulle jag vilja titta på olika tekniker för att hitta information om VoIP-enheter i ett nätverk och sedan demonstrera flera attacker mot VoIP.

Introduktion

De senaste åren har en hög andel av IP-telefoni (VoIP) antagits. De flesta organisationer som har antagit VoIP är antingen okunniga om säkerhetsfrågorna för VoIP och dess implementering, eller är helt enkelt omedvetna om dem. Precis som alla andra nätverk är ett VoIP-nätverk känsligt för missbruk. I den här artikeln skulle jag vilja titta på olika tekniker för att hitta information om VoIP-enheter i ett nätverk och sedan demonstrera flera attacker mot VoIP. Jag kom medvetet inte ner till detaljer på protokollnivå eftersom den här artikeln är avsedd för pentestare som vill prova grunderna först. Men jag rekommenderar starkt att du lär dig om protokollen som används i VoIP-nätverk.

Möjliga attacker på VoIP

Denial of Service (DoS)
Meriteringsstöld och manipulation
Attacker på autentiseringssystemet
Spoofing nummerpresentation
Man i mitten attackerar
"Shamanism över VLAN" (Vlan hopping)
Passivt och aktivt lyssnande
Spam via Internettelefoni (SPIT)
VoIP-nätfiske (Vishing)

Labbkonfiguration för VoIP-testning

För att demonstrera VoIP-säkerhetsproblemen för den här artikeln använde jag följande labbkonfiguration:

Trixbox i(192.168.1.6) - IP-PBX-server med öppen källkod
Backtrack 4 R2 (192.168.1.4) - OS på angriparens dator
ZoIPer ii(192.168.1.3) - Mjuktelefon för Windows (användare A- offer)
Linphone iii(192.168.1.8) - Mjuktelefon för Windows (användare B- offer)

Vår laboratoriekonfiguration

Bild 1

Överväg schemat för laboratoriet som presenteras ovan. Detta är en typisk VoIP-nätverkskonfiguration för småföretag med en router som allokerar IP-adresser till enheter, ett IP-PBX-system och användare. Om användaren A detta nätverk kommer att vilja kontakta B, kommer följande att hända:

ring upp A skickas till IP-PBX-servern för användarautentisering.
Efter framgångsrik autentisering A IP-PBX-servern kontrollerar närvaron av användarens anknytning (internnummer). B. Om anknytningen finns, omdirigeras samtalet B.
Baserat på svaret B(till exempel ta emot ett samtal, lägga på, etc.) IP-PBX-servern svarar till användaren A.
Om det är okej A börjar kommunikation med B.

Nu när vi har en tydlig bild av interaktionen, låt oss gå vidare till den roliga delen - attackera VoIP.

Sök efter VoIP-enheter

Enhetsupptäckt (uppräkning) är kärnan i varje framgångsrik attack/pentest eftersom det ger angriparen både nödvändiga detaljer och en allmän uppfattning om nätverkskonfigurationen. VoIP är inget undantag. I ett VoIP-nätverk kommer vi som angripare att behöva information om VoIP-gateways/servrar, IP-PBX-system, klientprogramtelefoner och VoIP-telefoner samt användarnummer (tillägg). Låt oss ta en titt på några vanliga verktyg för enhetsupptäckt och fingeravtryck. För att förenkla demonstrationen, låt oss anta att vi redan känner till enheternas IP-adresser.

Smap

Smap iv skannar en enda IP-adress eller subnät efter aktiverade SIP-enheter. Låt oss använda smap mot serverns IP-PBX. Figur 2 visar att vi kunde hitta servern och få information om dess User-Agent.

figur 2

svmap

Svmap är en annan kraftfull skanner från sipvicious verktygslåda v. Med det här verktyget kan du ställa in vilken typ av begäran som används när du söker efter SIP-enheter. Standardförfrågningstypen är OPTIONS. Låt oss köra en skanner på en pool med 20 adresser. Som du kan se kan svmap upptäcka IP-adresser och User-Agent-information.

Figur 3

Swar

När du söker efter VoIP-enheter kan sökning på användarnummer hjälpa till att identifiera aktiva SIP-anknytningar. Svwar vi låter dig skanna hela utbudet av IP-adresser. Figur 4 visar resultatet av att skanna användarnummer i intervallet från 200 till 300. Som ett resultat får vi förlängningar av användare registrerade på IP-PBX-servern.

Bild 4

Så vi har täckt processen att hitta VoIP-enheter och har några intressanta konfigurationsdetaljer. Låt oss nu använda denna information för att attackera nätverket vi just har utforskat.

Attack mot VoIP

Som redan diskuterats är VoIP-nätverket föremål för många säkerhetshot och attacker. I den här artikeln kommer vi att titta på tre kritiska attacker på VoIP som kan syfta till att kränka integriteten och konfidentialiteten för VoIP-infrastrukturen.

Följande avsnitt visar följande attacker:

Attack mot VoIP-autentisering
Lyssna genom ARP-spoofing
Imitation nummerpresentation

1. Attack mot VoIP-autentisering

När en ny eller befintlig VoIP-telefon ansluter sig till nätverket skickar den en REGISTER-förfrågan till IP-PBX-servern för att registrera användar-/anknytnings-ID som är kopplat till telefonen. Denna registreringsförfrågan innehåller viktig information (såsom användarinformation, autentiseringsdata, etc.) som kan vara av stort intresse för en angripare eller pentester. Figur 5 visar ett fångat SIP-autentiseringsbegäranpaket. Det avlyssnade paketet innehåller information som är välsmakande för angriparen. Låt oss använda paketdata för en autentiseringsattack.

Bild 5

Attackdemonstration

Attackscenario

Bild 6

Steg 1: För att förenkla demonstrationen, låt oss anta att vi har fysisk tillgång till ett VoIP-nätverk. Nu, med hjälp av verktygen och teknikerna som beskrivs i de föregående avsnitten av artikeln, kommer vi att skanna och söka efter enheter för att få följande information:

SIP-serverns IP-adress
Befintliga användar-ID och tillägg

Steg 2: Låt oss fånga upp flera registreringsförfrågningar med wireshark vii. Vi kommer att lagra dem i en fil som heter auth.pcap. Figur 7 visar wireshark-infångningsfilen (auth.pcap).

Bild 7

Steg 3:

Vi använder nu sipcrack verktygslåda viii. Kitet är en del av Backtrack och finns i /pentest/VoIP-katalogen. Figur 8 visar verktygen från sipcrack-verktygslådan.

Figur 8

Steg 4: Med sipdump, låt oss dumpa autentiseringsdata till en fil som heter auth.txt. Figur 9 visar en wireshark-infångningsfil som innehåller användarens 200 autentiseringsdata.

Bild 9

Steg 5: Denna autentiseringsdata inkluderar användar-ID, SIP-tillägget, lösenords-hash (MD5) och offrets IP-adress. Vi använder nu sipcrack för att knäcka lösenordshashar med hjälp av en förberedd ordboksattack. Figur 10 visar att wordlist.txt-filen används som en hashcrack-ordbok. Vi kommer att lagra resultaten av hacket i en fil som heter auth.txt.

Bild 10

Steg 6: Bra, nu har vi lösenord för tillägg! Vi kan använda denna information för att registrera oss på IP-PBX-servern från vår egen SIP-telefon. Detta gör att vi kan göra följande:

Utge sig för att vara en legitim användare och ring andra prenumeranter
Lyssna och manipulera legitima samtal som kommer och går till offrets anknytning (användare A I detta fall).

2. Lyssna genom Arp-spoofing

Varje nätverksenhet har en unik MAC-adress. Precis som andra nätverksenheter är VoIP-telefoner sårbara för MAC/ARP-spoofing. I det här avsnittet kommer vi att titta på att sniffa aktiva röstsamtal genom att lyssna på och spela in live VoIP-konversationer.

Attackdemonstration

Attackscenario

Bild 11

Steg 1: För demonstrationsändamål, låt oss anta att vi redan har fastställt offrets IP-adress med de tidigare beskrivna teknikerna. Därefter använder du ucsniff ix som ett ARP-spoofingverktyg kommer vi att förfalska offrets MAC-adress.

Steg 2: Det är viktigt att fastställa MAC-adressen för målet som ska förfalskas. Även om de tidigare nämnda verktygen kunde bestämma MAC-adressen automatiskt, är det god praxis att bestämma MAC självständigt, på ett separat sätt. Låt oss använda nmap för detta x. Figur 12 visar resultaten av att skanna offrets IP-adress och den resulterande MAC-adressen.

Bild 12

Steg 3: Nu när vi har offrets MAC-adress, låt oss använda ucsniff för att förfalska deras MAC. ucsniff stöder flera spoofing-lägen (observationsläge, inlärningsläge och MiTM-läge, d.v.s. "man i mitten"). Låt oss använda MiTM-läget genom att ange offrets IP-adress och SIP-tillägg i en fil med namnet targets.txt. Detta läge säkerställer att endast samtal (inkommande och utgående) från offret (användaren A) utan att påverka annan trafik på nätverket. Figurerna 13 och 14 visar att ucsniff förfalskade användarens MAC A(i ARP-tabellen).

Bild 13

Bild 14

Steg 4: Vi har lyckats förfalska offrets MAC-adress och är nu redo att lyssna på användarens inkommande och utgående samtal A via VoIP-telefon.

Steg 5: Nu när användaren B ringer användaren A och startar en dialog börjar ucsniff spela in deras konversation. När samtalet avslutas sparar ucsniff hela det inspelade samtalet till en wav-fil. Figur 15 visar att ucsniff har upptäckt ett nytt samtal från anknytning 200 till anknytning 202.

Bild 15

Steg 6: När vi är klara anropar vi ucsniff igen med alternativet -q för att stoppa MAC-spoofing på systemet och på så sätt säkerställa att allt faller på plats efter att attacken är klar.

Steg 7: Den sparade ljudfilen kan spelas upp med vilken känd mediaspelare som helst som Windows Media Player.

Nummerförfalskning

Detta är en av de enklaste attackerna på VoIP-nätverk. Förfalskning av abonnent-ID motsvarar scenariot där en okänd användare kan utge sig för att vara en legitim användare av VoIP-nätverket. För att implementera denna attack kan det räcka med en liten ändring i INVITE-förfrågan. Det finns många sätt att generera felaktiga SIP INVITE-meddelanden (med hjälp av scapy, SIPp, etc.). För att demonstrera använder vi sip_invite_spoof-hjälpmodulen från metasploit-ramverket xi .

Attackscenario

Bild 16

Steg 1: Låt oss köra metasploit och ladda voip/sip_invite_spoof-hjälparmodulen.

Steg 2: Ställ sedan in värdet för MSG-alternativet till Användare B. Detta ger oss möjligheten att imitera användaren B. Vi kommer även att skriva användarens IP-adress A i alternativet RHOSTS. Efter att ha ställt in modulen kör vi den. Figur 17 visar alla konfigurationsinställningar.

Bild 17

Steg 3: Hjälparmodulen kommer att skicka modifierade inbjudningsförfrågningar till offret (användare A). Offret kommer att ta emot samtal från min VoIP-telefon och svara på dem och tro att han pratar med användaren B. Figur 18 visar offrets VoIP-telefon ( A), som antas ta emot ett samtal från användaren B(och faktiskt från mig).

Bild 18

Steg 4: Nu A tror att ett vanligt samtal kom från B och börjar prata med någon som presenterar sig som Användare B.

Slutsats

Många befintliga säkerhetshot gäller även för VoIP. Med hjälp av enhetssökning kan du få kritisk information relaterad till VoIP-nätverk, användar-ID/tillägg, telefontyper etc. Med hjälp av specialverktyg är det möjligt att utföra autentiseringsattacker, stjäla VoIP-samtal, avlyssna, manipulera samtal, skicka VoIP-spam, bedriva VoIP-nätfiske och äventyra IP-PBX-servern.

Jag hoppas att den här artikeln har varit tillräckligt informativ för att belysa säkerhetsproblemen med VoIP. Jag skulle vilja be läsarna att notera att den här artikeln inte diskuterade alla möjliga verktyg och tekniker som används för att söka efter VoIP-enheter på nätverket och testa.

Om författaren

Sohil Garg är pentester på PwC. Hans intresseområden inkluderar utveckling av nya attackvektorer och penetrationstester i säkra miljöer. Han deltar i säkerhetsbedömningar av olika ansökningar. Han har talat om VoIP-säkerhetsfrågor vid CERT-In-konferenser som deltagits av högre regerings- och försvarstjänstemän. Han upptäckte nyligen en sårbarhet i ett stort företags produkt som kunde tillåta privilegieupptrappning och direkt åtkomst till ett objekt.

Länkar

i http://fonality.com/trixbox/
ii http://www.zoiper.com/
iii http://www.linphone.org/
iv http://www.wormulon.net/files/pub/smap-blackhat.tar.gz
v
vi http://code.google.com/p/sipvicious/
vii http://www.wireshark.org/
viii Det här verktyget finns i Backtrack 5 under /pentest/voip/sipcrack/
ix http://ucsniff.sourceforge.net/
x http://nmap.org/download.html
xi http://metasploit.com/download/

Seminarium

Designa dokumenthanteringssystem

Konceptet med ett informationshämtningssystem (IPS).

Sammansättningen av komponenterna och tekniken för att arbeta med IPS.

I moderna företags arbete spelar dess informationsresurser en viktig roll, vilket kan förstås som projektdokumentation, korrespondens med partners, interna order och instruktioner, ekonomiska data och andra dokument som ligger till grund för att fatta nya beslut och är används i företagsledningsprocesser. Och om specialiserade informationssystem (såsom ett redovisnings- eller handelssystem eller ett planeringsavdelningssystem) baserade på användningen av ett DBMS kan användas för att lagra strukturerad data, behövs generella system för ostrukturerad data - elektroniska arkiv som fungerar på principerna för ett informationshämtningssystem.

Informationshämtningssystem (IPS) - det är ett system utformat för att lagra och söka i dokument med textuell, grafisk, tabellinformation om attribut, dokumentnyckelord och innehåll inom alla ämnesområden. Det finns två typer av IPS: faktografiska och dokumentografiska system. Faktografiska informationssystem är utformade för att lagra och söka efter fakta, indikatorer, egenskaper hos alla objekt eller processer (till exempel information om anställda, företag, aktieägare, etc.). Dokumentografiska informationssystem skiljer sig åt genom att föremålen för lagring och hämtning i dessa system är dokument, rapporter, sammandrag, recensioner, tidskrifter, böcker etc. Scenariot för att söka efter ett dokument med IPS reduceras vanligtvis till att ange en sökfråga som består av ett eller flera ord, varefter en lista med namn på de hittade dokumenten presenteras. Användaren kan öppna vilket som helst av de hittade dokumenten, och om sökmotorn tillåter markeras förekomsterna av sökorden i dokumentet - "markerade". Det är möjligt att särskilja följande funktioner i organisationen och

funktion av dokumentografisk IPS, som skiljer den från strukturerade databashanteringssystem: – Dokument kan lagras på papper, mikrografiska medier eller existera i elektroniska format. Mikrografiska format inkluderar mikrofilm, mikrofiche, diabilder och andra mikroformer som produceras av en mängd olika dokumentkameror. Elektroniska format är ännu fler, de inkluderar dokument som förbereds i ordbehandlare, e-postsystem och andra datorprogram, digitaliserade bilder av skannade dokument och så vidare. Detta förutsätter obligatorisk lagring av både elektroniska kopior av dokument och deras pappersoriginal.

Om handlingarna är stora och det inte är möjligt att utfärda fullständiga elektroniska kopior för visning eller lagring, skapa och lagra elektroniska lagringsadresser för sådana dokument.

Sökningen utförs genom att hitta ett dokument enligt två principer:

dokumentattribut - datum för tillkomst, storlek, författare etc. och av hans innehåll(text). Vanligtvis utförs sökningen i dokumentets innehåll på två sätt: med nyckelord och av hela texten, som kallas Full text, Därmed betonas att hela texten i dokumentet används för sökningen, och inte bara dess detaljer.

För att söka efter dokument skapar och lagrar de sina sökbilder. . Dokumentsökningsbild (DOI) – en uppsättning koder av ledande nyckelord (deskriptorer) som beskriver innebörden, innehållet i dokumentet.

Nyckelord och deras koder lagras i en speciell ordbok - synonymordbok.

För att söka efter dokument måste du skapa informationssökningsspråk (IPL), som omfattar språkets tesaurus och grammatik, d.v.s. en uppsättning regler för att specificera en uppsättning satser på en uppsättning nyckelord.

För att hitta ett dokument måste du skapa med IPN sökfråga bild (POZ), som är en samling kodade nyckelord som beskriver de dokument som ska hittas.

Interaktionsdiagrammet för IPS-komponenterna visas i fig. . ett.

Ris. 1. Schema för interaktion mellan IPS-komponenterna

IPS består av följande stödjande delsystem:

Språkligt stöd, som inkluderar ett informationssökningsspråk;

Tekniskt stöd för systemet, inklusive datorer och anordningar för att skapa, lagra, läsa och reproducera kopior på papper, i mikroformat och i elektronisk form;

Informationsstöd, bestående av en databas med dokument (DB Doc.), adresser (DB Adr.) och en databas med sökbilder av dokument (DB POD) och listor över deskriptorer och deras koder - synonymordbok;

Programvara.

IPS-programvaran är utformad för att automatisera följande huvudfunktioner som detta system måste utföra:

Sammanställning, kodning och uppladdning av AML-databasen;

Nedladdning av en databas med dokument och deras lagringsadresser;

Kompilering, kodning av POS;

Utföra en sökoperation och utfärda ett svar på en begäran i form av ett dokument eller dokumentlagringsadresser på en datorskärm, på papper, i en fil;

Uppdatering av AML-databaser, dokument och adresser;

Uppdatering av synonymordbok;

Utfärdande av referenser.

Tänk på de grundläggande begreppen som används inom området dokumentsökning.

Relevans - graden av överensstämmelse för det hittade dokumentet med frågan . En handling som hittas på begäran kan vara relevant för begäran, d.v.s. innehålla den nödvändiga (behövliga) informationen, eller kanske inte ha någon koppling. I det första fallet kallas dokumentet relevant(på engelska relevant - "relevant"), på sekunden irrelevant, eller buller. Som regel, i vilken sökmotor som helst, på begäran, hittas flera (oftast många) dokument. Många av dem handlar kanske inte om det. Omvänt kan vissa viktiga, relevanta dokument saknas i sökningen. Det är tydligt att antalet av båda avgör kvaliteten på sökningen, vilket kan fastställas ganska exakt. Huvudkoncepten i världen av sökverktyg är idéerna om sökningens noggrannhet och fullständighet.

Söknoggrannhet (T) bestäms av vilken del av den information som lämnas som svar på en begäran som är relevant, d.v.s. relaterad till denna fråga och är en parameter som visar hur stor andel av relevanta dokument är av det totala antalet hittade. Denna indikator beräknas med formeln:

Om till exempel alla handlingar som utfärdas på begäran är relevanta, är noggrannheten 100 %; om tvärtom alla dokument är bullriga är söknoggrannheten noll.

Sökningens fullständighet (P)- en ytterligare parameter som visar hur stor andel (eller procentandel) av hittade relevanta dokument är av det totala antalet relevanta dokument, dvs. kännetecknas av förhållandet mellan all relevant information som finns tillgänglig i databasen och den del av den som ingår i svaret och beräknas med formeln:

Om det i själva verket finns 100 dokument som innehåller den nödvändiga informationen i sökområdet, och endast 30 av dem hittades av en fråga, är sökningens fullständighet 30%. Vid utvärdering av sökmotorer tas dessutom hänsyn till vilka typer av data ett visst system kan arbeta med, i vilken form sökresultat presenteras och vilken nivå av användarutbildning som krävs för att fungera i detta system. Det bör noteras att sökningens noggrannhet och dess fullständighet beror inte bara på sökmotorns egenskaper, utan också på riktigheten i konstruktionen av en viss fråga, såväl som på användarens subjektiva uppfattning om vilken information han behöver. Om det finns ett problem med att utvärdera flera system och välja det mest effektiva, är det möjligt att beräkna medelvärdena för återkallelsen och noggrannheten för de särskilda systemen som övervägs genom att testa dem på en referensdatabas med dokument.

Indexering dokument (d.v.s. utarbetande av AML), vilket innebär preliminär förberedelse av texter för sökning och används främst för att påskynda sökningen; som regel bearbetas textdatabaser avsedda för flera sökningar i förväg, vilket utgör den sk index(UNDER ) . Vid indexering sammanställer sökmotorn listor över ord som finns i texten och tilldelar varje ord dess kod - koordinater i texten (oftast dokumentnumret och ordnumret i dokumentet). Vid sökning söks ordet i indexet och de nödvändiga dokumenten ges ut enligt de hittade koordinaterna. Om det finns flera ord i frågan utförs en skärningsoperation på deras koordinater . I händelse av att många dokument fylls på måste även indexet fyllas på.

Sökenhet- detta är en textkvantum inom vilken en sökning utförs i en given sökmotor, vars värde bestämmer söknoggrannhetsindexet, mängden brus och svarstiden på en fråga. Sökenheten kan vara ett dokument, en mening eller ett stycke. I tekniken för att använda IPS kan tre grupper av operationer särskiljas:

Operationer relaterade till att hämta sökbilder av dokument (ODD) som beskriver innehållet i dokument och laddar dem i databasen (ODD), samt att ladda själva dokumenten eller deras lagringsadresser i BDDoc och BDAdr.;

Åtgärder för att sammanställa sökfrågebilder (POZ) med hjälp av en synonymordbok, sökning och utfärdande av resultat för att visa och välja eller spara eller skriva ut hittade dokument eller en lista med adresser;

Operationer för att underhålla ett informationshämtningssystem, inklusive uppdatering av databasen POD, BDDok., BDAdr. och synonymordbok på grund av uppkomsten och behovet av att fylla på systemminnet med nya dokument eller nyckelord. Driften av att underhålla IPS inkluderar också proceduren för att utfärda certifikat om driften av systemet, om dess struktur, sökmetoder och klasser och typer av dokument lagrade u1076.

De geometriska och meningsfulla egenskaperna hos fälten kan antingen vara helt oberoende eller sammanlänkade. Till exempel, i en kvittoorder, bredvid fälten "antal" och "pris", finns fältet "belopp".

Dokument som ska skannas kan grupperas enligt flera kriterier. Enligt metoden för att applicera information kan dokument urskiljas som använder etiketter, tryckt eller handskriven text. Så, till exempel, "Bulletiner" använder märkningsmetoden, medan "Prislistor" skrivs ut och primära bokföringsdokument är för det mesta handskrivna.

Att utföra en beskrivning av systeminställningarna för en specifik form av ett dokument innebär också utvecklingen mata in modellinställningar dokument till en informationsbas eller till ett elektroniskt arkiv och sammanställning ställa in överensstämmelsen mellan dokumentformulärfält och indexeringsfält för att gå in i informationsbasen eller arkivet. Konstruktionen av dessa inställningar bygger på att det finns tre metoder för att mata in data i databasen:

Ange nyckelord. I det här fallet kommer ett eller flera nyckelord att användas som index för en viss bild. I framtiden är det möjligt att snabbt komma åt bilden av dokumentet med de angivna nyckelorden - index.

Skriv in hela texten i dokumentet. Alla ord i dokumentet skrivs in och efter det är det möjligt att göra en fulltextsökning av bilden av dokumentet med hjälp av fulltextindexet som sammanställts för detta dokument. Denna metod kan användas när det är nödvändigt att skaffa en textversion av ett dokument.

Formulärbaserad datainmatning. Denna metod används för att helt ersätta manuell datainmatning i datorsystem och används främst för att mata in data från formulär (standarddokument, liknande dokument). I det här fallet kommer dokumentets attribut att användas för att sammanställa ett index av dokumentet för dess sökning och lagring i databasen eller arkivet.

Huvudsteget för automatiserad inmatning av pappersdokument inkluderar följande operationer:

Läser in;

Kvalitetskontroll av skannade bilder och omskanning;

Förbearbetning av text;

Grundläggande dokumenttextbehandling;

Kvalitetskontroll av igenkänning och redigering;

Läser in- Detta är en mycket ansvarsfull operation, och därför måste valet av en specifik skannermodell hanteras på ett ganska ansvarsfullt sätt. När du väljer, överväga följande faktorer: storleken på dokumenten, deras skick, om dokumentet är enkelsidigt eller dubbelsidigt, prestanda hos skannrar, den erforderliga bildupplösningen, tillförlitligheten hos de resulterande bilderna och andra.

För närvarande erbjuds ett ganska stort antal olika modeller av skannrar på hårdvarumarknaden, som kan klassificeras efter prestanda i följande typer (se tabell 5.1):

Personlig;

Desktop;

Högpresterande streaming.

Beroende på kvaliteten på skanningen, beroende på upplösningen, kan de delas in i följande grupper:

Låg upplösning (200-400 dpi);

Medium upplösning (600-800 dpi);

Hög upplösning (1600-2800 dpi);

Speciell anledning.

Inmatningen av dokument ställer ganska låga krav på kvaliteten på skanningen, vanligtvis räcker en upplösning på 200-300 dpi. Professionella förlagsskannrar är i storleksordningen dpi och även personliga skannrar är i storleksordningen 600-800 dpi. Den enda utmärkande egenskapen är den automatiska matningen av dokumentsidor och hög skanningshastighet (från 10 till 200 A4-ark per minut). Dessa höghastighetsskannrar är designade för att mata in inbundna dokument.

För att lägga in förfallna dokument används skannrar med vakuumklämning av dokument, vilket ställer mycket låga krav på dokumentet och bearbetar det i ett skonsamt läge. I mycket sällsynta fall, när dokumentet är så gammalt att det inte ens kan placeras i en flatbäddsskanner, används specialskanner. Sådana skannrar låter dig skanna ofullständigt öppnade böcker och dokument av dålig kvalitet. Inmatningshastigheten för sådana enheter är 0,25-3 sidor per minut.

Behandling av uppgifterna i dokumentet, involverar följande grundläggande operationer:

Bildförbehandling;

Grundläggande bildbehandling av dokument.

Förbehandling av dokumentbild används för att förbättra de resulterande bilderna och är nödvändigt av följande skäl:

Förbättra bildens läsbarhet. Bearbetade bilder är mer begripliga när de ses visuellt.

Förbättra igenkänningsnoggrannheten. Användningen av speciella bildförbättringstekniker kan avsevärt förbättra noggrannheten för optisk teckenigenkänning.

Minska bildstorleken. Storleken på bearbetade bildfiler kan vara upp till 80 % mindre än originalstorleken. Storleksminskning avser både enkel filkomprimering och borttagning av onödig information.

Förbehandling av dokumentbild involverar användningen av följande metoder: bildrengöring används för att ta bort enskilda element från bilder (till exempel prickar, fläckar); borttagning av bakgrund och höjdpunkter (till exempel från värdepapper); restaurering av bokstäver och symboler - om de visar sig vara korsade av formelement, till exempel en linje, (för efterföljande teckenigenkänning är det nödvändigt att ta bort linjen så att bokstaven inte lider); rotation av bilden med en godtycklig vinkel; bildskalning; kontroll av grå nivå; bildkomprimering och dekompression.

Grundläggande dokumentbehandlingsprocess tillhandahålla följande operationer:

Hitta fält (dokumentsegmentering);

Dokumenttextigenkänning .

De kan utföras sekventiellt och oberoende om fälten är helt definierade av deras visuella egenskaper. Denna situation är typisk för maskinläsbara formulär och dokument med tydliga fältavgränsare i form av linjer eller stora luckor.

Dokumentigenkänning, analys av dokumentinnehåll och dataextraktion kan utföras med hjälp av följande textigenkänningssystem, som skiljer sig åt i kostnad, kvalitet och arbetshastighet:

OCR (Optical Character Recognition) är en teknologi för optisk igenkänning av tryckta tecken, dvs. översättning av en skannad bild av tryckta tecken till deras textrepresentation;

ICR (Intelligent Character Recognition) - igenkänning av separata tryckta tecken skrivna för hand;

OMR (Optical Mark Recognition) - igenkänning av märken (vanligtvis överstrukna eller kryssade rutor eller cirklar);

Stiliserade nummer - igenkänning av handskrivna nummer, skrivna för hand enligt mallen, som på postkuvert;

Det finns flera tillvägagångssätt för att implementera teknik för handskriftsinmatning:

Onlineigenkänning utförs i det ögonblick då en person skriver med en speciell penna på pekskärmen, som uppfattar ytterligare information om handrörelsens bana, pennlutning, tryckkraft, etc. Det används främst i personlig elektronisk bärbara datorer som 3Com PalmPilot för handskrift av numeriska och teckendata.

Offlineigenkänning - igenkänning av godtycklig handskriven text som matas in i en dator via en skanner.

Handskriven teckenigenkänning är en delmängd av offlineigenkänningsteknik. Denna metod används som regel för att ange standardformulär. Att känna igen handskriven text är mycket svårare än tryckt text, för om vi i det senare fallet har att göra med ett begränsat antal varianter av teckensnittsbilder (mallar), så i den handskrivna versionen är antalet mallar oändligt mycket större.

För OCR-system används huvudsakligen tre typer av typigenkänningsteknik:

Matris (matrisbaserad),

Beskrivande (baserat på beskrivningen av reglerna för att konstruera symboler),

Neural (baserat på användningen av neurala nätverk).

Strikt efterlevnad av standarden för formulärutseende ökar avsevärt noggrannheten i dokumentfältsigenkänningen.

Erkänd datakontrollär nästa operation som implementeras av inmatningssystemet.

Automatiska igenkänningssystem returnerar vanligtvis den så kallade "graden av förtroende" tillsammans med resultatet. För att förbättra tillförlitligheten för data efter igenkänning används användardefinierade automatiska datavalideringsmetoder (du kan till exempel kontrollera om den igenkända informationen finns i databasen, och om inte, markera fältet som felaktigt). För att förbättra datatillförlitligheten används ytterligare mekanismer, såsom användning av användardefinierade ordböcker och tabeller. Dessutom inkluderar systemen speciella inbyggda verktyg för att definiera speciella verifieringsprocedurer för varje fält i dokumentet.

Om uppgifterna efter identifiering markeras som felaktiga skickas de automatiskt för manuell redigering. Under redigeringen ser operatören den verkliga bilden av det okända fältet och har möjlighet att korrigera det. Efter att operatören matat in nya data, tillämpas reglerna för datavalidering igen, det vill säga i alla steg av inmatningen, både automatiskt och manuellt, valideras data i enlighet med de regler som definieras av användaren.

Indexering och laddning av data. Den slutliga operationen av processen är export av dokumentbilder och relaterade data till ett specifikt dokumenthanteringssystem eller databas och indexering. Huvudkraven för export är stöd för olika dataformat och dess hastighet.

När dokumentet har identifierats går det in i databasen eller dokumenthanteringssystemet, där det indexeras. Till skillnad från det konventionella igenkänningssystemet använder standardformulärinmatningssystemet en formell beskrivning av dokumentets ursprungliga form, en beskrivning av inmatningsmodellen och en modell för matchning av inmatningsfält och indexering. Detta gör att du automatiskt kan indexera dokument och ladda information i databasfält eller arkiv utan medverkan av en operatör.

Beroende på den specifika uppgiften och typen av dokument kan det laddas in i en fulltextmodul eller så måste informationen som extraheras från den komma in i attributindexeringssystemet (till exempel hamnar värdena från formulärfälten i dokumentkortet). I det här fallet kan en bild av dokumentet sparas.

5.2 Krav för CMS. Systemegenskaper

Huvudfaktorn för att utvärdera effektiviteten hos igenkänningssystem är kostnaden för att korrigera fel i igenkänning, och inte systemets noggrannhet och hastighet. I vissa fall kan kostnaden för att korrigera fel vid igenkänning åsidosätta alla fördelar med automatisering och göra manuell bildinmatning mer effektiv. Vid utveckling och användning av CMS behöver designern också utföra ett stort arbete med att integrera detta inmatningssystem i det befintliga eller utvecklande informationssystemet. Systemets prestanda påverkas i hög grad av den inmatningsteknik som används, dess anpassning till den aktuella uppgiften och typen av dokument. Här är det nödvändigt att ta hänsyn till sammansättningen av utrustningen, programvaran och kompatibiliteten för formatet för den erkända informationen med befintliga system.

Det finns många företag som erbjuder lösningar eller komponenter för formbearbetningssystem. Beslutet att implementera ett formulärbehandlingssystem, såväl som valet av en eller annan ansökan, bör fattas med hänsyn till, först och främst, följande krav:

Typen av dokument som behandlas och vilken typ av data de innehåller;

Igenkänningsnoggrannhet;

Tillgänglighet för ett effektivt redigeringssystem;

Anpassbarhet av systemet till en viss kunds krav och förmågan att ändra i enlighet med förändrade yttre förhållanden utan programmering;

Förekomsten av stöd för skannrar av olika typer, såväl som olika typer av dokumentbildbehandlingskort;

Närvaron av en formulärredigerare som konfigurerar systemet för nya formulär eller ändringar av det gamla formuläret som systemet tidigare var orienterat mot;

Närvaron av en redaktör för dokumentbehandlingsscheman, ett öppet gränssnitt för att ansluta olika igenkänningsmoduler (beroende på typen av formulär kan du ansluta en eller annan modul som är mest lämpad för denna typ av formulär för att förbättra kvaliteten på igenkänningen);

Förekomsten av en exportschemaredigerare till databasen (data som hämtas under formulärbearbetning måste överföras antingen till databasen för lagring eller till andra affärsapplikationer för bearbetning).

Dessutom kan en uppsättning allmänna krav presenteras för valet av programvara för CMS:

Öppenhet. Systemet bör tillåta inkludering av olika tekniker och mjukvaruprodukter beroende på den specifika tillämpningen, även om dessa produkter levereras av andra företag. Det är nödvändigt att kunna integrera med olika arbetsflödessystem och med dokumenthanteringssystem.

Möjlighet till anpassning. Användargränssnittet måste vara anpassningsbart för att maximera operatörens effektivitet.

Skalbarhet. Du måste kunna lägga till och minska systemresurser på olika nivåer av systembelastning.

Möjlighet till administration. Användaren ska kunna styra systemet på ett flexibelt sätt. Det är nödvändigt att kunna kontrollera de resurser och verktyg som används för att få fram olika typer av rapporter.

Som ett exempel, betrakta två system av CMB-klassen - Cognitive Forms from Cognitive Technologies och FineReader.

Cognitive Forms är ett ryskt system för industriell (ibland kallad in-line) inmatning av standarddokumentformulär, som körs på Windows 95/NT och MacOS operativsystem. Systemet tillhör klassen OCR/ICR/OMR och låter dig gå in i databaser och informationssystemformulär med tryckt, handskriven fyllning och markeringar (kryssruta).

Cognitive Forms är avsedd för automatiserad inmatning i informationssystem och databaser av godtyckliga, en- och flersidiga former av dokument som uppfyller vissa krav på design och komplettering och förberedda på laser-, bläckstråle- och matrisskrivare eller på standardformulär med hjälp av skrivmaskiner.

Detta system möjliggör distribuerad strömningsbearbetning (skanning, igenkänning, redigering och kontroll) på nätverket med igenkänningsprestanda på upp till A4-sidor per skift på en dator och implementering av automatisk kontroll av igenkänningsresultat. Data kan exporteras till databaser, banksystem som "Operation day" och system för att skapa elektroniska arkiv och automatisera arbetsflödet.

Implementeringen av systemet gör det möjligt att påskynda inmatningen av standardformulär med 5–10 gånger jämfört med manuell inmatning.

Skannade bilder kan lagras i bankens elektroniska arkiv för att behålla historien om organisationens kontorsarbete.

Kognitiva former består av tre huvudmoduler:

Cognitive FormDesigner ansvarar för att utforma dokumentformulärets beskrivning för igenkännings- och redigeringsprogram.

Cognitive FormReader ger automatisk igenkänning av en ström av standardformulär som kommer från en skanner. I automatiskt läge utför den in-line-igenkänning av formulär enligt en given beskrivning och kontextuell verifiering av resultaten.

Cognitive FormEditor är designad för operatörskontroll av igenkända formulär och för att spara information från inmatade formulär i databasposter och tillåter operatören att visuellt kontrollera och redigera igenkända formulärfält.

Cognitive Forms gör det möjligt att utföra distribuerad, inom det lokala nätverket, bearbetning av inmatningsformulär och uppnå effektiv tillgång till data i realtid. Till exempel, på en Pentium II-233, känner Kognitiva Former-systemet igen en form i cirka 2 sekunder. Högpresterande skannrar används för industriell input: Kodak, Bell+Howell, BancTec, Fujitsu, etc., såväl som nätverksenheter (Hewlett-Packard). Prestandan för vissa modeller når hundratals sidor per minut.

Effektiviteten hos systemet för inmatning av pappersdokument i EIS bygger först och främst på en betydande minskning av mänskligt deltagande i datainmatning. Som ett resultat kan man observera en minskning av tiden för inmatning av dokument och antalet fel. För organisationer som behandlar stora flöden av formulär (centrala skatte- och postavdelningar, statistikorganisationer, auktoriseringscentra för kreditkortsbetalningar) kommer användningen av de beskrivna teknikerna att lösa problemen med att behandla hundratusentals och till och med miljontals formulär på kort tid .

FineReader-systemet som utvecklats av ABBYY är baserat på tre igenkänningsprinciper formulerade genom att observera djurs och människors beteende: Integritet, Målmedvetenhet och Anpassningsförmåga, vilket gjorde det möjligt att få en lösning baserad på principerna för igenkänning som är karakteristiska för levande system - teknologin av Holistic Purposeful Adaptive Recognition (IPA-teknik).

Integritet. Ett objekt beskrivs som en helhet med hjälp av meningsfulla element och relationer dem emellan. Ett objekt känns igen som ett objekt i denna klass endast om alla element i beskrivningen och de nödvändiga relationerna mellan dem finns närvarande.

Målmedvetenhet. Erkännande är byggt som en process för att lägga fram och målmedvetet testa hypoteser. Det traditionella tillvägagångssättet att tolka det som observeras i en bild kommer att ersättas av ett tillvägagångssätt att målmedvetet leta efter vad som förväntas i en bild.

Anpassningsförmåga. Systemets förmåga att lära sig själv, dvs. först lägger FineReader-systemet fram en hypotes om föremålet för igenkänning (en symbol, en del av en symbol eller flera limmade symboler), och bekräftar eller motbevisar den sedan och försöker att sekventiellt upptäcka alla strukturella element i rätt relationer. Som strukturella element används som är betydelsefulla för uppfattningen av ett objekt ur mänsklig synvinkel - segment, bågar, ringar och punkter.

Enligt principen om anpassningsförmåga "justerar" programmet självständigt till ett nytt typsnitt (eller till en ny handstil), med hjälp av den positiva erfarenheten som erhållits på de första säkert igenkända tecknen.

Riktad sökning och kontextmedvetenhet känner igen trasiga och förvrängda bilder, vilket gör systemet motståndskraftigt mot utskriftsfel.

Dessa principer används både för att känna igen enskilda tecken och i analysen av sidlayouten (markera avsnitt av text, bilder, tabeller). Tack vare användningen av IPA-teknik uppvisar FineReader hög igenkänningskvalitet med låg känslighet för utskriftsfel, och felfri sidlayoutanalys noterades i de flesta jämförande tester. ABBYY fick patent för användning av IPA-teknik. FineReader-systemet har två implementeringsalternativ: FineReader Office och FineReader by Pro, som ständigt utvecklas.

FineReader-systemet har följande indatafilformat: BMP: svartvitt, gråskala, färg; PCX, DCX: svart och vitt, grått, färg; JPEG: grå, färg; PNG: svart och vitt, grått, färg; TIFF: svartvitt, grått, färg, flersidigt.

Vid mottagning av dokument används flera textkomprimeringsmetoder: okomprimerad, CCITT Group 3, CCITT Group 3 FAX (2D), CCITT Group 4, PackBits, JPEG.

FineReader-systemet sparar igenkänningsresultatet i följande format: Microsoft Word 95, Microsoft Excel 95, Microsoft Word 97, Microsoft Excel 97, Microsoft Word 2000, Microsoft Excel 2000, Text, Rich Text Format, Unicode Text, DBF, HTML, CSV , Unicode HTML , PDF.

Systemkrav: Microsoft Windows 2000 operativsystem, Windows NT Workstation 4.0 med Service Pack 3 (SP3) eller högre, eller Windows 95/98.

Systemet stöder 19 typer av skannrar, inklusive Acer, Samsung, Mitsubishi, Scanpaq, Canon, Syscan, E-Lux, Nikon, Silitek, Epson, Storm, Fujitsu, Packard Bell, HP, IBM, Xerox, Kodak, etc. med mera. än 100 100 % TWAIN-kompatibla skannermodeller från andra tillverkare.

Ämne 6. Automatisering av elektronisk lagring

dokument

6.1 Konceptet med ett informationshämtningssystem (IPS). Komponenternas sammansättning och tekniken för att arbeta med IPS

Information Retrieval System (IPS) är ett system utformat för att lagra och söka i dokument med text-, grafisk, tabellinformation om attribut, dokumentnyckelord och innehåll inom vilket ämnesområde som helst.

Det finns två typer av IPS: faktografiska och dokumentografiska system. Faktografiska informationssystem är utformade för att lagra och söka efter fakta, indikatorer, egenskaper hos alla objekt eller processer (till exempel information om anställda, företag, aktieägare, etc.). Dokumentografiska IPS kännetecknas av att föremålet för lagring och hämtning i dessa system är dokument, rapporter, abstracts, recensioner, tidskrifter, böcker etc. Skriptet för att söka efter ett dokument med hjälp av IPS handlar vanligtvis om att skriva in en sökfråga som består av av ett eller flera ord följt av en lista över hittade dokumentnamn. Användaren kan öppna vilket som helst av de hittade dokumenten, och om sökmotorn tillåter markeras förekomsterna av sökorden i dokumentet - "markerade".

Vi kan peka ut följande funktioner i organisationen och funktionen av ett dokumentografiskt informationssystem som skiljer det från strukturerade databashanteringssystem:

Dokument kan lagras på papper, mikrografiska medier eller finnas i elektroniska format. Mikrografiska format inkluderar mikrofilm, mikrofiche, diabilder och andra mikroformer som produceras av en mängd olika dokumentkameror. Elektroniska format är ännu fler, de inkluderar dokument som förbereds i ordbehandlare, e-postsystem och andra datorprogram, digitaliserade bilder av skannade dokument och så vidare. Detta förutsätter obligatorisk lagring av både elektroniska kopior av dokument och deras pappersoriginal.

Om handlingarna är stora och det inte är möjligt att utfärda fullständiga elektroniska kopior för visning eller lagring, skapa och lagra elektroniska lagringsadresser för sådana dokument.

Sökningen utförs genom att hitta ett dokument enligt två principer: enligt dokumentets attribut - skapandedatum, storlek, författare, etc., och enligt dess innehåll (text). Vanligtvis görs sökningen i dokumentets innehåll på två sätt: med nyckelord och med hela texten, som kallas fulltext, vilket understryker att hela texten i dokumentet används för sökningen, och inte bara dess detaljer. -

För att söka efter dokument skapas och lagras deras sökbilder. Dokumentsökningsbild (DOI) - en uppsättning koder av ledande nyckelord (deskriptorer) som beskriver innebörden, innehållet i dokumentet.

Nyckelord och deras koder lagras i en speciell ordbok - synonymordbok.

För att söka efter dokument är det nödvändigt att skapa ett informationshämtningsspråk (ILL), som inkluderar en synonymordbok och en grammatik för språket, det vill säga en uppsättning regler för att specificera en uppsättning påståenden på en uppsättning nyckelord.

För att hitta ett dokument måste du använda CLI för att skapa ett sökfrågemönster (PRP), som är en samling kodade nyckelord som beskriver de dokument du vill hitta. Interaktionsdiagrammet för IPS-komponenterna visas i fig. . 6.1.

filserver", därför, för att lösa uppgifter och problem, är det mest lovande valet av arkitekturen för integrerade dokumenthanteringssystem - "klient-server", vilket avsevärt ökar användarnas effektivitet, eftersom system av denna klass inte tillhandahåller bara en snabb sökning efter de dokument som behövs för användarna, men och hjälpa dem att organisera och dela information. Och, viktigast av allt, skapar DUD en användarvänlig struktur för att presentera all information som lagras i nätverket. Skaparen av ett dokument kommer att besparas från måste varje gång ta reda på var den ska förvaras, hur man skyddar den och vilka rättigheter till den ger kollegor.

Dokumenthanteringssystem måste hantera problemet med att hantera stora volymer dokument enligt följande principer:

1. Hanteringen bör ske över elektroniska dokument som skapats i olika applikationsprogram för persondatorer, såsom: ordbehandlare, kalkylblad, e-post.

1996-03-17 Pavel Khramtsov

Internetanvändare är väl medvetna om namnen på sådana tjänster och informationstjänster som Lycos, AltaVista, Yahoo, OpenText, InfoSeek, etc. - idag är det nästan omöjligt att hitta något användbart i havet av informationsresurser på webben utan tjänster av dessa system. Vilka dessa tjänster är från insidan, hur de är ordnade, varför sökresultatet i terabyte-uppsättningar av information utförs tillräckligt snabbt och hur dokument rangordnas vid utfärdande - allt detta ligger vanligtvis bakom kulisserna. Ändå, utan ordentlig planering av sökstrategi, förtrogenhet med huvudbestämmelserna i teorin om IPS (Information Retrieval Systems), som redan har tjugo års historia, är det svårt att effektivt använda till och med sådana snabba brandtjänster som AltaVista eller Lycos. Arkitektur för modern IS för WWW Informationsresurser och deras representation i IS Sökindex Systemets språk för informationshämtning Systemgränssnitt Slutsats Litteratur Internetanvändare är redan väl medvetna om namnen på sådana tjänster

System för informationssökning har funnits länge. Många artiklar har ägnats åt teorin och praktiken för att bygga sådana system, vars huvuddel faller på slutet av 70-talet - början av 80-talet. Bland inhemska källor bör man peka ut den vetenskapliga och tekniska samlingen "Scientific and technical information. Series 2", som fortfarande publiceras. "Bibeln" om utvecklingen av IPS - "Dynamic Library and Information Systems" av J. Solton, som diskuterar de grundläggande principerna för att bygga informationshämtningssystem och modellera processerna för deras funktion, publicerades också på ryska. Det kan alltså inte sägas att med Internets intåg och dess snabba intåg i praktiken av informationsstöd har något fundamentalt nytt dykt upp som inte fanns tidigare. För att vara exakt är IPS på Internet ett erkännande av att varken den hierarkiska Gopher-modellen eller hypertextmodellen på World Wide Web ännu har löst problemet med att hitta information i stora volymer av heterogena dokument. Och idag finns det inget annat sätt att snabbt söka efter data, förutom att söka med nyckelord.

När du använder den hierarkiska Gopher-modellen måste du vandra genom katalogträdet ganska länge tills du hittar den information du behöver. Dessa kataloger måste underhållas av någon, och deras tematiska indelning måste matcha användarens informationsbehov. Med tanke på Internets anarkistiska karaktär och det enorma antalet olika intressen hos Internetanvändare är det tydligt att någon kanske inte har tur och det kommer inte att finnas en katalog på Internet som speglar ett specifikt ämnesområde. Det är av denna anledning som Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives) informationshämtningsprogram utvecklades för en uppsättning Gopher-servrar som kallas GopherSpace.

En liknande utveckling observeras på World Wide Web. Faktiskt, redan 1988, i ett specialnummer av tidskriften "Communication of the ACM", bland andra problem med att utveckla hypertextsystem och deras användning, nämnde Frank Halaz problemet med att organisera informationssökning i stora hypertextnätverk som en prioritet för nästa generering av system av denna typ. Hittills har många av idéerna som uttrycks i den artikeln ännu inte funnit sin implementering. Det system som Berners-Lee föreslagit och som är så utbrett på Internet skulle naturligtvis behöva möta samma problem som sina lokala föregångare. Verkliga bevis på detta visades vid den andra World Wide Web-konferensen hösten 1994, som presenterade artiklar om utvecklingen av informationshämtningssystem för webben och World Wide Web Worm-systemet, utvecklat av Oliver McBrien från University of Colorado , vann priset för det bästa navigeringsverktyget. . Det bör också noteras att ett långt liv trots allt inte är avsett för de mirakulösa programmen av begåvade individer, utan för de medel som är resultatet av den planerade och konsekventa rörelsen av vetenskaps- och produktionsteam mot målet. Förr eller senare slutar forskningsfasen och systemdriftfasen börjar, och det här är en helt annan typ av verksamhet. Det var ödet för två andra projekt som presenterades på samma konferens: Lycos, med stöd av Microsoft, och WebCrawler, som blev America On-lines egendom.

Utvecklingen av nya informationssystem för webben har inte slutförts. Och både i skrivandet av kommersiella system och i forskningsstadiet. Under de senaste två åren har bara det översta lagret av möjliga lösningar tagits bort. Men många av de problem som Internet-IPS-utvecklarna ställer upp har inte lösts än så länge. Det är denna omständighet som orsakade uppkomsten av projekt som Digitals AltaVista, vars huvudmål är utvecklingen av programvara för informationshämtning för webben och valet av en arkitektur för webbinformationsservern.

Arkitektur av modern IPS för WWW

Innan vi beskriver problemen med att bygga informationshämtningssystem på webben och sätt att lösa dem, låt oss överväga ett typiskt schema för ett sådant system. I olika publikationer om specifika system ges till exempel scheman som skiljer sig från varandra endast i det sätt på vilket specifika mjukvarulösningar tillämpas, och inte i principen att organisera de olika komponenterna i systemet. Därför kommer vi att överväga detta schema med hjälp av ett exempel från arbetet (Fig.).

Ris. Typiskt system för informationshämtning.

Klient (klient) i detta diagram är det en tittare för en specifik informationsresurs. De mest populära idag är multiprotokollprogram som Netscape Navigator. Ett sådant program ger visning av WWW, Gopher, Wais-dokument, FTP-arkiv, e-postlistor och Usenet-nyhetsgrupper. I sin tur är alla dessa informationsresurser föremål för sökning av informationsinhämtningssystemet.

Användargränssnitt (användargränssnitt)- det här är inte bara en tittare, i fallet med ett informationshämtningssystem förstås denna fras också som ett sätt för en användare att kommunicera med en sökmotor: ett system för att generera frågor och visa sökresultat.

Sökmotor (sökmotor)- tjänar till att översätta en fråga på ett informationshämtningsspråk (ILL) till en formell systemfråga, söka efter länkar till informationsresurser på webben och skicka resultaten av denna sökning till användaren.

Indexdatabas (databasindex)- index, som är huvuddatamatrisen för IPS och tjänar till att söka efter adressen till en informationsresurs. Arkitekturen för indexet är utformad på ett sådant sätt att sökningen sker så snabbt som möjligt och samtidigt skulle det vara möjligt att utvärdera värdet av var och en av de hittade informationsresurserna i nätverket.

Frågor (användarförfrågningar)- lagras i hans (användarens) personliga databas. Det tar mycket tid att felsöka varje förfrågan, och därför är det oerhört viktigt att komma ihåg förfrågningar som systemet ger bra svar på.

Indexrobot (indexeringsrobot)- tjänar till att skanna Internet och hålla indexdatabasen uppdaterad. Detta program är huvudkällan till information om tillståndet för nätverksinformationsresurser.

WWW webbplatser- detta är hela Internet, eller mer exakt - informationsresurser, vars visning tillhandahålls av webbläsare.

Låt oss nu överväga syftet och principen för konstruktionen av var och en av dessa komponenter mer i detalj och bestämma skillnaden mellan detta system och den traditionella lokala typen IPS.

Informationsresurser och deras representation i IPS

Som framgår av figuren är dokumentuppsättningen för Internet IPS hela uppsättningen dokument av sex huvudtyper: WWW-sidor, Gopher-filer, Wais-dokument, FTP-arkivposter, Usenet-nyheter och artiklar i e-postlistor. Allt detta är ganska heterogen information, som presenteras i form av olika dataformat som inte på något sätt överensstämmer med varandra: texter, grafik och ljudinformation, och i allmänhet allt som finns tillgängligt i dessa lagringar. Naturligtvis uppstår frågan – hur ska ett informationssökningssystem fungera med allt detta?

I traditionella system används konceptet med en sökbild av ett dokument - POD. Vanligtvis syftar denna term på något som ersätter dokumentet och används i sökningen istället för själva dokumentet. Sökbilden är resultatet av att någon modell av informationsuppsättningen av dokument har tillämpats på en riktig matris. Den mest populära modellen är vektormodellen, där varje dokument tilldelas en lista med termer som mest adekvat återspeglar dess innebörd. För att vara mer exakt tilldelas dokumentet en dimensionsvektor lika med antalet termer som kan användas i sökningen. Med en boolesk vektormodell är vektorelementet lika med 1 eller 0, beroende på närvaron eller frånvaron av termen i POD. I mer komplexa modeller vägs termer - vektorelementet är inte lika med 1 eller 0, utan till ett visst antal (vikt) som återspeglar överensstämmelsen mellan denna term och dokumentet. Det är den senare modellen som har blivit den mest populära i Internet IPS.

Generellt sett finns det andra modeller för att beskriva dokument: den probabilistiska modellen för informationsflöden och sökning och modellen för sökning i fuzzy sets. Utan att gå in på detaljer är det vettigt att uppmärksamma det faktum att hittills endast den linjära modellen används i systemen Lycos, WebCrawler, AltaVista, OpenText och AliWeb. Studier pågår dock om tillämpningen av andra modeller, vars resultat återspeglas i arbetet. Den första uppgiften som IPS måste lösa är alltså tilldelningen av en lista med nyckelord till ett dokument eller informationsresurs. Denna procedur kallas indexering. Ofta hänvisar dock indexering till sammanställningen av en postningslistfil, där varje indexeringsterm tilldelas en lista över dokument där den förekommer. En sådan procedur är bara ett specialfall, eller snarare, en teknisk aspekt av att skapa en IPS-sökmotor. Problemet med indexering är att att tillskriva en sökbild till ett dokument eller informationsresurs bygger på föreställningen att ordförrådet som dessa termer väljs från är en fast uppsättning termer. I traditionella system fanns en uppdelning i kontrollerade ordförrådssystem och fria ordförrådssystem. En kontrollerad ordbok förutsatte underhållet av någon lexikal databas, vars tillägg av termer utfördes av systemadministratören, och alla nya dokument kunde endast indexeras med de termer som fanns i denna databas. Den kostnadsfria ordboken uppdaterades automatiskt när nya dokument dök upp. Men vid tidpunkten för uppdateringen var ordboken också fixad. Aktualiseringen innebar en fullständig omladdning av databasen. Vid tidpunkten för denna uppdatering laddades själva dokumenten in och ordboken uppdaterades, och efter uppdateringen återindexerades dokumenten. Uppdateringsproceduren tog mycket tid och åtkomsten till systemet vid tidpunkten för uppdateringen stängdes.

Föreställ dig nu möjligheten av en sådan procedur på ett anarkiskt internet, där resurser dyker upp och försvinner dagligen. När Veronica för GopherSpace skapades, antogs det att alla servrar skulle vara registrerade, och därmed behölls närvaron eller frånvaron av en resurs. Veronica kollade efter Gopher-dokument en gång i månaden och uppdaterade sin AML-databas för Gopher-dokument. Det finns inget liknande på WWW. För att lösa detta problem används nätverksskanningsprogram eller indexeringsrobotar. Robotutveckling är en ganska icke-trivial uppgift; det finns risk för att roboten går i loop eller hamnar på virtuella sidor. Roboten skannar nätverket, hittar nya resurser, tilldelar dem termer och placerar dem i indexdatabasen. Huvudfrågan är vilka termer man ska tillskriva dokument, var man får dem ifrån, eftersom ett antal resurser inte alls är text. Idag använder robotar vanligtvis följande källor för indexering för att lägga till sina virtuella ordförråd: hypertextlänkar, rubriker, rubriker (H1,H2), sammanfattningar, nyckelordslistor, fulltextdokument och administratörers meddelanden om deras webbsidor. För indexering av telnet, gopher, ftp, icke-textuell information, används främst URL:er, för Usenet-nyheter och e-postlistor, Ämne- och Nyckelord-fälten. HTML-dokument ger det största utrymmet för att bygga POD:er. Man ska dock inte tro att alla termer från de listade delarna av dokument hamnar i deras sökbilder. Listor över förbjudna ord (stoppord) används mycket aktivt, som inte kan användas för indexering, vanliga ord (prepositioner, konjunktioner, etc.). Så även det som i t.ex. OpenText kallas för fulltextindexering är egentligen ett ordval från texten i ett dokument och en jämförelse med en uppsättning olika ordböcker, varefter termen hamnar i POD och sedan in i systemets index. För att inte blåsa upp ordböcker och index (indexet för Lycos-systemet är redan idag 4 TB) används en sådan sak som termvikt. Dokumentet indexeras vanligtvis genom de 40 - 100 mest "tunga" termerna.

Sök index

Efter att resurserna har indexerats och systemet har kompilerat en POD-array börjar konstruktionen av sökmotorn. Det är ganska uppenbart att frontal visning av POD-filen eller -filerna kommer att ta mycket tid, vilket absolut inte är acceptabelt för ett interaktivt WWW-system. För att snabba på sökningen byggs ett index som i de flesta system är en uppsättning sammankopplade filer fokuserade på en snabb sökning efter data on demand. Strukturen och sammansättningen av index för olika system kan skilja sig från varandra och beror på många faktorer: storleken på uppsättningen av sökbilder, språket för informationshämtning, placeringen av olika systemkomponenter, etc. Låt oss överväga strukturen för indexet med hjälp av systemet som ett exempel, för vilket det är möjligt att implementera inte bara primitiv boolesk, utan också kontextuell och viktad sökning, såväl som ett antal andra funktioner som inte är tillgängliga i många sökmotorer på Internet , som Yahoo. Indexet för det aktuella systemet består av en sididentifieringstabell (page-ID), en nyckelordstabell (Keyword-ID), en sidändringstabell, en rubriktabell, en hypertextlänkstabell, en inverterad lista (IL) och en framåtlista (FL).

Page-ID mappar sid-ID:n till deras URL:er, Keyword-ID mappar varje nyckelord till en unik identifierare för det ordet, Header Table mappar ett sid-ID till en sidtitel, Hypertext Link-tabell mappar ett sid-ID till en hypertextlänk till den sidan. Bokföringslistan associerar varje nyckelord i dokumentet med en lista med par - sididentifieraren, ordets position på sidan. En framåtlista är en rad sidsökningsbilder. Alla dessa filer används på ett eller annat sätt i sökningen, men den främsta bland dem är postningslistfilen. Resultatet av en sökning i den här filen är föreningen och/eller skärningspunkten mellan listor med sid-ID:n. Den resulterande listan, som konverteras till en lista med titlar försedda med hypertextlänkar, returneras till användaren i hans webbläsare. För att snabbt söka efter poster i postningslistan läggs flera filer till ovanför den, till exempel en fil med brevpar som anger postningslistposter som börjar med dessa par. Dessutom används en mekanism för direktåtkomst till data - hashing. För att uppdatera indexet används en kombination av två tillvägagångssätt. Den första kan kallas "on-the-fly" indexkorrigering med hjälp av sidändringstabellen. Kärnan i denna lösning är ganska enkel: den gamla indexposten hänvisar till den nya, som används i sökningen. När antalet sådana länkar blir tillräckligt för att känna detta vid sökning, då är indexet helt uppdaterat - det laddas om. Sökprestanda i en viss IPS bestäms enbart av indexets arkitektur. Som regel är metoden för att organisera dessa arrayer "företagets hemlighet" och dess stolthet. För att vara övertygad om detta räcker det att läsa OpenText-materialet.

Systemets språk för informationsinhämtning

Indexet är bara en del av sökmotorn, dolt för användaren. Den andra delen av denna apparat är informationshämtningsspråket (IPL), som gör det möjligt att formulera en begäran till systemet på en enkel och visuell form. Romantiken att skapa ISL som ett naturligt språk har länge lämnats bakom sig - det var detta tillvägagångssätt som användes i Wais-systemet i de första stadierna av dess implementering. Även om användaren uppmanas att ange frågor på naturligt språk, betyder det inte att systemet kommer att utföra semantisk analys av användarens fråga. Livets prosa ligger i det faktum att frasen vanligtvis är uppdelad i ord, från vilka förbjudna och vanliga ord tas bort, ibland normaliseras ordförrådet, och då är alla ord kopplade antingen med ett logiskt OCH eller ELLER. Så en begäran som:

>Programvara som används på Unix-plattformen

kommer att konverteras till:

>Unix OCH plattform OCH programvara

vilket skulle betyda något sånt här: Hitta alla dokument där orden Unix, Plattform och Programvara förekommer samtidigt".

Alternativ är också möjliga. På de flesta system kommer således frasen "Unix-plattform" att kännas igen som en lösenfras och kommer inte att separeras i enskilda ord. Ett annat tillvägagångssätt är att beräkna närheten mellan frågan och dokumentet. Detta är metoden som används av Lycos. I det här fallet, i enlighet med vektormodellen för representation av dokument och frågor, beräknas deras närhetsmått. Ett dussintal olika närhetsmått är kända idag. Det vanligaste är cosinus för vinkeln mellan dokumentets sökbild och användarens fråga. Vanligtvis ges dessa procentandelar av dokumentöverensstämmelse med begäran som referensinformation i listan över hittade dokument.

Alta Vista har det mest utvecklade frågespråket bland moderna Internet-IPS. Förutom den vanliga uppsättningen OCH, ELLER, INTE, låter det här systemet dig också använda NÄRA, vilket låter dig organisera en kontextuell sökning. Alla dokument i systemet är indelade i fält, så i förfrågan kan du ange i vilken del av dokumentet användaren hoppas få se nyckelordet: länk, titel, abstrakt, etc. Du kan också ställa in fältet för utfärdanderankning och kriteriet för dokumentens likhet med begäran.

Systemgränssnitt

En viktig faktor är typen av presentation av information i gränssnittsprogrammet. Det finns två typer av front-end-sidor: frågesidor och sökresultatsidor.

När du gör en förfrågan till systemet används antingen ett menyorienterat tillvägagångssätt eller en kommandorad. Den första låter dig ange en lista med termer, vanligtvis separerade med ett mellanslag, och välja typ av logisk relation mellan dem. Den logiska kopplingen sträcker sig till alla termer. Diagrammet i figuren visar användarens sparade frågor - i de flesta system är detta bara en CIP-fras som kan utökas genom att lägga till nya termer och logiska operatorer. Men det är bara ett sätt att använda sparade frågor, som kallas frågeförbättring eller förfining. För att utföra denna operation lagrar den traditionella IS inte en fråga som sådan, utan ett sökresultat - en lista med dokumentidentifierare, som kombineras / skärs med listan som erhålls när du söker efter nya termer i dokument. Tyvärr praktiseras inte att spara listan med identifierare för hittade dokument i WWW, vilket orsakades av särdragen hos protokollen för interaktionen mellan klientprogrammet och servern som inte stöder sessionsläge.

Så resultatet av en sökning i IPS-databasen är en lista med pekare till dokument som uppfyller begäran. Olika system presenterar denna lista på olika sätt. Vissa ger bara en lista med länkar, medan andra, som Lycos, Alta Vista och Yahoo, också ger en kort beskrivning, som antingen är hämtad från rubrikerna eller från själva dokumentet. Dessutom rapporterar systemet hur mycket det hittade dokumentet matchar begäran. I Yahoo, till exempel, är detta antalet frågetermer som finns i AML, enligt vilka sökresultatet rankas. Lycos-systemet ger ett mått på dokumentets överensstämmelse med begäran, enligt vilken rangordningen utförs.

När man granskar gränssnitt och sökverktyg kan man inte bortse från proceduren för att korrigera frågor efter relevans. Relevans är ett mått på huruvida dokumentet som systemet hittat överensstämmer med användarens behov. Särskilj formell relevans och verklig. Den första beräknas av systemet och på grundval av vilken valet av hittade dokument rangordnas. Den andra är användarens bedömning av de dokument som hittats. Vissa system har ett specialfält för detta, där användaren kan markera dokumentet som relevant. Vid nästa sökiteration utökas frågan med villkoren i detta dokument, och resultatet rankas igen. Detta sker tills stabilisering sker, vilket innebär att inget bättre än det mottagna provet kan uppnås från detta system.

Förutom länkar till dokument kan listan som användaren mottar innehålla länkar till delar av dokument eller deras fält. Detta händer när det finns länkar som http://host/path#mark eller länkar som använder WAIS-schemat. Länkar till skript är också möjliga, men robotar hoppar vanligtvis över sådana länkar, och systemet indexerar dem inte. Om allt är mer eller mindre tydligt med http-länkar, så är WAIS-länkar mycket mer komplexa objekt. Faktum är att WAIS implementerar arkitekturen för ett distribuerat informationshämtningssystem, där ett IS, till exempel Lycos, bygger en sökmotor över sökmotorn i ett annat system - WAIS. Däremot har WAIS-servrarna sina egna lokala databaser. Vid uppladdning av dokument till WAIS kan administratören beskriva strukturen på dokumenten genom att dela upp dem i fält och lagra dokumenten som en enda fil. WAIS-indexet kommer att referera till enskilda dokument och deras fält som fristående lagringsenheter, webbläsaren för Internetresurs i detta fall måste kunna arbeta med WAIS-protokollet för att få tillgång till dessa dokument.

Slutsats

I översiktsartikeln övervägdes huvudelementen i informationshämtningssystem och principerna för deras konstruktion. Idag är IPS den mest kraftfulla mekanismen för att söka efter nätverksinformationsresurser på Internet. Tyvärr finns det ingen aktiv studie av detta problem i den ryska sektorn av Internet, med möjliga undantag för LIBWEB-projektet finansierat av den ryska stiftelsen för grundforskning och "Spider"-systemet, som inte fungerar tillräckligt tillförlitligt. VINITI har förvisso den största erfarenheten av att utveckla den här typen av system, men här är arbetet än så länge fokuserat på att placera sina egna resurser på webben, vilket skiljer sig fundamentalt från system för informationshämtning på Internet som Lycos, OpenText, Alta Vista, Yahoo, InfoSeek, etc. Det verkar som om ett sådant arbete skulle kunna koncentreras inom ramen för sådana projekt som Russia On-line av SovamTeleport, men här ser vi fortfarande länkar till andras sökmotorer. Utvecklingen av IPS för Internet i USA började för två år sedan, med tanke på den inhemska verkligheten och takten i utvecklingen av internetteknik i Ryssland, vi kan hoppas att vi fortfarande har allt framför oss.

Litteratur

1. J. Salton. Dynamiska biblioteks- och informationssystem. Mir, Moskva, 1979.
2. Frank G. Halasz. Reflektionskort: sju nummer för nästa generations hypermediasystem. Kommunikation av acm, V31, N7, 1988, s.836-852.
3. Tim Berners-Lee. World Wide Web: Förslag till HyperText Project. 1990.
4 Alta Vista. Digital Equipment Corporation, 1996.
5 Brain Pinkerton Hitta vad folk vill ha: Erfarenheter med WebCrawler .
6. Bodi Yuwono, Savio L. Lam, Jerry H. Ying, Dik L. Lee. .
7. Martin Bartschi. En översikt över ämnen för informationssökning. IEEE Computer, N5, 1985, s.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Webagentrelaterad forskning vid Center for Machine Translation .
9. Ian R. Winship. Sökverktyg för World Wide Web - en utvärdering . VINA (99).
10. G. Salton, C. Buckley. Termviktningsmetoder vid automatisk texthämtning. Information Processing & Management, 24(5), pp. 513-523, 1988.
11. Open Text Corporation släpper branschens högpresterande texthämtningssystem.

Pavel Khramtsov ([e-postskyddad]) - oberoende expert, (Moskva).

IPS (informationssökningssystem)är ett system som ger sökning och urval av nödvändiga uppgifter i en speciell databas med beskrivningar av informationskällor (index) utifrån informationssökningsspråket och motsvarande sökregler.

Huvuduppgiften för varje IS är att söka efter information som är relevant för användarens informationsbehov. Det är mycket viktigt att inte förlora något som ett resultat av sökningen, det vill säga att hitta alla dokument som är relaterade till begäran, och inte hitta något överflödigt. Därför introduceras en kvalitativ egenskap hos sökproceduren - relevans.

Relevansär överensstämmelsen mellan sökresultaten och den formulerade frågan.

På en rumslig skala IPS kan delas in i lokalt, globalt, regionalt och specialiserat. Lokala sökmotorer kan utformas för att snabbt hitta sidor på en enda serverskala.

Regionala IPS beskriver informationsresurserna för en viss region, till exempel ryskspråkiga sidor på Internet. Globala sökmotorer, till skillnad från lokala sökmotorer, strävar efter att omfamna det oerhörda - att så fullständigt som möjligt beskriva resurserna i hela informationsutrymmet på Internet.

Dessutom kan IPS:er också specialisera sig på att söka efter olika informationskällor, såsom WWW-dokument, filer, adresser och så vidare.

Låt oss överväga mer detaljerat de viktigaste uppgifterna som utvecklare av IPS bör lösa. Som följer av definitionen, IPS för WWW gör en sökning i sin egen databas (index) med beskrivning av distribuerade informationskällor.

Därför måste du först beskriva informationsresurserna och skapa ett index. Att bygga ett index börjar med att definiera en första uppsättning webbadresser för innehållskälla. Därefter genomförs indexeringsprocessen.

Indexering– beskrivning av informationskällor och uppbyggnad av en särskild databas ( index) för effektiv sökning.

I vissa system för informationssökning utförs beskrivningen av informationskällor av personalen på IPS, det vill säga personer som gör en kort anteckning för varje resurs. Sedan sorteras abstracts som regel efter ämnen (sammanställning av en tematisk katalog). Naturligtvis kommer en beskrivning sammanställd av en person att vara helt adekvat för källan. Sant, i det här fallet tar beskrivningsproceduren en betydande tid, så det genererade indexet är som regel begränsad i storlek. Men sökningen i ett sådant system kan utföras lika enkelt som i bibliotekens ämneskataloger.

I IPS av den andra typen proceduren för att beskriva informationsresurser är automatiserad. För att göra detta utvecklas ett speciellt robotprogram som med hjälp av en viss teknik kringgår resurser, beskriver dem (indexerar) och analyserar länkar från den aktuella sidan för att utöka sökområdet. Hur kan ett program beskriva ett dokument? Oftast bara en lista över ord som förekommer i texten och andra delar av dokumentet sammanställs, i det här fallet beaktas upprepningsfrekvensen och ordets placering, det vill säga en speciell viktkoefficient tillskrivs ordet, beroende på dess betydelse. Till exempel, om ordet finns i titeln på en webbsida, kommer roboten att flagga detta faktum för sig själv. Eftersom beskrivningen är automatiserad tar det lite tid och indexet kan vara mycket stort.

Därför är nästa uppgift för IPS av den andra typen utvecklingen av en indexeringsrobot. För att söka i system av denna typ måste användaren lära sig hur man skriver frågor, i enklaste fall bestående av flera ord. Sedan kommer IPS att söka i sitt index efter dokument vars beskrivningar innehåller orden från frågan. För att göra en bättre sökning är det nödvändigt att utveckla ett speciellt frågespråk för användaren. Beroende på funktionerna i att bygga indexmodellen och det frågespråk som stöds, utvecklas en sökmekanism och en algoritm för att sortera sökresultat. Eftersom indexet är stort kan antalet hittade dokument vara ganska stort. Därför är det oerhört viktigt hur en sökmotor gör en sökning och sorterar sina resultat.

Inte minst viktigt är utseendet på sökmotorn som visas för användaren, så en av uppgifterna är att utveckla ett bekvämt och vackert gränssnitt. Slutligen är formen i vilken sökresultaten presenteras extremt viktig, eftersom användaren behöver lära sig så mycket som möjligt om den hittade informationskällan för att fatta rätt beslut om behovet av att besöka den.

För att komma åt sökservern använder användaren ett standardklientprogram för World Wide Web, det vill säga en webbläsare. På adressen till IPS:s hemsida arbetar användaren med sökmotorns gränssnitt, som tjänar till att kommunicera användaren med systemets sökmotor (ett system för att generera frågor och visa sökresultat).

System för informationssökning

Huvudkomponenten i IS är en sökmotor, som tjänar till att översätta användarens begäran till en formell systemförfrågan, söka efter länkar till informationsresurser och visa sökresultat för användaren.

Som tidigare nämnts görs sökningen i en speciell databas som kallas index. Arkitekturen för indexet är utformad på ett sådant sätt att sökningen går så snabbt som möjligt, och samtidigt är det möjligt att spåra värdet på var och en av de resurser som hittas. Vissa system lagrar användarens förfrågningar i sin personliga databas eftersom det tar lång tid att felsöka varje förfrågan och det är oerhört viktigt att lagra förfrågningar som besvaras på ett tillfredsställande sätt.

Robot indexerare- ett program som tjänar till att skanna Internet och hålla indexdatabasen uppdaterad.

Webbplatser är de informationsresurser som IPS tillhandahåller åtkomst till.

Som ni vet är en webbsida ett komplext dokument som består av många element. När man beskriver ett sådant dokument av ett robotprogram är det nödvändigt att ta hänsyn till i vilken del av webbsidan det givna ordet påträffades. Indexeringskällor för WWW-dokument är:

Rubriker (Titel).

Titlar.

Anteckning (beskrivning).

Sökordslistor (KeyWords).

Fullständiga texter av dokument.

Sökmotorer som beskriver absolut hela texten i WWW-dokumentet kallas förresten fulltext.

En URL används för att beskriva en fil i en FTP-resurs. För att beskriva en artikel i en nyhetsgrupp är indexeringskällorna fälten Ämne (Ämne) och Nyckelord (sökord).

Under indexeringsproceduren normaliseras ordförrådet ofta (för ordet till basformen), vissa icke-informativa ord, såsom konjunktioner eller prepositioner, ignoreras. Varje IPS har sin egen lista med stoppord, som ignoreras under indexeringsprocessen. I system med mycket varierande språk, som ryska, beaktas morfologi.

Redovisning av morfologi innebär förmågan att arbeta med olika former av ord på ett visst språk.

Här bör det noteras den tillräckliga komplexiteten hos det ryska språket, vars ord ändras i antal, fall, kön och tider, och ofta på ett oväntat sätt. Till exempel: gå, gå, gå, gå osv. Alla befintliga ILS, med hänsyn till det ryska språkets morfologi, använder "Grammar Dictionary of the Russian Language" sammanställd av Andrey Anatolyevich Zaliznyak. Ordboken innehåller 90 000 ordboksposter, för varje ord ges information om huruvida det ändras och exakt hur det avvisas eller konjugeras.

Av det föregående följer att huvudverktygen för att söka information i WWW är IPS.

Det finns dock sökverktyg på Internet som skiljer sig fundamentalt från IPS som diskuterats ovan. I allmänhet kan följande sökverktyg för WWW särskiljas:

sökmotorer,

metasökmotorer och accelererade sökprogram.

Den centrala platsen tillhör med rätta sökmotorer, som i sin tur är indelade i kataloger, automatiska index (sökmotorer) och indexkataloger. Endast sökmotorer har nästan fullt ut funktionerna och egenskaperna hos IPS.

Katalog– en sökmotor med en lista med kommentarer klassificerade efter ämnen med länkar till webbresurser. Klassificering görs vanligtvis av människor.

Tänk på funktionerna i katalogsystem.

Sökningen i katalogen är mycket bekväm och utförs med hjälp av sekventiell förfining av ämnen. Däremot stöder katalogerna möjligheten att snabbt söka efter en specifik kategori eller sida med nyckelord med hjälp av en lokal sökmotor.

Katalogens länkdatabas (index) är vanligtvis begränsad i storlek och fylls i manuellt av katalogpersonalen. Vissa kataloger använder automatisk indexuppdatering.

Resultatet av sökningen i katalogen presenteras i form av en lista som består av en kort beskrivning (anteckning) av dokument med en hypertextlänk till källan.

Bland de mest populära utländska kataloger du kan nämna: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Ryska kataloger:@Rus (www.atrus.ru); Webblista (www.weblist.ru); Constellation Internet (www.stars.ru).

Söksystem– ett system med en databas bildad av en robot som innehåller information om informationsresurser.

En utmärkande egenskap hos sökmotorer är det faktum att en databas som innehåller information om webbsidor, Usenet-artiklar etc. genereras av ett robotprogram. En sökning i ett sådant system utförs på en begäran sammanställd av användaren, som består av en uppsättning nyckelord eller en fras omsluten av citattecken. Indexet bildas och hålls uppdaterat genom att indexera robotar.

Utländska sökmotorer (system):

Google - www.google.com (ungefär 38 % täckning av ryska frågor)

Altavista - www.altavista.com

www.excite.com

HotBot - www.hotbot.com

Northern Light - www.northernlight.com

Gå (Infoseek) www.go.com (infoseek.com)

Snabbt www.alltheweb.com

Ryska sökmotorer:

Yandex - www.yandex.ru (eller www.ya.ru) (48 % täckning av ryskspråkiga frågor)

Rambler - www.rambler.ru

Aport - www.aport.ru

Metasökmotor- ett system som inte har ett eget index, som kan skicka användarförfrågningar samtidigt till flera sökservrar, sedan kombinera resultaten och presentera dem för användaren i form av ett dokument med länkar.

6 Funktionsprinciper för metasöksystem.Internet sökmotorer. Frågespråk.

När du arbetar med ett metasöksystem är det nödvändigt att välja de mest relevanta dokumenten från den uppsättning dokument som tas emot från sökmotorer, det vill säga som motsvarar användarens begäran.

De enklaste metasöksystemen implementerar standardmetoden som visas i fig. 1. I sådana system utförs inte analysen av de mottagna dokumentbeskrivningarna, vilket kan sätta irrelevanta dokument som är de första i en sökmotor högre än relevanta i en annan, vilket avsevärt minskar kvaliteten på själva sökningen.

Fig.1 Vanlig metasökmotor

Vid utvecklingen av nästa generations metasökmotorer togs hänsyn till bristerna i vanliga metasökmotorer. System har skapats med möjligheten att välja de sökmotorer där han enligt användaren är mer benägen att hitta det han behöver (Fig. 2)

Ris. 2. Nästa generation av metasökmotorer

Dessutom gör detta tillvägagångssätt det möjligt att minska de använda datorresurserna på metasökservern utan att överbelasta den med för mycket onödig information och på allvar spara trafik. Det bör noteras här att i alla metasöksystem är flaskhalsen huvudsakligen bandbredden för dataöverföringskanalen, eftersom bearbetning av sidor med sökresultat som tas emot från flera dussin sökservrar inte är en särskilt mödosam operation, eftersom tiden som läggs på att bearbeta information är storleksordningar mindre tid för ankomsten av sidor som efterfrågas från sökmotorer.

Som exempel på system med liknande organisation kan vi nämna Profusion, Ixquick, SavvySearch, MetaPing.

Ett exempel på en metasökmotor är Nigma (Nigma. RF)- Ryska intellektuella metasöksystem.

Accelererat sökprogramär ett program med funktionerna för en metasökmotor som är installerad på den lokala datorn.

Den grundläggande skillnaden mellan metasökmotorer system och program accelererad sökning från IPS är avsaknaden av ett eget index. Men de är utmärkta på att använda resultaten från andra sökmotorer.

Sökmekanismer

Den generaliserade söktekniken består av följande steg:

Användaren gör en begäran

Systemet söker efter dokument (eller deras sökbilder)

Användaren får resultatet (dokumentdetaljer)

Användaren förfinar eller reformerar frågan

Organisera en ny sökning...

I allmänhet stöder sökmotorer två lägen: enkelt sökläge och avancerat sökläge. Låt oss överväga de generaliserade möjligheterna.

Skapa en fråga i det enkla sökläget. Du kan helt enkelt skriva in ett eller flera ord separerade med ett mellanslag; sökningen efter ord med alla möjliga ändelser modelleras av symbolen * i slutet av ordet. Många system låter dig söka efter fraser eller fraser genom att omge dem inom citattecken. Det är möjligt att inkludera eller utesluta vissa ord.

Det största problemet med att söka efter en primitivt sammansatt fråga (i form av en uppräkning av nyckelord) är att sökmotorn hittar alla sidor där de angivna orden förekommer i någon del av dokumentet. Som regel kommer antalet hittade sidor att vara för stort.

För att förbättra kvaliteten på sökningen i det enkla sökläget kan du använda logiska operatorer och operatorer som låter dig begränsa sökningens omfattning, samt välja en specifik kategori av dokument från listan som tillhandahålls.

Många sökmotorer har speciella operatorer i deras frågespråk som låter dig söka i vissa delar av ett dokument, till exempel dess titel, eller söka efter ett dokument med en känd del av dess adress.

Avancerat eller detaljerat frågeläge i olika system implementeras det individuellt, men oftast är det en form där de nämnda operatörerna och nyckelelementen implementeras genom att helt enkelt ställa in lämpliga flaggor eller välja parametrar från listan.

Nedan finns ett exempel på information från avsnittet hjälp Yandex sökmotor: avancerat sökfönster, frågespråk, sök i hittat.

Sök i hittades Om i Yandex-frågeresultat hittades många dokument, men om ett bredare ämne än du vill, kan du förkorta den här listan genom att förfina frågan. Ett annat alternativ är att aktivera kryssrutan i hittades i sökformulär, ställ in ytterligare nyckelord, och nästa sökning kommer endast att utföras på de dokument som har valts i tidigare sökning.

En notering om hur du använder frågespråket

	Menande
"Till oss för morgongurka"	Ord är på varandra följande i exakt form
"Ankom * Ambassadör"	Saknat ord i citattecken
halv puckelrygg & mosol	Ord i samma mening
utrusta && få	Ord i samma dokument
tjäder \| rapphöna \| någon	Sök efter något av orden
du kan inte<< винить	Icke-ranking "and": uttrycket efter operatorn påverkar inte dokumentets position i sökresultaten
Jag måste /2 utföra	Avstånd inom två ord i valfri riktning (det vill säga ett ord kan förekomma mellan givna ord)

något jag ~~ förstår	Ord undantag förstå från sökning
med mitt /+2 sinne	Avstånd inom två ord i direkt ordning
te ~ laptem	Sök efter en mening där ordet te möter utan ett ord bast skor
kålsoppa /(-1 +2) slurp	Avstånd från ett ord bakåt till två ord framåt
Jag tänker! vad! vad	Ord i exakt form med angivet skiftläge
det visar sig && (+på \| !mig)	Parenteser bildar grupper i komplexa frågor
Politik	Ordboksform av ordet
titel:(i land)	Sök efter dokumenttitlar
url:ptici.narod.ru/ptici/kuropatka.htm	Sök efter URL
definitivt inurl:vojne	Sök baserat på URL-fragment
	Sök efter värd
	Sök efter värd i återskrivning
webbplats: http://www.lib.ru/PXESY/FILATOW	Sök på alla underdomäner och sidor på en viss webbplats
	Sökning av en enda filtyp
	Språkbegränsad sökning
	Domänbegränsad sökning
	Datumbegränsad sökning
statlig verksamhet && /3 fånga tråden	Avstånd i 3 meningar i valfri riktning
något jag ~~ förstår	Ord undantag förstå från sökning

En intressant funktion är sökningen efter dokument på webben som länkar till en sida med den adress (URL) du anger. Således kan du hitta sidor på webben som har länkar till din webbplats. Vissa system tillåter dig att begränsa omfattningen av sökningen inom den angivna domänen.

Ytterligare specialoperatörer inkluderar:

Dokumentsökoperatorer med en specifik grafisk fil;

Operatörer för att begränsa datumet för de sidor som ska sökas;

Närhetsoperatorer mellan ord;

Bokföringsoperatörer i ordform;

Operatörer för sortering av resultat (efter relevans, färskhet, ålderdom).

Det bör noteras att det tyvärr idag inte finns någon standard för antalet och syntaxen för operatörer som stöds för olika sökmotorer. Försök görs att utveckla en standard för syntaxen för operatörer som stöds, så man hoppas att sökmotorutvecklare tar hand om användarnas bekvämlighet. I detta skede av utvecklingen av sökverktyg måste användaren, med hänvisning till en viss sökmotor, först och främst bekanta sig med dess regler för att sammanställa frågor. Som regel kommer det att finnas en länk på startsidan Hjälp som tar dig till hjälpinformationen.

Olika sökmotorer beskriver olika antal informationskällor på Internet. Därför kan du inte begränsa dig till att endast söka i en av de angivna sökmotorerna.

Fundera över sätt presentation av sökresultat i sökmotorer.

Oftast överstiger antalet hittade dokument flera tiotals, och i vissa fall kan det nå hundratusentals! Därför sammanställs som en form av utfärdande en dokumentlista på 5-10-15 enheter per sida med möjlighet att flytta till nästa del längst ner på sidan. Titel och URL (adress) för det hittade dokumentet måste anges, ibland anger systemet graden av relevans för dokumentet i procent.

Dokumentbeskrivningen innehåller oftast de första meningarna eller utdragen ur dokumentets text med nyckelord markerade. Som regel anges datumet för uppdatering (kontroll) av dokumentet, dess storlek i kilobyte, vissa system bestämmer dokumentets språk och dess kodning (för ryskspråkiga dokument).

Vad kan man göra med resultaten? Om titeln och beskrivningen av dokumentet uppfyller dina krav kan du direkt gå till dess källa genom att klicka på länken. Det är bekvämare att göra detta i ett nytt fönster för att kunna analysera sökresultaten ytterligare. Många sökmotorer låter dig söka i de hittade dokumenten, och du kan förfina din fråga genom att introducera ytterligare termer.

Om systemets intelligens är hög kan du bli erbjuden tjänsten att söka efter liknande dokument. För att göra detta väljer du det dokument du gillar särskilt och anger det för systemet som en förebild.

Att automatisera likhetsdetekteringen är dock inte en trivial uppgift, och ofta fungerar den här funktionen inte tillräckligt för dina förväntningar. Vissa sökmotorer låter dig sortera resultaten. För att spara tid kan du spara dina sökresultat som en fil på din lokala enhet för senare offlinestudie.