System för informationshämtning på Internet. Etablera nära interaktion med distributionsnätet, övervaka hela leveranskedjan. Internets historia i västerländska länder

Fuskblad om informationslag Yakubenko Nina Olegovna

39. PROCEDUR FÖR SKAPA OCH TILLÄMPNING AV INFORMATIONSSYSTEM OCH DESS NÄTVERK. KOMMUNIKATIONSINFORMATIONSSYSTEM: INTERNET, E-POST, DIGITAL KOMMUNIKATION, ETC.

Som ni vet kallas Internet också World. Wide Web(WWW) – "över hela världen informationswebb" Och inte bara en webb, utan en webb som inkluderar många databaser och databanker.

Det är med andra ord en distribuerad världsomspännande kunskapsbas som inkluderar många olika informationsmatriser (informationsresurser, databaser eller kunskap), bestående av dokument, data, texter, sammankopplade av en gränsöverskridande teeller nätverk.

Denna World Wide Web of Information är bildad på basis av otaliga datorer (datorutrustning) olika typer och syfte, programvara, informationsresurser, kommunikation och telekommunikation genom vilka information överförs och tas emot.

Helheten av informationsmatriser på World Wide Web är så att säga genomsyrad av många "hypertext"-kopplingar. Varje sådan anslutning "ansluter" alla textpunkter eller grafiska dokument WWW eller dokumentelement. De presenterar sig själva HTML-format(Hiper Text Markup Laguage) och kan bestå av text- och grafiska fragment, designelement, individuella data och andra liknande strukturer.

Internet inkluderar och säkerställer att det fungerar många leverantörer (enheter som tillhandahåller informationstjänster till internetanvändare), ägare av servrar (datorer på vilka informationslager finns) och slutligen användare av internettjänster och konsumenter av information.

Som ett resultat av detta skapar utvecklingen av telekommunikationssystem, globala nätverk och interaktiva sätt för informationsspridning möjlighet för en enskild användare att få tillgång till praktiskt taget obegränsade informationsuppsättningar. Således skapas ett enda globalt elektroniskt informationsutrymme.

I början av 90-talet. tidigare VD för Appje D. Skalde och andra specialister lade fram idéer för navigering i ett enda öppet informationsutrymme - "kunskapsnavigering". Så öppet informationsutrymme och Internet blev.

Kan en så komplex World Wide Web som kallas Internet kallas ett automatiserat informationssystem? För att göra detta, låt oss återgå till den definition som antagits av lagstiftaren.

Den federala lagen "om information, informatisering och informationsskydd" definierar begreppet " Informationssystem"-en organisatoriskt ordnad uppsättning dokument (uppsättningar av dokument) och informationsteknik, inklusive användning av datorteknik som implementerar informationsprocesser" (artikel 2).

Denna artikel ger också en definition av termen "verktyg för att stödja automatiserade informationssystem och deras teknologier - programvara, tekniska, språkliga, juridiska, organisatoriska verktyg (program för elektroniska datorer; datorteknik och kommunikationsverktyg; ordböcker, synonymordböcker och klassificerare; instruktioner och tekniker, bestämmelser, arbetsbeskrivningar och deras beskrivningar, annan operativ och åtföljande dokumentation) som används eller skapas vid utformningen av informationssystem och för att säkerställa deras funktion.

Från boken Tullkodex för Ryska federationen författare Ryska federationens lagar

Artikel 424. Certifiering av informationssystem, informationsteknik, sätt för deras stöd och skydd Informationssystem, informationsteknik, sätt att stödja dem, samt programvara och hårdvara för informationsskydd som används i tullen

Från boken Tullkodex för Ryska federationen författare Statsduman

Artikel 424. Certifiering av informationssystem, informationsteknik, sätt för deras stöd och skydd Informationssystem, informationsteknik, sätt att stödja dem, samt programvara och hårdvara för informationsskydd som används i tullen

Från boken Stadsbyggnadskod Ryska Federationen. Text med ändringar och tillägg för 2009 författare författare okänd

Artikel 57. Förfarandet för att upprätthålla informationssystem för att stödja verksamhet inom stadsplanering och tillhandahålla information om informationssystem för att stödja verksamhet inom stadsplanering 1. Upprätthålla informationssystem för att stödja verksamhet inom stadsplanering

Från boken Tullkodex för Ryska federationen. Text med ändringar och tillägg för 2009 författare författare okänd

ARTIKEL 424. Certifiering av informationssystem, informationsteknik, sätt för deras stöd och skydd Informationssystem, informationsteknik, sätt att stödja dem, samt programvara och hårdvara för informationsskydd som används i tullen

Från boken Ukrainas strafflag i skämt författaren Kivalov S V

Avsnitt XVI BROTT VID ANVÄNDNING AV ELEKTRONISKA DATORMASKINER (DATORER, SYSTEM OCH DATORNÄTVERK OCH NÄTVERK)

Ur boken Kommentar till reglerna för tillhandahållande av kommunikationstjänster författare Sukhareva Natalia Vladimirovna

Artikel 361. Otillåten störning av driften av elektroniska datorer (datorer), automatiserade system, datornätverk eller telekommunikationsnätverk 1. Otillåten störning av driften av elektroniska datorer (datorer),

Från boken Cheat Sheet on Information Law författare Yakubenko Nina Olegovna

III. Förfarandet för att ansluta televisions- och radiosändningskommunikationsnät och deras interaktion med televisions- och radiosändningskommunikationsnätet hos den operatör av televisions- och radiosändningskommunikationsnätverk som har en betydande ställning Kommentar till punkt 14 Registret förs i den form som fastställts av ministeriet för Information och kommunikation.

Från boken Law of the European Union författare Kashkin Sergey Yurievich

17. INFORMATION JURIDISKA RELATIONER SOM UPPSTÅR VID SÖKNING, MOTTAGNING OCH KONSUMTION AV INFORMATION, INFORMATIONSRESURSER, INFORMATIONSPRODUKTER, INFORMATIONSTJÄNSTER Sådana rättigheter och skyldigheter uppstår för konsumenter av information som verkar i

Från boken The Bar Exam av författaren

18. INFORMATION JURIDISKA RELATIONER SOM UPPSTÅR UNDER PRODUKTION, ÖVERFÖRING OCH DISTRIBUTION AV INFORMATION, INFORMATIONSRESURSER, INFORMATIONSPRODUKTER, INFORMATIONSTJÄNSTER Arten och egenskaperna hos de rättigheter och skyldigheter som uppstår under produktion, överföring och

Från boken Kundreskontrahantering författare Brunhild Svetlana Gennadievna

19. RÄTTSLIGA RELATIONER FÖR INFORMATION SOM UPPSTÅR UNDER SKAPPANDE OCH TILLÄMPNING AV INFORMATIONSSYSTEM, DERAS NÄTVERK, UTRUSTNING OCH INFORMATIONSSÄKERHETSMEKANISMER Informationsrättsliga relationer som uppstår under implementeringen av sådana informationsprocesser,

Från författarens bok

52. RÄTTSLIGT REGIM FÖR INFORMATIONSSYSTEM, INFORMATIONSTEKNOLOGIER OCH MEDEL FÖR DERAS STÖD De viktigaste källorna till rättslig reglering av relationer inom området för skapande och användning av automatiserade informationssystem, informationsteknik, kommunikation och

Från författarens bok

53. FÖRFARANDE FÖR UTVECKLING OCH IMPLEMENTERING AV INFORMATIONSSYSTEM, TEKNOLOGIER OCH STÖDMEDEL Relationer som uppstår under utveckling och implementering av informationssystem, teknologier och sätt att stödja dem regleras av normerna i Ryska federationens civillag (kapitel 38 “ Genomförande

Från författarens bok

54. STATLIG POLICY INOM ATT SKAPA INFORMATIONSSYSTEM, INFORMATIONSTEKNOLOGIER OCH MEDEL FÖR DERAS STÖD Den federala lagen "On Information, Informatization and Information Protection" definierar statlig policy inom området för skapande och tillämpning

Från författarens bok

149. Hur regleras elektronisk digital signatur i EU-lagstiftningen? I december 1999 antog Europaparlamentet tillsammans med rådet ett direktiv om användning av elektroniska signaturer i Europeiska gemenskapen. I enlighet med art. 2 direktiv

Från författarens bok

Fråga 50. Referensrättssystem, Internetinformationsresurser i en advokats arbete. Rättsliga referenssystem (RLS) är datoriserade databaser som innehåller texter till rättsakter, beslut av högre rättsliga organ, material för rättspraxis,

1

För närvarande i vår dynamiskt utvecklas informationsvärlden Av särskild vikt är förmågan att fatta snabba och korrekta beslut, som är omöjliga utan att samla in, bearbeta, lagra, analysera en stor mängd information och tillhandahålla resultatet av deras bearbetning till användaren. En av dessa uppgifter är att snabbt identifiera webbplatser på Internet som innehåller information, vars distribution är förbjuden i Ryska federationen. Listan över denna information presenteras i del 2 av art. 15.1 i den federala lagen av den 27 juli 2006 nr 149-FZ "Om information, informationsteknik och informationsskydd." Den här artikeln diskuterar konstruktionen av ett informations- och analyssystem utformat för att snabbt söka efter information på Internet, vars distribution är förbjuden i Ryska federationen. Ett tillvägagångssätt föreslås för att bygga informationssystem som söker information i offentliga nätverk och bearbetar en stor volym heterogen ostrukturerad data, som presenteras i olika format: text som innehåller fragment från flera dokument; ljud- och videoinspelningar; bilder (foton och teckningar).

dataanalys

system för informationssökning

ostrukturerad data

2. Erokhin G.N., Druzhinin V.A., Tsaregorodtsev A.L., Makhneva T.V., Ogorodnikov I.N., Kartashev E.A. Telemedicin av uppskjutna konsultationer med exemplet med nordliga regioner // Informations-, mät- och kontrollsystem. – 2009. – T. 7. – Nr 12. – S. 49–53.

3. Zelenkov Yu.G., Segalovich I.V. Jämförande analys metoder för att fastställa suddiga dubbletter för WEB-dokument // Elektroniska bibliotek: avancerade metoder och teknologier, elektroniska samlingar: handlingar från den 9:e allryska vetenskapliga konferensen RCDL’2007: lör. tävlingsdeltagares verk. – T. 1. – Pereslavl-Zalessky: ”University of the City of Pereslavl”, 2007. – S. 166–174.

4. Kartashev E.A., Samkov L.M. Onlineinformation och analyssystem för övervakning av livsuppehållande indikatorer för territoriella objekt Hantering av stora system: samling av verk. – 2009. – Nr 24. – S. 112–129.

5. Makunin, Alexey Anatolyevich. Teknik för att bygga modulära automatiserade informationssystem för komplexa ämnesområden och dess tillämpning som exempel informationsstöd system för kommunal ordning av lokala myndigheter: dis. ...cand. tech. Vetenskaper: 05.13.11. – Tomsk, 2005. – 228 sid.

För närvarande, i vår dynamiskt utvecklande informationsvärld, är förmågan att fatta snabba och korrekta beslut, som är omöjliga utan att samla in, bearbeta, lagra, analysera en stor mängd information och tillhandahålla resultatet av deras bearbetning till användaren, av särskild vikt.

En av dessa uppgifter är att snabbt identifiera webbplatser på Internet som innehåller information, vars distribution är förbjuden i Ryska federationen. Listan över denna information presenteras i del 2 av art. 15.1 i den federala lagen av den 27 juli 2006 nr 149-FZ "Om information, informationsteknik och informationsskydd." Ofta presenteras sådan information på webbplatser, som kan variera avsevärt både vad gäller den teknik de använder och i deras funktionalitet. I sin tur är informationen inte strukturerad och kan presenteras i olika format: text som innehåller fragment från flera dokument; ljud- och videoinspelningar; bilder (foton och teckningar).

Det finns ett antal informationssystem på marknaden som utför liknande databehandling och används inom andra områden, men information om deras struktur och vilka databehandlingsmetoder som används lämnas inte ut. De tillhandahålls ofta med hjälp av SaaS-teknik (software as a service), vilket är oacceptabelt med tanke på detaljerna i den data som behandlas.

Syftet med detta arbete är att föreslå strukturen för ett informationssystem som ger möjlighet att snabbt få ostrukturerad information från ett stort antal olika sajter på Internet och lagra den för efterföljande behandling, samtidigt som det ger möjlighet att öka volymen av bearbetade data genom att öka antalet utrustning som används (horisontell skalning) och användning av lågpresterande serverutrustning.

Utvecklingen av ett automatiserat informationssystem för att söka och analysera information på Internet (nedan kallat AIS-sökning) genomfördes vid Ugra Research Institute of Information Technologies och är avsett: för interaktion med webbplatser på Internet; lagring och analys av insamlad information; tillhandahålla resultaten av informationsbehandlingen i form av rapporter till användaren.

Interaktion med webbplatser på Internet syftar till att samla in första information från dem och involverar arbete i begäran-svar-läge inom följande områden: sökning efter den nödvändiga informationen på en webbplats; laddar den hittade informationen i AIS-sökning; uppdatering av informationen lagrad i AIS Search genom att jämföra den med versionen som finns på webbplatsen (utförs efter ett visst tidsintervall, fastställt med hänsyn till uppdateringen av information).

Kontextuell AIS-dataflödesdiagramsökning

Att lagra insamlad information från webbplatser på Internet ger många ingångspunkter för att samla in och bearbeta information, och var och en av dem kan samla in och behandla data enligt sina egna unika regler.

Vid designstadiet utvecklades dataflödesdiagram för att beskriva huvudprocesserna för AIS-sökning och dataflöden som cirkulerar i systemet. Figuren visar ett kontextdiagram över AIS-sökningsdataflöden.

Låt oss ta en närmare titt på kontextdiagramprocesserna.

1. Bildande av sökkriterier för dokument (sökord, aktuella fraser, sökfrågor, bildprover, fragment av ljud- och videoinspelningar) - krav på innehållet i dokument bestäms som ska finnas på informationsresurser som finns på Internet och laddas upp till databasen. Den initiala fyllningen utförs av operatören och förtydligas därefter utifrån resultaten av dokumentanalys.

2. Bildande av dokumentsökningsuppgifter - dokumentsökningsläget på informationsresurser bestäms, med hänsyn till tillgängliga möjligheter, frekvensen av uppdatering av information och användarprioriteringar. Den bildas i form av en uppgift för vilken följande bestäms: starttid, informationsresurser, dokumentsökningskriterier.

3. Dokumentsökning - säkerställer utförande av dokumentsökningsuppgifter: regelbundet kontrollera förekomsten av dokumentsökningsuppgifter som kräver lansering, utföra en dokumentsökningsuppgift inom ramen för vilken, enligt antalet fastställda kriterier för sökning av dokument och informationsresurser , en uppsättning åtgärder utförs:

a) generera en begäran om att erhålla data från en informationsresurs baserat på vissa dokumentsökningskriterier och dess syntax;

b) skicka en begäran om data till en informationsresurs och vänta på ett svar;

c) bearbeta svaret från informationsresursen (registrera länkar till hittade dokument i databasen).

4. Ladda upp dokument - säkerställer nedladdningen av ett dokument med hjälp av den hittade länken: kontrollera tillgängligheten av dokumentet med hjälp av den hittade länken; jämföra det nedladdade dokumentet med den tidigare versionen, om tillgänglig (kontrollera efter ändringar) i databasen; registrera det nedladdade dokumentet i databasen.

5. Dokumentanalys - ger automatisk behandling av nedladdade dokument: extraktion av objekt från dokumentet (strukturerade data: fullständiga namn, positioner, namn på territorier och ämnen, Kontaktinformation, evenemang etc.); bestämma arten av anslutningen för identifierade objekt: objekt - subjekt, negativt - positivt, etc.; beräkning av sannolikheten för att tilldela ett dokument till olika grupper av dokument som tidigare definierats av användaren (dokumentklassificering); identifiering av liknande dokument (med metoder för att klassificera objekt i grupper genom att identifiera tidigare okända gemensamma drag (infördes 1939 av Robert Tryon)); förfining av dokumentsökningskriterier baserat på tidigare sekretessbelagda och klustrade dokument.

6. Generera rapporter - förbereda data för visning för användaren (utföra operationer som inte kan utföras medan användaren väntar på ett AIS-söksvar).

7. Presentation av rapporter - presentation av data i form av rapporter baserade på vissa mallar, med hänsyn till användarens preferenser, medan han ges möjlighet att ställa in ett filter för att välja data som ingår i den.

8. Dataverifiering - resultaten av dokumentanalys bekräftas av användaren: klassificering, extraherade objekt, etablerade anslutningar.

Baserat på resultaten av att studera erfarenheten av att bygga liknande system, inklusive de som presenteras i, valdes en modulär systemarkitektur. Att använda ett modulärt tillvägagångssätt som grund för en sådan verktygslåda gör den inte bara lätt att bygga komplexa applikationer, montera dem från "tegelstenar", men också säkerställa deras utbytbarhet för att förfina programvaran och utöka kapaciteten hos informationssystem. De största fördelarna med modulär arkitektur slutar inte där. Nyckelfunktionerna i den valda metoden för att bygga AIS-sökning inkluderar också möjligheten till dess selektiva layout, återanvändning av en gång skriven kod och utvecklade klasser.

I allmänhet består strukturen av AIS Search av följande moduler:

Databas (en uppsättning verktyg för att säkerställa lagring och åtkomst till hittad data).

Användargränssnitt (ger verktyg för användaren att se tillgängliga data och resultaten av deras bearbetning, samt att hantera driften av varje modul).

Analysdelsystem (utför bearbetning (klassificering, identifiering av objekt och anslutningar) av hittade data).

Delsystem för datainsamling (implementerar användardefinierad algoritm för drift av interaktionsmoduler (lansering, bildning av parametrar) och säkerställer laddning av data som tas emot från dem till databasen).

Interaktionsmodul (säkerställer att data tas emot från en specifik informationsresurs i enlighet med fastställda parametrar).

All denna insamlade ostrukturerade data måste snabbt analyseras, vilket i sin tur är omöjligt utan lämplig organisation av lagring av dessa data. Trender under de senaste åren visar att moderna DBMS används för att lagra ostrukturerad data, vilket kombinerar flexibiliteten i dokumentlagringsmodellen och rigoriteten och enkelheten i den relationella modellen.

Till exempel lade PostreSQL DBMS 9.2 till stöd för datatypen JSON (JavaScript Object Notation) och 9.3 lade till funktioner för att bearbeta värden i den. Samma datatyp stöds nu i MySQL sedan version 5.7.8. Liknande funktionalitet finns i Oracle och MSSQL DBMS.

Det finns flera metoder för att lagra ostrukturerad data i informationssystem:

Direkt i databasen, medan de flesta moderna DBMS tillhandahåller en specialiserad datatyp för detta: JSONB i PostgreSQL, CLOB i Oracle, etc.;

Utanför databasen (i form av filer i lämplig lagring), medan endast länkar till dem lagras i databasen. De största nackdelarna med det här alternativet är svårigheter med administration, att säkerställa datatillgänglighet och integritet. I sin tur är fördelen med detta tillvägagångssätt möjligheten att använda standardapplikationer bearbetning (visning), minskar den totala volymen av databasen (inget behov av att allokera en stor mängd diskutrymme på ett ställe), data kan lagras på ett stort antal olika servrar med en liten mängd diskutrymme. Hittills denna riktning stöds aktivt av DBMS-utvecklare och arbete pågår för att eliminera dessa brister, i synnerhet introducerade MS SQL Server 2012 FileTable-tabeller för att arbeta med filer, och i Oracle - parametern SecureFiles för LOB-datatypen.

Med hänsyn till att den största delen (volymen) kommer att upptas av ostrukturerade data, till vilka åtkomst kommer att behövas då och då (vid laddningsstadiet för att extrahera metadata och flera gånger för att visa resultaten för användaren), föreslogs följande struktur: Filserver - Access drivrutin - DBMS.

Som filservrar beslutades det att använda servrar som kör den fritt distribuerade operativ system Linux (Debian eller Astra Linux), och som Postgres DBMS, eftersom det är: fritt distribuerat, har utvecklat verktyg för fulltextsökning och kan certifieras enligt informationssäkerhetskrav, till exempel som en del av operativsystemet Astra Linux.

I enlighet med det föreslagna tillvägagångssättet har vi vid Ugra Research Institute of Information Technologies implementerat AIS-sökningen, som används av de behöriga avdelningarna i Khanty-Mansiysk autonoma Okrug - Ugra för att söka efter domännamn, webbplatsindex på internetinformation och telekommunikationsnätverk och nätverksadresser som tillåter identifiering av webbplatser i informations- och telekommunikationsnätverk Internet som innehåller information vars distribution är förbjuden i Ryska federationen.

För närvarande har mer än 75 tusen länkar bearbetats, mer än 21 tusen unika dokument har laddats in i databasen. För 922 dokument fastställdes det med en hög grad av sannolikhet att de innehåller information, vars spridning är förbjuden i Ryska federationen, mer än 75% av dem inkluderades i det lämpliga registret som upprätthölls av Roskomnadzor i enlighet med del 3 av Konst. 15.1 i den federala lagen av den 27 juli 2006 nr 149-FZ "Om information, informationsteknik och informationsskydd."

Under försöksverksamheten av AIS Search inkom positiva omdömen från slutanvändare, noterar de också förutsägbarheten av utseendet på dokument i databasen beroende på de genererade dokumentsökningskriterierna (resultaten liknar de som erhålls från en manuell sökning) och en minskning av arbetsintensiteten. Baserat på resultaten rekommenderades det också att införa AIS Search i kommersiell drift.

I framtiden är det planerat att utföra arbete för att förbättra effektiviteten för användare med AIS-sökning, särskilt genom att göra ändringar i användargränssnittet, minska systemets svarstid på användaråtgärder på grund av preliminär dataförberedelse och öka datahastigheten bearbetningsalgoritmer. Det planeras också att genomföra ett arbete med att jämföra resultaten av dokumentklassificering med hjälp av olika algoritmer och metoder.

Bibliografisk länk

Kartashev E.A., Tsaregorodtsev A.L. AUTOMATISKT INFORMATIONSSYSTEM FÖR SÖKNING OCH ANALYSERING AV INFORMATION PÅ INTERNET // Grundforskning. – 2016. – Nr 10-2. – s. 296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (åtkomstdatum: 04/06/2019). Vi uppmärksammar tidskrifter utgivna av förlaget "Academy of Natural Sciences"

1996-03-17 Pavel Khramtsov

Internetanvändare är väl medvetna om namnen på sådana tjänster och informationstjänster, som Lycos, AltaVista, Yahoo, OpenText, InfoSeek, etc. - utan tjänsterna från dessa system idag är det praktiskt taget omöjligt att hitta något användbart i havet av informationsresurser på webben. Hur dessa tjänster ser ut från insidan, hur de är uppbyggda, varför sökresultatet i terabyte-uppsättningar av information utförs ganska snabbt och hur rangordningen av dokument när de utfärdas är ordnade - allt detta ligger vanligtvis bakom kulisserna. Men utan ordentlig planering av en sökstrategi och förtrogenhet med de grundläggande principerna för teorin om IRS (Information Retrieval Systems), som har en tjugoårig historia, är det svårt att effektivt använda ens sådana snabbbrandtjänster som AltaVista eller Lycos . Arkitektur för modern IS för WWW Informationsresurser och deras representation i IS Sökindex Systemets språk för informationshämtning Systemgränssnitt Slutsats Litteratur Internetanvändare är redan väl medvetna om namnen på sådana tjänster

Internetanvändare är väl medvetna om namnen på sådana tjänster och informationstjänster som Lycos, AltaVista, Yahoo, OpenText, InfoSeek, etc. - utan tjänsterna från dessa system är det idag praktiskt taget omöjligt att hitta något användbart i havet av informationsresurser på Internet. Hur dessa tjänster ser ut från insidan, hur de är uppbyggda, varför sökresultatet i terabyte-uppsättningar av information utförs ganska snabbt och hur rangordningen av dokument när de utfärdas är ordnade - allt detta ligger vanligtvis bakom kulisserna. Men utan ordentlig planering av en sökstrategi och förtrogenhet med de grundläggande principerna för teorin om IRS (Information Retrieval Systems), som har en tjugoårig historia, är det svårt att effektivt använda ens sådana snabbbrandtjänster som AltaVista eller Lycos .

System för informationssökning har funnits länge. Många artiklar ägnas åt teorin och praktiken för att konstruera sådana system, varav de flesta är från slutet av 70-talet till början av 80-talet. Bland inhemska källor bör den vetenskapliga och tekniska samlingen "Scientific and Technical Information Series 2" lyftas fram, som fortfarande publiceras. En "bibel" om utvecklingen av system för informationshämtning och modellering av processerna för deras funktion publicerades också på ryska. Det kan alltså inte sägas att med Internets intåg och dess snabba intåg i praktiken av informationsstöd har något fundamentalt nytt dykt upp som inte fanns tidigare. För att vara exakt är IPS på Internet ett erkännande av att varken den hierarkiska Gopher-modellen eller hypertextmodellen på World Wide Web ännu löser problemet med att hitta information i stora volymer av heterogena dokument. Och idag finns det inget annat sätt att snabbt söka efter data än att söka på nyckelord.

När du använder Gophers hierarkiska modell måste du vandra genom katalogträdet ganska länge tills du stöter på nödvändig information. Dessa kataloger måste underhållas av någon, och deras tematiska indelning måste sammanfalla med informationsbehov användare. Med tanke på internets anarkiska karaktär och det enorma antalet olika intressen bland internetanvändare, är det tydligt att någon kan ha otur och det kommer inte att finnas en katalog på internet som speglar en specifik ämnesområde. Det är av denna anledning som informationshämtningsprogrammet Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives) utvecklades för många Gopher-servrar, kallade GopherSpace.

Liknande utveckling observeras på World Wide Web. Faktiskt, redan 1988, i ett specialnummer av tidskriften "Communication of the ACM", bland andra problem i utvecklingen av hypertextsystem och deras användning, kallade Frank Halaz problemet med att organisera informationshämtning i stora hypertextnätverk som en prioriterad uppgift för nästa generations system av denna typ. Hittills har många av idéerna som uttrycks i den artikeln ännu inte funnit sin implementering. Det system som Berners-Lee föreslagit och som blev så utbrett på Internet fick naturligtvis möta samma problem som sina lokala föregångare. Verkliga bevis på detta visades vid den andra World Wide Web-konferensen hösten 1994, vid vilken artiklar presenterades om utvecklingen av informationshämtningssystem för webben och World Wide Web Worm, utvecklad av Oliver McBrine från University of Colorado, vann priset för bästa navigeringsverktyg. Det bör också noteras att ett långt liv trots allt inte är avsett för de mirakulösa programmen av begåvade individer, utan för de medel som är resultatet av den planerade och konsekventa rörelsen av vetenskaps- och produktionsteam mot det uppsatta målet. Förr eller senare slutar forskningsstadiet och systemets drift börjar, och detta är en helt annan typ av verksamhet. Det är just detta öde som väntade två andra projekt som presenterades vid samma konferens: Lycos, med stöd av Microsoft, och WebCrawler, som blev America On-lines egendom.

Utvecklingen av nya informationssystem för webben har inte slutförts. Dessutom, både i skrivandet av kommersiella system och på forskningsstadiet. Under de senaste två åren har bara det översta lagret tagits bort möjliga lösningar. Men många av de problem som Internet ställer till för IPS-utvecklare har ännu inte lösts. Det är denna omständighet som orsakade uppkomsten av projekt som AltaVista från Digital, vars huvudmål är utveckling av mjukvara informationsinhämtning för webben och val av arkitektur för webbinformationsservern.

Arkitektur av modern IPS för WWW

Innan vi beskriver problemen med byggnadsinformationssökning Webbsystem och sätt att lösa dem kommer vi att överväga ett typiskt diagram av ett sådant system. Olika publikationer som ägnas åt specifika system, till exempel, tillhandahåller diagram som skiljer sig från varandra endast i det sätt på vilket specifika mjukvarulösningar används, och inte i principen för organisationen av de olika komponenterna i systemet. Låt oss därför överväga detta schema med ett exempel från arbetet (Fig.).

Ris. Typiskt diagram över ett informationshämtningssystem.

Klient i detta diagram är det ett program för att visa en specifik informationsresurs. De mest populära idag är multiprotokollprogram som Netscape Navigator. Ett sådant program ger visning av WWW-dokument, Gopher, Wais, FTP-arkiv, e-postlistor och Usenet-nyhetsgrupper. I sin tur är alla dessa informationsresurser föremål för sökning av informationshämtningssystemet.

Användargränssnitt ( användargränssnitt) - detta är inte bara ett visningsprogram i fallet med ett informationshämtningssystem, den här frasen betyder också användarens sätt att kommunicera med sökmotorn: systemet för att generera frågor och visa sökresultat.

Sökmotor (sökmotor)- tjänar till att översätta en begäran på ett informationshämtningsspråk (IRL) till en formell systembegäran, söka efter länkar till informationsresurser på nätverket och tillhandahålla resultatet av denna sökning till användaren.

Indexdatabas- index, som är huvuduppsättningen av IRS-data och tjänar till att söka efter adressen till en informationsresurs. Arkitekturen för indexet är utformad på ett sådant sätt att sökningen sker så snabbt som möjligt och samtidigt skulle det vara möjligt att bedöma värdet av var och en av de hittade informationsresurserna i nätverket.

Frågor (användarförfrågningar)- sparas i hans (användarens) personliga databas. Det tar mycket tid att felsöka varje fråga, och därför är det oerhört viktigt att komma ihåg frågor som systemet ger bra svar på.

Index robot- tjänar till att skanna Internet och hålla indexdatabasen uppdaterad. Detta program är huvudkällan till information om tillståndet för nätverksinformationsresurser.

WWW-sajter- det här är hela Internet eller, mer exakt, informationsresurser, vars visning tillhandahålls av visningsprogram.

Låt oss nu överväga syftet och konstruktionsprincipen för var och en av dessa komponenter mer i detalj och bestämma hur detta system skiljer sig från den traditionella lokala typen IPS.

Informationsresurser och deras presentation i IRS

Som framgår av figuren består Internet IRS-dokumentuppsättningen av hela uppsättningen dokument av sex huvudtyper: WWW-sidor, Gopher-filer, Wais-dokument, FTP-arkivposter, Usenet-nyheter och artiklar om e-postlistor. Allt detta är ganska heterogen information, som presenteras i form av olika dataformat som inte på något sätt överensstämmer med varandra: texter, grafik och ljudinformation, och i allmänhet allt som finns tillgängligt i dessa förråd. Frågan uppstår naturligtvis: hur ska ett informationssökningssystem fungera med allt detta?

Traditionella system använder konceptet med en sökbild av ett dokument - AML. Vanligtvis hänvisar denna term till något som ersätter ett dokument och används i sökningar istället för ett riktigt dokument. Sökbilden är resultatet av att någon modell av en informationsmatris av dokument appliceras på en riktig matris. Den mest populära modellen är vektormodellen, där varje dokument tilldelas en lista med termer som mest adekvat återspeglar dess innebörd. För att vara mer exakt tilldelas dokumentet en vektor med dimension lika med antalet termer som kan användas i sökningen. Med en boolesk vektormodell är vektorelementet 1 eller 0, beroende på närvaron eller frånvaron av en term i POD. I mer komplexa modeller viktas termer - vektorns element är inte lika med 1 eller 0, utan till ett visst antal (vikt) som återspeglar överensstämmelsen mellan en given term och ett dokument. Det var den senare modellen som blev den mest populära i systemet för informationsinhämtning på Internet.

Generellt sett finns det andra modeller för dokumentbeskrivning: den probabilistiska modellen för informationsflöden och sökning och sökmodellen i luddiga uppsättningar. Utan att gå in på detaljer är det vettigt att notera att än så länge endast den linjära modellen används i systemen Lycos, WebCrawler, AltaVista, OpenText och AliWeb. Det pågår dock forskning om användningen av andra modeller, vars resultat återspeglas i arbetet. Den första uppgiften som IRS måste lösa är alltså att tilldela en lista med nyckelord till ett dokument eller informationsresurs. Denna procedur kallas indexering. Ofta hänvisar dock indexering till sammanställningen av en inverterad listfil, där varje indexeringsterm är associerad med en lista över dokument där den förekommer. Detta förfarande är bara ett specialfall, eller snarare, teknisk aspekt skapande av en IPS-sökmotor. Problemet med indexering är att att tillskriva en sökbild till ett dokument eller informationsresurs bygger på att man tänker på vokabulären som termerna väljs från som en fast samling termer. Traditionella system delades in i kontrollerade ordförrådssystem och fria ordförrådssystem. En kontrollerad vokabulär innebar att upprätthålla en lexikalisk databas, lägga till termer som utfördes av systemadministratören, och alla nya dokument kunde endast indexeras med de termer som fanns i denna databas. Den kostnadsfria ordboken uppdaterades automatiskt när nya dokument dök upp. Men vid uppdateringen var ordboken också fixad. Uppdateringen innebar en fullständig omstart av databasen. Vid tidpunkten för denna uppdatering laddades själva dokumenten in och ordboken uppdaterades, och efter att den uppdaterats indexerades dokumenten på nytt. Uppdateringsproceduren tog ganska lång tid och åtkomst till systemet stängdes vid tidpunkten för uppdateringen.

Låt oss nu föreställa oss möjligheten av ett sådant förfarande i det anarkiska Internet, där resurser dyker upp och försvinner dagligen. När Veronica skapades för GopherSpace antogs det att alla servrar skulle registreras, och därmed registrerades närvaron eller frånvaron av en resurs. Veronica kontrollerade tillgängligheten av Gopher-dokument en gång i månaden och uppdaterade sin AML-databas för Gopher-dokument. Det finns inget liknande på WWW. För att lösa detta problem används nätverksskanningsprogram eller indexeringsrobotar. Att utveckla robotar är en ganska icke-trivial uppgift; det finns risk för att roboten fastnar eller fastnar virtuella sidor. Roboten skannar webben, hittar nya resurser, tilldelar termer till dem och placerar dem i indexdatabasen. Huvudfrågan är vilka termer man ska tilldela dokument och var man får dem ifrån, eftersom ett antal resurser inte alls är text. Idag använder robotar vanligtvis följande källor för indexering för att fylla på sina virtuella ordböcker: hypertextlänkar, rubriker, titlar (H1, H2), anteckningar, listor med nyckelord, fullständiga texter till dokument, såväl som meddelanden från administratörer om deras webbsidor. För indexering av telnet, gopher, ftp, icke-textinformation, används huvudsakligen URL:er för Usenet-nyheter och e-postlistor, Ämne- och Nyckelordsfälten. Det största utrymmet för att bygga AML ges av HTML-dokument. Man ska dock inte tro att alla termer från de listade dokumentelementen hamnar i deras sökbilder. Listor över förbjudna ord (stoppord), som inte kan användas för indexering, över vanliga ord (prepositioner, konjunktioner etc.) används mycket aktivt. Även det som i exempelvis OpenText kallas för fulltextindexering är alltså egentligen ett urval av ord från dokumenttexten och jämförelse med en uppsättning olika ordböcker, varefter termen hamnar i AML:n, och sedan i systemet. index. För att inte blåsa upp ordböcker och index (Lycos systemindex är redan 4 TB) används ett begrepp som kallas termvikt. Dokumentet indexeras vanligtvis genom 40 - 100 av de mest "tunga" termerna.

Sök index

Efter att resurserna har indexerats och systemet har sammanställt en rad POD:er börjar konstruktionen av sökmotorn. Det är ganska uppenbart att en frontvy av en fil eller filer av POD kommer att ta mycket tid, vilket absolut inte är acceptabelt för ett interaktivt WWW-system. För att snabba på sökningen byggs ett index som i de flesta system är en uppsättning sammankopplade filer som syftar till att snabbt söka efter data på begäran. Strukturen och sammansättningen av index för olika system kan skilja sig från varandra och beror på många faktorer: storleken på uppsättningen av sökbilder, språk för informationssökning, placering av olika systemkomponenter, etc. Låt oss överväga strukturen av indexet med hjälp av exemplet på ett system för vilket det är möjligt att implementera inte bara primitiv boolesk, utan också kontextuell och viktad sökning, såväl som ett antal andra funktioner som saknas i många sökmotorer på Internet, för exempel Yahoo. Indexet för det aktuella systemet består av en sididentifieringstabell (page-ID), en nyckelordstabell (Keyword-ID), en sidändringstabell, en rubriktabell, en hypertextlänkstabell, en inverterad lista (IL) och en framåtlista (FL).

Page-ID mappar sididentifierare till deras URL, Keyword-ID - varje nyckelord till en unik identifierare för det ordet, titeltabell - sididentifierare till sidrubrik, hypertextlänkstabell - sididentifierare till en hypertextlänk till den sidan. Den inverterade listan matchar varje dokumentnyckelord med en lista med par - sididentifierare, ordposition på sidan. En direktlista är en rad bilder på söksidor. Alla dessa filer används på ett eller annat sätt under sökningar, men den främsta bland dem är den inverterade listfilen. Sökresultat i den här filenär föreningen och/eller skärningspunkten mellan listor med sididentifierare. Den resulterande listan, som konverteras till en lista med rubriker, utrustad med hypertextlänkar returneras till användaren i deras webbläsare. För att snabbt söka efter poster i den inverterade listan läggs flera filer till ovanför den, till exempel en fil med bokstavspar som anger posterna i den inverterade listan som börjar med dessa par. Dessutom används en mekanism för direkt dataåtkomst - hashing. En kombination av två metoder används för att uppdatera indexet. Den första kan kallas on-the-fly indexkorrigering med hjälp av en sidändringstabell. Kärnan i denna lösning är ganska enkel: den gamla indexposten hänvisar till den nya, som används under sökningen. När antalet sådana länkar blir tillräckligt för att kännas under en sökning sker en fullständig uppdatering av indexet - det startas om. Sökeffektiviteten i varje specifikt informationshämtningssystem bestäms enbart av indexarkitekturen. Som regel är sättet som dessa arrayer är organiserade på "företagets hemlighet" och dess stolthet. För att verifiera detta, läs bara OpenText-materialet.

Systemets språk för informationshämtning

Indexet är bara en del av sökmotorn, dolt för användaren. Den andra delen av denna apparat är informationshämtningsspråket (IRL), som låter dig formulera en begäran till systemet i en enkel och visuell form. Romantiken med att skapa ett främmande språk som ett naturligt språk har länge lämnats bakom sig - det var detta tillvägagångssätt som användes i Wais-systemet i de första stadierna av dess implementering. Även om användaren uppmanas att ange frågor på naturligt språk, betyder det inte att systemet semantiskt kommer att analysera användarens fråga. Livets prosa är att en fras vanligtvis är uppdelad i ord, från vilka förbjudna och vanliga ord tas bort, ibland normaliseras ordförrådet, och då kopplas alla ord ihop antingen med logiskt OCH eller ELLER. Så en fråga som:

>Programvara som används på Unix-plattformen

kommer att konverteras till:

>Unix OCH plattform OCH programvara

vilket skulle betyda ungefär så här: " Hitta alla dokument där orden Unix, Platform och Software förekommer samtidigt".

Varianter är också möjliga. Således, på de flesta system kommer frasen "Unix Platform" att kännas igen som nyckelfras och kommer inte att delas upp i enskilda ord. Ett annat tillvägagångssätt är att beräkna graden av närhet mellan frågan och dokumentet. Detta är precis det tillvägagångssätt som används i Lycos. I detta fall, i enlighet med vektormodellen för att representera dokument och frågor, beräknas deras närhetsmått. Idag är ett tiotal olika närhetsmått kända. Det vanligaste är cosinus för vinkeln mellan dokumentets sökbild och användarens begäran. Vanligtvis utfärdas dessa procentandelar av dokumentöverensstämmelse med begäran som referensinformation med en lista över hittade dokument.

Alta Vista har det mest utvecklade frågespråket bland moderna system för informationshämtning på Internet. Förutom den vanliga uppsättningen OCH, ELLER, INTE, låter det här systemet dig också använda NÄRA, vilket låter dig organisera en kontextuell sökning. Alla dokument i systemet är indelade i fält, så förfrågan kan indikera i vilken del av dokumentet användaren hoppas kunna se nyckelordet: länk, titel, abstrakt, etc. Du kan också ställa in fältet för utfärdanderankning och kriteriet för dokumentens närhet till begäran.

Systemgränssnitt

En viktig faktor är typen av presentation av information i gränssnittsprogrammet. Det finns två typer av front-end-sidor: frågesidor och sökresultatsidor.

När du skapar en begäran till systemet används antingen en menyorienterad metod eller kommandoraden. Den första låter dig ange en lista med termer, vanligtvis åtskilda med ett mellanslag, och välja typ av logisk koppling mellan dem. Den logiska kopplingen gäller alla termer. Diagrammet i figuren visar användarens sparade frågor – i de flesta system är detta bara en fras i FP, som kan utökas genom att lägga till nya termer och logiska operatorer. Men det här är bara ett sätt att använda sparade frågor, som kallas frågeexpansion eller frågeförfining. För att utföra denna operation lagrar ett traditionellt informationshämtningssystem inte frågan som sådan, utan sökresultatet - en lista med dokumentidentifierare, som kombineras/korsas med listan som erhålls när man söker efter dokument med nya termer. Tyvärr praktiseras inte att spara en lista med identifierare för hittade dokument i WWW, vilket orsakades av det speciella med protokollen för interaktion mellan klientprogrammet och servern, som inte stöder sessionsläge.

Så resultatet av en sökning i IRS-databasen är en lista med pekare till dokument som uppfyller begäran. Olika system presentera denna lista på olika sätt. Vissa tillhandahåller bara en lista med länkar, medan andra, som Lycos, Alta Vista och Yahoo, också ger en kort beskrivning, som är hämtad antingen från rubrikerna eller från själva dokumentet. Dessutom rapporterar systemet hur väl det hittade dokumentet matchar begäran. Hos Yahoo, till exempel, är detta antalet frågetermer som finns i PML, enligt vilka sökresultatet rankas. Lycos-systemet ger ett mått på dokumentets överensstämmelse med frågan, som används för att rangordna det.

När du granskar gränssnitt och sökverktyg kan du inte ignorera proceduren för att korrigera frågor efter relevans. Relevans är ett mått på att ett dokument som hittats av systemet överensstämmer med användarens behov. Det finns en skillnad mellan formell och verklig relevans. Den första beräknas av systemet och på grundval av vilken urvalet av hittade dokument rangordnas. Den andra är användarens bedömning av de dokument som hittats. Vissa system har ett specialfält för detta, där användaren kan markera dokumentet som relevant. Vid nästa sökiteration utökas frågan med villkoren i detta dokument och resultatet rankas igen. Detta händer tills stabilisering sker, vilket innebär att du inte kommer att uppnå något bättre än det resulterande provet från detta system.

Förutom länkar till dokument kan listan som användaren mottar innehålla länkar till delar av dokument eller deras fält. Detta händer när det finns länkar som http://host/path#mark eller länkar som använder WAIS-schemat. Länkar till skript är också möjliga, men robotar missar vanligtvis sådana länkar, och systemet indexerar dem inte. Om allt är mer eller mindre tydligt med http-länkar, så är WAIS-länkar mycket mer komplexa objekt. Faktum är att WAIS implementerar arkitekturen för ett distribuerat informationshämtningssystem, där ett informationshämtningssystem, till exempel Lycos, bygger en sökmotor ovanpå sökmotorn i ett annat system - WAIS. WAIS-servrar har dock sina egna lokala databaser. När du laddar upp dokument till WAIS kan administratören beskriva strukturen på dokumenten, dela upp dem i fält och lagra dokumenten som en enda fil. WAIS-indexet kommer att referera till enskilda dokument och deras fält som oberoende lagringsenheter. Internetresurswebbläsaren måste i detta fall kunna arbeta med WAIS-protokollet för att komma åt dessa dokument.

Slutsats

Översiktsartikeln undersökte huvudelementen i system för informationshämtning och principerna för deras konstruktion. Idag är informationshämtningssystem den mest kraftfulla mekanismen för att söka nätverksinformationsresurser på Internet. Tyvärr, i den ryska sektorn av Internet finns det inte ännu aktivt lärande detta problem, möjligen med undantag för LIBWEB-projektet, finansierat av den ryska stiftelsen för grundforskning och spindelsystemet, som inte fungerar tillräckligt tillförlitligt. VINITI har förvisso den största erfarenheten av att utveckla den här typen av system, men här är arbetet fortfarande fokuserat på att distribuera sina egna resurser på Internet, vilket skiljer sig fundamentalt från system för informationshämtning på Internet som Lycos, OpenText, Alta Vista, Yahoo, InfoSeek, etc. Det verkar som om ett sådant arbete skulle kunna koncentreras inom ramen för projekt som Russia On-line av SovamTeleport, men här ser vi fortfarande länkar till andras sökmotorer. Utvecklingen av IPS för Internet i USA började för två år sedan, givet inhemska verkligheten och takten i utvecklingen av internetteknik i Ryssland, kan vi hoppas att vi fortfarande har allt framför oss.

Litteratur

1. J. Salton. Dynamiska bibliotek och informationssystem. Mir, Moskva, 1979.
2. Frank G. Halasz. Reflektionskort: sju nummer för nästa generation av hypermediasystem. Kommunikation av acm, V31, N7, 1988, s.836-852.
3. Tim Berners-Lee. World Wide Web: Förslag till HyperText Project. 1990.
4. Alta Vista. Digital Equipment Corporation, 1996.
5. Hjärna Pinkerton. Hitta vad människor vill ha: Erfarenheter med WebCrawler.
6. Bodi Yuwono, Savio L.Lam, Jerry H.Ying, Dik L.Lee. .
7. Martin Bartschi. En översikt över ämnen för informationsinhämtning. IEEE Computer, N5, 1985, s.67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Webagentrelaterad forskning vid Center for Machine Translation.
9. Ian R. Winship. Sökverktyg för World Wide Web - en utvärdering . VINA (99).
10. G. Salton, C. Buckley. Term-weighting-metoder i automatisk texthämtning. Information Processing & Management, 24(5), s. 513-523, 1988.
11. Open Text Corporation släpper branschens högpresterande texthämtningssystem.

Pavel Khramtsov ([e-postskyddad]) - oberoende expert, (Moskva).



Internet är bekant för en typisk invånare i en modern stad, men detta tillstånd föregicks av en ganska lång och svår väg bildandet och utvecklingen av teknologier som gjorde det möjligt att säkerställa utbyggnaden av World Wide Web på en global skala. Vilka är dessa lösningar? Hur utvecklades det i Ryssland?

Definition av Internet

Internet som ett globalt informationssystem är ett datornätverk vars noder är distribuerade över hela världen och är logiskt sammankopplade genom användning av ett speciellt adressutrymme. Funktionen av detta globala nätverk är möjlig främst på grund av enandet av kommunikationsstandarder: till exempel används TCP/IP som den huvudsakliga, implementerad på samma sätt på alla datorer som är anslutna till World Wide Web.

I sin moderna form har Internet som ett globalt informationssystem funnits i cirka 30 år. Men vid tidpunkten för dess uppkomst var infrastrukturen på grundval av den utplacerad World Wide Web, var ganska utvecklad i många länder i världen.

Det kommer att vara användbart att överväga hur den byggdes i vissa stater. Det är anmärkningsvärt att historien om utvecklingen av infrastruktur, på grundval av vilken det moderna Internet började byggas, praktiskt taget sammanfaller med perioden av konfrontation mellan världens två största tekniska system - västerländska och sovjetiska. Naturligtvis är detta en mycket förenklad klassificering, eftersom både inom det första systemet och det andra utvecklades regionala och nationella tekniker aktivt, mycket olika i ett antal fall.

I slutändan blev den västerländska modellen grunden för utvecklingen av det moderna internet - men när det introducerades i Sovjetunionen hade sovjetiska specialister redan erfarenhet av att distribuera datornätverk som liknade den västerländska internetmodellen. Låt oss därför överväga hur World Wide Web utvecklades inom ramen för det västerländska tekniska systemet, liksom när Internet dök upp i Ryssland baserat på detaljerna i utvecklingen av den nationella datornätverksinfrastrukturen.

Internets historia i västerländska länder

I slutet av 50-talet, under en av de svåraste perioderna av det kalla kriget, satte den amerikanska regeringen en uppgift för amerikanska forskare: att skapa en dataöverföringsinfrastruktur som skulle kunna fungera även i en global väpnad konflikt. Forskare föreslog konceptet med ett sådant system - projektet kallades ARPANET.

1969 nätverkades datorerna vid flera stora amerikanska universitet med hjälp av system som utvecklades av forskare som en del av detta projekt. Därefter antogs forskarnas erfarenhet av många andra intresserade strukturer: detta ledde till tillväxten av datornätverk som fungerar enligt ARPANET-standarder på nationell nivå.

Dök upp och specialiserade program för denna infrastruktur: till exempel, redan 1971, skrevs programvara för ARPANET för att skicka meddelanden. Faktum är att vi talar om utseendet på det första e-postmeddelandet - huvudfunktionerna på Internet inkluderar idag fortfarande organisationen av datautbyte i lämpligt format. På 70-talet var e-post, enligt forskare, den mest populära funktionen som användes inom det amerikanska projektet.

Gradvis utökades omfattningen av ARPANET utanför USA: olika europeiska organisationer började ansluta till nätverket. Kommunikation med amerikansk infrastruktur organiserades genom en telefonkabel som lades över Atlanten.

Faktum är att från det ögonblick som européer anslutit sig till ARPANET, särskilt 1973, började brittiska och norska organisationer organisera datautbyte med nätverket, och projektet blev internationellt. Kommunikation mellan datorer som finns i olika delar av planeten var dock inte alltid stabil på grund av bristen på allmänt accepterade standarder för datautbyte.

Motsvarande problem eliminerades efter implementeringen av det universella TCP/IP-protokollet. Det används fortfarande av nästan alla internetresurser.

När TCP-IP introducerades var det amerikansk-europeiska nätverket mer sannolikt interregionalt än globalt - trots att det 1983 tilldelades namnet "Internet". Men dess vidare utveckling gick snabbt. Denna process bidrog till uppfinningen av DNS-standarden 1984 - på grundval av den började domännamnstjänsten fungera. Det kan noteras att ARPANET-projektet samma år hade en allvarlig konkurrent i form av nätverket NSFNet, som förenade datorer från olika universitet.

NSFNet som infrastrukturbasen för Internet

NSFNet-infrastrukturen gjorde det möjligt att ge betydligt högre dynamik. Samtidigt växte den i den mest aktiva takten. Så småningom började det växande nätverket NSFNet kallas "Internet". 1988 blev dess resurser möjliga att använda för att organisera omedelbar överföring av meddelanden i chattformat - med hjälp av IRC-protokollet.

1989 utvecklade den brittiske vetenskapsmannen Tim Berners-Lee konceptet med ett globalt datornätverk, World Wide Web. Under de kommande två åren skapar han hypertextöverföringsprotokollet - HTTP, HTML-språket och URL-identifierare. Enligt många forskare var det tack vare Tim Berners-Lees uppfinningar som Internet som ett globalt informationssystem började sin snabba marsch över planeten.

Dessa standarder, såväl som det universella TCP/IP-protokollets möjligheter, har gjort det möjligt att skala World Wide Web på en global skala i en gigantisk takt. I början av 90-talet, de grundläggande Internet-funktioner tillgängliga moderna användare: komma åt webbsidor via webbläsare, lägga upp information om dem, ta emot och överföra filer. Naturligtvis förblev de efterfrågade e-posttjänster, IRC.

Förbättrad Xia hypertextspråk, teknik för webbhantering. Servrar har länge använts som infrastrukturbasen för Internet. NSFNet men 1995 denna funktion var överförd nätverksleverantörer. 1996 blev det utbrett WWW standard genom vilken det var möjligt att överföra nästan vilken data som helst med hjälp av internetkanaler. Men standarden har också behållit sin relevans FTP. Och idag mångaInternetresurserfortsätt att använda det för att organisera effektivt filutbyte.

I vår vanliga form World Wide Web bildades i allmänhet i början av 2000-talet. När hastigheten för användarnas tillgång till onlineresurser ökade på grund av tekniker som DSL, optisk fiber, 3G, 4G, blev resurser för värd för videoinnehåll, som YouTube, spelportaler och molntjänster, särskilt populära. Genom Internet organiseras inte bara datautbyte mellan människor, utan också mellan olika enheter – från enkla hushållsartiklar till stor industriell infrastruktur. Existerar Ett stort antal vetenskapliga begrepp om hur Internet kommer att utvecklas som ett globalt informationssystem i framtiden. De är mycket olika, och deras genomförande beror till stor del på framstegen i utvecklingen av själva datortekniken.

Historia om Internet i Ryssland

Låt oss nu studera när Internet dök upp i Ryssland. Vi har blivit bekanta med den västerländska modellen för utveckling av onlinekommunikation nu är det viktigt för oss att förstå hur motsvarande infrastruktur implementerades i vårt land.

Som vi noterade i början av artikeln utvecklades informationsteknologier i Sovjetunionen under lång tid parallellt med västerländska. Det bör noteras att deras utveckling i stor utsträckning blev möjlig tack vare uppkomsten av resurser i Sovjetunionen för reproduktion av den västerländska mikroprocessorbasen, som började implementeras aktivt på olika nivåer av kommunikationshantering på 60-70-talet , även om sovjetiska vetenskapsmän innan dess hade mycket progressiva utvecklingar på egen hand. Men på ett eller annat sätt kan essensen av Internet i den västerländska tolkningen skilja sig avsevärt från koncepten för utvecklingen av datornätverk i Sovjetunionen.

Redan på 1950-talet bildade sovjetiska forskare datornätverk som en del av projekt för att skapa missilförsvarsinfrastruktur. Dessa nätverk var baserade på sovjetiska datorer som "Diana-I", "Diana-II" och andra lösningar. Utbytet av information mellan motsvarande datorer utfördes för att beräkna flygbanan för interceptormissilerna.

På 1970-talet användes datornätverk aktivt inom den civila sfären – i synnerhet som infrastruktur inom system som ASU-Express och Siren, vilket gjorde det möjligt att reservera järnvägs- respektive flygbiljetter. 1974 uppfanns KOI-8-datorkodningen.

Under första hälften av 80-talet började VNIIPAS-institutet utföra fjärrdatautbyte med utländska organisationer med hjälp av datorer. I allmänhet, på 80-talet, var utbyggnaden av sovjetiska nätverksdatorsystem ganska aktiv, till stor del på grund av uppkomsten av lokaliserade versioner av operativsystemet i Sovjetunionen UNIX (på de principer som moderna Linux-operativsystem fungerar och i sin tur Android-operativsystem baserade på det, som kan klassificeras som det vanligaste i världen, om vi tar marknaden för mobila enheter). Faktum är att 1990 hade Sovjetunionen skapat all nödvändig infrastruktur för det efterföljande enandet av sovjetiska datornätverk och Internet, som fungerade på basis av NSFNet-resurser.

"RELCOM" - nationellt datornätverk

All-Union datornätverk"RELCOM", som använder Internetprotokoll och teknologier. Kommunikation mellan datorer sker via telefonkanaler. Den viktigaste rollen i att bygga denna infrastruktur spelades av utvecklarna av kooperativet Demos, som utvecklade olika mjukvarulösningar.

I augusti 1990 tog forskare från universitetet kontakt med Helsingfors universitet för att säkerställa att e-postöverföringskanalerna fungerar på själva Internet. I september 1990 registrerade specialister från RELCOM, såväl som från företaget Demos, domänen Soviet Union.Su, som fortfarande används - och det finns versioner som kommer att växa i popularitet.

I Sovjetunionen, tillsammans med RELCOM, utvecklas FIDO-användarnätverk. År 1991 blev resurser med domänadressering tillgängliga för sovjetiska användare som ansluter till RELCOM, precis som på det moderna Internet. 1992 dök de första leverantörerna upp i Ryska federationen.

Användningen av den internationella TCP/IP-standarden i Ryssland blir utbredd. I april 1994 registrerades den nationella domänen .Ru. Sedan dess har Internet i Ryssland utvecklats generellt på samma sätt som i västländer. Samtidigt gav ryska specialister också ett betydande bidrag till utvecklingen av World Wide Web, särskilt när det gäller utveckling av antivirus- och serverlösningar.

Så vi har studerat hur Internet fungerar, funktionerna i utvecklingen av relevant kommunikationsteknik i Ryssland och väst. Låt oss nu studera vad World Wide Web är idag.

Modernt Internet: leverantörer

Internetåtkomst för användare tillhandahålls av leverantörer. Låt oss studera detaljerna i de problem de löser.

Vem är en Internetleverantör? Under de första åren av utvecklingen av World Wide Web ansågs detta vara ett företag som tillhandahöll växlingstjänster för att säkerställa kommunikation mellan användaren och närliggande internetservrar. Nu är leverantören en leverantör av högteknologiska kommunikationsresurser som säkerställer drift i regional och ibland nationell skala. Företag som tillhandahåller relevanta tjänster kan antingen vara mycket stora, internationella eller lokala, som kan verka i en stads skala.

Det finns ett stort antal tekniker genom vilka leverantörer kan tillhandahålla sina tjänster: optiska kanaler och telefonkanaler, satellit, mobilt internet. Var och en av dem har sina egna fördelar och nackdelar. Internetpriser som fastställs av leverantören beror till stor del på vilka kanaler som används. Som regel är de mest prisvärda för användaren trådbundna kanaler, lite dyrare - mobil och den dyraste - satellit. I detta fall kan betalning för leverantörens tjänster göras:

  • i form av en prenumerationsavgift;
  • för trafik;
  • i vissa fall - under åtkomst till nätverket.

Internets roll i modern världär i första hand att ge användarna möjlighet att besöka olika sajter.

Modernt Internet: webbplatser

En webbplats som är värd på Internet är en samling filer (text, grafik, video- och ljudinspelningar som innehåller andra multimediakomponenter), som nås via protokoll som WWW, HTTP, FTP och andra, som är optimala i ett särskilt fall. Naturligtvis är dessa filer systematiserade på ett visst sätt för att underlätta användarens uppfattning av information.

Det huvudsakliga systemelementet på webbplatsen är webbsidan. I de flesta fall sammanställs den på HTML-språk, använder ofta olika manus. Webbplatsen kan ha olika teman. Det kan vara en onlinetidning, blogg, videovärd, sport, underhållningsportal - det finns ett stort antal typer av resurser som kan läggas ut på World Wide Web.

Modernt internet: radio och tv

Vi noterade ovan att när kommunikationsteknik utvecklas och dataöverföringshastigheterna ökar, blir olika videoresurser på Internet allt populärare. Detta kan till exempel betraktas som internet-tv, såväl som nätradio. Dessa tekniker gör det möjligt att sända TV- och radioprogram på speciella sajter med hjälp av speciell teknik.

Det är anmärkningsvärt att många av moderna tjänster tillåta alla användare att organisera sin egen sändning. Internet-tv, med tanke på förekomsten av höghastighetslinjer, är inte längre ett privilegium, utan en vanlig resurs. Vilket samtidigt kan kräva betydande investeringar (arbetskraft, ekonomi) från användarna i marknadsföring och utveckling. Detsamma kan sägas om webbplatser. En onlinetidning eller underhållningsportal kan registreras av alla intresserade användare, men att förvandla den till ett igenkännbart varumärke är ingen lätt uppgift.

Modernt internet: mobilapplikationer

En av de mest uttalade trenderna i utvecklingen av det moderna Internet kan anses vara den utbredda spridningen av mobilapplikationer— speciell programvara som lanseras från smartphones eller surfplattor. Funktionellt kan dessa applikationer i många fall likna webbsidor. Men det finns också specialiserade lösningar av motsvarande typ, till exempel anpassade för att organisera säker tillgång till ett personligt konto, till exempel ett bankkonto. Internet är idag en kommunikationsmiljö inom vilken nästan all digital data kan överföras, och i många fall kräver detta användning av speciella protokoll och teknologier, inklusive de som implementeras i mobila applikationer.

Sammanfattning

Så vi har studerat vad konceptet med World Wide Web är, liksom de viktigaste teknikerna som används för att säkerställa dess funktion. Kärnan i Internet — genom att ge användare från hela världen stabil och billig tillgång till olika typer användbar information, filer, multimediainnehåll, samt resurser genom vilka människor kan kommunicera med varandra och utbyta olika data. En sådan möjlighet är nu bekant för invånare i förmodligen alla länder i världen, även om den tidigare var tillgänglig för väldigt få människor, kunde den bara användas om man hade höga kvalifikationer inom informationsteknologi.

Vem är en internetleverantör, vilken kan du ansluta till och till vilket pris är frågor som en typisk invånare i en modern metropol nästan säkert kommer att veta svaren på. World Wide Web fortsätter att utvecklas: nya tjänster, teknologier, koncept för att organisera användarkommunikation dyker upp och enheter för dataöverföring förbättras. Hur tekniska framsteg kommer att fortgå, hur världsekonomin kommer att utvecklas, kommer att avgöra vektorerna för ytterligare utveckling Internet.