Informasjonsinnhentingssystemer Internett. Etablering av nært samspill med distribusjonsnettverket, kontroll over hele forsyningskjeden. Internetts historie i vestlige land

Jukseark om informasjonslov Yakubenko Nina Olegovna

39. ORDEN FOR OPPRETTELSE OG ANVENDELSE AV INFORMASJONSSYSTEMER OG DERES NETTVERK. INFORMASJONSKOMMUNIKASJONSSYSTEMER: INTERNETT, E-POST, DIGITAL KOMMUNIKASJON OG ANNET

Som du vet, kalles Internett også World Wide web(WWW) - "over hele verden informasjonsnett". Og ikke bare et nett, men et nett som inkluderer mange databaser og databanker.

Det er med andre ord en distribuert verdensomspennende kunnskapsbase som inkluderer mange forskjellige informasjonsmatriser (informasjonsressurser, databaser eller kunnskap), bestående av dokumenter, data, tekster, sammenkoblet av en grenseoverskridende teeller nettverk.

Dette verdensomspennende informasjonsnettet er dannet på grunnlag av utallige datamaskiner (datautstyr) forskjellige typer og formålet, programvaren, informasjonsressurser, kommunikasjon og telekommunikasjon, gjennom hvilken informasjon overføres og mottas.

Settet med informasjonsmatriser på World Wide Web er, som det var, gjennomsyret av tallrike "hypertekst"-lenker. Hver slik forbindelse "kobler sammen" alle tekstpunkter eller grafiske dokumenter WWW eller dokumentelementer. De presenteres i HTML-format(Hiper Text Markup Laguage) og kan bestå av tekst- og grafiske fragmenter, designelementer, individuelle data og andre lignende strukturer.

Internett inkluderer og sikrer at det fungerer mange leverandører (fag som leverer informasjonstjenester til Internett-brukere), servereiere (datamaskiner som er vert for informasjonslagre) og til slutt Internett-tjenestebrukere og informasjonsforbrukere.

Som et resultat av dette skaper utviklingen av telekommunikasjonssystemer, globale nettverk og interaktive midler for å spre informasjon muligheten for en individuell bruker tilgang til praktisk talt ubegrensede informasjonsmatriser. Dermed skapes et elektronisk informasjonsrom i verden.

På begynnelsen av 90-tallet. den tidligere presidenten i Appje D. Skulde og andre eksperter fremmet ideen om navigering i et enkelt åpent informasjonsrom - "kunnskapsnavigering". Så åpen informasjonsrom og Internett ble.

Er det mulig å kalle et så komplekst world wide web, kalt "Internett", et automatisert informasjonssystem? For å gjøre dette, la oss gå tilbake til definisjonen vedtatt av lovgiveren.

Den føderale loven "om informasjon, informatisering og informasjonsbeskyttelse" definerer konseptet " Informasjon System"- et organisatorisk ordnet sett med dokumenter (arrays av dokumenter) og informasjonsteknologier, inkludert bruk av datateknologi som implementerer informasjonsprosesser" (art. 2).

Denne artikkelen gir også en definisjon av begrepet "midler for å tilby automatiserte informasjonssystemer og deres teknologier - programvare, tekniske, språklige, juridiske, organisatoriske midler (programmer for elektroniske datamaskiner; datateknologi og kommunikasjon; ordbøker, synonymordbøker og klassifiserere; instruksjoner og teknikker ; forskrifter, charter, stillingsbeskrivelser; diagrammer og deres beskrivelser, annen operasjonell og medfølgende dokumentasjon) brukt eller opprettet i utformingen av informasjonssystemer og sikre deres drift.

Fra boken Tollkodeks for den russiske føderasjonen forfatter Lover i den russiske føderasjonen

Artikkel 424. Sertifisering av informasjonssystemer, informasjonsteknologier, midler for deres støtte og beskyttelse

Fra boken Tollkodeks for den russiske føderasjonen forfatteren Statsdumaen

Artikkel 424. Sertifisering av informasjonssystemer, informasjonsteknologier, midler for deres støtte og beskyttelse

Fra boken Byplanleggingskode Den russiske føderasjonen... Tekst med endringer og tillegg for 2009 forfatteren forfatter ukjent

Artikkel 57. Prosedyren for å opprettholde informasjonssystemer for å sikre byplanleggingsaktiviteter og gi informasjon om informasjonssystemer for å støtte byplanleggingsaktiviteter 1. Vedlikeholde informasjonssystemer for å støtte byplanleggingsaktiviteter

Fra boken Tollkodeks for den russiske føderasjonen. Tekst med endringer og tillegg for 2009 forfatteren forfatter ukjent

ARTIKKEL 424. Sertifisering av informasjonssystemer, informasjonsteknologier, midler for deres støtte og beskyttelse

Fra boken Criminal Code of Ukraine i vitser forfatter Kivalov SV

Seksjon XVI FORBROTTELSER PÅ FELTEN BRUK AV ELEKTRONISKE DATAMASKINER (DATORER, SYSTEMER OG DATANETTVERK OG NETTVERK

Fra boken Kommentar til reglene for levering av kommunikasjonstjenester forfatteren Sukhareva Natalia Vladimirovna

Artikkel 361. Uautorisert interferens med driften av elektroniske datamaskiner (datamaskiner), automatiserte systemer, datanettverk eller telekommunikasjonsnettverk 1. Uautorisert interferens med driften av elektroniske datamaskiner (datamaskiner),

Fra boken Cheat Sheet on Information Law forfatteren Yakubenko Nina Olegovna

III. Prosedyren for å koble til fjernsyns- og radiokriog deres samhandling med kringtil en operatør for krisom har en viktig stilling. Kommentarer til paragraf 14 Registeret opprettholdes i den form som er fastsatt av Informasjons- og kommunikasjonsdepartementet.

Fra boken European Union Law forfatteren Kashkin Sergey Yurievich

17. INFORMASJON JURIDISKE FORHOLD SOM OPPSTÅR NÅR DE SØKER, INNHETER OG FORBRUKER INFORMASJON, INFORMASJONSRESSURSER, INFORMASJONSPRODUKTER, INFORMASJONSTJENESTER Slike rettigheter og plikter oppstår for informasjonsforbrukere som opererer i

Fra forfatterens advokateksamen

18. INFORMASJON JURIDISKE FORHOLD SOM OPPSTÅR UNDER PRODUKSJON, OVERFØRING OG DISTRIBUSJON AV INFORMASJON, INFORMASJONSRESSURSER, INFORMASJONSPRODUKTER, INFORMASJONSTJENESTER Arten og egenskapene til rettighetene og forpliktelsene som oppstår fra produksjon, overføring og

Fra boken Reskontrostyring forfatteren Brunhild Svetlana Gennadievna

19. INFORMASJON JURIDISKE FORHOLD SOM OPPSTÅR UNDER OPPRETTELSE OG ANVENDELSE AV INFORMASJONSSYSTEMER, DERES NETTVERK, FASILITETER OG INFORMASJONSSIKKERHETSMEKANISMER Informasjonsrettslige forhold som oppstår fra implementeringen av slike informasjonsprosesser,

Fra forfatterens bok

52. JURIDISK REGIME FOR INFORMASJONSSYSTEMER, INFORMASJONSTEKNOLOGIER OG MIDLER FOR DERES STØTTE De viktigste kildene til juridisk regulering av forhold innen opprettelse og bruk av automatiserte informasjonssystemer,on

Fra forfatterens bok

53. PROSEDYRE FOR UTVIKLING OG IMPLEMENTERING AV INFORMASJONSSYSTEMER, TEKNOLOGIER OG STØTTEMIDLER Forhold som oppstår fra utvikling og implementering av informasjonssystemer, teknologier og midler for deres støtte er styrt av normene i den russiske føderasjonens sivile kode (kapittel 38 "Implementering"

Fra forfatterens bok

54. STATSPOLITIKK PÅ FELTET FOR OPPRETTELSE AV INFORMASJONSSYSTEMER, INFORMASJONSTEKNOLOGIER OG DERES MIDLER TIL Å STØTTE DERES

Fra forfatterens bok

149. Hvordan er elektronisk digital signatur regulert i EU-retten? I desember 1999 vedtok Europaparlamentet sammen med rådet direktivet om bruk av elektroniske signaturer i Det europeiske fellesskap. I samsvar med art. 2 direktiver

Fra forfatterens bok

Spørsmål 50. Referanserettssystemer, informasjon Internett-ressurser i arbeidet til en advokat. Legal Reference Systems (SPS) er datadatabaser som inneholder tekster til regulatoriske rettsakter, avgjørelser fra høyere rettsinstanser, materiale fra rettspraksis,

1

For tiden i vår dynamisk utvikling informasjonsverden Av spesiell betydning er evnen til å ta rettidige og riktige beslutninger, som er umulige uten å samle inn, behandle, lagre, analysere en stor mengde informasjon og gi brukeren resultatene av behandlingen deres. En av disse oppgavene er å umiddelbart identifisere nettsteder på Internett som inneholder informasjon, hvis spredning er forbudt i Russland. Listen over denne informasjonen er presentert i del 2 av art. 15.1 i den føderale loven av 27. juli 2006 nr. 149-FZ "Om informasjon, informasjonsteknologi og informasjonsbeskyttelse". Denne artikkelen diskuterer konstruksjonen av et informasjons- og analysesystem designet for operasjonelt søk etter informasjon på Internett, hvis distribusjon er forbudt i Russland. Det foreslås en tilnærming til konstruksjon av informasjonssystemer som søker etter informasjon i offentlige nettverk og behandler en stor mengde heterogene ustrukturerte data, som presenteres i forskjellige formater: tekst som inneholder fragmenter fra flere dokumenter; lyd- og videoopptak; bilder (fotografier og tegninger).

dataanalyse

informasjonsinnhentingssystemer

ustrukturerte data

2. Erokhin G.N., Druzhinin V.A., Tsaregorodtsev A.L., Makhneva T.V., Ogorodnikov I.N., Kartashev E.A. Telemedisin av utsatte konsultasjoner om eksemplet med nordlige regioner // Informasjonsmåling og kontrollsystemer. - 2009. - T. 7. - Nr. 12. - S. 49–53.

3. Zelenkov Yu.G., Segalovich I.V. Komparativ analyse metoder for å bestemme uklare duplikater for WEB-dokumenter // Elektroniske biblioteker: avanserte metoder og teknologier, elektroniske samlinger: forhandlinger fra den 9. all-russiske vitenskapelige konferansen RCDL'2007: Lør. verkene til deltakerne i konkurransen. - T. 1. - Pereslavl-Zalessky: "Universitetet i byen Pereslavl", 2007. - s. 166-174.

4. Kartashev E.A., Samkov L.M. Online informasjonsanalytisk system for overvåking av livsstøtteindikatorer for territorielle objekter. Forvaltning av store systemer: en samling verk. - 2009. - Nr. 24. - S. 112–129.

5. Makunin, Alexey Anatolyevich. Teknologien for å bygge modulære automatiserte informasjonssystemer for komplekse fagområder og dens anvendelse ved eksempel informasjonsstøtte system for kommunal orden av lokale selvstyreorganer: dis. ... Cand. tech. Naturfag: 05.13.11. - Tomsk, 2005 .-- 228 s.

For øyeblikket, i vår dynamisk utviklende informasjonsverden, er evnen til å ta rettidige og riktige beslutninger av spesiell betydning, som er umulige uten å samle inn, behandle, lagre, analysere en stor mengde informasjon og gi resultatene av behandlingen deres til brukeren.

En av disse oppgavene er å umiddelbart identifisere nettsteder på Internett som inneholder informasjon, hvis spredning er forbudt i Russland. Listen over denne informasjonen er presentert i del 2 av art. 15.1 i den føderale loven av 27. juli 2006 nr. 149-FZ "Om informasjon, informasjonsteknologi og informasjonsbeskyttelse". Ofte presenteres slik informasjon på nettsteder på Internett, som kan variere betydelig både i teknologiene som brukes i dem og i deres funksjonalitet. I sin tur er informasjonen ikke strukturert og kan presenteres i ulike formater: tekst som inneholder fragmenter fra flere dokumenter; lyd- og videoopptak; bilder (fotografier og tegninger).

Det finnes en rekke informasjonssystemer på markedet som utfører tilsvarende databehandling og brukes på andre områder, men informasjon om deres struktur og anvendte databehandlingsmetoder opplyses ikke. Ofte leveres de ved hjelp av SaaS-teknologi (engelsk programvare som en tjeneste), noe som er uakseptabelt gitt detaljene til dataene som behandles.

Formålet med dette arbeidet er å foreslå strukturen til et informasjonssystem som gir mulighet til raskt å motta ustrukturert informasjon fra en lang rekke forskjellige sider på Internett og lagre den for senere behandling, samtidig som det skal gi mulighet for å øke volum av behandlede data ved å øke mengden utstyr som brukes (horisontal skalering) og bruk av servermaskinvare med lav ytelse.

Utviklingen av et automatisert informasjonssystem for å søke og analysere informasjon på Internett (heretter referert til som AIS-søk) ble utført ved Yugorsk Research Institute of Information Technologies og er ment: å samhandle med nettsteder på Internett; lagre og analysere den innsamlede informasjonen; gi resultater av informasjonsbehandlingen i form av rapporter til brukeren.

Interaksjon med nettsteder på Internett er rettet mot å samle inn første informasjon fra dem, sørger for arbeid i forespørsel-svar-modus på følgende områder: søk etter nødvendig informasjon på nettstedet; laste den funnet informasjonen inn i AIS-søk; oppdatere informasjonen som er lagret i AIS-søket, ved å sammenligne den med versjonen som ligger på Internett-siden (utføres etter et visst tidsintervall, bestemt under hensyntagen til informasjonsoppdateringen).

AIS-dataflytkontekstdiagramsøk

Lagring av den innsamlede informasjonen fra nettsteder på Internett gir mange inngangspunkter for innsamling og behandling av informasjon, og hver av dem kan samle inn og behandle data i henhold til sine egne unike regler.

På designstadiet ble det utviklet dataflytdiagrammer som beskriver de viktigste AIS-søkeprosessene og datastrømmene som sirkulerer i systemet. Figuren viser kontekstdiagrammet for AIS-søkedatastrømmene.

La oss vurdere prosessene til kontekstdiagrammet mer detaljert.

1. Dannelse av søkekriterier for dokumenter (søkeord, tematiske fraser, søkespørringer, eksempelbilder, fragmenter av lyd- og videoopptak) - kravene til innholdet i dokumenter som må finnes på informasjonsressurser som ligger på Internett bestemmes og lastes opp til databasen... Den første fyllingen utføres av operatøren, og deretter spesifiseres den i henhold til resultatene av analysen av dokumenter.

2. Dannelse av oppgaver for å søke etter dokumenter - modusen for å søke etter dokumenter på informasjonsressurser bestemmes, under hensyntagen til tilgjengelige evner, hyppigheten av å oppdatere informasjon og prioriteringene til brukeren. Den er dannet i form av en oppgave som den er bestemt for: starttid, informasjonsressurser, dokumentsøkekriterier.

3. Søk etter dokumenter - gir utførelse av oppgaver for søk etter dokumenter: en periodisk sjekk for tilstedeværelsen av oppgaver som krever lansering av dokumentsøk, utførelse av en dokumentsøkeoppgave innenfor hvilken, i henhold til antall spesifiserte søkekriterier for dokumenter og informasjonsressurser utføres et sett med handlinger:

a) dannelsen av en forespørsel om å innhente data til en informasjonsressurs basert på visse kriterier for søk etter dokumenter og dens syntaks;

b) sende en forespørsel om å motta data til en informasjonsressurs og vente på svar;

c) behandle svaret fra informasjonsressursen (skrive lenker til de funnet dokumentene til databasen).

4. Opplasting av dokumenter - gir opplasting av dokumentet ved hjelp av lenken som er funnet: sjekker tilgjengeligheten til dokumentet ved lenken som ble funnet; sammenligning av det opplastede dokumentet med den tidligere versjonen, hvis noen (sjekker for endringer) i databasen; skrive det innlastede dokumentet til databasen.

5. Dokumentanalyse - gir automatisk behandling av opplastede dokumenter: utvinning av objekter fra et dokument (strukturerte data: navn, posisjon, navn på territorier og stoffer, Kontaktinformasjon, arrangementer osv.); bestemmelse av arten av forbindelsen for de identifiserte objektene: objekt - subjekt, negativ - positiv, etc .; beregning av sannsynligheten for å tilskrive et dokument til ulike grupper av dokumenter som tidligere er definert av brukeren (dokumentklassifisering); identifikasjon av lignende dokumenter (ved å bruke metoder for å klassifisere objekter i grupper ved å identifisere tidligere ukjente fellestrekk (introdusert i 1939 av Robert Tryon)); avgrensning av søkekriterier for dokumenter basert på tidligere klassifiserte og grupperte dokumenter.

6. Generering av rapporter - forberedelse av data for visning for brukeren (utføre operasjoner som ikke kan utføres mens brukeren venter på AIS-søkesvaret).

7. Presentasjon av rapporter - presentasjon av data i form av rapporter basert på visse maler, under hensyntagen til brukerens preferanser, mens han får muligheten til å sette et filter for å velge dataene som er inkludert i det.

8. Verifikasjon av data - resultatene av dokumentanalysen bekreftes av brukeren: klassifisering, utpakkede objekter, etablerte lenker.

Basert på resultatene av å studere erfaringen med å bygge slike systemer, inkludert de presentert i, ble en modulær systemarkitektur valgt. Å bruke en modulær tilnærming som grunnlag for et slikt verktøysett gir mulighet for mer enn bare å bygge komplekse applikasjoner, samle dem fra "klossene", men også for å sikre deres utskiftbarhet for å avgrense programvare og utvide mulighetene til informasjonssystemer. Hovedfordelene med den modulære arkitekturen er ikke begrenset til dette. Nøkkeltrekkene til den valgte tilnærmingen til konstruksjonen av AIS Search inkluderer også muligheten for dens selektive layout, gjenbruk av en gang skrevet kode og utviklede klasser.

Generelt består strukturen til AIS-søket av følgende moduler:

Database (et sett med verktøy for lagring og tilgang til funnet data).

Brukergrensesnitt (gir verktøy for brukeren for å se tilgjengelige data og resultatene av behandlingen deres, samt kontrollere driften av hver av modulene).

Analyse undersystem (utfører behandling (klassifisering, definisjon av objekter og lenker) av de funnet data).

Datainnsamlingsundersystem (implementerer brukerdefinert algoritmen for drift av interaksjonsmodulene (lansering, dannelse av parametere) og sikrer lasting av data mottatt fra dem inn i databasen).

Interaksjonsmodul (sikrer mottak av data fra en spesifikk informasjonsressurs i samsvar med de angitte parametrene).

Alle disse innsamlede ustrukturerte dataene må analyseres raskt, noe som igjen er umulig uten riktig organisering av lagring av disse dataene. Trender de siste årene viser at moderne DBMS-er brukes til å lagre ustrukturerte data, og kombinerer fleksibiliteten til dokumentlagringsmodellen og strengheten og enkelheten til relasjonsmodellen.

For eksempel legger PostreSQL 9.2 til støtte for datatypen JSON (JavaScript Object Notation), og 9.3 legger til funksjoner for å behandle verdier i den. Den samme datatypen støttes nå i MySQL siden versjon 5.7.8. Lignende funksjonalitet er tilgjengelig i Oracle og MSSQL DBMS.

Det er flere tilnærminger til å lagre ustrukturerte data i informasjonssystemer:

Direkte i databasen, mens de fleste moderne DBMS gir en spesialisert datatype for dette: JSONB i PostgreSQL, CLOB i Oracle, etc .;

Utenfor databasen (i form av filer i de tilsvarende depotene), mens kun referanser til disse lagres i databasen. De største ulempene med dette alternativet er vanskelighetene med administrasjonen, og sikrer tilgjengeligheten og integriteten til dataene. I sin tur er fordelen med denne tilnærmingen muligheten til å bruke standardapplikasjoner på deres behandling (visning), reduserer det totale volumet av databasen (det er ikke nødvendig å tildele en stor mengde diskplass på ett sted), kan data lagres på et stort antall forskjellige servere med en liten mengde diskplass . I dag denne retningen støttes aktivt av DBMS-utviklere og det arbeides med å eliminere disse manglene, spesielt FileTables for arbeid med filer dukket opp i MS SQL Server 2012, og SecureFiles-parameteren for LOB-datatypen i Oracle.

Tatt i betraktning at den største delen (volumet) vil bli okkupert av ustrukturerte data, som det vil være behov for tilgang til av og til (på innlastingsstadiet for å trekke ut metadata og flere ganger for å demonstrere resultatene for brukeren), ble følgende struktur foreslått: Filserver - Access driver - DBMS.

Som filservere ble det besluttet å bruke servere som kjører gratis operativsystem Linux (Debian eller Astra Linux), og som Postgres DBMS, siden den er: fritt redistribuerbar, har utviklet verktøy for fulltekstsøk og kan sertifiseres for krav til informasjonssikkerhet, for eksempel som en del av Astra Linux-operativsystemet.

I samsvar med den foreslåtte tilnærmingen implementerte vi ved Yugorsk Research Institute of Information Technologies AIS-søk, som brukes av de kompetente avdelingene til Khanty-Mansiysk Autonomous Okrug - Yugra for å søke etter domenenavn, sidepekere i Internett-informasjon og telekommunikasjonsnettverk og nettverksadresser som tillater å identifisere nettsteder i informasjons- og telekommunikasjonsnettverk Internett som inneholder informasjon, hvis distribusjon er forbudt i den russiske føderasjonen.

For tiden er mer enn 75 tusen lenker behandlet, mer enn 21 tusen unike dokumenter er lastet opp til databasen. For 922 dokumenter ble det bestemt med høy grad av sannsynlighet at de inneholder informasjon, hvis spredning er forbudt i Den russiske føderasjonen, mer enn 75% av dem ble inkludert i det tilsvarende registeret, som vedlikeholdes av Roskomnadzor iht. Del 3 av art. 15.1 i den føderale loven av 27. juli 2006 nr. 149-FZ "Om informasjon, informasjonsteknologi og informasjonsbeskyttelse".

Under prøvedriften av AIS Poisk ble det mottatt positive vurderinger fra sluttbrukere, merker de også forutsigbarheten av utseendet til dokumenter i databasen, avhengig av de dannede søkekriteriene for dokumenter (resultatene ligner de som oppnås med manuelt søk) og en reduksjon i arbeidsintensiteten. Basert på resultatene ble det også anbefalt å sette AIS Search i kommersiell drift.

I fremtiden er det planlagt å utføre arbeid for å forbedre effektiviteten til brukere med AIS-søk, spesielt ved å gjøre endringer i brukergrensesnittet, redusere responstiden til systemet på brukerhandlinger på grunn av foreløpig dataforberedelse og øke hastigheten på databehandlingsalgoritmer. Det er også planlagt å gjennomføre arbeid med å sammenligne resultatene av dokumentklassifisering ved bruk av ulike algoritmer og metoder.

Bibliografisk referanse

E.A. Kartashev, A.L. Tsaregorodtsev AUTOMATISERT INFORMASJONSSYSTEM FOR SØK OG ANALYSE AV INFORMASJON PÅ INTERNETT // Grunnforskning. - 2016. - Nr. 10-2. - S. 296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (dato for tilgang: 06.04.2019). Vi gjør deg oppmerksom på tidsskriftene utgitt av "Academy of Natural Sciences"

17.03.1996 Pavel Khramtsov

Internett-brukere er godt klar over navnene på slike tjenester og informasjonstjenester som Lycos, AltaVista, Yahoo, OpenText, InfoSeek, etc. - uten tjenestene til disse systemene i dag er det praktisk talt umulig å finne noe nyttig i havet av informasjonsressurser på nettet. Hva er disse tjenestene fra innsiden, hvordan de er ordnet, hvorfor søkeresultatet i terabyte-matriser med informasjon utføres raskt nok og hvordan rangeringen av dokumenter er ordnet ved utstedelse - alt dette forblir vanligvis bak kulissene. Likevel, uten riktig planlegging av søkestrategien, kjennskap til hovedbestemmelsene i teorien om ISS (Information Retrieval Systems), som allerede har tjue års historie, er det vanskelig å effektivt bruke selv slike hurtigskytende tjenester som AltaVista eller Lycos . Arkitektur av moderne ISS for WWW Informasjonsressurser og deres presentasjon i ISS Søkeindeks Informasjonssøkespråk for systemet Systemgrensesnitt Konklusjon Referanser Internett-brukere er allerede godt klar over navnene på slike tjenester

Internett-brukere er godt klar over navnene på slike tjenester og informasjonstjenester som Lycos, AltaVista, Yahoo, OpenText, InfoSeek, etc. - uten tjenestene til disse systemene i dag er det praktisk talt umulig å finne noe nyttig i havet av informasjon ressurser på nettet. Hva er disse tjenestene fra innsiden, hvordan de er ordnet, hvorfor søkeresultatet i terabyte-matriser med informasjon utføres raskt nok og hvordan rangeringen av dokumenter er ordnet ved utstedelse - alt dette forblir vanligvis bak kulissene. Likevel, uten riktig planlegging av søkestrategien, kjennskap til hovedbestemmelsene i teorien om ISS (Information Retrieval Systems), som allerede har tjue års historie, er det vanskelig å effektivt bruke selv slike hurtigskytende tjenester som AltaVista eller Lycos .

Systemer for gjenfinning av informasjon ble født for lenge siden. Mange artikler er viet teorien og praksisen for å bygge slike systemer, hvorav hoveddelen faller på slutten av 70-tallet - begynnelsen av 80-tallet. Blant innenlandske kilder bør den vitenskapelige og tekniske samlingen "Vitenskapelig og teknisk informasjon. Serie 2", som fortsatt publiseres, fremheves. Også publisert på russisk er "Bibelen" om utviklingen av ISS - "Dynamisk bibliotek og informasjonssystemer" av J. Salton, der de grunnleggende prinsippene for å bygge informasjonshentingssystemer og modellere prosessene for deres funksjon vurderes. Dermed kan det ikke sies at med fremkomsten av Internett og dets raske inntreden i praksisen med informasjonsstøtte, har det dukket opp noe fundamentalt nytt som ikke eksisterte før. For å være presis er ISS på Internett en erkjennelse av at verken den hierarkiske modellen til Gopher eller hypertekstmodellen til World Wide Web ennå løser problemet med å finne informasjon i store mengder heterogene dokumenter. Og i dag er det ingen annen måte å raskt finne data enn nøkkelordsøk.

Når du bruker den hierarkiske Gopher-modellen, må du vandre i katalogtreet lenge før du kommer over nødvendig informasjon... Disse katalogene må vedlikeholdes av noen, og samtidig må deres tematiske oppdeling falle sammen med informasjonsbehov bruker. Gitt den anarkiske naturen til Internett og det enorme antallet forskjellige interesser til Internett-brukere, er det klart at noen kanskje ikke er heldige, og det vil ikke være noen katalog på nettverket som gjenspeiler en bestemt fagområde... Det er av denne grunn at Very Easy Rodent-Oriented Net-wide Index of Computerized Archives (Veronica) ble utviklet for de mange Gopher-serverne kalt GopherSpace.

En lignende utvikling er observert på World Wide Web. Faktisk, tilbake i 1988, i en spesialutgave av tidsskriftet "Communication of the ACM", blant andre problemer med å utvikle hypertekstsystemer og bruken av dem, kalte Frank Halaz problemet med å organisere informasjonsinnhenting i store hypertekstnettverk som en prioritert oppgave for neste generasjons systemer av denne typen. Inntil nå har mange av ideene som er uttrykt i den artikkelen ennå ikke funnet sin implementering. Naturligvis måtte systemet foreslått av Berners-Lee og så utbredt på Internett møte de samme problemene som sine lokale forgjengere. Virkelig bekreftelse på dette ble demonstrert på den andre World Wide Web-konferansen høsten 1994, som presenterte artikler om utviklingen av informasjonsinnhentingssystemer for nettet, og World Wide Web Worm, utviklet av Oliver McBrien fra University of Colorado, vant prisen for beste navigasjon. ... Det bør også bemerkes at et langt liv på ingen måte er bestemt til de fantastiske programmene til talentfulle individer, men til midlene som er resultatet av den planlagte og konsekvente bevegelsen av vitenskapelige team og produksjonsteam mot det fastsatte målet. Før eller senere slutter forskningsfasen, og driftsfasen av systemene begynner, og dette er en helt annen type aktivitet. Dette er nøyaktig skjebnen til to andre prosjekter presentert på samme konferanse: Lycos, støttet av Microsoft, og WebCrawler, eid av America On-line.

Utviklingen av nye informasjonssystemer for nettet er ikke fullført. Dessuten, både på scenen for å skrive kommersielle systemer og på forskningsstadiet. I løpet av de siste to årene er det kun det øverste laget som er fjernet mulige løsninger... Imidlertid er mange av problemene som internett-IPS-utviklerne utgjør for utviklerne ennå ikke løst. Det er denne omstendigheten som forårsaket utseendet til prosjekter som AltaVista by Digital, hvis hovedmål er utvikling av programvare informasjonsinnhenting for web- og arkitekturvalg for webinformasjonsserveren.

Arkitektur av moderne ISS for WWW

Før du beskriver problemene med gjenfinning av bygningsinformasjon Websystemer og måter å løse dem på, vurder et typisk opplegg for et slikt system. I ulike publikasjoner som er viet til spesifikke systemer, er det for eksempel gitt diagrammer som bare skiller seg fra hverandre i måten spesifikke programvareløsninger brukes på, og ikke i prinsippet om å organisere de ulike komponentene i systemet. Derfor vil vi vurdere denne ordningen ved å bruke et eksempel hentet fra arbeidet (fig.).

Ris. Typisk opplegg for et informasjonsinnhentingssystem.

Klient i dette diagrammet er det en seer for en spesifikk informasjonsressurs. Mest populære i dag er multiprotokollprogrammer som Netscape Navigator. Et slikt program gir visning av WWW, Gopher, Wais-dokumenter, FTP-arkiver, e-postlister og Usenet-nyhetsgrupper. På sin side er alle disse informasjonsressursene gjenstand for søk i.

Brukergrensesnitt ( brukergrensesnitt) er ikke bare en seer; i tilfellet med et informasjonshentingssystem, forstås denne setningen også som måten en bruker kommuniserer med en søkemotor på: et system for å generere spørringer og se søkeresultater.

Søkemotor- tjener til å oversette en spørring i informasjonsgjenvinningsspråket (IPL) til en formell spørring i systemet, søke etter lenker til informasjonsressurser i nettverket og sende resultatene av dette søket til brukeren.

Indeksdatabase- indeks, som er hoveddatamatrisen til ISS og brukes til å søke etter adressen til en informasjonsressurs. Arkitekturen til indeksen er utformet på en slik måte at søket utføres så raskt som mulig, og samtidig vil det være mulig å estimere verdien av hver av de funnet informasjonsressursene i nettverket.

Spørringer (brukerspørringer)- er lagret i hans (bruker) personlige database. Det tar lang tid å feilsøke hver forespørsel, og derfor er det ekstremt viktig å huske forespørslene som systemet gir gode svar på.

Indeks robot- tjener til å skanne Internett og holde indeksdatabasen oppdatert. Dette programmet er hovedkilden til informasjon om tilstanden til informasjonsressurser i nettverket.

WWW nettsteder- dette er hele Internett, eller mer presist - informasjonsressurser, visning av som leveres av seere.

La oss nå vurdere formålet og prinsippet for konstruksjon av hver av disse komponentene mer detaljert og definere forskjellen mellom dette systemet og den tradisjonelle ISS av lokal type.

Informasjonsressurser og deres presentasjon i IPS

Som du kan se fra figuren, er dokumentarserien til Internet ISS hele settet med seks grunnleggende typer dokumenter: WWW-sider, Gopher-filer, Wais-dokumenter, FTP-arkivposter, Usenet-nyheter og postlisteartikler. Alt dette er ganske heterogen informasjon, som presenteres i form av ulike, på ingen måte inkonsistente med hverandre, dataformater: tekster, grafikk- og lydinformasjon, og generelt alt som er tilgjengelig i disse lagrene. Spørsmålet melder seg naturligvis – hvordan skal et informasjonssøkingssystem fungere med alt dette?

I tradisjonelle systemer brukes konseptet dokumentsøkebilde – AML. Vanligvis betegner dette begrepet noe som erstatter et dokument og brukes i søk i stedet for et ekte dokument. Søkebildet er resultatet av å bruke en bestemt modell av informasjonsarrayen av dokumenter på den virkelige matrisen. Den mest populære modellen er vektormodellen, der hvert dokument er tildelt en liste over begreper som best reflekterer betydningen. For å være mer presis tildeles dokumentet en dimensjonsvektor lik antall termer som kan brukes i søket. Med en boolsk vektormodell er vektorelementet 1 eller 0, avhengig av tilstedeværelse eller fravær av begrepet i POD. I mer komplekse modeller vektes begreper - vektorelementet er ikke lik 1 eller 0, men til et visst tall (vekt) som gjenspeiler korrespondansen til dette begrepet til dokumentet. Det er sistnevnte modell som har blitt den mest populære i Internett-IPS.

Generelt sett finnes det andre modeller for å beskrive dokumenter: en sannsynlighetsmodell for informasjonsflyt og søk og en søkemodell i uklare sett... Uten å gå i detaljer, er det fornuftig å ta hensyn til det faktum at så langt bare den lineære modellen brukes i Lycos, WebCrawler, AltaVista, OpenText og AliWeb-systemer. Det pågår imidlertid studier om anvendelsen av andre modeller, hvis resultater gjenspeiles i arbeidene. Dermed er den første oppgaven som ISS må løse, å tildele en liste med nøkkelord til et dokument eller informasjonsressurs. Denne spesielle prosedyren kalles indeksering. Ofte er imidlertid indeksering kompilering av en invertert listefil, der hvert indeksert begrep er assosiert med en liste over dokumenter der det forekommer. Denne prosedyren er bare et spesielt tilfelle, eller rettere sagt, teknisk aspekt opprettelse av et ISS-søkeapparat. Problemet med indeksering er at tilordningen av et søkebilde til et dokument eller informasjonsressurs er avhengig av forestillingen om en ordbok hvorfra disse termene er valgt som en fast samling av termer. I tradisjonelle systemer var det en inndeling i kontrollerte vokabularsystemer og frie vokabularsystemer. Den kontrollerte ordboken antok vedlikehold av en eller annen leksikalsk database, tillegg av termer som ble laget av systemadministratoren, og alle nye dokumenter kunne bare indekseres av de termene som var i denne databasen. Den gratis ordboken ble fylt på automatisk etter hvert som nye dokumenter dukket opp. Men ved oppdateringen var ordboken også fikset. Aktualiseringen innebar en fullstendig omlasting av databasen. På tidspunktet for denne oppdateringen ble selve dokumentene lastet inn på nytt, og ordboken ble oppdatert, og etter oppdateringen ble dokumentene indeksert på nytt. Oppdateringsprosedyren tok mye tid og tilgangen til systemet ble stengt ved oppdateringen.

Tenk deg nå muligheten for en slik prosedyre i et anarkisk internett, hvor ressurser dukker opp og forsvinner hver dag. Ved opprettelse av Veronica-programmet for GopherSpace ble det antatt at alle servere må være registrert, og dermed ble tilstedeværelsen eller fraværet av en ressurs beholdt. Veronica sjekket en gang i måneden for Gopher-dokumenter og oppdaterte AML-databasen for Gopher-dokumenter. Det er ingenting som dette i WWW. For å løse dette problemet brukes nettverksskanningsprogrammer eller indekseringsroboter. Å utvikle roboter er ikke en triviell oppgave; det er fare for at roboten sløyfer eller treffer virtuelle sider... Roboten skanner nettet, finner nye ressurser, tildeler dem termer og legger dem i indeksdatabasen. Hovedspørsmålet er hva slags termer som skal tilskrives dokumenter, hvor de skal hentes fra, fordi en rekke ressurser ikke er tekst i det hele tatt. I dag bruker roboter vanligvis følgende kilder for indeksering for å berike sine virtuelle vokabularer: hypertekstlenker, overskrifter, titler (H1, H2), merknader, nøkkelordlister, fulltekstdokumenter og administratormeldinger om nettsidene deres. For å indeksere telnet, gopher, ftp, ikke-tekstinformasjon, brukes URL-er hovedsakelig, for Usenet-nyheter og e-postlister, Emne- og Nøkkelord-feltene. Størst mulighet for å bygge en AML er gitt av HTML-dokumenter... Man skal imidlertid ikke tro at alle termer fra de oppførte elementene i dokumenter faller inn i søkebildene deres. Lister over forbudte ord (stoppord), som ikke kan brukes til indeksering, generelle ord (preposisjoner, konjunksjoner osv.) brukes veldig aktivt. Selv det som i OpenText, for eksempel, kalles fulltekstindeksering, er faktisk valg av ord fra teksten i dokumentet og sammenligning med et sett med forskjellige ordbøker, hvoretter termen kommer inn i POD, og ​​deretter inn i systemets indeks. For ikke å blåse opp ordbøker og indekser (Lycos-systemindeksen er allerede 4 TB i dag), brukes et slikt konsept som vekten av et begrep. Dokumentet er vanligvis indeksert gjennom 40 - 100 av de mest "vanskelige" termene.

Søkeindeks

Etter at ressursene er indeksert og systemet har kompilert en rekke POD, begynner konstruksjonen av søkemotoren. Det er ganske åpenbart at en frontal visning av en POD-fil eller filer vil ta lang tid, noe som er helt uakseptabelt for et interaktivt WWW-system. For å få fart på søket bygges det en indeks, som i de fleste systemer er et sett med sammenkoblede filer, fokusert på raskt datasøk på forespørsel. Strukturen og sammensetningen av indeksene til ulike systemer kan avvike fra hverandre og avhenge av mange faktorer: størrelsen på utvalget av søkebilder, informasjonsinnhentingsspråket, plasseringen av ulike komponenter i systemet, etc. La oss vurdere strukturen til indeksen ved å bruke eksempelet på et system som det er mulig å implementere ikke bare primitivt boolsk, men også kontekstuelt og vektet søk, samt en rekke andre funksjoner som er fraværende i mange Internett-søkemotorer, for eksempel Yahoo. Indeksen til systemet som vurderes består av en tabell med sideidentifikatorer (side-ID), en tabell med nøkkelord (søkeord-ID), en sidemodifikasjonstabell, en overskriftstabell, en hypertekstlenketabell, en invertert (IL) og en direkte liste (FL).

Side-ID tilordner side-ID-er til deres URL, nøkkelord-ID - hvert nøkkelord til en unik identifikator for dette ordet, overskriftstabell - side-ID til sidetittel, hypertekstlenketabell - side-ID til hypertekstkobling til denne siden. Den inverterte listen knytter hvert nøkkelord i dokumentet til en liste med par – sideidentifikator, ordets plassering på siden. En direkteliste er en rekke bilder for sidesøk. Alle disse filene brukes på en eller annen måte i søket, men den viktigste blant dem er filen til den inverterte listen. Søkeresultat i denne filen er foreningen og/eller skjæringspunktet mellom lister over side-ID-er. Den resulterende listen, som konverteres til en liste over overskrifter som følger med hypertekstlenker returnert til brukeren i nettleseren hans. For raskt å søke etter poster av den inverterte listen, bygges flere filer over den, for eksempel en fil med bokstavpar som indikerer postene til den inverterte listen som starter med disse parene. I tillegg brukes en direkte datatilgangsmekanisme - hashing. En kombinasjon av de to tilnærmingene brukes til å oppdatere indeksen. Den første kan kalles "on the fly" indekskorrigering ved å bruke en sidemodifikasjonstabell. Essensen av denne løsningen er ganske enkel: den gamle indeksoppføringen refererer til den nye, som brukes i søket. Når antallet slike lenker blir tilstrekkelig til å føle det under søket, skjer en fullstendig oppdatering av indeksen - dens reload. Søkeeffektiviteten i hver spesifikke ISP bestemmes utelukkende av indeksarkitekturen. Som regel er måten å organisere disse arrayene på "bedriftens hemmelighet" og dets stolthet. For å bli overbevist om dette, er det nok å lese materialene til OpenText.

Systemets språk for informasjonsinnhenting

Indeksen er bare en del av søkemotoren skjult for brukeren. Den andre delen av dette apparatet er informasjonsgjenfinningsspråket (IPL), som gjør det mulig å formulere en spørring til systemet på en enkel og visuell form. Romantikken med å lage IPL som et naturlig språk har lenge vært etterlatt - dette er tilnærmingen som ble brukt i Wais-systemet i de tidlige stadiene av implementeringen. Selv om brukeren blir bedt om å legge inn spørringer på naturlig språk, betyr ikke dette at systemet semantisk vil analysere brukerens spørring. Livets prosa er at vanligvis er en setning delt inn i ord, hvor forbudte og vanlige ord fjernes, noen ganger normaliseres ordforrådet, og så er alle ord forbundet enten med logisk OG eller ELLER. Så en forespørsel som:

> Programvare som brukes på Unix-plattformen

vil bli konvertert til:

> Unix OG plattform OG programvare

som ville bety noe sånt som dette: " Finn alle dokumenter der ordene Unix, Platform og Software forekommer samtidig".

Varianter er også mulig. Så på de fleste systemer vil uttrykket "Unix-plattform" bli gjenkjent som nøkkelfrase og vil ikke dele seg i enkeltord... En annen tilnærming er å beregne graden av nærhet mellom forespørselen og dokumentet. Dette er tilnærmingen som brukes av Lycos. I dette tilfellet, i samsvar med vektormodellen for presentasjon av dokumenter og forespørsler, beregnes deres nærhetsmål. I dag er det kjent rundt et titalls forskjellige nærhetstiltak. Det mest brukte er cosinus til vinkelen mellom dokumentsøkebildet og brukerens søk. Vanligvis er disse prosentene av samsvar med dokumentet med forespørselen og utstedes som referanse informasjon med listen over funnet dokumenter.

Alta Vista har det mest utviklede søkespråket blant moderne Internett-IPS. I tillegg til det vanlige settet med OG, ELLER, IKKE, lar dette systemet deg også bruke NEAR, som lar deg organisere et kontekstuelt søk. Alle dokumenter i systemet er delt inn i felt, så i forespørselen kan du spesifisere i hvilken del av dokumentet brukeren håper å se nøkkelordet: lenke, tittel, merknad osv. Du kan også angi rangeringsfeltet for problemet og kriteriet for dokumentets nærhet til forespørselen.

Systemgrensesnitt

En viktig faktor er måten informasjon presenteres på i grensesnittprogrammet. Det finnes to typer frontend-sider: søkesider og søkeresultatsider.

Når du skriver en forespørsel til systemet, brukes enten en menyorientert tilnærming eller kommandolinjen. Den første lar deg legge inn en liste over termer, vanligvis atskilt med et mellomrom, og velge typen logisk forbindelse mellom dem. Den logiske sammenhengen gjelder for alle termer. Diagrammet fra figuren viser de lagrede brukerforespørslene - i de fleste systemer er dette bare en frase i IPL, som kan utvides ved å legge til nye termer og logiske operatorer. Men dette er bare én måte å bruke lagrede spørringer på, kalt spørringsforbedring eller foredling. For å utføre denne operasjonen lagrer den tradisjonelle ISS ikke spørringen som sådan, men søkeresultatet - en liste over dokumentidentifikatorer, som er kombinert / krysset med listen oppnådd når du søker etter dokumenter med nye termer. Dessverre praktiseres det ikke å lagre listen over identifikatorer for funnet dokumenter på WWW, noe som ble forårsaket av det særegne ved interaksjonsprotokollene mellom klientprogrammet og serveren som ikke støtter sesjonsmodusen.

Så søkeresultatet i ISS-databasen er en liste over pekere til dokumenter som tilfredsstiller forespørselen. Ulike systemer presentere denne listen på forskjellige måter. Noen gir kun en liste med lenker, mens andre som Lycos, Alta Vista og Yahoo også gir en kort beskrivelse, som er lånt fra enten titlene eller selve dokumentet. I tillegg rapporterer systemet hvor mye det funnet dokumentet samsvarer med forespørselen. I Yahoo, for eksempel, er dette antallet søkeord i AML-en som søkeresultatet er rangert etter. Lycos-systemet utsteder et mål på dokumentets samsvar med forespørselen, i henhold til hvilken rangeringen gjøres.

Når du gjennomgår grensesnitt og søkeverktøy, kan du ikke se bort fra prosedyren for å korrigere forespørsler for relevans. Relevans er et mål på egnetheten til et dokument funnet av systemet til brukerens behov. Skille mellom formell og reell relevans. Den første beregnes av systemet, og på grunnlag av hvilken er utvalget av funnet dokumenter rangert. Den andre er evalueringen av dokumentene som er funnet av brukeren selv. Noen systemer har et spesialfelt for dette, hvor brukeren kan markere dokumentet som relevant. Ved neste søkiterasjon utvides søket med vilkårene i dette dokumentet, og resultatet rangeres på nytt. Dette skjer til stabilisering skjer, noe som betyr at ingenting bedre enn den resulterende prøven vil bli oppnådd fra dette systemet.

I tillegg til lenker til dokumenter, kan listen som mottas av brukeren inneholde lenker til deler av dokumenter eller deres felt. Dette skjer når det er lenker som http: // vert / bane #-merke eller koblinger i henhold til WAIS-skjemaet. Lenker til skript er også mulig, men vanligvis hopper roboter over slike lenker, og systemet indekserer dem ikke. Hvis alt er mer eller mindre klart med http-lenker, så er WAIS-lenker mye mer komplekse gjenstander... Faktum er at WAIS implementerer arkitekturen til et distribuert informasjonsinnhentingssystem, der en ISS, for eksempel Lycos, bygger en søkemotor over søkemotoren til et annet system - WAIS. WAIS-servere har imidlertid sine egne lokale databaser. Når du laster opp dokumenter til WAIS, kan administratoren beskrive strukturen til dokumentene, dele dem opp i felt, og lagre dokumentene som en enkelt fil. WAIS-indeksen vil referere til individuelle dokumenter og deres felt som uavhengige lagringsenheter, i så fall må nettleseren på Internett kunne jobbe med WAIS-protokollen for å få tilgang til disse dokumentene.

Konklusjon

Gjennomgangsartikkelen vurderte hovedelementene i systemer for informasjonsinnhenting og prinsippene for deres konstruksjon. I dag er ISS den kraftigste søkemotoren for informasjonsressurser på Internett. Dessverre er den russiske internettsektoren ennå ikke observert. aktivt studium dette problemet, med mulig unntak av LIBWEB-prosjektet finansiert av RFBR og Spider-systemet, som ikke fungerer pålitelig nok. VINITI har absolutt størst erfaring i utviklingen av denne typen systemer, men her er arbeidet så langt konsentrert om å plassere sine egne egne ressurser på nettet, som er fundamentalt forskjellig fra Internett-systemer for informasjonsinnhenting som Lycos, OpenText, Alta Vista, Yahoo, InfoSeek, etc. Det ser ut til at slikt arbeid kunne fokuseres på prosjekter som Russia On-line av SovamTeleport, men her ser vi fortsatt lenker til andres søkemotorer. Utviklingen av IPS for Internett i USA begynte for to år siden, gitt hjemlige realiteter og tempoet i utviklingen av nettteknologier i Russland, kan man håpe at vi fortsatt har alt foran oss.

Litteratur

1. J. Salton. Dynamiske bibliotekinformasjonssystemer. Mir, Moskva, 1979.
2. Frank G. Halasz. Refleksjonskort: syv utgaver for neste generasjon hypermediesystemer. Kommunikasjon av acm, V31, N7, 1988, s. 836-852.
3. Tim Berners-Lee. World Wide Web: Forslag til HyperText Project. 1990.
4. Alta Vista. Digital Equipment Corporation, 1996.
5. Hjerne Pinkerton. Finne det folk vil ha: Erfaringer med WebCrawler.
6. Bodi Yuwono, Savio L. Lam, Jerry H. Ying, Dik L. Lee. ...
7. Martin Bartschi. En oversikt over emner for informasjonsinnhenting. IEEE Computer, N5, 1985, s. 67-84.
8. Michel L. Mauldin, John R.R. Leavitt. Nettagentrelatert forskning ved Senter for maskinoversettelse.
9. Ian R. Winship. World Wide Web søkeverktøy -en evaluering. VINE (99).
10. G. Salton, C. Buckley. Term-vekting tilnærminger i automatisk tekstinnhenting. Information Processing & Management, 24 (5), pp. 513-523, 1988.
11. Open Text Corporation lanserer industriens tekstinnhentingssystem med høyest ytelse.

Pavel Khramtsov ([e-postbeskyttet]) - uavhengig ekspert, (Moskva).



Internett er kjent for en typisk innbygger i en moderne by, men denne tilstanden ble innledet av en ganske lang og vanskelig vei dannelsen og utviklingen av teknologier, takket være hvilke det ble mulig å sikre distribusjon av World Wide Web på global skala. Hva er disse løsningene? Hvordan utviklet det seg i Russland?

Definisjon av Internett

Internett som et globalt informasjonssystem er et datanettverk, hvis noder er distribuert over hele verden, og samtidig er logisk koblet sammen på grunn av bruken av et spesielt adresserom. Funksjonen til dette globale nettverket er mulig først og fremst på grunn av foreningen av kommunikasjonsstandarder: for eksempel brukes TCP / IP som den viktigste, som implementeres på samme måte på alle datamaskiner som er koblet til World Wide Web.

I sin moderne form har Internett som et globalt informasjonssystem eksistert i rundt 30 år. Men på tidspunktet for utseendet, infrastrukturen på grunnlag av hvilken Verdensomspennende nettverk, var ganske utviklet i mange land i verden.

Det vil være nyttig å vurdere hvordan den ble bygget i visse stater. Det er bemerkelsesverdig at historien om infrastrukturutvikling, på grunnlag av hvilken det moderne Internett begynte å bli bygget, praktisk talt sammenfaller med perioden med konfrontasjon mellom de to verdens største teknologiske systemene - vestlige og sovjetiske. Selvfølgelig er dette en veldig forenklet klassifisering, siden både innenfor rammen av det første systemet og i det andre ble det aktivt utviklet regionale, nasjonale teknologier, som er svært forskjellige i en rekke tilfeller.

Til syvende og sist var grunnlaget for utviklingen av det moderne Internett fortsatt den vestlige modellen - men da den ble introdusert i USSR, hadde sovjetiske spesialister allerede erfaring med å distribuere datanettverk, til en viss grad lik den vestlige modellen av Internett. . Tenk derfor på hvordan World Wide Web utviklet seg i det vestlige teknologisk system, så vel som når Internett dukket opp i Russland basert på detaljene i utviklingen av den nasjonale infrastrukturen til datanettverk.

Internetts historie i vestlige land

På slutten av 1950-tallet, under en av de vanskeligste periodene av den kalde krigen, satte den amerikanske regjeringen en oppgave for amerikanske forskere: å skape en dataoverføringsinfrastruktur som kunne fungere selv i en global væpnet konflikt. Forskere foreslo konseptet med et slikt system - prosjektet ble kalt ARPANET.

I 1969 ble datamaskinene til flere store amerikanske universiteter koblet sammen i henhold til ordninger som ble utviklet av forskere innenfor rammen av dette prosjektet. Deretter ble erfaringen fra forskerne tatt i bruk av mange andre interesserte strukturer: dette førte til spredning av datanettverk som opererer i henhold til ARPANET-standardene på nasjonal skala.

Dukket opp og spesialiserte programmer for denne infrastrukturen: for eksempel allerede i 1971 ble det skrevet programvare for ARPANET for å sende meldinger. Faktisk snakker vi om utseendet til den første e-posten - hovedfunksjonene til Internett i dag inkluderer fortsatt organisering av datautveksling i riktig format. På 70-tallet var e-post, ifølge forskere, den mest etterspurte funksjonen som ble utplassert i det amerikanske prosjektet.

Gradvis gikk omfanget av ARPANET utover USA: forskjellige europeiske organisasjoner begynte å koble seg til nettverket. Samtidig ble kommunikasjonen med den amerikanske infrastrukturen organisert gjennom en telefonkabel lagt over Atlanterhavet.

Faktisk, siden europeerne ble koblet til ARPANET, spesielt i 1973, begynte britiske og norske organisasjoner å organisere datautveksling med nettverket, og prosjektet ble internasjonalt. Imidlertid var kommunikasjon mellom datamaskiner plassert i forskjellige deler av planeten ikke alltid stabile på grunn av mangelen på generelt aksepterte standarder for datautveksling.

Dette problemet ble løst med introduksjonen av den universelle TCP/IP-protokollen. Den brukes fortsatt av nesten alle Internett-ressurser.

Da TCP-IP ble introdusert, var det amerikansk-europeiske nettverket fortsatt mer interregionalt enn globalt – til tross for at det i 1983 ble kalt Internett. Men den videre utplasseringen gikk raskt. Denne prosessen bidro til oppfinnelsen i 1984 av DNS-standarden - på grunnlag av hvilken domenenavntjenesten begynte å fungere. Det kan bemerkes at samme år hadde ARPANET-prosjektet en seriøs konkurrent i form av NSFNet-nettverket, som forente datamaskiner fra forskjellige universiteter.

NSFNet som infrastrukturen til Internett

NSFNet-infrastrukturen gjorde det mulig å gi betydelig høyere dynamikk, samtidig som den vokste i de mest aktive taktene. Etter hvert begynte det voksende NSFNet-nettverket å bli kalt "Internett". I 1988 ble det mulig å bruke ressursene til å organisere direktemeldinger i chat-format – over IRC-protokollen.

I 1989 utviklet den britiske vitenskapsmannen Tim Berners-Lee konseptet med et globalt datanettverk, World Wide Web. I løpet av de neste 2 årene opprettet han Hypertext Transfer Protocol - HTTP, HTML og URL-identifikatorer. Ifølge mange forskere var det takket være oppfinnelsene til Tim Berners-Lee at Internett som et globalt informasjonssystem begynte sin raske marsj over planeten.

Disse standardene, så vel som egenskapene til den universelle TCP/IP-protokollen, har gjort det mulig å skalere World Wide Web på en global skala i et gigantisk tempo. På begynnelsen av 90-tallet ble hovedmulighetene til Internett dannet, tilgjengelig moderne brukere: Få tilgang til nettsider gjennom nettlesere, legge ut informasjon om dem, motta og overføre filer. Selvfølgelig forble de etterspurt e-posttjenester, IRC.

perfeksjonert Xia hypertekstspråk,ier. I lang tid har servere blitt brukt som infrastrukturgrunnlaget for Internett. NSFNet, men i 1995 denne funksjonen ble overført nettverksleverandører... I 1996 ble det utbredt WWW standard, der det var mulig å overføre nesten alle data ved hjelp av Internett-kanaler. Men standarden har beholdt sin relevans. FTP. Og i dag mangeInternett-ressurserfortsett å bruke den til å organisere effektiv fildeling.

I den formen vi er vant til Verdensveven som helhet ble dannet på begynnelsen av 2000-tallet. Etter hvert som hastigheten på brukertilgang til nettressurser økte på grunn av teknologier som DSL, fiberoptikk, 3G, 4G, ble ressurser for å legge ut videoinnhold, som YouTube, spillportaler og skytjenester, spesielt populære. Gjennom Internett organiseres ikke bare utveksling av data mellom mennesker, men også mellom ulike enheter – fra enkle husholdningsartikler til stor industriell infrastruktur. Finnes et stort nummer av vitenskapelige konsepter om hvordan Internett vil utvikle seg som et globalt informasjonssystem i fremtiden. De er svært forskjellige, og i mange henseender avhenger implementeringen av utviklingen av den faktiske datateknologien.

Historien om Internett i Russland

La oss nå undersøke når Internett dukket opp i Russland. Vi ble kjent med den vestlige modellen for utvikling av nettkommunikasjon, nå er det viktig for oss å forstå hvordan den tilsvarende infrastrukturen ble implementert i vårt land.

Som vi bemerket i begynnelsen av artikkelen, utviklet informasjonsteknologier i Sovjetunionen i lang tid parallelt med de i Vesten. Det skal bemerkes at utviklingen deres i stor grad ble mulig takket være opptredenen i USSR av ressurser for reproduksjon av den vestlige mikroprosessorbasen, som begynte å bli aktivt introdusert på forskjellige nivåer av kommunikasjonsstyring på 60- og 70-tallet , selv om sovjetiske forskere før det hadde en veldig progressiv egen utvikling ... Men på en eller annen måte kan essensen av Internett i den vestlige tolkningen avvike betydelig fra konseptene for utviklingen av datanettverk i USSR.

Tilbake på 1950-tallet dannet sovjetiske forskere datanettverk som en del av prosjekter for å lage en anti-missilforsvarsinfrastruktur. Disse nettverkene var basert på sovjetiske datamaskiner som "Diana-I", "Diana-II" og andre løsninger. Utvekslingen av informasjon mellom de tilsvarende datamaskinene ble utført for å beregne flybanen til avskjæringsmissilene.

Datanettverk var på 1970-tallet aktivt involvert i den sivile sfæren, særlig som en infrastruktur innenfor rammen av systemer som ACS-Express og Sirena, som gjør det mulig å reservere henholdsvis tog- og flybillett. I 1974 ble KOI-8-datamaskinkodingen oppfunnet.

I første halvdel av 80-tallet begynte VNIIPAS Institute å utføre ekstern datautveksling med utenlandske organisasjoner ved hjelp av datamaskiner. Generelt, på 80-tallet, var distribusjonen av sovjetiske nettverksbaserte datasystemer ganske aktiv, hovedsakelig på grunn av utseendet i USSR av lokaliserte versjoner av operativsystemet. UNIX (på prinsippene som moderne Linux-operativsystemer opererer og i sin tur Android-operativsystemene basert på det, som kan tilskrives de mest utbredte i verden, hvis vi tar markedet for mobile enheter). Faktisk, i 1990, hadde Sovjetunionen dannet all nødvendig infrastruktur for den påfølgende foreningen av sovjetiske datanettverk og Internett, som fungerte på grunnlag av NSFNet-ressurser.

"RELCOM" - nasjonalt datanettverk

All-Union datanettverk"RELCOM", som bruker Internett-protokoller og teknologier. Kommunikasjon mellom datamaskiner skjer gjennom telefonkanaler. Den viktigste rollen i å bygge denne infrastrukturen ble spilt av utviklerne av Demos-kooperativet, som utviklet ulike programvareløsninger.

I august 1990 tok forskere fra universitetet i Helsingfors kontakt med universitetet i Helsingfors for å sikre at postoverføringskanalene fungerer på selve Internett. I september 1990 registrerte RELKOM-spesialister, så vel som Demos-selskapet, domenet til Sovjetunionen.Su, som fortsatt er i bruk - og det er versjoner som vil vokse i popularitet.

I USSR, sammen med RELCOM, utvikles FidoNet-brukernettverk. I 1991, for sovjetiske brukere som koblet til RELKOM, ble ressurser med domeneadressering tilgjengelig - akkurat som på det moderne Internett. I 1992 dukket de første leverandørene opp i den russiske føderasjonen.

Bruken av den internasjonale TCP/IP-standarden i Russland er i ferd med å bli utbredt. I april 1994 ble det nasjonale domenet.Ru registrert. Siden den gang har Internett i Russland utviklet seg på samme måte som i vestlige land. Samtidig har russiske spesialister også gitt et betydelig bidrag til utviklingen av World Wide Web, spesielt når det gjelder utvikling av antivirus- og serverløsninger.

Så vi har studert hvordan Internett fungerer, særegenhetene ved utviklingen av de tilsvarende kommunikasjonsteknologiene i Russland og i Vesten. La oss nå studere hva World Wide Web er i dag.

Moderne Internett: leverandører

Internett-tilgang for brukere tilbys av leverandører. La oss studere detaljene til oppgavene de løser.

Hva er en Internett-leverandør? I de første årene av utviklingen av World Wide Web ble dette ansett som et selskap som tilbyr byttetjenester for å sikre kommunikasjon mellom brukeren og de nærmeste Internett-serverne. Nå er leverandøren en leverandør av høyteknologiske kommunikasjonsressurser som sikrer funksjonen i regional og noen ganger nasjonal skala. Selskaper som leverer disse tjenestene kan være både veldig store, internasjonale og lokale, som kan operere på skalaen til én by.

Det er et stort antall teknologier som tilbydere kan tilby sine tjenester: optiske kanaler og telefonkanaler, satellitt, mobilt internett... Hver av dem har sine egne fordeler og ulemper. Prisene for Internett, dannet av leverandøren, avhenger i stor grad av hvilke kanaler som brukes. Som regel er de rimeligste for brukeren kablede kanaler, litt dyrere - mobil, den dyreste - satellitt. I dette tilfellet kan betaling for leverandørens tjenester utføres:

  • i form av en abonnementsavgift;
  • for trafikk;
  • i noen tilfeller - under tilgang til nettverket.

Internetts rolle i moderne verden er først og fremst å gi brukerne muligheten til å besøke ulike nettsteder.

Moderne internett: nettsteder

Et nettsted lokalisert på Internett er en samling filer (tekst-, grafikk-, video- og lydopptak som inneholder andre multimediekomponenter), tilgang til disse utføres gjennom slike protokoller som WWW, HTTP, FTP og andre, som er optimale i ett tilfelle eller en annen. Selvfølgelig er disse filene systematisert på en bestemt måte for å gjøre det lettere for brukeren å oppfatte informasjon.

Hovedsystemelementet til et nettsted er en nettside. I de fleste tilfeller er det kompilert på HTML-språk, bruker ofte ulike skript... Siden kan ha forskjellige temaer. Det kan være en internettavis, blogg, videohosting, sport, underholdningsportal - det er et stort antall typer ressurser som kan plasseres på World Wide Web.

Moderne internett: radio og TV

Ovenfor bemerket vi at med utviklingen av kommunikasjonsteknologier og en økning i hastigheten på dataoverføring, blir forskjellige videoressurser på Internett stadig mer populære. Slike kan betraktes for eksempel internett-tv, samt nettradio. Disse teknologiene gjør det mulig å kringkaste TV- og radiosendinger på spesielle nettsteder ved bruk av spesielle teknologier.

Det er bemerkelsesverdig at mange av moderne tjenester lar deg organisere din egen kringkasting til enhver bruker som ønsker det. Tatt i betraktning utbredelsen av høyhastighetslinjer, er Internett-TV ikke lenger et privilegium, men en vanlig ressurs. Som samtidig kan kreve at brukerne foretar betydelige investeringer (arbeidskraft, økonomisk) i markedsføring og utvikling. Det samme kan sies om nettsteder. En internettavis eller underholdningsportal kan registreres av enhver bruker som ønsker det, men å gjøre dem om til et gjenkjennelig merke er ikke en lett oppgave.

Moderne internett: mobilapplikasjoner

En av de mest uttalte trendene i utviklingen av det moderne Internett kan betraktes som allestedsnærværende mobilapplikasjoner- spesiell programvare lansert fra smarttelefoner eller nettbrett. Funksjonelt kan disse applikasjonene i mange tilfeller ligne på nettsider. Men det finnes også spesialiserte løsninger av tilsvarende type, for eksempel tilpasset for å organisere sikker tilgang til enhver personlig konto, for eksempel en bankkonto. Internett er i dag et kommunikasjonsmedium der nesten alle digitale data kan overføres, og i mange tilfeller krever dette bruk av spesielle protokoller og teknologier, inkludert de som er implementert i mobilapplikasjoner.

Sammendrag

Så vi studerte hva konseptet med World Wide Web er, så vel som hovedteknologiene som brukes for å sikre at det fungerer. Essensen av internett - ved å gi brukere fra hele verden stabil lavpristilgang til forskjellige typer nyttig informasjon, filer, multimedieinnhold, samt ressurser der folk kan kommunisere med hverandre og utveksle ulike data. En slik mulighet i dag er allerede kjent for innbyggere i, sannsynligvis, alle land i verden, selv om den tidligere var tilgjengelig for svært få mennesker, kunne den i mange tilfeller bare brukes med høye kvalifikasjoner innen informasjonsteknologi.

Hvem er en internettleverandør, hvilken man kan kobles til og til hvilken pris er spørsmål som en typisk innbygger i en moderne metropol nesten helt sikkert vet. World Wide Web fortsetter å utvikle seg: nye tjenester, teknologier, konsepter for organisering av brukerkommunikasjon dukker opp, enheter for dataoverføring blir forbedret. Hvordan teknologisk fremgang vil foregå, hvordan verdensøkonomien vil utvikle seg, vil bestemme vektorene for videre utvikling internettet.