Informatie ophaalsystemen Internet. Nauwe interactie tot stand brengen met het distributienetwerk, controle over de gehele supply chain. Geschiedenis van internet in westerse landen

Cheatsheet over informatierecht Yakubenko Nina Olegovna

39. VOLGORDE VAN AANMAAK EN TOEPASSING VAN INFORMATIESYSTEMEN EN HUN NETWERKEN. INFORMATIECOMMUNICATIESYSTEMEN: INTERNET, E-MAIL, DIGITALE COMMUNICATIE EN ANDERE

Zoals je weet, wordt internet ook wel Wereld genoemd Wijde web(WWW) - "wereldwijd" informatie web". En niet alleen een web, maar een web dat omvat talrijke databases en databanken.

Met andere woorden, het is een gedistribueerde wereldwijde kennisbank die veel verschillende informatiearrays (informatiebronnen, databases of kennis) omvat, bestaande uit documenten, gegevens, teksten, onderling verbonden door een grensoverschrijdend telecommunicatie-informatieweb of -netwerk.

Dit wereldwijde informatieweb wordt gevormd op basis van talloze computers (computerapparatuur) verschillende soorten en bestemming, software, informatiebronnen, communicatie en telecommunicatie, via welke informatie wordt verzonden en ontvangen.

De verzameling informatiearrays van het World Wide Web is als het ware doortrokken van talloze "hypertext"-links. Elke dergelijke verbinding "verbindt" alle tekstpunten of grafische documenten WWW of documentitems. Ze worden gepresenteerd in HTML-indeling(Hiper Text Markup Laguage) en kan bestaan ​​uit tekst- en grafische fragmenten, ontwerpelementen, individuele gegevens en andere soortgelijke structuren.

Het internet omvat en verzekert het functioneren ervan vele providers (subjecten die informatiediensten leveren aan internetgebruikers), servereigenaren (computers die informatieopslag hosten) en, ten slotte, gebruikers van internetdiensten en informatieconsumenten.

Dientengevolge creëert de ontwikkeling van telecommunicatiesystemen, wereldwijde netwerken en interactieve middelen voor het verspreiden van informatie een mogelijkheid voor een individuele gebruiker om toegang te krijgen tot praktisch onbeperkte informatiearrays. Zo wordt één elektronische informatieruimte in de wereld gecreëerd.

Begin jaren 90. de voormalige president van Appje D. Skulde en andere experts brachten het idee van navigatie naar voren in een enkele open informatieruimte - "kennisnavigatie". zo open informatie ruimte en het internet werd.

Is het mogelijk om zo'n complex world wide web, genaamd "internet", een geautomatiseerd informatiesysteem te noemen? Laten we daarvoor terugkeren naar de definitie die de wetgever heeft aangenomen.

De federale wet "Informatie, informatisering en informatiebescherming" definieert het begrip " Informatie Systeem"- een organisatorisch geordende reeks documenten (arrays van documenten) en informatietechnologieën, inclusief het gebruik van computertechnologie die informatieprocessen implementeert" (Art. 2).

Dit artikel geeft ook een definitie van de term "middelen om geautomatiseerde informatiesystemen en hun technologieën te verschaffen - software, technische, taalkundige, juridische, organisatorische middelen (programma's voor elektronische computers; computertechnologie en communicatie; woordenboeken, thesauri en classificaties; instructies en technieken) ; voorschriften, charters, functiebeschrijvingen; diagrammen en hun beschrijvingen, andere operationele en begeleidende documentatie) die worden gebruikt of gemaakt bij het ontwerp van informatiesystemen en om hun werking te waarborgen.

Uit het boek Douanewetboek van de Russische Federatie auteur Wetten van de Russische Federatie

Artikel 424. Certificering van informatiesystemen, informatietechnologieën, middelen voor hun ondersteuning en bescherming

Uit het boek Douanewetboek van de Russische Federatie de auteur Doema

Artikel 424. Certificering van informatiesystemen, informatietechnologieën, middelen voor hun ondersteuning en bescherming

Uit het boek City Planning Code Russische Federatie... Tekst met wijzigingen en aanvullingen voor 2009 de auteur auteur onbekend

Artikel 57. De procedure voor het in stand houden van informatiesystemen ter ondersteuning van stedenbouwkundige activiteiten en het verstrekken van informatie over informatiesystemen ter ondersteuning van stedenbouwkundige activiteiten 1. Instandhouding van informatiesystemen ter ondersteuning van stedenbouwkundige activiteiten

Uit het boek Douanewetboek van de Russische Federatie. Tekst met wijzigingen en aanvullingen voor 2009 de auteur auteur onbekend

ARTIKEL 424. Certificering van informatiesystemen, informatietechnologieën, middelen voor hun ondersteuning en bescherming

Uit het boek Strafwetboek van Oekraïne in grappen auteur Kivalov SV

Afdeling XVI MISDADEN OP HET GEBIED VAN HET GEBRUIK VAN ELEKTRONISCHE COMPUTERS (COMPUTERS, SYSTEMEN EN COMPUTERNETWERKEN EN NETWERKEN

Uit het boek Commentaar op de regels voor het aanbieden van communicatiediensten de auteur Sukhareva Natalia Vladimirovna

Artikel 361. Ongeoorloofde inmenging in de werking van elektronische computers (computers), geautomatiseerde systemen, computernetwerken of telecommunicatienetwerken 1. Ongeoorloofde inmenging in de werking van elektronische computers (computers),

Uit het boek Cheat Sheet on Information Law de auteur Yakubenko Nina Olegovna

III. De procedure voor het aansluiten van televisie- en radio-omroepcommunicatienetwerken en hun interactie met het omroepcommunicatienetwerk van een omrdie een belangrijke positie inneemt Toelichting bij paragraaf 14 Het register wordt bijgehouden in de vorm die is vastgesteld door het ministerie van Informatietechnologie en Communicatie.

Uit het boek European Union Law de auteur Kashkin Sergey Yurievich

17. INFORMATIE JURIDISCHE BETREKKINGEN DIE ONTSTAAN BIJ HET ZOEKEN, VERKRIJGEN EN GEBRUIKEN VAN INFORMATIE, INFORMATIEMIDDELEN, INFORMATIEPRODUCTEN, INFORMATIEDIENSTEN Dergelijke rechten en plichten ontstaan ​​voor informatieconsumenten die actief zijn in

Van het Bar-examen van de auteur

18. INFORMATIE JURIDISCHE BETREKKINGEN DIE VOORTVLOEIEN TIJDENS DE PRODUCTIE, OVERDRACHT EN VERSPREIDING VAN INFORMATIE, INFORMATIEMIDDELEN, INFORMATIEPRODUCTEN, INFORMATIEDIENSTEN De aard en kenmerken van de rechten en verplichtingen die voortvloeien uit de productie, verzending en

Uit het boek Debiteurenbeheer de auteur Brunhild Svetlana Gennadievna

19. INFORMATIE JURIDISCHE BETREKKINGEN DIE VOORTVLOEIEN TIJDENS DE CREATIE EN TOEPASSING VAN INFORMATIESYSTEMEN, HUN NETWERKEN, FACILITEITEN EN INFORMATIEBEVEILIGINGSMECHANISMEN Informatie juridische relaties die voortvloeien uit de implementatie van dergelijke informatieprocessen,

Uit het boek van de auteur

52. JURIDISCHE REGIME VAN INFORMATIESYSTEMEN, INFORMATIETECHNOLOGIEN EN HUN ONDERSTEUNINGSMIDDELEN De belangrijkste bronnen van wettelijke regulering van relaties op het gebied van creatie en gebruik van geautomatiseerde informatiesystemen,e

Uit het boek van de auteur

53. PROCEDURE VOOR ONTWIKKELING EN IMPLEMENTATIE VAN INFORMATIESYSTEMEN, TECHNOLOGIEN EN ONDERSTEUNENDE FACILITEITEN Betrekkingen die voortvloeien uit de ontwikkeling en implementatie van informatiesystemen, technologieën en hun ondersteuningsmiddelen worden geregeld door de normen van het Burgerlijk Wetboek van de Russische Federatie (hoofdstuk 38 "Implementatie

Uit het boek van de auteur

54. STAATSBELEID OP HET GEBIED VAN DE CREATIE VAN INFORMATIESYSTEMEN, INFORMATIETECHNOLOGIEN EN HUN MIDDELEN OM HUN TE ONDERSTEUNEN

Uit het boek van de auteur

149. Hoe is elektronische digitale handtekening geregeld in het recht van de Europese Unie? In december 1999 keurde het Europees Parlement samen met de Raad de richtlijn betreffende het gebruik van elektronische handtekeningen in de Europese Gemeenschap. In overeenstemming met art. 2 richtlijnen

Uit het boek van de auteur

Vraag 50. Referentie rechtsstelsels, informatie internetbronnen in het werk van een advocaat. Referentie- en rechtssystemen (SPS) zijn computerdatabases met teksten van regelgevende rechtshandelingen, uitspraken van hogere rechterlijke instanties, materiaal van de rechtspraktijk,

1

Momenteel in onze dynamisch ontwikkelende informatie wereld Van bijzonder belang is het vermogen om tijdige en juiste beslissingen te nemen, wat onmogelijk is zonder het verzamelen, verwerken, opslaan, analyseren van een grote hoeveelheid informatie en het verstrekken van de resultaten van hun verwerking aan de gebruiker. Een van deze taken is het snel identificeren van sites op internet die informatie bevatten waarvan de verspreiding in de Russische Federatie verboden is. De lijst van deze informatie wordt gepresenteerd in deel 2 van art. 15.1 van de federale wet van 27.07.2006 nr. 149-FZ "Informatie, informatietechnologieën en informatiebescherming". Dit artikel bespreekt de constructie van een informatie- en analytisch systeem dat is ontworpen voor operationeel zoeken naar informatie op internet, waarvan de verspreiding in de Russische Federatie verboden is. Er wordt een benadering voorgesteld voor de constructie van informatiesystemen die informatie zoeken in openbare netwerken en een grote hoeveelheid heterogene ongestructureerde gegevens verwerken, die worden gepresenteerd in verschillende formaten: tekst met fragmenten uit verschillende documenten; audio- en video-opnamen; afbeeldingen (foto's en tekeningen).

data-analyse

systemen voor het ophalen van informatie

ongestructureerde gegevens

2. Erokhin G.N., Druzhinin V.A., Tsaregorodtsev A.L., Makhneva T.V., Ogorodnikov I.N., Kartashev E.A. Telegeneeskunde van uitgestelde consultaties naar het voorbeeld van noordelijke regio's // Informatiemeet- en controlesystemen. - 2009. - T. 7. - Nr. 12. - P. 49–53.

3. Zelenkov Yu.G., Segalovich I.V. Vergelijkende analyse methoden voor het bepalen van fuzzy duplicaten voor WEB-documenten // Elektronische bibliotheken: geavanceerde methoden en technologieën, digitale collecties: werkzaamheden van de 9e All-Russian wetenschappelijke conferentie RCDL'2007: za. werken van de deelnemers aan de wedstrijd. - T. 1. - Pereslavl-Zalessky: "Universiteit van de stad Pereslavl", 2007. - blz. 166-174.

4. Kartashev EA, Samkov L.M. Online informatie-analytisch systeem voor het monitoren van levensondersteunende indicatoren van territoriale objecten Beheer van grote systemen: een verzameling werken. - 2009. - Nr. 24. - P. 112-129.

5. Makunin, Alexey Anatolyevich. De technologie van het bouwen van modulaire geautomatiseerde informatiesystemen voor complexe vakgebieden en de toepassing ervan bijvoorbeeld informatie ondersteuning systeem van gemeentelijke ordening van lokale zelfbestuursorganen: dis. ... Kand. techniek. Wetenschappen: 05.13.11. - Tomsk, 2005 .-- 228 d.

Momenteel is in onze zich dynamisch ontwikkelende informatiewereld het vermogen om tijdige en correcte beslissingen te nemen, wat onmogelijk is zonder het verzamelen, verwerken, opslaan, analyseren van een grote hoeveelheid informatie en het verstrekken van de resultaten van hun verwerking aan de gebruiker, van bijzonder belang.

Een van deze taken is het snel identificeren van sites op internet die informatie bevatten waarvan de verspreiding in de Russische Federatie verboden is. De lijst van deze informatie wordt gepresenteerd in deel 2 van art. 15.1 van de federale wet van 27.07.2006 nr. 149-FZ "Informatie, informatietechnologieën en informatiebescherming". Vaak wordt dergelijke informatie gepresenteerd op sites op internet, die aanzienlijk kunnen verschillen, zowel in de technologieën die erin worden gebruikt als in hun functionaliteit. De informatie is op zijn beurt niet gestructureerd en kan in verschillende formaten worden gepresenteerd: tekst met fragmenten uit verschillende documenten; audio- en video-opnamen; afbeeldingen (foto's en tekeningen).

Er zijn een aantal informatiesystemen op de markt die vergelijkbare gegevensverwerking uitvoeren en in andere gebieden worden gebruikt, maar informatie over hun structuur en toegepaste gegevensverwerkingsmethoden wordt niet bekendgemaakt. Ze worden vaak geleverd met behulp van SaaS-technologie (software as a service), wat onaanvaardbaar is gezien de specifieke kenmerken van de gegevens die worden verwerkt.

Het doel van dit werk is om de structuur voor te stellen van een informatiesysteem dat de mogelijkheid biedt om snel ongestructureerde informatie van een groot aantal verschillende sites op internet te ontvangen en op te slaan voor latere verwerking, terwijl het de mogelijkheid moet bieden om de hoeveelheid verwerkte gegevens door de hoeveelheid gebruikte apparatuur te vergroten (horizontale schaling) en het gebruik van serverapparatuur met lage prestaties.

De ontwikkeling van een geautomatiseerd informatiesysteem voor het zoeken en analyseren van informatie op internet (hierna AIS Search genoemd) werd uitgevoerd door het Yugorsk Research Institute of Information Technologies en is bedoeld: om te communiceren met sites op internet; opslag en analyse van de verzamelde informatie; het verstrekken van de resultaten van informatieverwerking in de vorm van rapporten aan de gebruiker.

Interactie met sites op internet is gericht op het verzamelen van eerste informatie van hen, zorgt voor werk in de verzoek-antwoordmodus op de volgende gebieden: zoeken naar de vereiste informatie op de internetsite; het laden van de gevonden informatie in AIS Search; het bijwerken van de informatie die is opgeslagen in de AIS Search, door deze te vergelijken met de versie op de internetsite (uitgevoerd na een bepaald tijdsinterval, bepaald rekening houdend met de informatie-update).

AIS-gegevensstroomcontextdiagram zoeken

Het opslaan van de verzamelde informatie van sites op internet biedt veel toegangspunten voor het verzamelen en verwerken van informatie, en elk van hen kan gegevens verzamelen en verwerken volgens zijn eigen unieke regels.

In de ontwerpfase zijn datastroomdiagrammen ontwikkeld die de belangrijkste AIS-zoekprocessen en datastromen beschrijven die in het systeem circuleren. De afbeelding toont een contextdiagram van AIS Search-gegevensstromen.

Laten we de processen van het contextdiagram in meer detail bekijken.

1. Vorming van zoekcriteria voor documenten (trefwoorden, thematische zinnen, zoekopdrachten, voorbeeldafbeeldingen, fragmenten van audio- en video-opnamen) - de vereisten voor de inhoud van documenten die moeten worden gevonden op informatiebronnen op internet worden bepaald en geüpload naar de databank... De eerste vulling wordt uitgevoerd door de operator en vervolgens gespecificeerd op basis van de resultaten van de analyse van documenten.

2. Vorming van taken voor het zoeken naar documenten - de manier van zoeken naar documenten op informatiebronnen wordt bepaald, rekening houdend met de beschikbare mogelijkheden, de frequentie van het bijwerken van informatie en de prioriteiten van de gebruiker. Het wordt gevormd in de vorm van een taak waarvoor het is bepaald: starttijd, informatiebronnen, zoekcriteria voor documenten.

3. Zoeken naar documenten - biedt de uitvoering van taken voor het zoeken naar documenten: een periodieke controle op de aanwezigheid van taken die het starten van het zoeken naar documenten vereisen, de uitvoering van een zoektaak voor documenten waarbinnen, volgens het aantal gespecificeerde zoekcriteria voor documenten en informatiebronnen wordt een reeks acties uitgevoerd:

a) het opstellen van een verzoek voor het verkrijgen van gegevens naar een informatiebron op basis van bepaalde criteria voor het zoeken naar documenten en de syntaxis ervan;

b) het verzenden van een verzoek om gegevens te ontvangen naar een informatiebron en wachten op een antwoord;

c) het verwerken van de respons van de informatiebron (het schrijven van koppelingen naar de gevonden documenten naar de database).

4. Uploaden van documenten - zorgt voor het uploaden van het document via de gevonden link: controleren van de beschikbaarheid van het document via de gevonden link; vergelijking van het geüploade document met de vorige versie, indien aanwezig (controleren op wijzigingen) in de database; het geüploade document naar de database schrijven.

5. Documentanalyse - zorgt voor automatische verwerking van geüploade documenten: extractie van objecten uit een document (gestructureerde gegevens: naam, positie, naam van territoria en stoffen, Contactgegevens, evenementen, enz.); bepaling van de aard van de verbinding voor de geïdentificeerde objecten: object - subject, negatief - positief, enz.; berekening van de waarschijnlijkheid dat een document wordt toegewezen aan verschillende groepen documenten die vooraf door de gebruiker zijn gedefinieerd (documentclassificatie); identificatie van vergelijkbare documenten (met behulp van methoden voor het classificeren van objecten in groepen door voorheen onbekende gemeenschappelijke kenmerken te identificeren (geïntroduceerd in 1939 door Robert Tryon)); verfijning van zoekcriteria voor documenten op basis van eerder geclassificeerde en geclusterde documenten.

6. Genereren van rapporten - voorbereiding van gegevens voor weergave aan de gebruiker (handelingen uitvoeren die niet kunnen worden uitgevoerd terwijl de gebruiker wacht op de AIS-zoekreactie).

7. Presentatie van rapporten - presentatie van gegevens in de vorm van rapporten op basis van bepaalde sjablonen, rekening houdend met de voorkeuren van de gebruiker, terwijl hij de mogelijkheid krijgt om een ​​filter in te stellen om de daarin opgenomen gegevens te selecteren.

8. Verificatie van gegevens - de resultaten van documentanalyse worden bevestigd door de gebruiker: classificatie, geëxtraheerde objecten, gevestigde koppelingen.

Op basis van de resultaten van het bestuderen van de ervaring met het bouwen van dergelijke systemen, inclusief die gepresenteerd in, werd gekozen voor een modulaire systeemarchitectuur. Het gebruik van een modulaire aanpak als basis voor een dergelijke toolkit maakt meer mogelijk dan alleen bouwen complexe toepassingen, ze te verzamelen uit de "bouwstenen", maar ook om ervoor te zorgen dat ze uitwisselbaar zijn om software te verfijnen en de mogelijkheden van informatiesystemen uit te breiden. De belangrijkste voordelen van de modulaire architectuur zijn hier niet toe beperkt. De belangrijkste kenmerken van de gekozen benadering voor de constructie van AIS Search zijn onder meer de mogelijkheid van een selectieve lay-out, hergebruik van eenmaal geschreven code en ontwikkelde klassen.

In het algemeen bestaat de structuur van de AIS Search uit de volgende modules:

Database (een set tools voor het opslaan en openen van de gevonden gegevens).

Gebruikersinterface (biedt hulpmiddelen voor de gebruiker om de beschikbare gegevens en de resultaten van hun verwerking te bekijken, en om de werking van elk van de modules te regelen).

Analysesubsysteem (verwerkt de verwerking (classificatie, definitie van objecten en relaties) van de gevonden gegevens).

Subsysteem voor gegevensverzameling (implementeert gebruiker gedefinieerde het werkingsalgoritme van de interactiemodules (start, vorming van parameters) en zorgt voor het laden van de gegevens die ervan in de database worden ontvangen).

Interactiemodule (zorgt voor het ontvangen van gegevens van een specifieke informatiebron in overeenstemming met de opgegeven parameters).

Al deze verzamelde ongestructureerde gegevens moeten snel worden geanalyseerd, wat op zijn beurt onmogelijk is zonder de juiste organisatie van de opslag van deze gegevens. De trends van de afgelopen jaren laten zien dat moderne DBMS'en worden gebruikt om ongestructureerde gegevens op te slaan, waarbij de flexibiliteit van het documentopslagmodel wordt gecombineerd met de nauwkeurigheid en eenvoud van het relationele model.

Zo voegt PostreSQL 9.2 ondersteuning toe voor het JSON (JavaScript Object Notation) datatype, en voegt 9.3 functies toe voor het verwerken van waarden daarin. Hetzelfde gegevenstype wordt nu ondersteund in MySQL sinds versie 5.7.8. Soortgelijke functionaliteit is beschikbaar in Oracle en MSSQL DBMS.

Er zijn verschillende manieren om ongestructureerde gegevens in informatiesystemen op te slaan:

Rechtstreeks in de database, terwijl de meeste moderne DBMS hiervoor een gespecialiseerd datatype bieden: JSONB in ​​PostgreSQL, CLOB in Oracle, etc.;

Buiten de database (in de vorm van bestanden in de bijbehorende repositories), terwijl de database alleen links naar hen opslaat. De belangrijkste nadelen van deze optie zijn de moeilijkheden met de administratie, waardoor de beschikbaarheid en integriteit van de gegevens wordt gewaarborgd. Het voordeel van deze benadering is op zijn beurt de mogelijkheid om standaard toepassingen verwerking (bekijken), het verminderen van het totale volume van de database (het is niet nodig om een ​​grote hoeveelheid schijfruimte op één plaats toe te wijzen), gegevens kunnen worden opgeslagen op een groot aantal verschillende servers met een kleine hoeveelheid schijfruimte. Vandaag deze richting wordt actief ondersteund door DBMS-ontwikkelaars en er wordt gewerkt aan het wegwerken van deze tekortkomingen, met name FileTables voor het werken met bestanden verschenen in MS SQL Server 2012 en de SecureFiles-parameter voor het LOB-gegevenstype in Oracle.

Rekening houdend met het feit dat het grootste deel (volume) zal worden ingenomen door ongestructureerde gegevens, waartoe af en toe toegang nodig zal zijn (in de laadfase om metagegevens te extraheren en meerdere keren om de resultaten aan de gebruiker te demonstreren), werd de volgende structuur voorgesteld: Bestandsserver - Toegangsstuurprogramma - DBMS.

Als bestandsservers werd besloten om servers te gebruiken waarop de gratis besturingssysteem Linux (Debian, of Astra Linux), en als Postgres DBMS, aangezien het: vrij herdistribueerbaar is, tools heeft ontwikkeld voor: Zoek volledige text en kan worden gecertificeerd voor informatiebeveiligingseisen, bijvoorbeeld als onderdeel van het Astra Linux-besturingssysteem.

In overeenstemming met de voorgestelde aanpak hebben we bij het Yugorsk Research Institute of Information Technologies AIS Search geïmplementeerd, dat wordt gebruikt door de bevoegde afdelingen van de Khanty-Mansiysk Autonomous Okrug - Yugra om te zoeken naar domeinnamen, sitepagina-aanwijzers in de internetinformatie en telecommunicatienetwerk en netwerkadressen waarmee sites in informatie- en telecommunicatienetwerk internet kunnen worden geïdentificeerd die informatie bevatten waarvan de verspreiding in de Russische Federatie verboden is.

Op dit moment zijn er meer dan 75 duizend links verwerkt, zijn er meer dan 21 duizend unieke documenten geüpload naar de database. Voor 922 documenten werd met een hoge mate van waarschijnlijkheid vastgesteld dat ze informatie bevatten waarvan de verspreiding in de Russische Federatie verboden is, meer dan 75% daarvan is opgenomen in het overeenkomstige register, dat wordt bijgehouden door Roskomnadzor in overeenstemming met Deel 3 van art. 15.1 van de federale wet van 27.07.2006 nr. 149-FZ "Informatie, informatietechnologieën en informatiebescherming".

Tijdens de proefoperatie van AIS Poisk werden positieve beoordelingen ontvangen van eindgebruikers, merken ze ook de voorspelbaarheid op van het verschijnen van documenten in de database, afhankelijk van de gevormde zoekcriteria voor documenten (de resultaten zijn vergelijkbaar met die verkregen met handmatig zoeken) en een afname van de arbeidsintensiteit. Op basis van de resultaten werd ook aanbevolen om AIS Search commercieel in gebruik te nemen.

Het is de bedoeling om in de toekomst werkzaamheden uit te voeren om de efficiëntie van gebruikers met AIS Search te verbeteren, met name door wijzigingen aan te brengen in de gebruikersinterface, de reactietijd van het systeem op gebruikersacties te verkorten als gevolg van voorlopige gegevensvoorbereiding en de snelheid te verhogen van gegevensverwerkingsalgoritmen. Het is ook de bedoeling om werkzaamheden uit te voeren om de resultaten van documentclassificatie te vergelijken met behulp van verschillende algoritmen en methoden.

Bibliografische referentie

EA Kartashev, AL Tsaregorodtsev GEAUTOMATISEERD INFORMATIESYSTEEM VOOR HET ZOEKEN EN ANALYSE VAN INFORMATIE OP INTERNET // Fundamenteel onderzoek. - 2016. - Nr. 10-2. - S.296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (datum van toegang: 06.04.2019). Wij brengen onder uw aandacht de tijdschriften gepubliceerd door de "Academy of Natural Sciences"

17-03-1996 Pavel Khramtsov

Internetgebruikers zijn goed op de hoogte van de namen van dergelijke diensten en informatie diensten zoals Lycos, AltaVista, Yahoo, OpenText, InfoSeek, enz. - zonder de diensten van deze systemen is het tegenwoordig praktisch onmogelijk om iets nuttigs te vinden in de zee van informatiebronnen van het web. Wat deze services van binnenuit zijn, hoe ze zijn gerangschikt, waarom het zoeken in terabyte-arrays aan informatie snel genoeg wordt uitgevoerd en hoe de rangschikking van documenten bij uitgifte wordt geregeld - dit alles blijft meestal achter de schermen. Niettemin, zonder een goede planning van de zoekstrategie, bekendheid met de basisbepalingen van de theorie van ISS (Information Retrieval Systems), die al twintig jaar geschiedenis heeft, is het moeilijk om zelfs snelle-branddiensten als AltaVista of Lycos effectief te gebruiken . Architectuur van modern ISS voor WWW Informatiebronnen en hun presentatie in ISS Zoekindex Informatiezoektaal van het systeem Systeeminterface Conclusie Referenties Internetgebruikers kennen de namen van dergelijke diensten al goed

Internetgebruikers zijn goed op de hoogte van de namen van dergelijke diensten en informatiediensten zoals Lycos, AltaVista, Yahoo, OpenText, InfoSeek, enz. - zonder de diensten van deze systemen is het tegenwoordig praktisch onmogelijk om iets nuttigs te vinden in de zee van informatie bronnen van het web. Wat deze services van binnenuit zijn, hoe ze zijn gerangschikt, waarom het zoeken in terabyte-arrays aan informatie snel genoeg wordt uitgevoerd en hoe de rangschikking van documenten bij uitgifte wordt geregeld - dit alles blijft meestal achter de schermen. Niettemin, zonder een goede planning van de zoekstrategie, bekendheid met de basisbepalingen van de theorie van ISS (Information Retrieval Systems), die al twintig jaar geschiedenis heeft, is het moeilijk om zelfs snelle-branddiensten als AltaVista of Lycos effectief te gebruiken .

Systemen voor het ophalen van informatie zijn lang geleden geboren. Veel artikelen zijn gewijd aan de theorie en praktijk van het construeren van dergelijke systemen, waarvan het grootste deel eind jaren 70 - begin jaren 80 valt. Onder de binnenlandse bronnen moet de wetenschappelijke en technische verzameling "Wetenschappelijke en technische informatie. Serie 2", die nog steeds wordt gepubliceerd, worden benadrukt. Ook gepubliceerd in het Russisch is de "Bijbel" over de ontwikkeling van ISS - "Dynamische bibliotheek en informatiesystemen" door J. Salton, waarin de basisprincipes van het bouwen van systemen voor het ophalen van informatie en het modelleren van de processen van hun functioneren worden beschouwd. Er kan dus niet worden gezegd dat met de komst van internet en zijn snelle intrede in de praktijk van informatieondersteuning, iets fundamenteel nieuws is verschenen dat voorheen niet bestond. Om precies te zijn, het ISS op internet is een erkenning dat noch het hiërarchische model van Gopher, noch het hypertextmodel van het World Wide Web het probleem van het vinden van informatie in grote hoeveelheden heterogene documenten tot nu toe oplossen. En vandaag is er geen andere manier om snel gegevens te vinden dan zoekopdrachten op trefwoorden.

Wanneer je het hiërarchische Gopher-model gebruikt, moet je lang door de mappenboom dwalen totdat je het tegenkomt Nodige informatie... Deze mappen moeten door iemand worden onderhouden en tegelijkertijd moet hun thematische indeling hetzelfde zijn als: informatiebehoeften gebruiker. Gezien de anarchistische aard van internet en het enorme aantal verschillende interesses van internetgebruikers, is het duidelijk dat iemand misschien geen geluk heeft en dat er geen directory op internet zal zijn die een specifiek gebied... Het is om deze reden dat de Very Easy Rodent-Oriented Net-wide Index of Computerized Archives (Veronica) is ontwikkeld voor de vele Gopher-servers genaamd GopherSpace.

Op het World Wide Web zien we een vergelijkbare ontwikkeling. In 1988 noemde Frank Halaz in een speciale uitgave van het tijdschrift "Communication of the ACM", naast andere problemen bij het ontwikkelen van hypertekstsystemen en het gebruik ervan, het probleem van het organiseren van het ophalen van informatie in grote hypertextnetwerken als een prioritaire taak voor de volgende generatie systemen van dit type. Tot nu toe hebben veel van de in dat artikel geuite ideeën hun uitvoering nog niet gevonden. Natuurlijk moest het door Berners-Lee voorgestelde en zo wijdverbreide systeem op internet met dezelfde problemen worden geconfronteerd als zijn lokale voorgangers. Een echte bevestiging hiervan werd gedemonstreerd op de Tweede World Wide Web-conferentie in de herfst van 1994, waar presentaties werden gegeven over de ontwikkeling van systemen voor het ophalen van informatie voor het web en de World Wide Web Worm, ontwikkeld door Oliver McBrien van de Universiteit van Colorado , won de prijs voor beste navigatie. ... Er moet ook worden opgemerkt dat een lang leven immers geenszins bestemd is voor de prachtige programma's van getalenteerde individuen, maar voor de middelen die het resultaat zijn van de geplande en consistente beweging van wetenschappelijke en productieteams naar het gestelde doel. Vroeg of laat eindigt de onderzoeksfase en begint de fase van het systeembeheer, en dit is een heel ander soort activiteit. Dit is precies het lot van twee andere projecten die op dezelfde conferentie werden gepresenteerd: Lycos, ondersteund door Microsoft, en WebCrawler, eigendom van America On-line.

De ontwikkeling van nieuwe informatiesystemen voor het web is nog niet voltooid. Bovendien zowel in het stadium van het schrijven van commerciële systemen als in het stadium van onderzoek. De afgelopen twee jaar is alleen de bovenste laag verwijderd mogelijke oplossingen... Veel van de problemen die het internet-ISS voor ontwikkelaars stelt, zijn echter nog niet opgelost. Het is deze omstandigheid die de opkomst van projecten zoals AltaVista by Digital veroorzaakte, met als hoofddoel de ontwikkeling van software informatie ophalen voor de web- en architectuurselectie voor de webinformatieserver.

Architectuur van het moderne ISS voor WWW

Alvorens de problemen van het ophalen van gebouwinformatie te beschrijven: Websystemen en de manieren om ze op te lossen, laten we een typisch schema van zo'n systeem bekijken. In verschillende publicaties die aan specifieke systemen zijn gewijd, worden bijvoorbeeld diagrammen gegeven die alleen van elkaar verschillen in de manier waarop specifieke softwareoplossingen worden toegepast, en niet in het principe van het organiseren van de verschillende componenten van het systeem. Daarom zullen we dit schema beschouwen aan de hand van een voorbeeld uit het werk (Fig.).

Rijst. Typisch schema van een systeem voor het ophalen van informatie.

Cliënt in dit diagram is het een viewer voor een specifieke informatiebron. De meest populaire tegenwoordig zijn multi-protocol programma's zoals Netscape Navigator. Zo'n programma biedt de mogelijkheid om WWW, Gopher, Wais-documenten, FTP-archieven, mailinglijsten en Usenet-nieuwsgroepen te bekijken. Al deze informatiebronnen zijn op hun beurt het voorwerp van de zoektocht naar het informatiezoeksysteem.

Gebruikersomgeving ( gebruikersomgeving) - dit is niet alleen een kijker, in het geval van een informatiezoeksysteem wordt deze uitdrukking ook begrepen als de manier waarop een gebruiker communiceert met een zoekmachine: een systeem voor het genereren van zoekopdrachten en het bekijken van zoekresultaten.

Zoekmachine- dient om een ​​zoekopdracht in een information retrieval language (IPL) te vertalen in een formele zoekopdracht van het systeem, om links naar informatiebronnen van het netwerk te zoeken en de resultaten van deze zoekopdracht aan de gebruiker te verstrekken.

Indexdatabase- index, de belangrijkste gegevensreeks van het ISS en wordt gebruikt om te zoeken naar het adres van een informatiebron. De architectuur van de index is zo ontworpen dat het zoeken zo snel mogelijk wordt uitgevoerd en dat tegelijkertijd de waarde van elk van de gevonden informatiebronnen van het netwerk kan worden geschat.

Query's (gebruikersquery's)- worden opgeslagen in zijn (gebruikers)persoonlijke database. Het kost veel tijd om elk verzoek te debuggen en daarom is het uiterst belangrijk om de verzoeken te onthouden waarop het systeem goede antwoorden geeft.

Indexrobot- dient om het internet te scannen en de indexdatabase up-to-date te houden. Dit programma is de belangrijkste informatiebron over de staat van de informatiebronnen van het netwerk.

WWW-sites- dit is het hele internet, of beter gezegd - informatiebronnen, waarvan het bekijken wordt verzorgd door kijkers.

Laten we nu het doel en het constructieprincipe van elk van deze componenten in meer detail bekijken en het verschil definiëren tussen dit systeem en het traditionele ISS van het lokale type.

Informatiebronnen en hun presentatie in de IPS

Zoals je in de figuur kunt zien, is de documentaire reeks van het internet ISS de volledige set van zes basistypen documenten: WWW-pagina's, Gopher-bestanden, Wais-documenten, FTP-archiefrecords, Usenet-nieuws en mailinglijstartikelen. Dit is allemaal nogal heterogene informatie, die wordt gepresenteerd in de vorm van verschillende, op geen enkele manier inconsistent met elkaar, gegevensformaten: teksten, grafische en audio-informatie, en in het algemeen alles wat beschikbaar is in deze opslagplaatsen. De vraag rijst natuurlijk: hoe moet een informatiezoeksysteem met dit alles werken?

In traditionele systemen wordt het concept van een afbeelding voor het zoeken naar documenten - AML gebruikt. Meestal verwijst deze term naar iets dat een document vervangt en wordt gebruikt in zoekopdrachten in plaats van een echt document. Het zoekbeeld is het resultaat van het toepassen van een bepaald model van de informatiearray van documenten op de echte array. Het meest populaire model is het vectormodel, waarbij aan elk document een lijst met termen wordt toegewezen die de betekenis het beste weergeven. Om preciezer te zijn, het document krijgt een dimensievector toegewezen die gelijk is aan het aantal termen dat bij de zoekopdracht kan worden gebruikt. Bij een Booleaans vectormodel is het vectorelement 1 of 0, afhankelijk van de aan- of afwezigheid van de term in de POD. In complexere modellen worden termen gewogen - het vectorelement is niet gelijk aan 1 of 0, maar aan een bepaald aantal (gewicht), wat de overeenkomst van deze term met het document weerspiegelt. Het is het laatste model dat het populairst is geworden in de internet-IPS.

Over het algemeen zijn er andere modellen om documenten te beschrijven: een probabilistisch model van informatiestromen en zoeken en een zoekmodel in vage sets... Zonder in details te treden, is het zinvol er op te letten dat tot nu toe alleen het lineaire model wordt gebruikt in Lycos, WebCrawler, AltaVista, OpenText en AliWeb-systemen. Er zijn echter studies aan de gang naar de toepassing van andere modellen, waarvan de resultaten worden weerspiegeld in de werken. De eerste taak die het ISS moet oplossen, is dus het toewijzen van een lijst met trefwoorden aan een document of informatiebron. Deze specifieke procedure wordt indexering genoemd. Vaak verwijst indexering echter naar het samenstellen van een geïnverteerd lijstbestand, waarin elke geïndexeerde term is gekoppeld aan een lijst met documenten waarin deze voorkomt. Deze procedure is slechts een speciaal geval, of beter gezegd, technisch aspect creatie van een ISS-zoekapparaat. Het probleem met indexeren is dat de toewijzing van een zoekafbeelding aan een document of informatiebron berust op het idee van een vocabulaire waaruit deze termen worden geselecteerd als een vaste verzameling termen. In traditionele systemen was er een indeling in gecontroleerde woordenschatsystemen en vrije woordenschatsystemen. Het gecontroleerde woordenboek ging uit van het onderhoud van een lexicale database, de toevoeging van termen die door de systeembeheerder waren gemaakt, en alle nieuwe documenten konden alleen worden geïndexeerd door die termen die in deze database stonden. Het gratis woordenboek werd automatisch aangevuld als er nieuwe documenten verschenen. Op het moment van updaten was het woordenboek echter ook gerepareerd. De actualisatie omvatte een volledige herlading van de database. Op het moment van deze update werden de documenten zelf opnieuw geladen en werd het woordenboek bijgewerkt, en na de update werden de documenten opnieuw geïndexeerd. De updateprocedure kostte veel tijd en de toegang tot het systeem was op het moment van updaten afgesloten.

Stel je nu de mogelijkheid voor van een dergelijke procedure in een anarchistisch internet, waar elke dag bronnen verschijnen en verdwijnen. Bij het maken van de Veronica-software voor GopherSpace werd aangenomen dat alle servers moesten worden geregistreerd, en dus werd de aan- of afwezigheid van een bron behouden. Veronica controleerde één keer per maand op Gopher-documenten en werkte haar AML-database bij op Gopher-documenten. Er is niets zoals dit in het WWW. Om dit probleem op te lossen, worden netwerkscanprogramma's of indexeringsrobots gebruikt. Het ontwikkelen van robots is geen triviale taak; er een gevaar bestaat dat de robot in een lus gaat of raakt virtuele pagina's... De robot scant het web, vindt nieuwe bronnen, wijst er termen aan toe en plaatst ze in de indexdatabase. De belangrijkste vraag is wat voor soort termen aan documenten moeten worden toegeschreven, waar ze vandaan moeten komen, omdat een aantal bronnen helemaal geen tekst zijn. Tegenwoordig gebruiken robots meestal de volgende bronnen voor indexering om hun virtuele vocabulaire te verrijken: hyperlinks, koppen, titels (H1, H2), annotaties, trefwoordenlijsten, full-text documenten en beheerdersberichten over hun webpagina's. Voor het indexeren van telnet, gopher, ftp, niet-tekstinformatie worden voornamelijk URL's gebruikt, voor Usenet-nieuws en maillijsten de velden Onderwerp en Trefwoorden. De grootste ruimte voor het bouwen van een AML wordt gegeven door: HTML-documenten... Men moet echter niet denken dat alle termen uit de vermelde documentelementen in hun zoekafbeeldingen vallen. Lijsten met verboden woorden (stopwoorden), die niet kunnen worden gebruikt voor indexering, algemene woorden (voorzetsels, voegwoorden, enz.) worden zeer actief gebruikt. Dus zelfs wat in OpenText bijvoorbeeld full-text indexering wordt genoemd, is eigenlijk de selectie van woorden uit de tekst van het document en vergelijking met een reeks verschillende woordenboeken, waarna de term in POD terechtkomt en vervolgens in de index van het systeem. Om woordenboeken en indexen niet op te blazen (de Lycos-systeemindex is vandaag al 4 TB), wordt een concept als het gewicht van een term gebruikt. Het document wordt meestal geïndexeerd door 40 - 100 van de meest "moeilijke" termen.

Zoekindex

Nadat de bronnen zijn geïndexeerd en het systeem een ​​reeks POD's heeft samengesteld, begint de constructie van een zoekmachine. Het is vrij duidelijk dat een frontale weergave van een POD-bestand of -bestanden lang zal duren, wat absoluut onaanvaardbaar is voor een interactief WWW-systeem. Om het zoeken te versnellen, wordt een index gebouwd, die in de meeste systemen een reeks onderling verbonden bestanden is, gericht op snel zoeken naar gegevens op aanvraag. De structuur en samenstelling van indices van verschillende systemen kunnen van elkaar verschillen en zijn afhankelijk van vele factoren: de grootte van de reeks zoekafbeeldingen, de taal voor het ophalen van informatie, de locatie van verschillende componenten van het systeem, enz. Laten we eens kijken naar de structuur van een index aan de hand van een voorbeeld van een systeem waarvoor het mogelijk is om niet alleen een primitieve boolean, maar ook contextueel en gewogen zoeken te implementeren, evenals een aantal andere functies die in veel internetzoekmachines ontbreken , bijvoorbeeld Yahoo. De index van het systeem in kwestie bestaat uit een tabel met pagina-ID's (pagina-ID), een tabel met trefwoorden (Trefwoord-ID), een paginawijzigingstabel, een kopteksttabel, een tabel met hypertextlinks, omgekeerd (IL) en directe lijst (FL).

Page-ID wijst pagina-ID's toe aan hun URL, Keyword-ID - elk sleutelwoord aan een unieke identificatie van dit woord, koptabel - pagina-ID aan paginatitel, hypertext-linktabel - pagina-ID aan hypertextlink naar deze pagina. De omgekeerde lijst associeert elk trefwoord in het document met een lijst van paren - pagina-ID, positie van het woord op de pagina. Een directe lijst is een reeks afbeeldingen voor het zoeken op pagina's. Al deze bestanden worden op de een of andere manier gebruikt bij het zoeken, maar de belangrijkste daarvan is het bestand van de omgekeerde lijst. Zoekresultaat in dit bestand is de vereniging en/of kruising van lijsten met pagina-ID's. De resulterende lijst, die wordt geconverteerd naar een lijst met koppen die wordt geleverd met hyperlinks teruggestuurd naar de gebruiker in zijn webbrowser. Om snel te zoeken naar records van de geïnverteerde lijst, worden er meerdere bestanden overheen gebouwd, bijvoorbeeld een bestand met letterparen die de records van de geïnverteerde lijst aangeven die met deze paren beginnen. Bovendien wordt een mechanisme voor directe gegevenstoegang gebruikt - hashing. Een combinatie van de twee benaderingen wordt gebruikt om de index bij te werken. De eerste kan "on the fly" indexcorrectie worden genoemd met behulp van een paginamodificatietabel. De essentie van deze oplossing is vrij eenvoudig: de oude indexvermelding verwijst naar de nieuwe, die bij het zoeken wordt gebruikt. Wanneer het aantal van dergelijke links voldoende wordt om het tijdens het zoeken te voelen, vindt een volledige update van de index plaats - het herladen ervan. Zoekefficiëntie in elke specifieke ISP wordt uitsluitend bepaald door de indexarchitectuur. In de regel is de manier om deze arrays te organiseren het "geheim van het bedrijf" en zijn trots. Om hiervan overtuigd te zijn, volstaat het om de materialen van OpenText te lezen.

Taal voor het ophalen van informatie van het systeem

De index is slechts een deel van de zoekmachine dat voor de gebruiker verborgen is. Het tweede deel van dit apparaat is de information retrieval language (IPL), die het mogelijk maakt om een ​​vraag naar het systeem in een eenvoudige en visuele vorm te formuleren. De romantiek van het creëren van IPL als een natuurlijke taal is al lang vergeten - dit is de benadering die in het Wais-systeem werd gebruikt in de vroege stadia van de implementatie ervan. Zelfs als de gebruiker wordt gevraagd om zoekopdrachten in natuurlijke taal in te voeren, betekent dit niet dat het systeem de zoekopdracht van de gebruiker semantisch zal ontleden. Het proza ​​​​van het leven is dat meestal de zin wordt opgedeeld in woorden, waaruit verboden en gewone woorden worden verwijderd, soms wordt de woordenschat genormaliseerd en dan worden alle woorden verbonden door een logische EN of OF. Dus een verzoek als:

> Software die wordt gebruikt op Unix Platform

wordt omgezet in:

> Unix EN Platform EN Software

wat zoiets als het volgende zou betekenen: " Vind alle documenten waarin de woorden Unix, Platform en Software tegelijkertijd voorkomen".

Varianten zijn ook mogelijk. Dus op de meeste systemen wordt de uitdrukking "Unix Platform" herkend als: belangrijkste zin en zal niet splitsen in alleenstaande woorden... Een andere benadering is het berekenen van de mate van verwantschap tussen het verzoek en het document. Dit is de aanpak die Lycos gebruikt. In dit geval wordt, in overeenstemming met het vectormodel van de presentatie van documenten en verzoeken, hun nabijheidsmaat berekend. Vandaag zijn er een tiental verschillende nabijheidsmaatregelen bekend. De meest gebruikte is de cosinus van de hoek tussen het zoekbeeld van het document en de zoekopdracht van de gebruiker. Gewoonlijk worden deze percentages van documentconformiteit met het verzoek gegeven als: referentie informatie met de lijst met gevonden documenten.

Alta Vista heeft de meest ontwikkelde zoektaal onder de moderne internet-ISS'en. Naast de gebruikelijke set van AND, OR, NOT, kunt u met dit systeem ook NEAR gebruiken, waarmee u contextueel zoeken kunt organiseren. Alle documenten in het systeem zijn onderverdeeld in velden, dus in het verzoek kunt u aangeven in welk deel van het document de gebruiker het trefwoord hoopt te zien: link, titel, annotatie, etc. U kunt ook het rangordeveld voor de afgifte en het criterium voor de nabijheid van documenten bij de aanvraag instellen.

Systeeminterface:

Een belangrijke factor is de manier waarop informatie wordt gepresenteerd in het interfaceprogramma. Er zijn twee soorten front-endpagina's: zoekpagina's en pagina's met zoekresultaten.

Bij het opstellen van een verzoek aan het systeem wordt ofwel een menugerichte benadering ofwel de opdrachtregel gebruikt. Met de eerste kunt u een lijst met termen invoeren, meestal gescheiden door een spatie, en het type logische verbinding ertussen selecteren. De logische samenhang geldt voor alle termen. Het diagram van de afbeelding toont de opgeslagen gebruikersquery's - in de meeste systemen is dit slechts een zin in de IPL, die kan worden uitgebreid door nieuwe termen en logische operatoren toe te voegen. Maar dit is slechts één manier om opgeslagen query's te gebruiken, queryverbetering of verfijning genoemd. Om deze bewerking uit te voeren, slaat het traditionele ISS niet de zoekopdracht als zodanig op, maar het zoekresultaat - een lijst met document-ID's, die wordt gecombineerd / doorsneden met de lijst die wordt verkregen bij het zoeken naar documenten met nieuwe termen. Helaas wordt het opslaan van de lijst met identificatiegegevens van gevonden documenten op het WWW niet toegepast, wat werd veroorzaakt door de eigenaardigheid van de interactieprotocollen tussen het clientprogramma en de server die de sessiemodus niet ondersteunen.

Het zoekresultaat in de ISS-database is dus een lijst met verwijzingen naar documenten die aan het verzoek voldoen. Diverse systemen presenteer deze lijst op verschillende manieren. Sommige bieden alleen een lijst met links, terwijl andere, zoals Lycos, Alta Vista en Yahoo, ook een korte beschrijving geven die is ontleend aan de titels of de hoofdtekst van het document zelf. Daarnaast rapporteert het systeem in hoeverre het gevonden document overeenkomt met de aanvraag. In Yahoo is dit bijvoorbeeld het aantal zoektermen in de AML op basis waarvan het zoekresultaat wordt gerangschikt. Het Lycos-systeem geeft een maatstaf voor de overeenstemming van het document met het verzoek, op basis waarvan de rangorde wordt gemaakt.

Bij het beoordelen van interfaces en zoekhulpmiddelen kunt u de procedure voor het corrigeren van zoekopdrachten op relevantie niet negeren. Relevantie is een maatstaf voor de geschiktheid van een door het systeem gevonden document voor de behoefte van de gebruiker. Maak onderscheid tussen formele en reële relevantie. De eerste wordt door het systeem berekend en op basis waarvan de selectie van gevonden documenten wordt gerangschikt. De tweede is de evaluatie door de gebruiker van de gevonden documenten. Sommige systemen hebben hiervoor een speciaal veld, waar de gebruiker het document als relevant kan markeren. Bij de volgende zoekopdracht wordt de zoekopdracht uitgebreid met de termen van dit document en wordt het resultaat opnieuw gerangschikt. Dit gebeurt totdat stabilisatie optreedt, wat betekent dat niets beters dan het resulterende monster uit dit systeem zal worden bereikt.

Naast links naar documenten kan de door de gebruiker ontvangen lijst links bevatten naar delen van documenten of naar hun velden. Dit gebeurt wanneer er links zijn zoals http: // host / path # mark of links volgens het WAIS-schema. Links naar scripts zijn ook mogelijk, maar meestal slaan robots dergelijke links over en indexeert het systeem ze niet. Als alles min of meer duidelijk is met http-links, dan zijn WAIS-links veel meer complexe objecten... Het feit is dat WAIS de architectuur implementeert van een gedistribueerd informatie-ophaalsysteem, waarbij het ene ISS, bijvoorbeeld Lycos, een zoekmachine bouwt boven de zoekmachine van een ander systeem - WAIS. WAIS-servers hebben echter hun eigen lokale databases. Bij het uploaden van documenten naar WAIS kan de beheerder de structuur van de documenten beschrijven, ze opdelen in velden en de documenten als één bestand opslaan. De WAIS-index verwijst naar individuele documenten en hun velden als onafhankelijke opslageenheden; in dit geval moet een internetbronbrowser kunnen werken met het WAIS-protocol om toegang te krijgen tot deze documenten.

Conclusie

Het overzichtsartikel ging in op de belangrijkste elementen van systemen voor het ophalen van informatie en de principes van hun constructie. Tegenwoordig is ISS de krachtigste zoekmachine voor internetinformatiebronnen. Helaas is de Russische internetsector nog niet waargenomen actieve studie dit probleem, met de mogelijke uitzondering van het LIBWEB-project gefinancierd door de RFBR en het Spider-systeem, dat niet betrouwbaar genoeg werkt. VINITI heeft ongetwijfeld de meeste ervaring in het ontwikkelen van dit soort systemen, maar hier is het werk tot nu toe geconcentreerd op het plaatsen van eigen eigen middelen op het web, dat fundamenteel verschilt van systemen voor het ophalen van informatie via internet zoals Lycos, OpenText, Alta Vista, Yahoo, InfoSeek, enz. Het lijkt erop dat dergelijk werk zou kunnen worden geconcentreerd in het kader van projecten zoals Russia On-line door SovamTeleport, maar hier zien we nog steeds links naar de zoekmachines van andere mensen. De ontwikkeling van IPS voor internet in de Verenigde Staten begon twee jaar geleden, gezien de binnenlandse realiteit en het tempo van de ontwikkeling van webtechnologieën in Rusland, kan men hopen dat we nog steeds alles voor de boeg hebben.

Literatuur

1. J. Salton. Dynamische bibliotheek- en informatiesystemen. Mir, Moskou, 1979.
2. Frank G. Halasz. Reflectie-notecards: zeven nummers voor de volgende generatie hypermediasystemen. Mededeling van de acm, V31, N7, 1988, blz. 836-852.
3. Tim Berners-Lee. World Wide Web: voorstel voor HyperText-project. 1990.
4. Alta Vista. Digital Equipment Corporation, 1996.
5. Hersenen Pinkerton. Vinden wat mensen willen: ervaringen met de WebCrawler.
6. Bodi Yuwono, Savio L. Lam, Jerry H. Ying, Dik L. Lee. ...
7. Martin Bartschi. Een overzicht van onderwerpen voor het ophalen van informatie. IEEE Computer, N5, 1985, p.67-84.
8. Michel L. Mauldin, John R.R. Levitt. Web Agent-gerelateerd onderzoek bij het Center for Machine Translation.
9. Ian R. Winship. World Wide Web zoekhulpmiddelen - een evaluatie. WIJNSTOK (99).
10. G. Salton, C. Buckley. Term-wegingbenaderingen bij het automatisch ophalen van tekst. Informatieverwerking en -beheer, 24 (5), pp. 513-523, 1988.
11. Open Text Corporation introduceert het best presterende systeem voor het ophalen van tekst in de branche.

Pavel Khramtsov ([e-mail beveiligd]) - onafhankelijke deskundige, (Moskou).



Het internet is bekend bij een typische inwoner van een moderne stad, maar aan deze gang van zaken ging een vrij lange en moeilijke weg de vorming en ontwikkeling van technologieën, waardoor het mogelijk werd om de inzet van het World Wide Web op wereldwijde schaal te verzekeren. Wat zijn deze oplossingen? Hoe ontwikkelde het zich in Rusland?

Definitie van internet

Het internet als globaal informatiesysteem is een computernetwerk waarvan de knooppunten over de hele wereld zijn verspreid en tegelijkertijd logisch met elkaar verbonden zijn door het gebruik van een speciale adresruimte. De werking van dit wereldwijde netwerk is voornamelijk mogelijk dankzij de unificatie van communicatiestandaarden: TCP / IP wordt bijvoorbeeld als de belangrijkste gebruikt, die op dezelfde manier wordt geïmplementeerd op alle computers die zijn aangesloten op het World Wide Web.

In zijn huidige vorm bestaat internet als mondiaal informatiesysteem al zo'n 30 jaar. Maar tegen de tijd dat het verschijnt, is de infrastructuur op basis waarvan de Wereldwijd netwerk, was in veel landen van de wereld behoorlijk ontwikkeld.

Het is nuttig om na te gaan hoe het in bepaalde staten is gebouwd. Het is opmerkelijk dat de geschiedenis van de ontwikkeling van infrastructuur, op basis waarvan het moderne internet begon te worden gebouwd, praktisch samenvalt met de periode van confrontatie tussen de twee grootste technologische systemen ter wereld - westers en sovjet. Dit is natuurlijk een zeer vereenvoudigde indeling, aangezien zowel in het kader van het eerste systeem als in het tweede, regionale, nationale technologieën actief werden ontwikkeld, die in een aantal gevallen zeer verschillend zijn.

Uiteindelijk was de basis voor de ontwikkeling van het moderne internet nog steeds het westerse model - maar tegen de tijd dat het in de USSR werd geïntroduceerd, hadden Sovjetspecialisten al ervaring met het inzetten van computernetwerken, tot op zekere hoogte vergelijkbaar met het westerse model van internet . Overweeg daarom hoe het World Wide Web zich ontwikkelde binnen de westerse technologisch systeem, evenals wanneer internet in Rusland verscheen op basis van de bijzonderheden van de ontwikkeling van de nationale infrastructuur van computernetwerken.

Geschiedenis van internet in westerse landen

Aan het eind van de jaren vijftig, tijdens een van de moeilijkste periodes van de Koude Oorlog, stelde de Amerikaanse regering een taak voor Amerikaanse wetenschappers: het creëren van een datatransmissie-infrastructuur die zelfs in een wereldwijd gewapend conflict zou kunnen functioneren. Wetenschappers stelden het concept van een dergelijk systeem voor - het project kreeg de naam ARPANET.

In 1969 werden de computers van verschillende grote Amerikaanse universiteiten met elkaar verbonden volgens schema's die in het kader van dit project door wetenschappers waren ontwikkeld. Vervolgens werd de ervaring van de onderzoekers overgenomen door vele andere geïnteresseerde structuren: dit leidde tot de wildgroei van computernetwerken die op nationale schaal werken volgens de ARPANET-standaarden.

verscheen en gespecialiseerde programma's voor deze infrastructuur: al in 1971 werd er bijvoorbeeld software geschreven voor het ARPANET, ontworpen om berichten te verzenden. In feite hebben we het over het verschijnen van de eerste e-mail - de belangrijkste functies van internet zijn tegenwoordig nog steeds de organisatie van gegevensuitwisseling in het juiste formaat. In de jaren 70 was e-mail volgens onderzoekers de meest gevraagde functie in het kader van het Amerikaanse project.

Geleidelijk aan reikte de schaal van ARPANET verder dan de Verenigde Staten: verschillende Europese organisaties begonnen zich op het netwerk aan te sluiten. Tegelijkertijd verliep de communicatie met de Amerikaanse infrastructuur via een over de Atlantische Oceaan gelegde telefoonkabel.

Sinds de aansluiting van de Europeanen op het ARPANET, met name in 1973, begonnen Britse en Noorse organisaties gegevensuitwisseling met het netwerk te organiseren en werd het project internationaal. De communicatie tussen computers in verschillende delen van de planeet was echter niet altijd stabiel vanwege het ontbreken van algemeen aanvaarde normen voor gegevensuitwisseling.

Dit probleem is opgelost met de introductie van het universele TCP/IP-protocol. Het wordt nog steeds gebruikt door bijna alle internetbronnen.

Tegen de tijd dat TCP-IP werd geïntroduceerd, was het Amerikaans-Europese netwerk nog steeds meer interregionaal dan mondiaal - ondanks het feit dat het in 1983 internet heette. Maar de verdere inzet was snel. Dit proces bijgedragen aan de uitvinding in 1984 van de DNS-standaard - op basis waarvan de domeinnaamservice begon te functioneren. Opgemerkt kan worden dat het ARPANET-project in hetzelfde jaar een serieuze concurrent had in de vorm van het NSFNet-netwerk, dat computers van verschillende universiteiten verenigde.

NSFNet als de infrastructuur van internet

De NSFNet-infrastructuur maakte het mogelijk om een ​​aanzienlijk hogere dynamiek te bieden en groeide tegelijkertijd in de meest actieve snelheden. Geleidelijk aan werd het groeiende NSFNet-netwerk het "internet" genoemd. In 1988 werd het mogelijk om zijn middelen te gebruiken om instant messaging in chatformaat te organiseren - via het IRC-protocol.

In 1989 ontwikkelde de Britse wetenschapper Tim Berners-Lee het concept van een wereldwijd computernetwerk, het World Wide Web. In de komende 2 jaar creëerde hij het Hypertext Transfer Protocol - HTTP-, HTML- en URL-ID's. Volgens veel onderzoekers was het dankzij de uitvindingen van Tim Berners-Lee dat het internet als mondiaal informatiesysteem zijn snelle opmars over de planeet begon.

Deze standaarden, evenals de mogelijkheden van het universele TCP / IP-protocol, hebben het mogelijk gemaakt om het World Wide Web in een gigantisch tempo op wereldwijde schaal te schalen. Aan het begin van de jaren 90 werden de belangrijkste mogelijkheden van internet gevormd, beschikbaar moderne gebruikers: webpagina's openen via browsers, informatie erop plaatsen, bestanden ontvangen en overdragen. Natuurlijk bleven ze gewild e-maildiensten, IRC.

Geperfectioneerd Xia hypertext-taal, technologieën voor sitebeheer. Lange tijd werden servers gebruikt als de infrastructuurbasis van internet. NSFNet, maar in 1995 deze functie werd overgedragen netwerkproviders... In 1996, werd wijdverbreid WWW-standaard, waardoor het mogelijk was om bijna alle gegevens via internetkanalen te verzenden. Maar de norm heeft zijn relevantie behouden. ftp. En vandaag veelInternetbronnenblijf het gebruiken om het effectief delen van bestanden te organiseren.

In de vorm die we gewend zijn Het wereldwijde web als geheel werd gevormd aan het begin van de jaren 2000. Naarmate de snelheid van gebruikerstoegang tot online bronnen toenam dankzij technologieën zoals DSL, glasvezel, 3G, 4G, werden bronnen voor het plaatsen van video-inhoud zoals YouTube, gameportals en cloudservices bijzonder populair. Via internet wordt niet alleen de uitwisseling van gegevens tussen mensen georganiseerd, maar ook tussen verschillende apparaten - van eenvoudige huishoudelijke artikelen tot grote industriële infrastructuur. Bestaat een groot aantal van wetenschappelijke concepten over hoe het internet zich in de toekomst als mondiaal informatiesysteem zal ontwikkelen. Ze zijn heel verschillend en hun implementatie hangt in veel opzichten af ​​van het verloop van de ontwikkeling van de eigenlijke computertechnologie.

Geschiedenis van internet in Rusland

Laten we nu eens kijken wanneer internet in Rusland verscheen. We maakten kennis met het westerse model van de ontwikkeling van online communicatie, nu is het belangrijk voor ons om te begrijpen hoe de bijbehorende infrastructuur in ons land is geïmplementeerd.

Zoals we aan het begin van het artikel opmerkten, ontwikkelden de informatietechnologieën in de Sovjet-Unie zich lange tijd parallel met die in het Westen. Opgemerkt moet worden dat hun ontwikkeling grotendeels mogelijk werd dankzij het verschijnen in de USSR van middelen voor de reproductie van de westerse microprocessorbasis, die in de jaren 60 en 70 actief werd geïntroduceerd op verschillende niveaus van communicatiebeheer , hoewel daarvoor Sovjetwetenschappers zeer vooruitstrevende eigen ontwikkelingen hadden ... Maar op de een of andere manier zou de essentie van internet in de westerse interpretatie aanzienlijk kunnen verschillen van de concepten van de ontwikkeling van computernetwerken in de USSR.

In de jaren vijftig vormden Sovjetwetenschappers computernetwerken als onderdeel van projecten om een ​​infrastructuur voor raketafweer te creëren. Deze netwerken waren gebaseerd op Sovjet-computers zoals "Diana-I", "Diana-II" en andere oplossingen. De uitwisseling van informatie tussen de corresponderende computers werd uitgevoerd om de vliegbaan van de interceptorraketten te berekenen.

In de jaren zeventig waren computernetwerken ook actief in de civiele sfeer - met name als infrastructuur in het kader van systemen als ASU-Express en Sirena, die het mogelijk maakten om respectievelijk trein- en vliegtickets te reserveren. In 1974 werd de KOI-8 computercodering uitgevonden.

In de eerste helft van de jaren 80 begon het VNIIPAS-instituut met behulp van computers op afstand gegevens uit te wisselen met buitenlandse organisaties. Over het algemeen was in de jaren 80 de inzet van Sovjet-netwerkcomputersystemen behoorlijk actief, grotendeels vanwege het verschijnen in de USSR van gelokaliseerde versies van het besturingssysteem. UNIX (op de principes waarvan moderne Linux-besturingssystemen werken en, op hun beurt, Android-besturingssystemen die erop gebaseerd zijn, wat kan worden toegeschreven aan de meest wijdverbreide in de wereld, als we de markt voor mobiele apparaten nemen). In feite had de USSR tegen 1990 alle noodzakelijke infrastructuur gevormd voor de daaropvolgende eenwording van Sovjet-computernetwerken en internet, die op basis van NSFNet-bronnen functioneerden.

"RELCOM" - nationaal computernetwerk

All-Union computer netwerk"RELCOM", die internetprotocollen en -technologieën gebruikt. Communicatie tussen computers vindt plaats via telefoonkanalen. De belangrijkste rol bij het bouwen van deze infrastructuur werd gespeeld door de ontwikkelaars van de coöperatie Demos, die verschillende softwareoplossingen ontwikkelde.

In augustus 1990 namen onderzoekers van de Universiteit van Helsinki contact op met de Universiteit van Helsinki om ervoor te zorgen dat de posttransmissiekanalen binnen het internet zelf zouden functioneren. In september 1990 registreerden RELKOM-specialisten, evenals het bedrijf Demos, het domein van de Sovjet-Unie.Su, dat nog steeds in gebruik is - en er zijn versies waarvan de populariteit zal groeien.

In de USSR worden, samen met RELCOM, FidoNet-gebruikersnetwerken ontwikkeld. In 1991 kwamen voor Sovjetgebruikers die verbinding maakten met RELKOM bronnen met domeinadressering beschikbaar, net als in het moderne internet. In 1992 verschenen de eerste providers in de Russische Federatie.

Het gebruik van de internationale TCP / IP-standaard in Rusland wordt wijdverbreid. In april 1994 werd het nationale domein.Ru geregistreerd. Sindsdien heeft het internet zich in Rusland op dezelfde manier ontwikkeld als in westerse landen. Tegelijkertijd hebben Russische specialisten ook een belangrijke bijdrage geleverd aan de ontwikkeling van het World Wide Web, met name op het niveau van de ontwikkeling van antivirus- en serveroplossingen.

We hebben dus bestudeerd hoe internet werkt, de eigenaardigheden van de ontwikkeling van de bijbehorende communicatietechnologieën in Rusland en in het Westen. Laten we nu bestuderen wat het World Wide Web tegenwoordig is.

Modern internet: providers

Internettoegang voor gebruikers wordt verzorgd door providers. Laten we de details bestuderen van de taken die ze oplossen.

Wat is een internetprovider? In de beginjaren van de ontwikkeling van het World Wide Web werd dit beschouwd als een bedrijf dat overstapservices leverde om de communicatie tussen de gebruiker en de dichtstbijzijnde internetservers te verzekeren. Nu is de aanbieder een aanbieder van hightech communicatiemiddelen die zorgen voor het functioneren op regionale en soms landelijke schaal. Bedrijven die deze diensten leveren, kunnen zowel zeer groot, internationaal als lokaal zijn, die op de schaal van één stad kunnen opereren.

Er is een groot aantal technologieën waarmee aanbieders hun diensten kunnen verlenen: optische en telefoonkanalen, satelliet, mobiel internet... Elk van hen heeft zijn eigen voor- en nadelen. De prijzen voor internet, gevormd door de provider, zijn grotendeels afhankelijk van welke kanalen worden gebruikt. In de regel zijn bekabelde kanalen het meest betaalbaar voor de gebruiker, iets duurder - mobiel, de duurste - satelliet. In dit geval kan de betaling voor de diensten van de aanbieder worden uitgevoerd:

  • in de vorm van een abonnementsgeld;
  • voor verkeer;
  • in sommige gevallen - tijdens toegang tot het netwerk.

De rol van internet in moderne wereld is in de eerste plaats om gebruikers de mogelijkheid te bieden om verschillende sites te bezoeken.

Modern internet: sites

Een site op internet is een verzameling bestanden (tekst-, grafische, video- en audio-opnamen die andere multimediacomponenten bevatten), waartoe toegang wordt verkregen via protocollen zoals WWW, HTTP, FTP en andere, die in één geval optimaal zijn of een andere. Natuurlijk zijn deze bestanden op een bepaalde manier gesystematiseerd om de perceptie van informatie door de gebruiker te vergemakkelijken.

Het belangrijkste systeemelement van een site is een webpagina. In de meeste gevallen is het gecompileerd op HTML-taal, vaak met behulp van verschillende scripts... De site kan verschillende onderwerpen hebben. Het kan een internetkrant, blog, videohosting, sport-, entertainmentportaal zijn - er zijn een groot aantal soorten bronnen die op het World Wide Web kunnen worden geplaatst.

Modern internet: radio en televisie

Hierboven merkten we op dat met de ontwikkeling van communicatietechnologieën en een toename van de snelheid van gegevensoverdracht, verschillende videobronnen op internet aan populariteit winnen. Hierbij valt te denken aan bijvoorbeeld internettelevisie, maar ook online radio. Deze technologieën maken het mogelijk om met speciale technologieën televisie- en radio-uitzendingen uit te zenden op speciale sites.

Het is opmerkelijk dat veel van moderne diensten stelt u in staat om uw eigen uitzendingen te organiseren voor elke gebruiker die dat wil. Rekening houdend met de prevalentie van hogesnelheidslijnen, is internettelevisie niet langer een voorrecht, maar een gewone hulpbron. Wat tegelijkertijd van gebruikers kan vereisen dat ze aanzienlijke investeringen (arbeid, financieel) doen in de promotie en ontwikkeling ervan. Hetzelfde kan gezegd worden voor websites. Een online krant of entertainmentportal kan door iedereen geregistreerd worden, maar er een herkenbaar merk van maken is geen sinecure.

Modern internet: mobiele toepassingen

Een van de meest uitgesproken trends in de ontwikkeling van het moderne internet kan als alomtegenwoordig worden beschouwd mobiele applicaties- speciale software gelanceerd vanaf smartphones of tablets. Functioneel kunnen deze toepassingen in veel gevallen vergelijkbaar zijn met webpagina's. Maar er zijn ook gespecialiseerde oplossingen van het overeenkomstige type, bijvoorbeeld aangepast om beveiligde toegang te organiseren tot elke persoonlijke rekening, bijvoorbeeld een bankrekening. Het internet is tegenwoordig een communicatiemedium waarbinnen bijna alle digitale gegevens kunnen worden verzonden, en in veel gevallen vereist dit het gebruik van speciale protocollen en technologieën, ook die geïmplementeerd in mobiele toepassingen.

Samenvatting

We hebben dus bestudeerd wat het concept van het World Wide Web is, evenals de belangrijkste technologieën die worden gebruikt om de werking ervan te garanderen. De essentie van internet - door gebruikers van over de hele wereld stabiele, goedkope toegang te bieden tot verschillende soorten bruikbare informatie, bestanden, multimedia-inhoud, evenals middelen waarmee mensen met elkaar kunnen communiceren en verschillende gegevens kunnen uitwisselen. Zo'n mogelijkheid is tegenwoordig al bekend bij inwoners van, waarschijnlijk, alle landen van de wereld, hoewel het vroeger voor heel weinig mensen beschikbaar was, kon het in veel gevallen alleen worden gebruikt met hoge kwalificaties op het gebied van informatietechnologie.

Wie is een internetprovider, op welke kan men aansluiten en tegen welke prijs zijn vragen die een typische inwoner van een moderne metropool vrijwel zeker kent. Het World Wide Web blijft evolueren: nieuwe diensten, technologieën, concepten voor het organiseren van gebruikerscommunicatie verschijnen, apparaten voor gegevensoverdracht worden verbeterd. Hoe de technologische vooruitgang zal verlopen, hoe de wereldeconomie zich zal ontwikkelen, zal de vectoren bepalen voor verdere ontwikkeling het internet.