OLAP: online analytisk databehandling. Metoder for analytisk databehandling for beslutningsstøtte Metoder og verktøy for analytisk informasjonsbehandling

Legg igjen en kommentar 6,950

Anna Ivanova

I dag bruker nesten alle selskaper, enten det er store eller svært små, private eller statseide, informasjonssystemer i sin virksomhet, og som regel ikke det første året. Dette betyr at de fleste virksomheter allerede har en viss mengde akkumulert data, og dette volumet er ofte av betydelig verdi - i det minste bekreftes det av det faktum at de siste årene har det vært mye oppmerksomhet i pressen til bedriftsdata. lekkasjer, anses som et lønnsomt produkt for det kriminelle markedet.

Merk at verdien av bedriftsdata ikke bare ligger i den totale kostnaden for individuelle poster, men også i de ofte mye høyere kostnadene for et datasett som en kilde til tilleggsinformasjon som ikke kan hentes fra en eller flere poster, for eksempel informasjon om mønstre , trender eller gjensidig avhengighet mellom data for å gjøre det mulig å ta bestemte forretningsbeslutninger. Det er grunnen til at moderne bedrifts- og forsyningskjedestyringsverktøy, bankinformasjonssystemer og andre forretningsapplikasjoner vanligvis inkluderer ikke bare datainntasting og redigeringsverktøy, men også verktøy for deres analytiske behandling, som på en eller annen måte lar deg identifisere og presentere mønstre og trender i data.... Disse midlene i dag er svært forskjellige. De inkluderer verktøy for å bygge relasjonsdatavarehus – spesialdesignede databaser som lar deg utføre spørringer for å velge data i høy hastighet; server- og klientverktøy for å bygge flerdimensjonale datavarehus som inneholder aggregerte data (summer, gjennomsnittsverdier) i en ikke-relasjonell struktur; klientapplikasjoner for å gi brukergrensesnitt til relasjons- og flerdimensjonale datalagre; verktøy for å lage løsninger basert på slike lagringer, analysere multidimensjonale og relasjonsdata, generere rapporter om multidimensjonale og relasjonsdata. Nedenfor vil vi diskutere hva produktene til hver av disse kategoriene er.

Datavarehus

Data Warehouse kalles vanligvis en database, hvis hovedformål er å utføre analytiske spørringer på datavalg. Datavarehus kan være både relasjonelle og flerdimensjonale.

Ralph Kimball, en av opphavsmennene til datavarehuskonseptet, beskrev datavarehuset som "et sted hvor folk kan få tilgang til dataene deres" (se for eksempel Ralph Kimball, Datavarehusverktøysettet: praktiske teknikker for å bygge dimensjonale datavarehus, John Wiley & Sons, 1996 og Data Webhouse Toolkit: Bygge det nettaktiverte datavarehuset, John Wiley & Sons, 2000). Han formulerte også de grunnleggende kravene til datavarehus:

støtte for høy hastighet på datahenting fra lagring;
opprettholde intern datakonsistens;
evnen til å skaffe og sammenligne de såkalte dataskivene (slice and terning);
tilgjengelighet av praktiske verktøy for å se data i lagringen;
fullstendighet og pålitelighet av de lagrede dataene;
støtte for en datapåfyllingsprosess av høy kvalitet.

Det er ofte ikke mulig å oppfylle alle de oppførte kravene innenfor samme produkt. Derfor, for implementering av datavarehus, brukes vanligvis flere produkter, hvorav noen er de faktiske måtene å lagre data på, andre er midler til å trekke ut og se dem, andre er midler for påfylling, etc.

Legg merke til at når du designer lagringer, gjøres det alltid a priori antakelser om arten av gjensidig avhengighet av dataene som er plassert i dem, og bruken av datavarehuset til å ta ledelsesbeslutninger avhenger i stor grad av riktigheten av disse forutsetningene.

Relasjonsdatavarehus

I motsetning til såkalte online databaser, som brukes av applikasjoner som endrer data, er relasjonsdatavarehus utformet på en slik måte at de oppnår minimum utførelsestid for leseforespørsler (for nettbaserte databaser er utførelsestiden for forespørsler om å endre data mest ofte minimert). Vanligvis kopieres data til lagring fra online databaser i henhold til en bestemt tidsplan.

Den typiske strukturen til et datavarehus skiller seg betydelig fra strukturen til et konvensjonelt relasjonsdatabasestyringssystem. Som regel er denne strukturen denormalisert (dette forbedrer hastigheten på utførelse av spørringer) og kan tillate dataredundans. En typisk datavarehusstruktur er vist i fig. 1. Hovedkomponentene i denne strukturen er faktatabeller og dimensjonstabeller.

Faktatabell(I eksempelet i figur 1 heter det Sales_Fact) - Dette er hoveddatalagertabellen. Som regel inkluderer det informasjon om objekter eller hendelser, hvis helhet vil bli analysert videre. Vanligvis inneholder en slik tabell en unik sammensatt nøkkel som setter sammen primærnøklene til dimensjonstabellene. Oftest er dette heltallsverdier eller dato-/tidsverdier - tross alt kan en faktatabell inneholde hundretusener eller til og med millioner av poster, og det er vanligvis ulønnsomt å lagre dupliserte tekstbeskrivelser i den. I tillegg inneholder faktatabellen ett eller flere numeriske felt, på grunnlag av hvilke aggregerte data innhentes under utførelsen av analytiske spørringer.

Merk at faktatabellen ikke gir noen informasjon om hvordan du grupperer poster ved beregning av aggregerte data. Denne informasjonen finnes i dimensjonstabeller.

Dimensjonstabeller inneholder uforanderlige eller sjelden endrede data. De har minst ett beskrivende felt og vanligvis et heltallsnøkkelfelt (vanligvis en surrogatnøkkel). Ofte (men ikke alltid) kan en dimensjonstabell også inneholde felt som indikerer ytterligere attributter som var til stede i den opprinnelige operasjonsdatabasen, eller attributter som er ansvarlige for å gruppere sine egne data. Hver dimensjonstabell må være i en-til-mange-relasjon med en faktatabell.

Merk at veksthastigheten til dimensjonstabeller bør være liten sammenlignet med veksthastigheten til faktatabellen; for eksempel legges en ny post i dimensjonstabellen som karakteriserer produkter bare når et nytt produkt som ikke er solgt før vises.

Moderne datadesignverktøy, som CA AllFusion Modeling Suite, inkluderer vanligvis maler for datavarehusdesign. Det skal sies at for å lage relasjonsdatavarehus, brukes noen ganger spesialiserte DBMS, hvor lagringen av data er optimalisert med tanke på hastigheten på utførelse av spørringer. Et eksempel på et slikt produkt er Sybase Adaptive Server IQ, som implementerer en ukonvensjonell måte å lagre data på i tabeller. Lagring kan imidlertid også opprettes i konvensjonelle relasjonelle DBMS-er.

OLAP og flerdimensjonale datavarehus

Flerdimensjonale datavarehus danner grunnlaget for OLAP-verktøy (On-Line Analytical Processing) designet for kompleks flerdimensjonal dataanalyse. Konseptet med OLAP ble først beskrevet i 1993 av E. F. Codd, forfatteren av relasjonsdatamodellen, og OLAP støttes nå i mange DBMS og dataanalyseverktøy.

Flerdimensjonale lagre inneholder vanligvis aggregerte data (for eksempel summer, gjennomsnitt, antall verdier) for ulike utvalg. Oftest danner slike aggregerte funksjoner et flerdimensjonalt datasett kalt en kube, hvis akser (kalt dimensjoner) inneholder parametere, og hvis celler inneholder aggregerte data som er avhengige av dem (noen ganger kalt mål). Langs hver akse kan data organiseres i hierarkier, som gjenspeiler ulike detaljnivåer. Vanligvis innhentes aggregerte data ved å utføre en serie spørringer for å gruppere data som:

Merk at relasjonsdatalagre ofte brukes som datakilde for slike spørringer. I dette tilfellet inneholder dimensjonstabellene vanligvis inngangsdata for å danne kubedimensjonene, og faktatabellen inneholder inngangsdata for beregning av kubemålene.

Flerdimensjonale datavarehus inneholder aggregerte data med varierende detaljeringsgrad, for eksempel salgsvolum etter dag, måned, år, etter produktkategori osv. Hensikten med å lagre aggregerte data er å redusere utførelsestiden for spørringen, siden det i de fleste tilfeller er ikke interessante detaljerte og oppsummerende data. Å lagre alle aggregerte data er imidlertid ikke alltid berettiget - når alt kommer til alt, når nye dimensjoner legges til, vokser datavolumet som utgjør en kube eksponentielt (noen ganger sier de om "eksplosiv vekst" av datavolumet). For å løse problemet med "eksplosiv vekst" brukes forskjellige ordninger som gjør det mulig, når man beregner langt fra alle mulige samlede data, å oppnå en akseptabel hastighet på utførelse av spørringer.

Både rådata og aggregerte data kan lagres i enten relasjonelle eller flerdimensjonale strukturer. Derfor brukes tre måter å lagre data på:

MOLAP (Multidimensional OLAP) - kildedata og aggregerte data lagres i en flerdimensjonal database;
ROLAP (Relational OLAP) - kildedataene forblir i den samme relasjonsdatabasen der de opprinnelig var lokalisert, de samlede dataene plasseres i tjenestetabeller spesielt opprettet for lagring i den samme databasen;
HOLAP (Hybrid OLAP) - de opprinnelige dataene forblir i den samme relasjonsdatabasen der de opprinnelig var lokalisert, og de samlede dataene lagres i en flerdimensjonal database.

Noen OLAP-verktøy støtter kun lagring av data i relasjonsstrukturer, noen bare i flerdimensjonale strukturer. De fleste moderne OLAP-serverbaserte verktøy støtter imidlertid alle tre metodene for lagring av data. Valget av lagringsmetode avhenger av størrelsen og strukturen til kildedataene, kravene til hastigheten på utførelse av spørringer og frekvensen av oppdatering av OLAP-kubene.

DBMS-ene til ledende produsenter - IBM, Microsoft, Oracle, utgitt de siste årene, inneholder verktøy for å lage flerdimensjonale datavarehus (denne tradisjonen ble startet for flere år siden av Microsoft, som inkluderte OLAP-server i SQL Server 7.0). Det finnes også separate produkter for å lage OLAP-lagringer - de er utgitt av Hyperion, Sybase, Business Objects og noen andre.

Datautvinning

Begrepet Data Mining (mining på engelsk betyr "gruvedrift") betegner prosessen med å finne korrelasjoner, trender, sammenhenger og mønstre mellom data ved hjelp av ulike matematiske og statistiske algoritmer: klynging, sub-sampling, regresjon og korrelasjonsanalyse. Eksempler på nødvendig informasjon kan være informasjon om hvilke kategorier av kjøpere som oftest kjøper dette eller det produktet, hvilken del av kjøperne av ett bestemt produkt som kjøper et annet spesifikt produkt, hvilken kundekategori som oftest ikke betaler det gitte lånet i tide. Denne typen informasjon brukes vanligvis i prognoser, strategisk planlegging, risikoanalyse, og verdien for bedriften er veldig høy.

Merk at tradisjonell matematisk statistikk og OLAP-verktøy ikke alltid er egnet for å løse slike problemer. Vanligvis brukes statistiske metoder og OLAP for å teste forhåndsformulerte hypoteser, men ofte er det formuleringen av en hypotese som viser seg å være den vanskeligste oppgaven i å gjennomføre forretningsanalyse for påfølgende beslutningstaking, siden ikke alle mønstrene i dataene er åpenbare ved første øyekast.

Den moderne Data Mining-teknologien er basert på konseptet med maler som gjenspeiler mønstrene som er iboende i dataunderprøver. Søket etter mønstre utføres ved hjelp av metoder som ikke bruker noen innledende antakelser om disse delprøvene. Hvis det i statistisk analyse eller ved bruk av OLAP vanligvis formuleres spørsmål som "Hva er gjennomsnittlig antall bankkunder som ikke tilbakebetalte et lån i tide blant ugifte menn fra 40 til 50 år?" er det en typisk kundekategori. som ikke betaler tilbake lån i tide?" Samtidig er det svaret på det andre spørsmålet som ofte sikrer vedtakelsen av en vellykket forretningsbeslutning.

Et viktig trekk ved Data Mining er at de ettersøkte mønstrene ikke er standard og ikke er åpenbare. Data Mining-verktøy skiller seg med andre ord fra statistiske databehandlingsverktøy og OLAP-verktøy ved at i stedet for å sjekke de gjensidige avhengighetene som er antatt på forhånd av brukerne, er de i stand til å finne slike gjensidige avhengigheter på grunnlag av tilgjengelige data på egenhånd og bygge hypoteser om deres natur. Bruken av Data Mining-verktøy utelukker imidlertid ikke bruken av statistiske verktøy og OLAP-verktøy, siden resultatene av databehandling ved hjelp av sistnevnte som regel bidrar til en bedre forståelse av arten av mønstrene som bør bli søkt. Derfor finnes det Data Mining-verktøy som kan søke etter mønstre, korrelasjoner og trender i både relasjonelle og multidimensjonale datavarehus.

Det er vanligvis fem standardtyper av mønstre identifisert av Data Mining-metoder:

forening - det er stor sannsynlighet for at arrangementer vil være forbundet med hverandre (for eksempel kjøpes alpinski ofte sammen med skistøvler);
sekvens - en høy sannsynlighet for en kjede av hendelser relatert i tid (for eksempel innen en viss periode etter kjøpet av skriveren er det høyst sannsynlig at forbruksvarer for den vil bli kjøpt);
klassifisering - det er tegn som karakteriserer gruppen som denne eller den hendelsen eller objektet tilhører (vanligvis, basert på analysen av allerede klassifiserte hendelser, er visse regler formulert);
clustering er et mønster som ligner på klassifisering og forskjellig fra det ved at gruppene selv ikke spesifiseres samtidig - de oppdages automatisk under databehandling;
tidsmessige mønstre - tilstedeværelsen av mønstre i dynamikken i oppførselen til visse data (et typisk eksempel er sesongmessige svingninger i etterspørselen etter visse varer eller tjenester) som brukes til prognoser.

I dag er det et ganske stort antall forskjellige metoder for datautvinning, blant disse kan man skille mellom følgende.

Regresjon, ANOVA og Korrelasjonsanalyse- implementert i de fleste moderne statistikkpakker, spesielt i produktene til SAS Institute, StatSoft, etc.

Analysemetoder innen et spesifikt fagområde basert på empiriske modeller. Ofte brukt for eksempel i rimelige økonomiske analyseverktøy.

Nevrale nettverksalgoritmer, ideen om hvilken er basert på en analogi med funksjonen til nervevev og ligger i det faktum at de første parametrene betraktes som signaler som transformeres i samsvar med de eksisterende forbindelsene mellom "nevroner", og responsen til hele nettverket til de første dataene betraktes som en respons (analyseresultat). I dette tilfellet opprettes forbindelser ved hjelp av såkalt nettverkstrening ved hjelp av et stort utvalg som inneholder både startdata og riktige svar.

Nærmeste nabometode- valg av en nær analog av de første dataene fra de allerede tilgjengelige akkumulerte dataene.

Beslutningstrær- en hierarkisk struktur basert på et sett med spørsmål som innebærer et "ja" eller "nei" svar; Selv om denne metoden for databehandling ikke alltid ideelt sett finner eksisterende mønstre, brukes den ganske ofte i prognosesystemer på grunn av klarheten i svaret som mottas (fig. 3).

Begrensede søkealgoritmer- beregne frekvensene til kombinasjoner av enkle logiske hendelser i dataundergrupper.

Evolusjonær programmering- søk og generering av en algoritme som uttrykker den gjensidige avhengigheten av data, basert på den opprinnelig spesifiserte algoritmen, modifisert i søkeprosessen; noen ganger utføres søket etter gjensidige avhengigheter blant spesifikke typer funksjoner (for eksempel polynomer).

Data Mining-verktøy hører tradisjonelt til dyre programvareverktøy - prisen på noen av dem når flere titusenvis av dollar. Derfor, inntil nylig, var hovedforbrukerne av denne teknologien banker, finans- og forsikringsselskaper, store handelsbedrifter, og hovedoppgavene som krever bruk av Data Mining var vurdering av kreditt- og forsikringsrisiko og utvikling av markedsføringspolitikk, tariffplaner og andre prinsipper for å jobbe med kunder. De siste årene har situasjonen endret seg noe: Det har dukket opp relativt rimelige Data Mining-verktøy fra flere produsenter (inkludert Microsoft) på programvaremarkedet, som gjorde denne teknologien tilgjengelig for små og mellomstore bedrifter, som ikke tidligere hadde tenkt på det.

Verktøy for visualisering av OLAP-data og datautvinningsresultater

Universelle OLAP-datavisualiseringsverktøy produseres av mange selskaper, som Business Objects, Cognos, Panorama, ProClarity. Vanligvis er disse verktøyene designet for brukere med en viss kunnskap om databaser og statistiske analysemetoder. Vanligvis lar disse verktøyene deg få tilgang til datavarehus og OLAP-kilder fra forskjellige produsenter (for eksempel flerdimensjonal lagring basert på Oracle, Microsoft og IBM DBMS), skaffe deler av flerdimensjonale data og bygge diagrammer basert på dem. Ofte leverer leverandørene av disse verktøyene også mellomvareservere for å utføre dataanalyse og gjengivelse av resultater for visning i klientapplikasjoner, samt verktøy for å lage løsninger basert på klientverktøy og mellomvareservere (for eksempel klassebiblioteker eller ActiveX-kontroller). Tatt i betraktning at situasjonen med standarder innen forretningsintelligens fortsatt er langt fra ideell (i motsetning til relasjonelle DBMS-er, for flerdimensjonale DBMS-er, er det verken en generelt akseptert spørrespråkstandard som ligner på SQL-språket, eller universelle datatilgangsmekanismer som ligner på ODBC eller OLEDB), kan bruk av slike verktøy i en eller annen grad løse problemet med å lage analytiske applikasjoner i bedrifter som bruker DBMS- og OLAP-verktøy fra flere forskjellige produsenter.

OLAP-leverandører, som Oracle og IBM, tilbyr ofte brukersentriske klientapplikasjoner for tilgang til OLAP-lagre bygget på deres egne serversideverktøy. For eksempel har Oracle Corporation til og med flere slike produkter kombinert i Oracle Business Intelligence-pakken. I tillegg har tilleggsmoduler for regneark for visualisering av OLAP-data blitt utbredt i det siste. Dermed er metodene for å vise dataene til analysetjenestene til Microsoft SQL Server tilgjengelige for brukere av Microsoft Excel 2000 og nyere versjoner, og selskapene Oracle og Hyperion gir ut tilleggsmoduler for å få tilgang til sine egne OLAP-lagringer innebygd i samme Excel.

Det er verdt å merke seg utvidelsen de siste årene av utvalget av analytiske produkter fokusert på å betjene visse bransjer (for eksempel detaljhandel eller engroshandel, finansielle tjenester). De produseres av selskapene som er oppført ovenfor og en rekke andre produsenter, spesielt leverandører av bedriftsstyringssystemer og andre bransjespesifikke forretningsapplikasjoner.

Verktøy for rapportgenerering

En rapport er et dokument, hvis innhold genereres dynamisk basert på informasjonen i databasen. Det finnes mange rapporteringsverktøy på programvaremarkedet: både separate produkter og de som inngår i applikasjonsutviklingsverktøy eller DBMS, og implementert i form av enten servertjenester eller klientapplikasjoner. Som regel støtter rapporteringsverktøy et bredt spekter av universelle datatilgangsmekanismer (ODBC, OLE DB, ADO.NET), ofte - verktøy for direkte tilgang til de mest populære DBMS ved å bruke deres klient-API-er, inneholder forretningsgrafikkverktøy, integreres med kontor applikasjoner, lar deg publisere rapporter på Internett, inkludere klasser eller komponenter designet for å lage applikasjoner som implementerer (sammen med andre funksjoner) rapportgenerering.

Den ubestridte markedslederen innen rapporteringsverktøy er Crystal Reports, eid av Business Objects. Det leveres både separat og som en del av produkter fra andre produsenter, fra applikasjonsutviklingsverktøy til geografiske informasjonssystemer. Det er også en serverversjon av dette produktet designet for å gi rapporter for et stort antall brukere. I tillegg til Crystal Reports er det flere mindre populære produkter i denne klassen.

Konklusjon

I denne oversikten så vi på hovedteknologiene som ligger til grunn for moderne analytiske applikasjoner. Som du kan se, er utvalget av både teknologier og produkter som implementerer dem ganske bredt, spesielt med tanke på det faktum at slike verktøy er tilgjengelige i moderne server-DBMS-er og et bredt spekter av klientverktøy for å visualisere analyseresultater og lage analytiske rapporter. Likevel skaper mangelen på allment aksepterte standarder innen business intelligence fortsatt visse problemer når man lager løsninger som bruker det.

Det er to klasser av systemer som gir analytisk databehandling. Historisk sett var de første som dukket opp systemer som implementerer statistisk analyse. Resultatene av driften av disse systemene er konstruerte grafer, diagrammer, regulerte rapporter som har en fast form og mangler fleksibilitet. I slike rapporter kan du ikke endre presentasjonen av data: endre kolonner med rader, forstørre, bore osv. Som erfaring viser, når de ser på slike rapporter, har ikke ledere beslutninger, men spørsmål som innebærer konstruksjon av tilleggsrapporter, noe som tar tid og ressurser og reduserer effektiviteten av beslutningen. Behovet for raskt å få svar på ad hoc-spørsmål som oppstår i løpet av dataanalyse har ført til fremveksten av systemer for operasjonell analytisk databehandling.

OLAP er en programvareklasse som gir brukeren sanntidssvar på vilkårlige analytiske spørringer.

OLAP gir analytikere fleksible mekanismer for å manipulere data og deres visuelle visning, ved hjelp av hvilke han har muligheten til å sammenligne ulike forretningsindikatorer med hverandre, for å avsløre skjulte forhold. Faktisk, fra LIRs synspunkt, er OLAP et praktisk grafisk skall for navigasjon, visualisering og analyse i ulike deler av en enorm mengde sammenhengende informasjon om aktivitetene til en organisasjon som kommer fra organisasjonens IS.

OLAP er basert på konseptet med en flerdimensjonal datakube, hvor analyserte (numeriske) data lagres i cellene, for eksempel salgsvolum i stykker eller i monetære termer, lagersaldo, kostnader, etc. Disse numeriske dataene kalles målinger eller fakta(tiltak, fakta). Aksene til det flerdimensjonale koordinatsystemet er hovedattributtene til den analyserte forretningsprosessen, som kalles målinger(dimensjoner). Eksempler på mål kan være produkt, region, type kjøper, tidspunkt.

I det enkleste tilfellet inneholder en kube to dimensjoner og kan representeres som en todimensjonal tabell, for eksempel inkluderer den data om salg av forskjellige produkter for forskjellige tidsperioder. Ved tre dimensjoner kan kuben representeres grafisk, som vist i fig. 3.4. Strengt tatt, fra et matematikksynspunkt, vil en slik matrise ikke alltid være en kube, siden antallet elementer i forskjellige dimensjoner, som er "sidene" av kuben, kanskje ikke er det samme - en OLAP-kube gjør det. ikke har slike begrensninger.

Ris. 3.4.

I tillegg til at en kube kan inneholde et ubegrenset antall dimensjoner, kan innholdet i en celle bli mer komplisert - en kube kan ha flere fakta, for eksempel ikke bare antall solgte varer, men kostnadene deres, resten av lageret. I dette tilfellet vil cellen vise flere verdier.

Hvis en tredimensjonal kube kan representeres grafisk, kan en kube med mer enn tre dimensjoner ikke lenger visualiseres. Derfor brukes i virkeligheten kubeskiver til analyse. - dette er resultatet av et utvalg kubedata etter brukervalgte verdier av dimensjoner, som kalles tagger (medlemmer). En analytiker ønsker for eksempel å sammenligne salget av tre produktgrupper i Moskva og St. Petersburg for januar og februar. I dette tilfellet bør han ordne verdiene til "Produkt"-dimensjonen i rader, verdiene til dimensjonene "By" og "Tid" - i kolonner og velge posisjonene av interesse i dimensjonene. Kubeskiven vil ha formen vist i fig. 3.5.

Ris. 3.5.

Det er mulig at analytikeren trenger å innhente data som tilsvarer én dimensjonsverdi eller for alle dimensjonsverdier som helhet. I dette tilfellet kalles en slik måling fikset, den er ikke ordnet i rader eller kolonner, men fungerer som en rapportparameter (fig. 3.6).

Ris. 3.6.

Noen dimensjoner kan ha flere nivåer. For eksempel er et år delt inn i kvartaler, kvartaler i måneder, måneder i uker, uker i dager; landet består av regioner, regioner - av bosetninger, i byer, distrikter og spesifikke utsalgssteder kan skilles; produkter kan kombineres til produktgrupper. I OLAP-termer kalles slike sammenføyninger på flere nivåer hierarkier. Hierarkiske dimensjoner lar deg analysere informasjon på ulike nivåer av aggregering. En analytiker kan for eksempel sammenligne det totale årlige salget og deretter "gå ned" til kvartalsnivå for å se salgstrenden for kvartal.

OLAP gir et praktisk og vakkert rammeverk for å navigere i flerdimensjonale data. Innenfor rammen av det foreslåtte grensesnittet introduseres følgende grunnleggende operasjoner:

sving- transponering, som et resultat av at radene og kolonnene i tabellen byttes;
projeksjon - aggregering av verdier i celler som ligger på projeksjonsaksen i henhold til en viss lov (summering, finne gjennomsnittet, bestemme antall ikke-tomme celler, etc.);
avsløring eller detaljering(drill-down), - erstatte en av dimensjonsverdiene med et sett med verdier fra neste nivå i dimensjonshierarkiet;
konvolusjon eller konsolidering(roll-up / drill-up) - operasjon motsatt ekspansjon;
seksjon(slice-and-terning) - få en "slice" av data ved å spesifisere parametrene for deres valg fra kuben.

Generelt inkluderer OLAP-algoritmen følgende handlinger:

innhenting av data i form av en flat tabell eller resultatet av å utføre en SQL-spørring;
lagre data i RAM og konvertere dem til en flerdimensjonal kube;
viser den konstruerte kuben ved hjelp av en krysstabell eller diagram. Generelt kan et vilkårlig antall skjermer kobles til en kube.

For første gang ble definisjonen av OLAP-teknologi gitt av E. Codd i 1993. Codd beskrev mulighetene for multivariat analyse og formulerte 12 OLAP-regler, som noen flere ble lagt til litt senere (i 1995). La oss vurdere dem mer detaljert.

1. Flerdimensjonal konseptuell representasjon av data(Multi-Dimensjonal konseptuell visning). OLAP-produktet bruker en multidimensjonal datapresentasjonsmodell som behandler kategoriske dataattributter som dimensjoner og kvantitative attributter som fakta.
2. Åpenhet(Åpenhet). Det skal være skjult for brukeren hvordan den flerdimensjonale modellen er implementert, hvilke spesifikke midler som brukes for å lagre og behandle data, hvordan dataene er organisert og hvor de kommer fra.
3. Tilgjengelighet(Tilgjengelighet). OLAP-instrumentering skal gi brukeren tilgang til data, uavhengig av plassering og lagringsmetode. Samtidig må en enkelt, konsistent og sammenhengende datamodell opprettholdes.
4. Bærekraftig ytelse(Konsekvent rapporteringsytelse). Høy OLAP-ytelse må sikres uavhengig av antall dimensjoner til den flerdimensjonale modellen og størrelsen på databasen.
5. Klient-server-arkitektur(Client-Server Architecture). For å sikre operasjonell analytisk behandling av distribuerte data, må OLAP-produktet fungere på grunnlag av en klient-server-arkitektur. For å oppsummere og konsolidere data fra ulike fysisk separate bedriftsdatabaser, må verktøyet støtte konstruksjonen av et felles konseptuelt dataskjema.
6. Målelikhet(Generisk dimensjonalitet). Det samme settet med funksjoner må være tilgjengelig for alle dimensjoner i en flerdimensjonal kube. Ytterligere egenskaper kan legges til alle dimensjoner etter behov. Den grunnleggende datastrukturen, beregningsformlene og rapportformatene skal ikke være knyttet til én dimensjon.
7... Dynamisk behandling av sparsomme matriser(Dynamisk sparsom matrisehåndtering). Fordi krysstabeller generert av et OLAP-verktøy ofte er sparsomme, må de håndteres optimalt. Verktøyet skal gi høy prosesseringshastighet uavhengig av plassering av datacellene, antall dimensjoner i kuben og sparsomheten til dataene.
8. Flerspillerstøtte(Multi-User Support). Et OLAP-verktøy skal tillate flere brukere å jobbe med de samme dataene samtidig og samtidig sikre dataintegritet og beskyttelse.
9. Ubegrenset tverrdimensjonal støtte(Ubegrensede tverrdimensjonale operasjoner). Når du utfører datamanipulasjoner (operasjoner av skive, rotasjon, konsolidering, detaljering), må bevaring av funksjonelle forhold mellom cellene i en flerdimensjonal kube beskrevet ved hjelp av formler sikres. Transformasjoner av de etablerte relasjonene bør utføres av systemet uavhengig, uten behov for å omdefinere dem av brukeren.
10. Intuitiv datamanipulering(Intuitiv datamanipulering). Brukergrensesnittet for å utføre datamanipulasjoner skal være så praktisk, naturlig og komfortabelt som mulig.

OG. Fleksibel rapporteringsmekanisme(Fleksibel rapportering). OLAP-verktøyet skal støtte ulike måter å visualisere data på (tabeller, grafer, kart) i enhver mulig orientering.

12. Ubegrenset antall dimensjoner og aggregeringsnivåer(Ubegrensede dimensjoner og aggregasjonsnivåer). OLAP-verktøyet må støtte en analytisk datamodell som kan inneholde opptil 20 dimensjoner. Samtidig skal verktøyet tillate brukeren å definere for hver dimensjon et ubegrenset antall aggregeringsnivåer i hvilken som helst retning av konsolidering.

For å bestemme OLAP som et analytisk verktøy, brukes FASMI-testen (Fast Analysis of Shared Multidimensional Information) som et universelt kriterium. La oss vurdere i detalj hver av komponentene i denne forkortelsen.

Fort(rask). Brukerforespørsler skal behandles av OLAP-systemet med høy hastighet, mens gjennomsnittlig behandlingstid for forespørsler ikke bør overstige 5 s, de fleste forespørsler skal behandles innen 1 s, de mest komplekse forespørslene som krever store beregninger skal behandles ikke mer enn 20 s .

Analyse(analyse). OLAP-verktøyet skal gi brukeren statistiske analyseverktøy og sikre at resultatene lagres i en form som er tilgjengelig for sluttbrukeren. Analyseverktøy kan omfatte prosedyrer for analyse av tidsserier, variansanalyse, beregning av vekst og vekstrater, beregning av strukturelle indikatorer, konvertering til ulike måleenheter, etc.

Delt(delt tilgang). OLAP-verktøyet må kunne fungere i flerbrukermodus.

Flerdimensjonal(flerdimensjonal). OLAP-applikasjonen må gi en flerdimensjonal visning av data med støtte for hierarkiske dimensjoner.

Informasjon(informasjon). OLAP-verktøyet skal gi brukeren tilgang til informasjon uavhengig av den elektroniske datalagringen den befinner seg i.

Avhengig av svaret på spørsmålet, om en flerdimensjonal kube eksisterer som en separat fysisk struktur eller bare som en virtuell datamodell, skilles systemene MOLAP (Multidimensional OLAP) og ROLAP (Relational OLAP). MOLAP implementerer en flerdimensjonal representasjon av data på fysisk nivå i form av flerdimensjonale kuber. ROLAP-systemer bruker den klassiske relasjonsmodellen som er typisk for OLTP-systemer. Samtidig lagres data i relasjonstabeller, men spesielle strukturer emulerer deres flerdimensjonale representasjon. De skiller også mellom hybrid OLAP (HOLAP - Hybrid OLAP), der detaljerte data lagres i relasjonstabeller, og aggregerte data lagres i flerdimensjonale kuber. Denne kombinasjonen av relasjons- og flerdimensjonale modeller lar deg kombinere høyytelsesegenskapene til en flerdimensjonal modell og muligheten til å lagre vilkårlig store datamengder som ligger i en relasjonsmodell.

Codd E. Providing OLAP to User-Analysts: An IT Mandate // Computerworld. 1993. T. 27. # 30.

3.4 Metoder for analytisk databehandling

For at de eksisterende datavarehusene skal lette vedtakelsen av ledelsesbeslutninger, må informasjonen presenteres for analytikeren i ønsket form, det vil si at han må ha utviklet verktøy for å få tilgang til og behandle data på lageret.

Svært ofte er informasjons- og analysesystemer laget med forventning om direkte bruk av beslutningstakere ekstremt enkle å bruke, men sterkt begrenset i funksjonalitet. Slike statiske systemer kalles Executive Information Systems (EIS). De inneholder mange forespørsler, og er tilstrekkelige for daglig vurdering, og er ikke i stand til å svare på alle spørsmålene som kan dukke opp når du tar beslutninger. Resultatet av arbeidet med et slikt system er som regel flersidige rapporter, etter nøye studie, som analytikeren har en ny serie spørsmål. Imidlertid må hver ny forespørsel som ikke er forutsett i utformingen av et slikt system først beskrives formelt, kodes av programmereren og først deretter utføres. Ventetiden i dette tilfellet kan være timer og dager, noe som ikke alltid er akseptabelt.

Online analytisk behandling... Eller On-Line Analytical Processing, OLAP er en nøkkelkomponent i datavarehusorganisasjonen. OLAP-konseptet ble beskrevet i 1993 av Edgar Codd og har følgende krav for multivariate analyseapplikasjoner:

- flerdimensjonal konseptuell representasjon av data, inkludert full støtte for hierarkier og flere hierarkier (et nøkkelkrav for OLAP);

- gi brukeren analyseresultatene innen rimelig tid (vanligvis ikke mer enn 5 s), selv på bekostning av en mindre detaljert analyse;

- muligheten til å utføre enhver logisk og statistisk analyse, typisk for denne applikasjonen, og lagre den i en form tilgjengelig for sluttbrukeren;

- flerbrukertilgang til data med støtte for passende låsemekanismer og autoriserte tilgangsmidler;

- muligheten til å få tilgang til all nødvendig informasjon, uavhengig av volum og lagringssted.

Et OLAP-system består av mange komponenter. På det høyeste presentasjonsnivået inkluderer systemet en datakilde, en multidimensjonal database (MDB) som gir muligheten til å implementere en rapporteringsmotor basert på OLAP-teknologi, en OLAP-server og en klient. Systemet er bygget på klient-server-prinsippet og gir ekstern og flerbrukertilgang til MDB-serveren.

Vurder komponentene i et OLAP-system.

Kilder. Kilden i OLAP-systemer er serveren som leverer dataene for analyse. Avhengig av bruksomfanget til OLAP-produktet, kan kilden være et datavarehus, en arvet database som inneholder generelle data, et sett

tabeller som kombinerer økonomiske data, eller en kombinasjon av de ovennevnte.

Datalager. Rådata samles inn og lagres i et depot designet i henhold til prinsippene for å bygge datavarehus. HD er en relasjonsdatabase (RDB). Hoved-CD-tabellen (faktatabell) inneholder de numeriske verdiene til indikatorene som det samles inn statistisk informasjon for.

Flerdimensjonal database Datalageret fungerer som en leverandør av informasjon for en flerdimensjonal database, som er en samling av objekter. Hovedklassene til disse objektene er dimensjoner og mål. Dimensjoner inkluderer et sett med verdier (parametere) som data indekseres etter, for eksempel tid, regioner, type institusjon osv. Hver dimensjon er fylt med verdier fra de tilsvarende dimensjonstabellene til datavarehuset. Settet med målinger definerer rommet for den undersøkte prosessen. Mål er flerdimensjonale datakuber (hyperkuber). Hyperkuben inneholder selve dataene, samt aggregerte beløp for dimensjonene som er en del av indikatoren. Indikatorer utgjør hovedinnholdet i MDB og fylles ut i henhold til faktatabellen. Langs hver akse i hyperkuben kan data organiseres i et hierarki som representerer ulike detaljnivåer. Dette lar deg lage hierarkiske dimensjoner, som vil bli brukt til å aggregere eller drill ned på datapresentasjonen under påfølgende dataanalyse. Et typisk eksempel på en hierarkisk dimensjon er en liste over territorielle objekter gruppert etter distrikter, regioner, distrikter.

Server. OLAP-serveren er den anvendte delen av OLAP-systemet. Denne komponenten gjør alt arbeidet (avhengig av systemmodellen), og lagrer i seg selv all informasjon som det gis aktiv tilgang til. Serverarkitektur styres av ulike konsepter. Spesielt er den viktigste funksjonelle egenskapen til OLAP-produkter bruken av MDB eller RDB for datalagring.

Klientapplikasjon.Data strukturert på en riktig måte og lagret i MDB er tilgjengelig for analyse ved hjelp av klientapplikasjonen. Brukeren får muligheten til å eksternt få tilgang til data, formulere komplekse spørringer, generere rapporter og motta vilkårlige delsett av data. Innhenting av en rapport reduseres til valg av spesifikke måleverdier og konstruksjon av en del av hyperkuben. Tverrsnittet bestemmes av de valgte måleverdiene. Dataene for resten av dimensjonene er oppsummert.

OLAPpå klienten og på serveren. Flerdimensjonal dataanalyse kan utføres ved hjelp av ulike verktøy, som kan deles inn i klient- og server-OLAP-verktøy.

OLAP-klientverktøy (for eksempel pivottabeller i Excel 2000 fra Microsoft eller ProClarity fra Knosys) er applikasjoner som beregner og viser aggregerte data. I dette tilfellet er selve de samlede dataene inneholdt i hurtigbufferen i adresserommet til et slikt OLAP-verktøy.

Hvis kildedataene finnes i skrivebordets DBMS, utføres beregningen av de samlede dataene av selve OLAP-verktøyet. Hvis kilden til de originale dataene er en server-DBMS, sender mange av klient-OLAP-verktøyene SQL-spørringer til serveren og mottar som et resultat de samlede dataene beregnet på serveren.

Vanligvis er OLAP-funksjonalitet implementert i statistiske databehandlingsverktøy og i enkelte regneark.

Mange utviklingsverktøy inneholder biblioteker med klasser eller komponenter som lar deg lage applikasjoner som implementerer den enkleste OLAP-funksjonaliteten (som Decision Cube-komponentene i Borland Delphi og Borland C ++ Builder). I tillegg tilbyr mange selskaper ActiveX-kontroller og andre biblioteker som gir lignende funksjonalitet.

Klient-OLAP-verktøy brukes som regel med et lite antall dimensjoner (vanligvis ikke mer enn seks) og et lite utvalg av verdier for disse parameterne - siden de oppnådde samlede dataene må passe inn i adresserommet til et slikt verktøy , og antallet deres vokser eksponentielt med en økning i antall dimensjoner.

Mange OLAP-klientverktøy lar deg lagre innholdet i hurtigbufferen med aggregerte data som en fil for ikke å beregne dem på nytt. Imidlertid brukes denne muligheten ofte til å fremmedgjøre aggregerte data med det formål å overføre dem til andre organisasjoner eller for publisering.

Ideen om å lagre en hurtigbuffer med aggregerte data i en fil ble videreutviklet i server-OLAP-verktøy (for eksempel Oracle Express Server eller Microsoft OLAP Services), der lagring og endring av aggregerte data, samt vedlikehold av lagringen som inneholder dem , utføres av en separat applikasjon eller prosess kalt OLAP-server. Klientapplikasjoner kan be om slik flerdimensjonal lagring og motta visse data som svar. Noen klientapplikasjoner kan også opprette slike depoter eller oppdatere dem i henhold til de endrede kildedataene.

Fordelene ved å bruke serverbaserte OLAP-verktøy sammenlignet med klient-OLAP-verktøy ligner fordelene ved å bruke DBMS-er på serversiden sammenlignet med skrivebordsverktøy: ved bruk av serverbaserte verktøy, skjer beregning og lagring av aggregerte data på server, og klientapplikasjonen mottar kun resultatene av spørringer til dem, noe som generelt sett tillater å redusere nettverkstrafikk, spørringsutførelsestid og ressurskrav for klientapplikasjonen.

3.5 Tekniske aspekter ved flerdimensjonal datalagring

Flerdimensjonalitet i OLAP-applikasjoner kan deles inn i tre nivåer:

1... Multidimensjonal datarepresentasjon- sluttbrukerverktøy som gir flerdimensjonal visualisering og datamanipulering; MDI-laget abstraherer fra den fysiske datastrukturen og behandler dataene som flerdimensjonale.

Flerdimensjonal prosessering- et verktøy (språk) for å formulere flerdimensjonale spørringer (det tradisjonelle relasjonelle SQL-språket viser seg å være uegnet her) og en prosessor som kan behandle og utføre en slik spørring.

Flerdimensjonal lagring- midler for fysisk organisering av data, som sikrer effektiv utførelse av flerdimensjonale spørringer.

De to første nivåene er obligatoriske i alle OLAP-verktøy. Det tredje nivået, selv om det er utbredt, er ikke nødvendig, siden dataene for den flerdimensjonale visningen også kan hentes fra vanlige relasjonsstrukturer. Den flerdimensjonale spørringsprosessoren, i dette tilfellet, oversetter de flerdimensjonale spørringene til SQL-spørringer som utføres av den relasjonelle DBMS.

I ethvert datavarehus - både konvensjonelt og flerdimensjonalt - sammen med detaljerte data hentet fra driftssystemer, lagres også aggregerte indikatorer (sammendragsindikatorer), som summen av salgsvolumer per måned, etter produktkategori osv. Aggregater lagres eksplisitt for det eneste formålet med å fremskynde spørringene. Faktisk, på den ene siden, som regel, akkumuleres en veldig stor mengde data på lageret, og på den annen side er analytikere i de fleste tilfeller ikke interessert i detaljerte, men generaliserte indikatorer. Og hvis millioner av individuelle salg måtte summeres hver gang for å beregne årlig omsetning, ville hastigheten høyst sannsynlig vært uakseptabel. Derfor, når du laster data inn i en flerdimensjonal database, blir alle sammendragsindikatorer eller deler av dem beregnet og lagret.

Bruken av aggregerte data er imidlertid beheftet med ulemper. De største ulempene er økningen i mengden lagret informasjon (når nye dimensjoner legges til, vokser mengden data som utgjør kuben eksponentielt) og tiden det tar å laste dem. Dessuten kan informasjonsmengden øke titalls og til og med hundrevis av ganger. For eksempel, i en av de publiserte standardtestene, krevde et fullstendig samlet antall for 10 MB rådata 2,4 GB, det vil si at dataene vokste 240 ganger!

Graden som datavolumet øker ved beregning av aggregater avhenger av antall dimensjoner i kuben og strukturen til disse dimensjonene, det vil si forholdet mellom antall "foreldre" og "etterkommere" på forskjellige nivåer av dimensjonen. For å løse problemet med å lagre aggregater, brukes komplekse skjemaer som gjør det mulig å oppnå en betydelig økning i spørringsytelsen når man beregner langt fra alle mulige aggregater.

Både innledende og aggregerte data kan lagres enten i

relasjonelle eller i flerdimensjonale strukturer. I denne forbindelse brukes tre måter å lagre flerdimensjonale data på:

MOLAP (Multidimensional OLAP) – Kilde- og aggregerte data lagres i en flerdimensjonal database. Lagring av data i flerdimensjonale strukturer lar deg manipulere data som en flerdimensjonal matrise, slik at hastigheten på beregning av aggregerte verdier er den samme for alle dimensjonene. Men i dette tilfellet viser den flerdimensjonale databasen seg å være overflødig, siden de flerdimensjonale dataene fullstendig inneholder de opprinnelige relasjonsdataene.

Disse systemene gir en full syklus med OLAP-behandling. De inkluderer enten, i tillegg til serverkomponenten, sitt eget integrerte klientgrensesnitt, eller bruker eksterne regnearkprogrammer for å kommunisere med brukeren.

ROLAP (Relasjonell OLAP) - de opprinnelige dataene forblir i den samme relasjonsdatabasen der de opprinnelig var lokalisert. Aggregerte data plasseres i tjenestetabeller spesielt laget for lagring i samme database.

HOLAP (Hybrid OLAP) - de opprinnelige dataene forblir i den samme relasjonsdatabasen der de opprinnelig var lokalisert, og de samlede dataene lagres i den flerdimensjonale databasen.

3.6 Datautvinning (DataGruvedrift)

Begrepet Data Mining betegner prosessen med å finne korrelasjoner, trender og sammenhenger gjennom ulike matematiske og statistiske algoritmer: clustering, regresjon og korrelasjonsanalyse, etc. for beslutningsstøttesystemer. I dette tilfellet generaliseres den akkumulerte informasjonen automatisk til informasjon som kan karakteriseres som kunnskap.

Den moderne Data Mining-teknologien er basert på konseptet med maler som gjenspeiler mønstrene som er iboende i dataunderprøver og utgjør den såkalte skjulte kunnskapen.

Søket etter mønstre utføres ved hjelp av metoder som ikke bruker noen a priori antakelser om disse delprøvene. Et viktig trekk ved Data Mining er at de ettersøkte mønstrene ikke er standard og ikke er åpenbare. Med andre ord, Data Mining-verktøy skiller seg fra statistiske databehandlingsverktøy og OLAP-verktøy ved at i stedet for å sjekke relasjonene antatt av brukere på forhånd

mellom data, basert på tilgjengelige data, er de i stand til å uavhengig finne slike sammenhenger, samt bygge hypoteser om deres natur.

Generelt består data mining-prosessen av tre stadier

identifisere mønstre (fritt søk);

bruke de avslørte mønstrene for å forutsi ukjente verdier (prediktiv modellering);

analyse av unntak, designet for å identifisere og tolke anomalier i de funnet mønstrene.

Noen ganger er et mellomstadium av verifisering av påliteligheten til de funnet mønstrene mellom funn og bruk (stadiet av validering) tydelig skilt.

Det er fem standardtyper av mønstre identifisert av Data Mining-metoder:

1.Forening lar deg velge stabile grupper av objekter som det er implisitt spesifiserte koblinger mellom. Hyppigheten av forekomsten av en individuell gjenstand eller gruppe av gjenstander, uttrykt i prosent, kalles prevalens. En lav prevalensrate (mindre enn en tusendel av en prosent) tyder på at en slik sammenheng ikke er signifikant. Foreninger er skrevet i form av regler: EN=> B, hvor A - pakke, V - konsekvens. For å bestemme viktigheten av hver oppnådd assosiasjonsregel, er det nødvendig å beregne en verdi som kalles konfidens EN Til V(eller forhold A og B). Selvtillit viser hvor ofte når EN vises V. For eksempel hvis d (A / B)= 20% betyr dette at når du kjøper et produkt EN i hvert femte tilfelle kjøpes også varene V.

Et typisk eksempel på bruk av foreningen er analysen av kjøpsstrukturen. For eksempel, når man gjennomfører en studie i et supermarked, kan det fastslås at 65 % av de som kjøpte potetgull også tar Coca-Cola, og dersom det er rabatt på et slikt sett, kjøpes Cola i 85 % av tilfellene. Disse resultatene er verdifulle i utformingen av markedsføringsstrategier.

2. Sekvens - det er en metode for å identifisere assosiasjoner i tid. I dette tilfellet defineres regler som beskriver den sekvensielle forekomsten av visse grupper av hendelser. Slike regler er avgjørende for å bygge skript. I tillegg kan de for eksempel brukes til å danne et typisk sett med tidligere salg som kan innebære påfølgende salg av et bestemt produkt.

3.Klassifisering - generaliseringsverktøy. Den lar deg gå fra å vurdere enkeltobjekter til generaliserte konsepter som karakteriserer noen sett med objekter og er tilstrekkelig for å gjenkjenne objekter som tilhører disse settene (klassene). Essensen i konseptdannelsesprosessen er å finne mønstre som er iboende i klassene. Mange forskjellige funksjoner (attributter) brukes til å beskrive objekter. Problemstillingen med begrepsdannelse basert på trekkbeskrivelser ble formulert av M.M. Bongart. Løsningen er basert på bruk av to grunnleggende prosedyrer: opplæring og testing. I opplæringsprosedyrene er det konstruert en klassifiseringsregel basert på behandlingen av et treningssett med objekter. Verifikasjonsprosedyren (undersøkelse) består i å bruke den innhentede klassifiseringsregelen for å gjenkjenne objekter fra en ny (undersøkelse) prøve. Hvis testresultatene blir funnet å være tilfredsstillende, avsluttes læringsprosessen, ellers blir klassifiseringsregelen forfinet under re-læringsprosessen.

4 gruppering Er distribusjon av informasjon (poster) fra databasen i grupper (klynger) eller segmenter med samtidig bestemmelse av disse gruppene. I motsetning til klassifisering er det her, for analysen, ingen foreløpig tildeling av klasser nødvendig.

5 tidsserieprognoser er et verktøy for å bestemme trendene for endringer i attributtene til objektene som vurderes over tid. Analyse av oppførselen til tidsserier gjør det mulig å forutsi verdiene til de studerte egenskapene.

For å løse slike problemer brukes ulike Data Mining-metoder og algoritmer. I lys av at Data Mining har utviklet og utvikler seg i skjæringspunktet mellom disipliner som statistikk, informasjonsteori, maskinlæring, databaseteori, er det ganske naturlig at de fleste Data Mining algoritmer og metoder ble utviklet basert på ulike metoder fra disse disiplinene. .

Fra variasjonen av eksisterende datautvinningsmetoder kan følgende skilles:

regresjon, varians og korrelasjonsanalyse(implementert i de fleste moderne statistikkpakker, spesielt i produktene til selskapene SAS Institute, StatSoft, etc.);

analysemetoder innen et spesifikt fagområde, basert på empiriske modeller (ofte brukt for eksempel i rimelige økonomiske analyseverktøy);

nevrale nettverksalgoritmer- en metode for å simulere prosesser og fenomener som gjør det mulig å reprodusere komplekse avhengigheter. Metoden er basert på bruk av en forenklet modell av en biologisk hjerne og består i at de initiale parametrene betraktes som signaler som transformeres i samsvar med de eksisterende forbindelsene mellom "nevroner", og hele nettverkets respons på de første dataene betraktes som en respons som er et resultat av analysen. I dette tilfellet opprettes forbindelser ved hjelp av såkalt nettverkstrening ved hjelp av et stort utvalg som inneholder både startdata og riktige svar. Nevrale nettverk er mye brukt for å løse klassifiseringsproblemer;

uklar logikk brukes til å behandle data med uklare sannhetsverdier som kan representeres av en rekke språklige variabler. Fuzzy kunnskapsrepresentasjon er mye brukt for å løse klassifiserings- og prognoseproblemer, for eksempel i XpertRule Miner-systemet (Attar Software Ltd., UK), så vel som i AIS, NeuFuz, etc.

induktive ledninger lar deg få generaliseringer av fakta som er lagret i databasen. I prosessen med induktiv læring kan en spesialist som leverer hypoteser være involvert. Dette kalles veiledet læring. Søket etter generaliseringsregler kan utføres uten lærer ved automatisk å generere hypoteser. I moderne programvare kombineres som regel begge metodene, og statistiske metoder brukes for å teste hypoteser. Et eksempel på et system som bruker induktive ledninger er XpertRule Miner utviklet av Attar Software Ltd. (Storbritannia);

resonnement basert på lignende saker(«Nearest neighbor»-metoden) (Case-based resonnement - CBR) er basert på søk i en database etter situasjoner hvis beskrivelser i en rekke funksjoner ligner en gitt situasjon. Analogiprinsippet lar oss anta at resultatene av lignende situasjoner også vil være nær hverandre. Ulempen med denne tilnærmingen er at den ikke skaper noen modeller eller regler som generaliserer tidligere erfaringer. I tillegg avhenger påliteligheten til utgangsresultatene av fullstendigheten av beskrivelsen av situasjoner, som i prosessene med induktiv inferens. Eksempler på systemer som bruker CBR er: KATE Tools (Acknosoft, Frankrike), Pattern Recognition Workbench (Unica, USA);

beslutningstrær- en metode for å strukturere en oppgave i form av en tregraf, hvis toppunkter tilsvarer produksjonsregler som tillater klassifisering av data eller analyse av konsekvensene av beslutninger. Denne metoden gir en visuell representasjon av systemet for klassifisering av regler, hvis det ikke er veldig mange av dem. Enkle problemer løses med denne metoden mye raskere enn ved bruk av nevrale nettverk. For komplekse problemer og for enkelte datatyper kan det hende at beslutningstrær ikke er passende. I tillegg har denne metoden et problem av betydning. En av konsekvensene av hierarkisk dataklynger er fraværet av et stort antall treningseksempler for mange spesielle tilfeller, og klassifiseringen kan derfor ikke anses som pålitelig. Beslutningstremetoder er implementert i mange programvareverktøy, nemlig: С5.0 (RuleQuest, Australia), Clementine (Integral Solutions, Storbritannia), SIPINA (University of Lyon, Frankrike), IDIS (Information Discovery, USA);

evolusjonær programmering- søk og generering av en algoritme som uttrykker den gjensidige avhengigheten av data, basert på den opprinnelig spesifiserte algoritmen, modifisert i søkeprosessen; noen ganger utføres søket etter gjensidige avhengigheter blant spesifikke typer funksjoner (for eksempel polynomer);

begrensede søkealgoritmer som beregner kombinasjoner av enkle logiske hendelser i undergrupper av data.

3.7 IntegrasjonOLAPogDataGruvedrift

Online analytisk prosessering (OLAP) og datautvinning er to deler av beslutningsstøtteprosessen. Imidlertid fokuserer de fleste OLAP-systemer i dag kun på å gi tilgang til flerdimensjonale data, og de fleste Data Mining-verktøyene som arbeider innen mønstre omhandler endimensjonale dataperspektiver. For å øke effektiviteten av databehandlingen for beslutningsstøttesystemer bør disse to typene analyser kombineres.

Foreløpig ser det sammensatte begrepet "OLAP Data Mining" (flerdimensjonal mining) ut til å betegne en slik kombinasjon.

Det er tre hovedmåter å danne "OLAP Data Mining" på:

"Cubing deretter gruvedrift". Evnen til å utføre gruveanalyse bør gis på ethvert resultat av en spørring til en flerdimensjonal konseptuell representasjon, det vil si over ethvert fragment av enhver projeksjon av en hyperkube av indikatorer.

Gruvedrift og deretter kutting. Som data hentet fra et depot, må gruveresultater presenteres i hyperkubisk form for påfølgende multivariat analyse.

"Cubing mens gruvedrift". Denne fleksible metoden for integrasjon lar deg automatisk aktivere den samme typen intelligente prosesseringsmekanismer over resultatet av hvert trinn av multivariat analyse (overgang) mellom nivåene av generalisering, utvinning av et nytt fragment av hyperkuben, etc.).

Karakter 11 [Tekst ... dem hvordan del hele systemer ... assisterende professor ... Cheboksary, 2009. Nr. 10. S. 44 -49.... Forfattere- kompilatorer: N... synopserforelesninger, ...

Studieguide
... forelesninger... Forberedelse forelesninger matematikk. Skriving synopsisforelesninger forelesninger... Bruk informasjonteknologier ...
Jeg k kondaurova med v lebedeva
Studieguide
... forelesninger... Forberedelse forelesninger matematikk. Skriving synopsisforelesninger... Utarbeidelse av visuelle hjelpemidler. Leseteknikk forelesninger... Bruk informasjonteknologier ...
M MEDIEOVERVÅKNING Modernisering av yrkesfaglig utdanning mars - august 2011
Sammendrag
... 11 .08.2011 "Dead Souls-2" i RNIMU dem ... 3,11 -3,44 ... ... offentlig forelesninger ledere... Cheboksary... og skribleri synopser publikum - ... informasjonsystemer og teknologier. ... system utdanning, sier assisterende professor ... kompilatorer ... deler av forbedre ekte innhold ...

Analytiske teknologier for forretningsprosesser

Business intelligence-systemer – Business Intelligence (BI) kombinerer ulike verktøy og teknologier for å analysere og behandle data fra hele virksomheten. Basert på disse verktøyene lages BI-systemer som har som formål å forbedre kvaliteten på informasjon for å ta ledelsesbeslutninger.

BI inkluderer programvareprodukter i følgende klasser:

· Systemer for online analytisk behandling (OLAP);

· Midler for datautvinning (DM);

Programvareprodukter i hver klasse utfører et spesifikt sett med funksjoner eller operasjoner ved hjelp av spesielle teknologier.

OLAP (On-Line Analytical Processing) er navnet på ikke et spesifikt produkt, men en hel teknologi. OLAP-konseptet er basert på multidimensjonal datapresentasjon.

I 1993 publiserte grunnleggeren av den relasjonelle tilnærmingen til å bygge databaser, Edgar Codd og partnere (Edgar Codd, matematiker og IBM Fellow), en artikkel, initiert av selskapet og med tittelen "Delivering OLAP (On-Line Analytical Processing) for Analyst Users ", som formulerte 12 OLAP-teknologikriterier, som senere ble hovedinnholdet i en ny og meget lovende teknologi.

De ble senere omarbeidet til FASMI-testen, som definerer kravene til OLAP-produkter:

· Fort fort). En OLAP-applikasjon skal gi en minimum tilgangstid til analytiske data - i gjennomsnitt ca. 5 sekunder;

ANALYSE (analyse). En OLAP-applikasjon skal gjøre det mulig for brukeren å utføre numerisk og statistisk analyse;

DELT (delt tilgang). OLAP-applikasjonen skal gi muligheten til å arbeide med informasjon for mange brukere samtidig;

MULTIDIMENSIONAL (flerdimensjonalitet);

INFORMASJON En OLAP-applikasjon skal gi brukeren muligheten til å innhente nødvendig informasjon, uansett hvilket elektronisk datavarehus den befinner seg i.

Basert på FASMI kan følgende definisjon gis: OLAP-applikasjoner - Dette er systemer for rask flerbrukertilgang til flerdimensjonal analytisk informasjon med mulighetene for numerisk og statistisk analyse.

Den grunnleggende ideen bak OLAP er å bygge flerdimensjonale kuber som vil være tilgjengelige for tilpassede spørringer. Flerdimensjonale kuber (Figur 5.3) er bygget fra rå og aggregerte data som kan lagres i både relasjons- og flerdimensjonale databaser. Derfor brukes tre måter å lagre data på: MOLAP (Multidimensjonal OLAP), ROLAP (Relasjonell OLAP) og HOLAP (Hybrid OLAP).

Følgelig er OLAP-produkter delt inn i tre lignende kategorier når det gjelder datalagringsmetode:

1. Når det gjelder MOLAP, lagres de originale og flerdimensjonale dataene i en flerdimensjonal database eller i en flerdimensjonal lokal kube. Denne lagringsmetoden gir en høy hastighet på utførelse av OLAP-operasjoner. Men den flerdimensjonale basen i dette tilfellet vil oftest være overflødig. Kuben bygget på grunnlaget vil sterkt avhenge av antall dimensjoner. Etter hvert som antall dimensjoner øker, vil volumet til kuben vokse eksponentielt. Noen ganger kan dette føre til «eksplosiv vekst» i datamengden.

2. I ROLAP-produkter lagres kildedataene i relasjonsdatabaser eller flate lokale tabeller på en filserver. Aggregerte data kan plasseres i tjenestetabeller i samme database. Konvertering av data fra en relasjonsdatabase til flerdimensjonale kuber skjer på forespørsel fra OLAP-verktøyet. I dette tilfellet vil hastigheten på å bygge en kube i stor grad avhenge av typen datakilde.

3. Ved bruk av hybridarkitektur forblir de originale dataene i relasjonsdatabasen, og aggregatene plasseres i den flerdimensjonale. Å bygge en OLAP-kube utføres på forespørsel fra et OLAP-verktøy basert på relasjonelle og flerdimensjonale data. Denne tilnærmingen unngår eksplosiv datavekst. Samtidig er det mulig å oppnå optimal utførelsestid av klientforespørsler.

Ved å bruke OLAP-teknologier kan brukeren utføre fleksibel visning av informasjon, skaffe ulike datastykker, utføre analytiske operasjoner med detaljering, konvolusjon, ende-til-ende-distribusjon, sammenligning i tid, dvs. kompilere og dynamisk publisere rapporter og dokumenter.

Strukturen til lagerdatabasen er vanligvis utformet på en slik måte at analysen av informasjon blir mest mulig forenklet. Dataene bør beleilig "legges ut" i forskjellige retninger (kalt dimensjoner). For eksempel ønsker en bruker i dag å se et sammendrag av tilbudet av deler etter leverandør for å sammenligne deres aktiviteter. I morgen vil den samme brukeren trenge et bilde av endringer i volumet av forsyninger av deler etter måneder for å spore dynamikken til forsyninger. Strukturen til databasen bør støtte denne typen analyser, slik at det kan trekkes ut data som tilsvarer et gitt sett med dimensjoner.

Operasjonell analytisk databehandling er basert på prinsippet om å organisere informasjon i en hyperkubisk modell. Den enkleste tredimensjonale datakuben for levering av deler til den tidligere vurderte testdatabasen er vist i fig. 3.11. Hver av cellene tilsvarer et "faktum" - for eksempel leveringsomfanget av en del. Langs den ene siden av kuben (én dimensjon) er månedene hvor leveransene som reflekteres av kuben ble gjort. Den andre dimensjonen er delene, og den tredje er knyttet til leverandørene. Hver celle inneholder leveringsmengden for den tilsvarende kombinasjonen av verdier i alle tre dimensjonene. Det skal bemerkes at når du fyller kuben, ble verdiene aggregert for hver måneds leveranser fra testdatabasen.

3.11. Forenklet Hypercube-alternativ for delforsyningsanalyse

OLAP-klassesystemer er forskjellige i måten data presenteres på.

Flerdimensjonal OLAP (MOLAP) - disse systemene er basert på en flerdimensjonal datastruktur basert på dynamiske arrays med passende tilgangsmetoder. MOLAP er implementert på patenterte teknologier for organisering av flerdimensjonale DBMS. Fordelen med denne tilnærmingen er bekvemmeligheten av å utføre beregninger på cellene i hyperkuben, siden for alle kombinasjoner av målinger blir de tilsvarende cellene viklet opp (som i et regneark). De klassiske representantene for slike systemer inkluderer Oracle Express, SAS Institute MDDB.

Relasjonell OLAP (ROLAP)- Støtter multidimensjonale analytiske modeller over relasjonsdatabaser. Denne klassen av systemer inkluderer Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Desktop OLAP- verktøy for å generere flerdimensjonale spørringer og rapporter for lokale informasjonssystemer (regneark, flate filer). Følgende systemer kan skilles fra hverandre - Business Objects, Cognos Power Play.

E.F. Codd definerte tolv regler som et OLAP-produkt må tilfredsstille, inkludert multidimensjonal datakonseptualisering, transparens, tilgjengelighet, robust ytelse, klient-server-arkitektur, dimensjonsrettferdighet, sparsom matrise-dynamisk prosessering, flerbrukerstøtte, ubegrenset tverrdimensjonal støtte, intuitiv datamanipulering ., fleksibel rapporteringsmekanisme, ubegrenset antall dimensjoner og aggregeringsnivåer.

De vanligste systemene i ROLAP-klassen. De lar deg organisere en informasjonsmodell over en relasjonsmessig komplett lagring av enhver struktur eller over en spesiell datamart.

Ris. 3.12. Stjerneskjema for et utstillingsvindu for deler

For de fleste datavarehus er den mest effektive måten å modellere en N-dimensjonal kube på en stjerne. I fig. 3.11 viser en hyperkubemodell for å analysere tilbudet av deler, der informasjonen er konsolidert av fire dimensjoner (leverandør, del, måned, år). Stjerneskjemaet er basert på en faktatabell. Faktatabellen inneholder en kolonne for leveringsomfang samt kolonner for fremmednøkler for alle dimensjonstabeller. Hver dimensjon i kuben er representert av en verditabell, som er en referanse til faktatabellen. For å organisere nivåene for generalisering av informasjon over referansebøkene for målinger, organiseres kategoriske input (for eksempel "material-detalj", "by-leverandør").

Grunnen til at kretsen i fig. 3.12 kalles en "stjerne" er ganske åpenbart. Endene av "stjernen" er dannet av dimensjonstabeller, og deres koblinger til faktatabellen i midten danner stråler. Med denne databasestrukturen kombinerer de fleste business intelligence-spørringer en sentral faktatabell med én eller flere dimensjonstabeller. For eksempel er en forespørsel om å innhente forsyningsvolumene for alle deler i 2004 etter måneder med en fordeling på leverandører som følger:

VELG SUM (VERDI), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

FRA FAKTA, LEVERANDØR

WHERE FACT.YEAR_ID = 2004

OG FACT.SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

I fig. 3.13 viser et fragment av en rapport generert som et resultat av en gitt forespørsel.

Begrep online analytisk behandling(On-Line Analytical Processing - OLAP) ble først nevnt i en rapport utarbeidet for Arbor Software Corp. i 1993, selv om definisjonen av dette begrepet, som for datavarehus, ble formulert mye senere. Konseptet angitt av dette begrepet kan defineres som "den interaktive prosessen med å lage, vedlikeholde, analysere data og utstede rapporter." I tillegg legges det vanligvis til at de aktuelle dataene skal oppfattes og behandles på en slik måte som om de var lagret i flerdimensjonal matrise. Men før vi begynner å diskutere selve MDX, la oss se på de relaterte ideene i form av tradisjonelle SQL-tabeller.

Den første funksjonen er at analytisk prosessering absolutt krever litt aggregering data, vanligvis utført på flere forskjellige måter samtidig, eller med andre ord i henhold til mange forskjellige grupperingskriterier. I hovedsak er et av hovedproblemene ved analytisk prosessering at antall mulige måter å gruppere på

det blir for stort veldig snart. Imidlertid må brukere vurdere alle eller nesten alle disse alternativene. Selvfølgelig støttes denne typen aggregering nå i SQL-standarden, men en bestemt SQL-spørring produserer bare én tabell som resultat, og alle radene i denne resultattabellen har samme form og samme tolkning10 (i det minste på denne måten

9 Her er et tips fra en bok om datavarehus: "[Forkast] normalisering ... Å prøve å normalisere noen av tabellene i en flerdimensjonal database utelukkende for å spare diskplass [det stemmer!] Er bortkastet tid ... Dimensjon Tabeller skal ikke normaliseres ... Normaliserte dimensjonstabeller utelukker muligheten for visning."

10 Med mindre denne resultattabellen inkluderer noen nullverdier eller NULL-verdier (se kapittel 19, avsnitt 19.3, underavsnitt "Mer om predikater"). Faktisk kan SQL: 1999-konstruksjonene som bør beskrives i denne delen karakteriseres som "baserte på" dette svært utdaterte SQL-verktøyet (?); faktisk understreker de det faktum at udefinerte verdier i deres forskjellige manifestasjoner kan ha forskjellige betydninger, og lar derfor mange forskjellige predikater representeres i en tabell (som vil bli vist nedenfor).

var før SQL: 1999-standarden). Derfor, for å realisere NS ulike måter å gruppere på, må du utføre NS separate spørringer og opprette l separate tabeller som et resultat. Vurder for eksempel følgende sekvens av spørringer utført mot en leverandør- og deledatabase.

1. Bestem det totale antallet leveranser.

2. Bestem totalt antall leveranser etter leverandør.

3. Bestem det totale antallet leveranser for deler.

4. Bestem det totale antallet leveranser fra leverandører og deler.

(Selvfølgelig er den "totale" mengden for en gitt leverandør og for en gitt del ganske enkelt den faktiske mengden for en gitt leverandør og for en gitt del. Et eksempel ville vært mer realistisk hvis en database med leverandører, deler og prosjekter ble brukt . For eksempel slo vi oss fortsatt på den vanlige basen av leverandører og deler.)

Anta nå at det bare er to deler, nummerert P1 og P2, og forsyningstabellen ser slik ut.

Flerdimensjonale databaser

Til nå har det vært antatt at OLAP-data er lagret i en vanlig database ved bruk av SQL-språket (bortsett fra at vi noen ganger fortsatt berørte terminologien og konseptet flerdimensjonale databaser). Faktisk, uten å eksplisitt indikere, beskrev vi det såkalte systemet ROLAP(Relasjonell OLAP- relasjonelle OLAP). Men mange tror at bruk av systemet MOLAP(Multi-dimensjonal OLAP- flerdimensjonal OLAP) er en mer lovende måte. I dette underavsnittet vil prinsippene for å bygge MOLAP-systemer bli vurdert nærmere.

MOLAP-systemet sikrer styring av flerdimensjonale databaser, der data er konseptuelt lagret i cellene i en flerdimensjonal matrise.

Merk. Selv om det er høyere og ble det sagt om konseptuelt måte å organisere lagring på, faktisk den fysiske organiseringen av data i MOLAP veldig lik deres logiske organisasjon.

Den støttende DBMS kalles flerdimensjonale. Et enkelt eksempel er en 3D-matrise som representerer henholdsvis produkter, kunder og tidsperioder. Verdien av hver enkelt celle kan representere det totale volumet av en spesifisert vare solgt til en kunde i en spesifisert tidsperiode. Som nevnt ovenfor kan krysstabellene fra forrige underseksjon også betraktes som slike matriser.

Hvis det er en tilstrekkelig klar forståelse av strukturen til datasettet, kan alle relasjoner mellom dataene være kjent. Dessuten, variabler et slikt sett (ikke i betydningen konvensjonelle programmeringsspråk), grovt sett, kan deles inn i avhengig og uavhengig. V forrige eksempel produkt, kunde og tidsperiode kan betraktes som uavhengige variabler, og Nummer - den eneste avhengige variabelen. Generelt er forklaringsvariabler variabler hvis verdier sammen bestemmer verdiene til de avhengige variablene (akkurat som, i relasjonsterminologi, er en potensiell nøkkel et sett

kolonner hvis verdier bestemmer verdiene til de resterende kolonnene). Følgelig setter de uavhengige variablene dimensjonen til matrisen som dataene er organisert med, og danner også adresseringsordning 11 for en gitt matrise. De avhengige variabelverdiene som representerer de faktiske dataene er lagret i matriseceller.

Merk. Forskjellen mellom betydningen av uavhengig, eller dimensjonale, variabler,

og verdiene til den avhengige, eller overdimensjonert, variabler er noen ganger karakterisert som forskjellen mellom plassering og innhold.

"Derfor adresseres matriseceller symbolsk, i stedet for å bruke numeriske indekser, som vanligvis brukes til å jobbe med matriser.

Dessverre er den ovennevnte egenskapen til flerdimensjonale databaser for forenklet, siden de fleste datasettene i utgangspunktet gjenstår ikke fullt ut studert. Av denne grunn har vi en tendens til først og fremst å analysere dataene for å forstå dem bedre. Ofte kan mangelen på forståelse være så betydelig at det er umulig å fastslå på forhånd hvilke variabler som er uavhengige og hvilke som er avhengige. Deretter velges de uavhengige variablene i henhold til gjeldende forståelse av dem (det vil si basert på en hypotese), hvoretter den resulterende matrisen sjekkes for å bestemme hvor godt de uavhengige variablene er valgt (se avsnitt 22.7). Denne tilnærmingen fører til det faktum at mange iterasjoner utføres på prinsippet om prøving og feiling. Derfor tillater systemet vanligvis endring av dimensjonale og ikke-dimensjonale variabler, og denne operasjonen kalles endring av koordinatakser(svingende). Andre støttede operasjoner inkluderer array-transponering og ombestilling av dimensjoner. Det må også være en måte å legge til dimensjoner på.

Forresten, det burde være klart fra den forrige beskrivelsen at matriseceller ofte er tomme (og jo flere dimensjoner, jo oftere observeres dette fenomenet). Med andre ord, arrays er vanligvis sparsom. Anta for eksempel at produktet p ikke ble solgt til kunden i hele tidsperioden t. Deretter celle [s, p, t] vil være tom (eller i beste fall inneholde null). Flerdimensjonale DBMS-er støtter ulike metoder for å lagre sparsomme matriser i en mer effektiv, kondensert form12. Til dette skal det legges til at tomme celler tilsvarer manglende informasjon og derfor må systemene gi en viss beregningsstøtte for tomme celler. Slik støtte er vanligvis tilgjengelig, men stilen er dessverre lik stilen som brukes i SQL-språket. Vær oppmerksom på det faktum at hvis denne cellen er tom, så er informasjonen enten ikke kjent, eller har ikke blitt lagt inn, eller er ikke aktuelt, eller mangler av andre årsaker.

(se kapittel 19).

Forklaringsvariablene er ofte koblet inn hierarki, definere måtene aggregeringen av avhengige data kan skje på. For eksempel er det en midlertidig

et hierarki som kobler sekunder til minutter, minutter til timer, timer til dager, dager til uker, uker til måneder, måneder til år. Eller et annet eksempel: hierarki er mulig

komposisjoner som forbinder deler med et sett med deler, sett med deler med en sammenstilling, sammenstillinger med en modul, moduler med et produkt. Ofte kan samme data aggregeres på mange forskjellige måter, dvs. samme forklaringsvariabel kan tilhøre mange forskjellige hierarkier. Systemet gir operatører for går opp(bore opp) og går forbi(drill down) langs et slikt hierarki. Går forbi betyr overgangen fra det nedre aggregeringsnivået til det øvre, og går forbi -

går i motsatt retning. Det finnes andre operasjoner for å arbeide med hierarkier, for eksempel en operasjon for å omorganisere nivåer i et hierarki.

Merk. Mellom operasjonene går opp(bore opp) og akkumulering av resultater(rull

opp) det er en subtil forskjell: operasjonen akkumulering av resultater - dette er en implementeringsoperasjon

12 Legg merke til forskjellen fra relasjonssystemer. I den virkelige relasjonsanalogen til dette eksemplet, linjen Ic, p, t) det ville ikke være noen tom "celle" av mengden, på grunn av det faktum at linjen (s, p, t) ville ganske enkelt være fraværende. Derfor, når du bruker relasjonsmodellen, i motsetning til flerdimensjonale arrays, er det ikke nødvendig å støtte "sparse arrays", eller snarere "sparse tabeller", og krever derfor ikke sofistikerte komprimeringsteknikker for å jobbe med slike tabeller.

de nødvendige grupperings- og aggregeringsmetodene, og operasjonen går opp dette er en operasjon adgang til resultatene av implementeringen av disse metodene. Et eksempel på en operasjon går forbi spørringen kan være: "Totalt antall leveranser er kjent; få totalsummene for hver enkelt leverandør." Selvfølgelig må mer detaljerte datanivåer være tilgjengelige (eller beregnbare) for å svare på dette spørsmålet.

Multidimensjonale databaseprodukter gir også en rekke statistiske og andre matematiske funksjoner for å hjelpe deg med å formulere og teste hypoteser (det vil si hypoteser om antatte sammenhenger). I tillegg leveres visualiserings- og rapporteringsverktøy for å hjelpe med disse oppgavene. Dessverre er det ennå ikke noe standard spørrespråk for flerdimensjonale databaser, selv om det pågår forskning for å utvikle en kalkulus som en slik standard kan baseres på. Men dessverre er det ingenting som den relasjonelle teorien om normalisering, som kan tjene som et vitenskapelig grunnlag for utformingen av flerdimensjonale databaser.

Ved å avslutte denne delen merker vi at noen produkter kombinerer både ROLAP- og MOLAP-tilnærminger. Slik hybrid OLAP-system er kalt HOLAP. Det er omfattende diskusjoner for å finne ut hvilken av disse tre tilnærmingene som er best, så det er verdt å prøve å si noen ord om denne problemstillingen13. Generelt gir MOLAP-systemer raskere avregning, men støtter mindre data enn ROLAP-systemer, d.v.s. blir mindre effektive ettersom datamengden øker. Og ROLAP-systemer gir mer avansert skalerbarhet, parallellitet og kontrollfunksjoner enn MOLAP-systemer. I tillegg har SQL-standarden nylig blitt oppdatert til å inkludere mange statistiske og analytiske funksjoner (se avsnitt 22.8). Det følger at ROLAP-produkter nå er i stand til å gi forbedret funksjonalitet.

OLAP (Online Analytical Processing) er en informasjonsprosess som gjør det mulig for brukeren å spørre systemet, utføre analyser osv. på nett (på nett). Resultatene genereres i løpet av sekunder.

OLAP-systemer er laget for sluttbrukere, mens OLTP-systemer er laget for profesjonelle IP-brukere. OLAP inkluderer aktiviteter som å generere spørringer, spørre ad-hoc-rapporter, utføre statistiske analyser og bygge multimedieapplikasjoner.

For å tilby OLAP må du jobbe med et datavarehus (eller flerdimensjonalt lager) samt et sett med verktøy, vanligvis med flerdimensjonale muligheter. Disse verktøyene kan være spørringsverktøy, regneark, datautvinningsverktøy, datavisualiseringsverktøy, etc.

OLAP-konseptet er basert på prinsippet om flerdimensjonal datapresentasjon. E. Codd vurderte manglene ved relasjonsmodellen, og påpekte først og fremst umuligheten av å kombinere, se og analysere data fra synspunktet til flere dimensjoner, det vil si på den mest forståelige måten for bedriftsanalytikere, og definerte generelle krav. for OLAP-systemer som utvider funksjonaliteten til relasjons-DBMS og inkluderer flerdimensjonal analyse som en av egenskapene.

12 regler som må oppfylles av et OLAP-programvareprodukt. Disse reglene:

1. Flerdimensjonal konseptuell representasjon av data.

2. Åpenhet.

3. Tilgjengelighet.

4. Bærekraftig ytelse.

5. Klient - serverarkitektur.

6. Målelikhet.

7. Dynamisk behandling av sparsomme matriser.

8. Støtte for flerspillermodus.

9. Ubegrenset støtte for tverrdimensjonale operasjoner.

10. Intuitiv datamanipulering.

11. Fleksibel mekanisme for å generere rapporter.

12. Ubegrenset antall dimensjoner og aggregeringsnivåer.

Settet med disse kravene, som fungerte som den faktiske definisjonen av OLAP, bør betraktes som en anbefaling, og spesifikke produkter bør vurderes i henhold til graden av nærhet til ideelt sett full overensstemmelse med alle krav.

Data Mining og Knowledge Mining. Big data management og analyse. Business intelligence-systemer (BI).

Data mining (IAD) er en generell betegnelse for dataanalyse med aktiv bruk av matematiske metoder og algoritmer (optimaliseringsmetoder, genetiske algoritmer, mønstergjenkjenning, statistiske metoder, Data Mining, etc.), ved bruk av resultatene fra bruk av visuelle datapresentasjonsmetoder .

Generelt består IAD-prosessen av tre stadier:

1) identifikasjon av mønstre (fritt søk);

2) bruke de avslørte mønstrene for å forutsi ukjente verdier (prognose);

3) analyse av unntak for å identifisere og tolke anomalier i de funnet mønstrene.

Noen ganger er det et mellomstadium for å kontrollere påliteligheten til de funnet mønstrene (stadiet for validering) mellom å finne og bruke dem.

Alle IAD-metoder, i henhold til prinsippet om å jobbe med innledende data, er delt inn i to grupper:

Bruk - rådata kan lagres i en eksplisitt granulær form og brukes direkte til å forutsi og/eller analysere unntak. Ulempen med denne gruppen av metoder er kompleksiteten i bruken på store datamengder.

Metoder for å identifisere og bruke formaliserte mønstre som krever å trekke ut informasjon fra primærdata og transformere den til noen formelle konstruksjoner, hvis form avhenger av en spesifikk metode.

Data Mining (DM) er en teknologi for å oppdage i "rå" data tidligere ukjent ikke-triviell, praktisk nyttig og tilgjengelig tolkning av kunnskap som er nødvendig for beslutningstaking i ulike sfærer av menneskelig aktivitet. Algoritmene som brukes i Data Mining krever en stor mengde beregning, som tidligere var en begrensende faktor i den utbredte praktiske anvendelsen av disse metodene, men økningen i ytelsen til moderne prosessorer har fjernet det akutte ved dette problemet.

Business Intelligence-markedet består av 5 sektorer:

1. OLAP-produkter;

2. Data mining verktøy;

3. Midler for å bygge datavarehus og mars (Data Warehousing);

4. Ledelsesinformasjonssystemer og applikasjoner;

5. Sluttbrukerverktøy for spørring og oppbygging av rapporter.

For tiden er blant lederne av bedriftens BI-plattformer MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute og andre (vedlegg B gir en komparativ analyse av noe av funksjonaliteten til BI-systemer).

Analytisk behandling av informasjon er direkte en analytisk prosedyre, i forbindelse med hvilken det stilles alvorlige krav til organisasjonen, nemlig passende metodisk støtte, et visst nivå av opplæring av analytikere, deres tilførsel av tekniske analysemidler.
Kvaliteten og gyldigheten av ledelsesbeslutningene som tas, bestemmes i stor grad ikke bare av påliteligheten, fullstendigheten, tilgjengeligheten, effektiviteten av å innhente informasjon, men også av effektiviteten til metodene som brukes i behandlingen. Forbedring av teknologien for analytisk behandling av økonomisk informasjon er et av nøkkelelementene for å forbedre ledelsesteknologien.
Informasjonsstøtte av høy kvalitet for forretningsstyringsprosessen er bare mulig når du i praksis bruker de nyeste informasjonsteknologiene: datateknologi, telekommunikasjon og programvare, samt automatiserte kontrollsystemer.
Betingelser for økonomisk aktivitet, som innebærer brede rettigheter for foretak til å danne en regnskapspolitikk, muligheten for å endre den, endre former for eierskap; restruktureringsprosesser, sammenslåinger av selskaper osv., tilsier behovet for å behandle en stor mengde analytisk informasjon. Selve beregningene, som brukes når man reflekterer visse finansielle og økonomiske transaksjoner, har også blitt mer kompliserte. Foretakenes brede rettigheter til å velge metodene for å beregne avskrivninger på anleggsmidler gjør oppgaven med å beregne beløpene for avskrivningsfradrag praktisk talt umulig, med forbehold om manuell behandling av informasjon.
Kravene til graden av effektivitet og pålitelighet av informasjon som er nødvendig for å ta ledelsesbeslutninger vokser. Det er organiseringen av økonomisk analyse i et datamiljø som gjorde det mulig å betydelig øke effektiviteten av innsamling og registrering av regnskapsinformasjon, betydelig redusere sannsynligheten for aritmetiske feil og som et resultat redusere arbeidsintensiteten til analytisk arbeid. tjenester hos bedrifter.
Kompleksiteten til informasjonsflyter, ufullkommenhet i kanaler for å skaffe informasjon, metoder og teknikker for innsamling, lagring og behandling av informasjon fører ofte til betydelig forsinkelse, og følgelig til tap av "kvalitet. aktivitet og økonomisk analyse, fører til gradvis sammenslåing av automatisering av oppgjør med informasjonssystemet til bedriften.
Et automatisert system for innsamling, prosessering og lagring, som er et omfattende nettverk av opptaksenheter, kommunikasjonslinjer og datamaskiner, reduserer tiden mellom fremveksten av informasjon og dens bruk i analytisk arbeid. Tekniske midler sikrer rettidig levering av informasjon om prosessene som skjer i virksomheten til ledere og andre ledere. Bruk av moderne informasjonsteknologi gjør det mulig å utføre raske søk og tidkrevende beregninger, samt vise resultatene i en akseptabel form.
Den ledende plassen i prosedyrene for å transformere økonomisk informasjon er okkupert av dens systematisering og behandling. Med bruk av datateknologi har informasjonsbehandling blitt en organisk del av en enkelt informasjonsteknologisk prosess. Moderne datamaskiner endret ikke bare forbindelsene til denne prosessen med andre, og skapte muligheten for teknologisk enhet av informasjonsprosesser, men påvirket også innholdet i konseptet "databehandling". Hvis i manuell eller mekanisert utførelse av analytisk arbeid ble prosessering hovedsakelig forstått som aritmetiske operasjoner, i dag brukes de mest komplekse logiske og statistiske operasjonene til prosessering.
Mesteparten av den økonomiske informasjonen som innhentes som et resultat av behandlingen sendes til ledere, spesialister, ledere innenfor spesifikke vilkår gitt av datainnsamlings- og behandlingskalenderen. Ved dannelse av regulert økonomisk informasjon er det ikke spesielt vanskelig å fastsette tidspunktet for forberedelsen, siden de vanligvis bestemmes av produksjonsforholdene. Vanskeligheten er å designe innsamling og behandling av uregulert informasjon for å ta ledelsesbeslutninger på vilkårlige tidspunkter. For å få slik informasjon, må systemet generere data som karakteriserer resultatene av arbeidet, fremdriften av planene, dynamikken i økonomisk og sosial utvikling, med en spesifisert periode.
Et slikt system krever en annen tilnærming til utformingen av den teknologiske, teknologiske prosessen med å samle inn og behandle data, og sørger for ulike moduser for å skaffe informasjon. Den mest lovende interaktive modusen gir direkte interaksjon av brukere med en datamaskin. For å ta beslutninger om operasjonell ledelse, velger ledere, på grunnlag av visse dialogprosedyrer, nødvendig informasjon som gjenspeiler sikkerheten og bruken av materielle, arbeidskraft og økonomiske ressurser, produksjonsforløpet og andre forretningsprosesser.
I en bearbeidet, sammenkoblet og koordinert form overføres informasjon til avdelinger og tjenester for økonomisk ledelse som er ansvarlig for analyse av økonomiske aktiviteter og beslutningstaking. For å styre økonomien trenger de spesiell informasjon av prediktiv karakter, som ikke bare gjør det mulig å registrere forholdene i bedriften, men også å analysere utviklingstrendene til en bestemt prosess eller fenomen og ta optimale og rettidige beslutninger basert på dette kontrollerte objektet og dets miljø, men også analysert informasjon egnet for prognoser.Informasjon om tidligere oppførsel av systemet og dets miljø brukes til å utvikle ledelsesbeslutninger basert på den forutsigbare beslutningen ved å bruke økonomiske modelleringsverktøy, ekspert- og prediktive programvaresystemer.

Informasjonsteknologi har i mange år fokusert på å bygge systemer for å støtte behandlingen av bedriftstransaksjoner. Slike systemer må være visuelt spenstige og responsive. En effektiv løsning ble levert av OLTP, som fokuserte på et distribuert relasjonsdatabasemiljø.

En nyere utvikling på dette området var tillegget av en klient-server-arkitektur. Mange verktøy har blitt publisert for utvikling av OLTP-applikasjoner.

Datatilgang kreves ofte av både OLTP-applikasjoner og informasjonssystemer for beslutningsstøtte. Dessverre kan det være problematisk å prøve å betjene begge typer forespørsler. Derfor har noen selskaper valgt veien for å dele databasen inn i OLTP-type og OLAP-type.

OLAP (Online Analytical Processing) Er en informasjonsprosess som gjør det mulig for brukeren å spørre systemet, utføre analyser osv. på nett (på nett). Resultatene genereres i løpet av sekunder.

På den annen side, i et OLTP-system, behandles enorme mengder data så snart de kommer til inngangen.

I et stort antall publikasjoner betegner forkortelsen OLAP ikke bare en flerdimensjonal visning av data, men også lagringen av selve dataene i en flerdimensjonal database. Generelt sett er dette ikke sant, siden Codd selv påpeker at relasjonsdatabaser var, er og vil være den mest egnede teknologien for lagring av bedriftsdata. Behovet er ikke for ny databaseteknologi, men snarere for analyseverktøy som utfyller eksisterende DBMS-funksjoner og er fleksible nok til å forutse og automatisere de forskjellige typene gruvedrift som ligger i OLAP.

I følge Codd er en flerdimensjonal konseptuell representasjon et multippelperspektiv, bestående av flere uavhengige dimensjoner langs hvilke spesifikke sett med data kan analyseres. Samtidig analyse på tvers av flere dimensjoner er definert som multivariat analyse. Hver dimensjon inkluderer retninger for datakonsolidering, bestående av en serie påfølgende aggregeringsnivåer, der hvert høyere nivå tilsvarer en større grad av dataaggregering for den tilsvarende dimensjonen. Så dimensjonen til entreprenøren kan bestemmes av retningen for konsolidering, som består av generaliseringsnivåene "bedrift - avdeling - avdeling - ansatt". Tidsdimensjonen kan til og med inkludere to konsolideringsretninger - år - kvartal - måned - dag og uke - dag, fordi tidstelling etter måned og uke er uforenlig. I dette tilfellet blir det mulig å vilkårlig velge ønsket informasjonsnivå for hver av målingene. Nedstigningsoperasjonen tilsvarer bevegelsen fra de høyere stadiene av konsolidering til de lavere; tvert imot betyr en løfteoperasjon bevegelse fra lavere nivåer til høyere.

Codd definerte 12 regler som et programvareprodukt i OLAP-klassen må tilfredsstille. Disse reglene:

1. Flerdimensjonal konseptuell representasjon av data.

2. Åpenhet.

3. Tilgjengelighet.

4. Bærekraftig ytelse.

5. Klient - serverarkitektur.

6. Målelikhet.

7. Dynamisk behandling av sparsomme matriser.

8. Støtte for flerspillermodus.

9. Ubegrenset støtte for tverrdimensjonale operasjoner.

10. Intuitiv datamanipulering.

11. Fleksibel mekanisme for å generere rapporter.

12. Ubegrenset antall dimensjoner og aggregeringsnivåer.

Datautvinning.

Data mining (IAD), eller Data Mining, er et begrep som brukes for å beskrive oppdagelsen av kunnskap i databaser, kunnskapsutvinning, datautvinning, datautforskning, dataprøvebehandling, datarensing og innsamling; her menes den medfølgende programvaren. Alle disse handlingene utføres automatisk og lar deg få raske resultater, selv for ikke-programmerere.

Forespørselen gjøres av sluttbrukeren, eventuelt på naturlig språk. Spørringen konverteres til SQL-format. SQL-spørringen sendes over nettverket til DBMS, som administrerer databasen eller datavarehuset. DBMS finner svaret på forespørselen og leverer den tilbake. Brukeren kan deretter designe presentasjonen eller rapporten i henhold til deres krav.

Mange viktige beslutninger i nesten alle områder av virksomheten og sosial sfære er basert på analyse av store og komplekse databaser. IAD kan være svært nyttig i disse tilfellene.

Datautvinningsteknikker er nært knyttet til OLAP-teknologier og datavarehusteknologier. Derfor er det beste alternativet en integrert tilnærming til implementeringen.

Svært ofte er informasjons- og analysesystemer laget med forventning om direkte bruk av beslutningstakere ekstremt enkle å bruke, men sterkt begrenset i funksjonalitet. Slike statiske systemer kalles Executive Information Systems. De inneholder forhåndsdefinerte sett med spørringer, og er tilstrekkelige for daglig gjennomgang, og er ikke i stand til å svare på alle spørsmålene om tilgjengelige data som kan oppstå når beslutninger tas. Resultatene av arbeidet med et slikt system er som regel rapporter på flere sider, etter en grundig studie som analytikeren har en ny serie spørsmål om. Imidlertid må hver ny forespørsel som ikke er forutsett i utformingen av et slikt system først beskrives formelt, kodes av programmereren og først deretter utføres. Ventetiden i dette tilfellet kan være timer og dager, noe som ikke alltid er akseptabelt. Dermed blir den eksterne enkelheten til statistisk beslutningsstøtte IS, som de fleste kunder av informasjons- og analysesystemer aktivt kjemper for, til et tap av fleksibilitet.

Derimot er dynamiske beslutningsstøtte IS-er fokusert på å behandle ad hoc-analytikeres forespørsler om data. Analytikere jobber med disse systemene i en interaktiv sekvens med å lage spørringer og studere resultatene deres.

Men dynamisk beslutningsstøtte IS-er kan operere i mer enn bare online analytisk prosessering (OLAP). Støtte for å ta ledelsesbeslutninger basert på akkumulert data kan utføres på tre grunnleggende områder.

1. Sfære med detaljerte data. Dette er domenet til de fleste systemer for informasjonsinnhenting. I de fleste tilfeller gjør relasjonelle DBMSer en utmerket jobb med oppgavene som oppstår her. Den generelt aksepterte standarden for språket for relasjonsdatamanipulering er SQL. Informasjonsinnhentingssystemer som gir et sluttbrukergrensesnitt i oppgavene med å søke etter detaljert informasjon kan brukes som tillegg både over separate databaser av transaksjonssystemer og over et felles datavarehus.

2. Omfang av aggregater. En omfattende titt på informasjonen som samles inn i datavarehuset, dens generalisering og aggregering og flerdimensjonal analyse er oppgavene til OLAP-systemer. Her kan du enten fokusere på spesielle flerdimensjonale DBMS, eller holde deg innenfor rammen av relasjonsteknologier. I det andre tilfellet kan forhåndsaggregerte data samles inn i en stjerneformet database, eller informasjonsaggregering kan utføres i prosessen med å skanne detaljerte tabeller i en relasjonsdatabase.

3. Regelmessighetenes sfære. Intellektuell prosessering utføres ved hjelp av datautvinningsmetoder, hvis hovedoppgaver er å søke etter funksjonelle og logiske mønstre i den akkumulerte informasjonen, konstruksjon av modeller og regler som forklarer de funnet anomaliene og / eller forutsier utviklingen av noen prosesser.

Den komplette strukturen til informasjons- og analysesystemet bygget på grunnlag av datavarehuset er vist i fig. 3.2. I spesifikke implementeringer mangler ofte individuelle komponenter i denne kretsen.