Manieren van analytische gegevensverwerking voor beslissingsondersteuning. Operationele analytische verwerking (On-Line Analytical Processing, OLAP)

Analytische technologieën van bedrijfsprocessen

Business intelligence-systemen - Business Intelligence (BI) combineert verschillende tools en technologieën voor het analyseren en verwerken van bedrijfsbrede gegevens. Op basis van deze tools worden BI-systemen gecreëerd die tot doel hebben de kwaliteit van informatie voor het nemen van bestuurlijke beslissingen te verbeteren.

BI omvat softwareproducten van de volgende klassen:

systemen voor operationele analytische verwerking (OLAP);

· middelen voor intellectuele data-analyse (DM);

Softwareproducten van elke klasse voeren een bepaalde reeks functies of bewerkingen uit met behulp van speciale technologieën.

OLAP (On-Line Analytical Processing) - online analytische verwerking - is niet de naam van een specifiek product, maar van een hele technologie. Het concept van OLAP is gebaseerd op een multidimensionale weergave van gegevens.

In 1993 publiceerde de grondlegger van de relationele databasebenadering, Edgar Codd en partners (Edgar Codd, wiskundige en IBM-fellow), een paper op initiatief van het bedrijf en getiteld "Providing OLAP (Online Analytical Processing) for Analyst Users", waarin 12 criteria van OLAP-technologie, die later de belangrijkste inhoud werd van een nieuwe en veelbelovende technologie.

Later werden ze herwerkt in de FASMI-test, die de vereisten voor OLAP-producten definieert:

· Snel snel). Een OLAP-toepassing moet een minimale toegangstijd tot analytische gegevens bieden - gemiddeld ongeveer 5 seconden;

· ANALYSE (analyse). Een OLAP-toepassing moet de gebruiker in staat stellen numerieke en statistische analyses uit te voeren;

· GEDEELD (gedeelde toegang). Een OLAP-toepassing moet voor veel gebruikers tegelijk de mogelijkheid bieden om met informatie te werken;

· MULTIDIMENSIONEEL (multidimensionaliteit);

· INFORMATIE (informatie). Een OLAP-toepassing moet de gebruiker in staat stellen de nodige informatie te verkrijgen, ongeacht in welke elektronische gegevensopslag deze zich bevindt.

Op basis van FASMI kan de volgende definitie worden gegeven: OLAP-toepassingen - dit zijn systemen voor snelle toegang voor meerdere gebruikers tot multidimensionale analytische informatie met de mogelijkheden van numerieke en statistische analyse.

Het belangrijkste idee van OLAP is om multidimensionale kubussen te bouwen die beschikbaar zullen zijn voor gebruikersvragen. Multidimensionale kubussen (Figuur 5.3) worden gebouwd op basis van bron- en geaggregeerde gegevens die kunnen worden opgeslagen in zowel relationele als multidimensionale databases. Daarom zijn er momenteel drie manieren om gegevens op te slaan: MOLAP (Multidimensionale OLAP), ROLAP (Relationele OLAP) en HOLAP (Hybride OLAP).



Dienovereenkomstig zijn OLAP-producten onderverdeeld in drie vergelijkbare categorieën volgens de methode van gegevensopslag:

1. In het geval van MOLAP worden de bron- en multidimensionale gegevens opgeslagen in een multidimensionale database of in een multidimensionale lokale kubus. Deze opslagmethode biedt OLAP-bewerkingen met hoge snelheid. Maar de multidimensionale basis zal in dit geval meestal overbodig zijn. De kubus die op zijn basis wordt gebouwd, is sterk afhankelijk van het aantal dimensies. Naarmate het aantal dimensies toeneemt, zal het volume van de kubus exponentieel groeien. Soms kan dit leiden tot "explosieve groei" in de hoeveelheid data.

2. In ROLAP-producten worden brongegevens opgeslagen in relationele databases of in platte lokale tabellen op een bestandsserver. Geaggregeerde gegevens kunnen in servicetabellen in dezelfde database worden geplaatst. De transformatie van gegevens uit een relationele database naar multidimensionale kubussen gebeurt op verzoek van een OLAP-tool. In dit geval hangt de snelheid van het bouwen van een kubus sterk af van het type gegevensbron.

3. Bij gebruik van een hybride architectuur blijven de brongegevens in de relationele database, terwijl de aggregaten in de multidimensionale worden geplaatst. Op verzoek van een OLAP-tool wordt op basis van relationele en multidimensionale data een OLAP-kubus gebouwd. Deze aanpak voorkomt explosieve datagroei. In dit geval kunt u de optimale uitvoeringstijd voor klantverzoeken bereiken.

Met behulp van OLAP-technologieën kan de gebruiker flexibel informatie bekijken, verschillende gegevenssegmenten verkrijgen, analytische bewerkingen uitvoeren voor detaillering, convolutie, end-to-end distributie, vergelijking in de tijd, d.w.z. rapporten en documenten te produceren en dynamisch te publiceren.

3.4 Methoden voor analytische gegevensverwerking

Om de bestaande datawarehouses te laten bijdragen aan het nemen van managementbeslissingen, moet de informatie in de juiste vorm aan de analist worden gepresenteerd, d.w.z. hij moet tools hebben ontwikkeld voor toegang tot en verwerking van gegevens uit het magazijn.

Heel vaak blijken informatie- en analytische systemen die zijn gemaakt voor direct gebruik door besluitvormers extreem eenvoudig te gebruiken, maar ernstig beperkt in functionaliteit. Dergelijke statische systemen worden Executive Information Systems (ISS) of Executive Information Systems (EIS) genoemd. Ze bevatten veel verzoeken en hoewel ze voldoende zijn voor een dagelijkse beoordeling, kunnen ze niet alle vragen beantwoorden die bij het nemen van beslissingen kunnen rijzen. Het resultaat van de werking van een dergelijk systeem zijn in de regel rapporten van meerdere pagina's, na zorgvuldige studie, waarop de analist een nieuwe reeks vragen heeft. Elk nieuw verzoek, niet voorzien bij het ontwerpen van een dergelijk systeem, moet echter eerst formeel worden beschreven, gecodeerd door de programmeur en pas daarna worden uitgevoerd. De wachttijd kan in dit geval uren en dagen zijn, wat niet altijd acceptabel is.

Online analytische verwerking. Ofwel On-Line Analytical Processing, OLAP is een belangrijk onderdeel van het organiseren van datawarehouses. Het concept van OLAP is in 1993 beschreven door Edgar Codd en heeft de volgende vereisten voor toepassingen voor multidimensionale analyse:

– multidimensionale conceptuele representatie van gegevens, inclusief volledige ondersteuning voor hiërarchieën en meerdere hiërarchieën (belangrijkste OLAP-vereiste);

– het verstrekken van de resultaten van de analyse aan de gebruiker in een acceptabele tijd (meestal niet meer dan 5 s), zelfs ten koste van een minder gedetailleerde analyse;

– de mogelijkheid om een ​​logische en statistische analyse uit te voeren die specifiek is voor een bepaalde applicatie en deze op te slaan in een vorm die toegankelijk is voor de eindgebruiker;

– toegang voor meerdere gebruikers tot gegevens met ondersteuning voor geschikte vergrendelingsmechanismen en geautoriseerde toegangstools;

- de mogelijkheid om toegang te krijgen tot alle benodigde informatie, ongeacht het volume en de opslaglocatie.

Een OLAP-systeem bestaat uit vele componenten. Op het hoogste presentatieniveau omvat het systeem een ​​gegevensbron, een multidimensionale database (MDB) die de mogelijkheid biedt om een ​​OLAP-rapportage-engine, een OLAP-server en een client te implementeren. Het systeem is gebouwd volgens het client-server-principe en biedt externe en multi-user toegang tot de MDB-server.

Overweeg de componenten van een OLAP-systeem.

bronnen. De bron in OLAP-systemen is de server die de gegevens aanlevert voor analyse. Afhankelijk van het toepassingsgebied van het OLAP-product kan de bron een datawarehouse zijn, een overgenomen database met algemene gegevens, een set

tabellen die financiële gegevens of een combinatie van het bovenstaande combineren.

Gegevensopslag. De initiële gegevens worden verzameld en geplaatst in een magazijn dat is ontworpen volgens de principes van het bouwen van datawarehouses. CD is een relationele database (RDB). De hoofdgegevenstabel (feitentabel) bevat de numerieke waarden van de indicatoren waarvoor statistische informatie wordt verzameld.

Multidimensionale database De gegevensopslag dient als informatieleverancier voor een multidimensionale database, die een verzameling objecten is. De belangrijkste klassen van deze objecten zijn dimensies en indicatoren. Dimensies omvatten sets van waarden (parameters) waarmee gegevens worden geïndexeerd, bijvoorbeeld tijd, regio's, type instelling, enz. Elke dimensie is gevuld met waarden uit de bijbehorende dimensietabellen van het datawarehouse. De set van metingen bepaalt de ruimte van het onderzochte proces. Metrieken zijn multidimensionale gegevenskubussen (hyperkubussen). De hypercube bevat de gegevens zelf, evenals geaggregeerde sommen voor de dimensies waaruit de indicator bestaat. De indicatoren vormen de hoofdinhoud van de MDB en zijn ingevuld volgens de feitentabel. Langs elke as van de hyperkubus kunnen de gegevens worden georganiseerd in een hiërarchie die verschillende detailniveaus vertegenwoordigt. Hiermee kunt u hiërarchische dimensies creëren, volgens welke tijdens de daaropvolgende gegevensanalyse de aggregatie of verfijning van de gegevenspresentatie wordt uitgevoerd. Een typisch voorbeeld van een hiërarchische dimensie is een lijst van territoriale objecten gegroepeerd op districten, regio's, districten.

Server. Het applicatiegedeelte van het OLAP-systeem is de OLAP-server. Dit onderdeel doet al het werk (afhankelijk van het systeemmodel) en slaat alle informatie op die actief wordt benaderd. Serverarchitectuur wordt bepaald door verschillende concepten. Het belangrijkste functionele kenmerk van OLAP-producten is met name het gebruik van MDB of RDB voor gegevensopslag.

Clienttoepassing.Gegevens die op de juiste manier zijn gestructureerd en in de MDB zijn opgeslagen, zijn beschikbaar voor analyse met behulp van de clienttoepassing. De gebruiker krijgt de mogelijkheid om op afstand toegang te krijgen tot gegevens, complexe query's te formuleren, rapporten te genereren en willekeurige subsets van gegevens te verkrijgen. Een rapport krijgen komt neer op het kiezen van specifieke meetwaarden en het bouwen van een sectie van een hypercube. De doorsnede wordt bepaald door de geselecteerde meetwaarden. De gegevens voor de rest van de metingen zijn samengevat.

OLAPop de client en op de server. Multidimensionale gegevensanalyse kan worden uitgevoerd met behulp van verschillende tools, die voorwaardelijk kunnen worden onderverdeeld in client- en server-OLAP-tools.

OLAP-hulpprogramma's aan de clientzijde (zoals de draaitabellen van Microsoft in Excel 2000 of ProClarity van Knosys) zijn toepassingen die geaggregeerde gegevens berekenen en weergeven. Tegelijkertijd bevinden de geaggregeerde gegevens zich in de cache in de adresruimte van zo'n OLAP-tool.

Als de brongegevens zich in een desktop-DBMS bevinden, wordt de berekening van de geaggregeerde gegevens uitgevoerd door de OLAP-tool zelf. Als de bron van de initiële gegevens een server-DBMS is, sturen veel van de OLAP-hulpprogramma's van de client SQL-query's naar de server en ontvangen als resultaat geaggregeerde gegevens die op de server zijn berekend.

In de regel wordt OLAP-functionaliteit geïmplementeerd in tools voor statistische gegevensverwerking en in sommige spreadsheets.

Veel ontwikkelingstools bevatten klassen- of componentbibliotheken waarmee u toepassingen kunt maken die de eenvoudigste OLAP-functionaliteit implementeren (zoals de Decision Cube-componenten in Borland Delphi en Borland C++ Builder). Bovendien bieden veel bedrijven ActiveX-besturingselementen en andere bibliotheken die vergelijkbare functionaliteit bieden.

Client OLAP-tools worden in de regel gebruikt met een klein aantal dimensies (meestal niet meer dan zes) en een kleine verscheidenheid aan waarden van deze parameters - aangezien de resulterende geaggregeerde gegevens in de adresruimte van dergelijke parameters moeten passen een hulpmiddel, en hun aantal groeit exponentieel met een toename van het aantal dimensies.

Met veel OLAP-clienthulpprogramma's kunt u de inhoud van de geaggregeerde gegevenscache opslaan als een bestand, zodat ze niet opnieuw hoeven te worden berekend. Deze mogelijkheid wordt echter vaak gebruikt om geaggregeerde gegevens te vervreemden om ze door te geven aan andere organisaties of voor publicatie.

Het idee om een ​​cache met geaggregeerde gegevens in een bestand op te slaan is verder ontwikkeld in server-side OLAP-tools (bijvoorbeeld Oracle Express Server of Microsoft OLAP Services), waarin het opslaan en wijzigen van geaggregeerde gegevens, evenals het onderhouden van de opslag die ze bevat, wordt uitgevoerd door een afzonderlijke toepassing of proces genaamd OLAP-server. Clienttoepassingen kunnen dergelijke multidimensionale opslag aanvragen en als reactie daarop gegevens ontvangen. Sommige clienttoepassingen kunnen ook dergelijke winkels maken of bijwerken op basis van gewijzigde brongegevens.

De voordelen van het gebruik van server-OLAP-tools in vergelijking met client-OLAP-tools zijn vergelijkbaar met de voordelen van het gebruik van server-DBMS in vergelijking met desktop-tools: in het geval van het gebruik van servertools, vinden de berekening en opslag van geaggregeerde gegevens plaats op de server en de clienttoepassing ontvangt alleen de resultaten van query's aan hen, waardoor in het algemeen het netwerkverkeer, de uitvoeringstijd van aanvragen en de resourcevereisten die door de clienttoepassing worden verbruikt, kunnen worden verminderd.

3.5 Technische aspecten van multidimensionale gegevensopslag

Multidimensionaliteit in OLAP-toepassingen kan worden onderverdeeld in drie niveaus:

1. Multidimensionale gegevensweergave– tools voor eindgebruikers die multidimensionale visualisatie en gegevensmanipulatie bieden; de multidimensionale representatielaag abstraheert van de fysieke structuur van de gegevens en behandelt de gegevens als multidimensionaal.

    Multidimensionale verwerking- een tool (taal) voor het formuleren van multidimensionale queries (de traditionele relationele SQL-taal is hier niet geschikt) en een processor die een dergelijke query kan verwerken en uitvoeren.

    Multidimensionale opslag– middelen voor de fysieke organisatie van gegevens die zorgen voor een efficiënte uitvoering van multidimensionale zoekopdrachten.

De eerste twee niveaus zijn verplicht in alle OLAP-tools. Het derde niveau, hoewel veel gebruikt, is niet vereist, aangezien gegevens voor multidimensionale representatie ook kunnen worden opgehaald uit gewone relationele structuren. De multidimensionale queryprocessor vertaalt in dit geval multidimensionale query's naar SQL-query's die worden uitgevoerd door een relationeel DBMS.

In elk datawarehouse - zowel conventioneel als multidimensionaal - worden naast gedetailleerde gegevens die zijn opgehaald uit operationele systemen, ook geaggregeerde indicatoren (totaalindicatoren) opgeslagen, zoals de som van verkoopvolumes per maand, per productcategorie, enz. Aggregaten die expliciet zijn opgeslagen voor de enige doel om de uitvoering van query's te versnellen. Aan de ene kant wordt immers in de regel een zeer grote hoeveelheid gegevens verzameld in de opslag en aan de andere kant zijn analisten in de meeste gevallen niet geïnteresseerd in gedetailleerde, maar in gegeneraliseerde indicatoren. En als miljoenen individuele verkopen elke keer zouden moeten worden opgeteld om het aantal verkopen voor het jaar te berekenen, zou de snelheid hoogstwaarschijnlijk onaanvaardbaar zijn. Daarom worden bij het laden van gegevens in een multidimensionale database alle totale indicatoren of een deel ervan berekend en opgeslagen.

Aan het gebruik van geaggregeerde gegevens kleven echter nadelen. De belangrijkste nadelen zijn de toename van de hoeveelheid opgeslagen informatie (wanneer nieuwe dimensies worden toegevoegd, groeit de hoeveelheid gegevens waaruit de kubus bestaat exponentieel) en de tijd die nodig is om ze te laden. Bovendien kan de hoeveelheid informatie tientallen tot zelfs honderden keren toenemen. In een van de gepubliceerde standaardtests was bijvoorbeeld de volledige aggregatietelling voor 10 MB aan onbewerkte gegevens 2,4 GB vereist, d.w.z. de gegevens groeiden met een factor 240!

De mate van toename van de hoeveelheid gegevens bij het berekenen van aggregaten hangt af van het aantal kubusdimensies en de structuur van deze dimensies, d.w.z. de verhouding van het aantal "ouders" en "kinderen" op verschillende niveaus van de dimensie. Om het probleem van het opslaan van aggregaten op te lossen, worden complexe schema's gebruikt die het mogelijk maken om, bij het berekenen van verre van alle mogelijke aggregaten, een significante verhoging van de prestaties van query-uitvoering te bereiken.

Zowel ruwe als geaggregeerde gegevens kunnen worden opgeslagen in

relationele, of in multidimensionale structuren. In dit verband worden momenteel drie methoden voor het opslaan van multidimensionale gegevens gebruikt:

MOLAP (Multidimensionale OLAP) - bron- en geaggregeerde gegevens worden opgeslagen in een multidimensionale database. Door gegevens in multidimensionale structuren op te slaan, kunt u gegevens manipuleren als een multidimensionale array, zodat de snelheid van het berekenen van geaggregeerde waarden hetzelfde is voor alle dimensies. In dit geval is de multidimensionale database echter overbodig, aangezien de multidimensionale gegevens de oorspronkelijke relationele gegevens volledig bevatten.

Deze systemen bieden een volledige cyclus van OLAP-verwerking. Ze bevatten, naast de servercomponent, hun eigen geïntegreerde clientinterface of gebruiken externe spreadsheetprogramma's om met de gebruiker te communiceren.

ROLAP (Relationele OLAP) - de originele gegevens blijven in dezelfde relationele database waar ze zich oorspronkelijk bevonden. Geaggregeerde gegevens worden in servicetabellen geplaatst die speciaal zijn gemaakt voor hun opslag in dezelfde database.

HOLAP (Hybride OLAP) - De originele gegevens blijven in dezelfde relationele database waar ze oorspronkelijk stonden, terwijl de geaggregeerde gegevens worden opgeslagen in een multidimensionale database.

Sommige OLAP-tools ondersteunen alleen gegevensopslag in relationele structuren, andere alleen in multidimensionale structuren. De meeste moderne OLAP-servertools ondersteunen echter alle drie de gegevensopslagmethoden. De keuze van de opslagmethode hangt af van het volume en de structuur van de brongegevens, de vereisten voor de snelheid van het uitvoeren van query's en de frequentie van het bijwerken van OLAP-kubussen.

3.6 Datamining (GegevensMijnbouw)

De term datamining verwijst naar het proces van het zoeken naar correlaties, trends en relaties via verschillende wiskundige en statistische algoritmen: clustering, regressie- en correlatieanalyse, enz. voor beslissingsondersteunende systemen. Tegelijkertijd wordt de verzamelde informatie automatisch veralgemeend naar informatie die als kennis kan worden gekarakteriseerd.

De basis van de moderne dataminingtechnologie is het concept van patronen die de patronen weerspiegelen die inherent zijn aan submonsters van gegevens en die de zogenaamde verborgen kennis vormen.

Patronen worden doorzocht met methoden die geen a priori aannames over deze deelsteekproeven gebruiken. Een belangrijk kenmerk van Data Mining is de niet-standaard en niet voor de hand liggende patronen die worden gezocht. Met andere woorden, tools voor datamining verschillen van tools voor statistische gegevensverwerking en OLAP-tools doordat ze niet de relaties controleren die gebruikers veronderstellen

tussen gegevens, op basis van de beschikbare gegevens, zijn ze in staat om dergelijke relaties zelfstandig te vinden en hypothesen over hun aard op te bouwen.

Over het algemeen bestaat het proces van datamining (Data Mining) uit drie fasen:

    identificatie van patronen (gratis zoeken);

    de onthulde patronen gebruiken om onbekende waarden te voorspellen (predictive modeling);

    uitzonderingsanalyse, ontworpen om afwijkingen in de gevonden patronen te identificeren en te interpreteren.

Soms wordt expliciet gekozen voor een tussenstadium van het controleren van de betrouwbaarheid van de gevonden patronen tussen ontdekking en gebruik (validatiestadium).

Er zijn vijf standaard typen patronen die worden geïdentificeerd door dataminingmethoden:

1. Vereniging stelt u in staat stabiele groepen objecten te selecteren waartussen impliciet gedefinieerde koppelingen zijn. De frequentie van voorkomen van een enkel item of een groep items, uitgedrukt als een percentage, wordt prevalentie genoemd. De lage prevalentie (minder dan een duizendste van een procent) suggereert dat een dergelijk verband niet significant is. Verenigingen zijn geschreven als regels: EEN=> B, waar MAAR - pakket, IN - gevolg. Om het belang van elke resulterende associatieregel te bepalen, is het nodig om een ​​waarde te berekenen die vertrouwen wordt genoemd MAAR naar IN(of relatie) A en B). Vertrouwen laat zien hoe vaak wanneer MAAR komt naar voren IN. Bijvoorbeeld, als schar)\u003d 20%, dit betekent dat bij het kopen van een product MAAR in elk vijfde geval wordt er ook een product gekocht IN.

Een typisch voorbeeld van de toepassing van de vereniging is de analyse van de structuur van aankopen. Als je bijvoorbeeld een onderzoek doet in een supermarkt, kun je ontdekken dat 65% van degenen die chips kochten, ook Coca-Cola gebruiken, en als er een korting is voor zo'n set, kopen ze in 85% van de gevallen cola. Dergelijke resultaten zijn waardevol bij de vorming van marketingstrategieën.

2. Consistentie - het is een methode om associaties in de tijd te identificeren. In dit geval worden regels gedefinieerd die het opeenvolgende optreden van bepaalde groepen gebeurtenissen beschrijven. Dergelijke regels zijn nodig voor het bouwen van scenario's. Bovendien kunnen ze bijvoorbeeld worden gebruikt om een ​​typische reeks eerdere verkopen te vormen die kunnen leiden tot latere verkopen van een bepaald product.

3.classificatie: - generalisatie tool. Het stelt u in staat om van het beschouwen van afzonderlijke objecten naar gegeneraliseerde concepten te gaan die sommige verzamelingen objecten kenmerken en die voldoende zijn voor het herkennen van objecten die tot deze verzamelingen (klassen) behoren. De essentie van het proces van conceptvorming is het vinden van patronen die inherent zijn aan klassen. Er worden veel verschillende kenmerken (attributen) gebruikt om objecten te beschrijven. Het probleem van conceptvorming volgens indicatieve beschrijvingen is geformuleerd door M.M. Bongart. De oplossing is gebaseerd op de toepassing van twee hoofdprocedures: training en verificatie. In de trainingsprocedures wordt een classificatieregel gebouwd op basis van de verwerking van de trainingsset objecten. De verificatieprocedure (onderzoek) bestaat uit het gebruiken van de verkregen classificatieregel om objecten uit een nieuw (onderzoeks)monster te herkennen. Als de testresultaten bevredigend zijn, eindigt het leerproces, anders wordt de classificatieregel verfijnd in het proces van herhaald leren.

4. Clustering - dit is het distribueren van informatie (records) uit de database in groepen (clusters) of segmenten met gelijktijdige definitie van deze groepen. In tegenstelling tot classificatie vereist de analyse hier geen vooraf gespecificeerde klassen.

5. Tijdreeksvoorspelling is een hulpmiddel voor het bepalen van trends in de kenmerken van de objecten in kwestie in de loop van de tijd. Analyse van het gedrag van tijdreeksen stelt u in staat om de waarden van de bestudeerde kenmerken te voorspellen.

Om dergelijke problemen op te lossen, worden verschillende methoden en algoritmen van Data Mining gebruikt. Gezien het feit dat datamining zich heeft ontwikkeld en zich ontwikkelt op het snijvlak van disciplines als statistiek, informatietheorie, machine learning, databasetheorie, ligt het voor de hand dat de meeste datamining-algoritmen en -methoden zijn ontwikkeld op basis van verschillende methoden uit deze disciplines.

Uit de verscheidenheid aan bestaande dataminingmethoden kan het volgende worden onderscheiden:

    regressie-, dispersie- en correlatieanalyse(geïmplementeerd in de meeste moderne statistische pakketten, met name in de producten van SAS Institute, StatSoft, enz.);

    analysemethoden in een specifiek vakgebied, op basis van empirische modellen (vaak gebruikt, bijvoorbeeld in goedkope financiële analysetools);

    neurale netwerkalgoritmen- een methode voor het imiteren van processen en fenomenen waarmee u complexe afhankelijkheden kunt reproduceren. De methode is gebaseerd op het gebruik van een vereenvoudigd model van het biologische brein en ligt in het feit dat de initiële parameters worden beschouwd als signalen die worden getransformeerd in overeenstemming met de bestaande verbindingen tussen de "neuronen", en de respons van het hele netwerk op de initiële gegevens wordt beschouwd als het antwoord dat voortvloeit uit de analyse. Koppelingen worden in dit geval gemaakt met behulp van het zogenaamde netwerkleren door middel van een grote steekproef met zowel de originele gegevens als de juiste antwoorden. Neurale netwerken worden veel gebruikt om classificatieproblemen op te lossen;

    vage logica wordt gebruikt om gegevens te verwerken met vage waarheidswaarden die kunnen worden weergegeven door een verscheidenheid aan taalvariabelen. Fuzzy kennisrepresentatie wordt veel gebruikt om classificatie- en voorspellingsproblemen op te lossen, bijvoorbeeld in het XpertRule Miner-systeem (Attar Software Ltd., VK), evenals in AIS, NeuFuz, enz.;

    inductieve gevolgtrekkingen stelt u in staat om generalisaties te krijgen van de feiten die in de database zijn opgeslagen. In het proces van inductief leren kan een specialist die hypothesen aanlevert deelnemen. Deze methode wordt begeleid leren genoemd. Het zoeken naar generalisatieregels kan zonder leraar worden uitgevoerd door automatisch hypothesen te genereren. In moderne softwaretools worden in de regel beide methoden gecombineerd en worden statistische methoden gebruikt om hypothesen te testen. Een voorbeeld van een systeem dat gebruik maakt van inductieve kabels is de XpertRule Miner ontwikkeld door Attar Software Ltd. (Groot Brittanië);

    redenering gebaseerd op soortgelijke gevallen(methode van "nabije buur") (Case-based reasoning - CBR) zijn gebaseerd op een zoekopdracht in de database van situaties waarvan de beschrijvingen in een aantal kenmerken vergelijkbaar zijn met een bepaalde situatie. Het analogieprincipe suggereert dat de resultaten van vergelijkbare situaties ook dicht bij elkaar zullen liggen. Het nadeel van deze benadering is dat er geen modellen of regels worden gecreëerd die eerdere ervaringen veralgemenen. Bovendien hangt de betrouwbaarheid van afgeleide resultaten af ​​van de volledigheid van de beschrijving van situaties, zoals bij inductieve inferentieprocessen. Voorbeelden van systemen die CBR gebruiken zijn: KATE Tools (Acknosoft, Frankrijk), Pattern Recognition Workbench (Unica, VS);

    Beslissingsbomen- een methode om een ​​probleem te structureren in de vorm van een boomgrafiek, waarvan de hoekpunten overeenkomen met productieregels die het mogelijk maken om gegevens te classificeren of de gevolgen van beslissingen te analyseren. Deze methode geeft een visuele weergave van het systeem van classificatieregels, als er niet heel veel zijn. Eenvoudige taken worden met deze methode veel sneller opgelost dan met neurale netwerken. Voor complexe problemen en voor sommige soorten gegevens zijn beslisbomen mogelijk niet geschikt. Bovendien wordt deze methode gekenmerkt door het probleem van significantie. Een van de gevolgen van hiërarchische dataclustering is het ontbreken van een groot aantal trainingsvoorbeelden voor veel speciale gevallen, en daarom kan de classificatie niet als betrouwbaar worden beschouwd. Beslisboommethoden zijn geïmplementeerd in veel softwaretools, namelijk: C5.0 (RuleQuest, Australië), Clementine (Integral Solutions, VK), SIPINA (Universiteit van Lyon, Frankrijk), IDIS (Information Discovery, VS);

    evolutionaire programmering– zoeken en genereren van een algoritme dat de onderlinge afhankelijkheid van gegevens uitdrukt, gebaseerd op het aanvankelijk gespecificeerde algoritme, aangepast in het zoekproces; soms wordt er gezocht naar onderlinge afhankelijkheden tussen bepaalde soorten functies (bijvoorbeeld polynomen);

beperkte zoekalgoritmen, het berekenen van combinaties van eenvoudige logische gebeurtenissen in subgroepen van gegevens.

3.7 IntegratieOLAPEnGegevensMijnbouw

Online analytische verwerking (OLAP) en datamining (Data Mining) zijn twee componenten van het besluitvormingsproces. Tegenwoordig zijn de meeste OLAP-systemen echter alleen gericht op het bieden van toegang tot multidimensionale gegevens, en de meeste tools voor datamining die op het gebied van patronen werken, hebben te maken met eendimensionale gegevensperspectieven. Om de efficiëntie van gegevensverwerking voor beslissingsondersteunende systemen te vergroten, moeten deze twee soorten analyse worden gecombineerd.

De samengestelde term "OLAP Data Mining" (multidimensionale datamining) is nu in opkomst om naar een dergelijke combinatie te verwijzen.

Er zijn drie manieren om "OLAP Data Mining" te vormen:

    Kubben en dan mijnen. Het vermogen om intellectuele analyse uit te voeren moet worden geboden over elk resultaat van een zoekopdracht naar een multidimensionale conceptuele representatie, dat wil zeggen over elk fragment van een projectie van de hyperkubus van indicatoren.

    Mijnbouw dan in blokjes. Net als gegevens die uit een magazijn worden opgehaald, moeten mijnresultaten in hyperkubische vorm worden gepresenteerd voor daaropvolgende multidimensionale analyse.

    Kubussen tijdens het minen. Met deze flexibele integratiemethode kunt u automatisch hetzelfde type intellectuele verwerkingsmechanismen activeren voor het resultaat van elke stap van een multidimensionale analyse (overgang) tussen niveaus van generalisatie, extractie van een nieuw hyperkubusfragment, enz.).

    Groep 11 [Tekst... hen hoe een deel alle systemen ... docent ... Tsjeboksary, 2009. Nr. 10. S. 44 -49 ... . De auteurs- compilers: N. ... samenvattingenlezingen, ...

  • Leerhulp

    ... lezingen. Opleiding lezingen wiskunde. Schrijven abstractlezingen lezingen. Gebruik informatietechnologieën ...

  • I k kondaurova s ​​​​v lebedev onderzoeksactiviteiten van de toekomstige leraar wiskunde creatieve taken in elementaire wiskunde en methoden van lesgeven

    Leerhulp

    ... lezingen. Opleiding lezingen wiskunde. Schrijven abstractlezingen. Voorbereiding van visuele hulpmiddelen. Leestechniek lezingen. Gebruik informatietechnologieën ...

  • M ONITORING MEDIA Modernisering beroepsonderwijs maart - augustus 2011

    Overzicht

    ... 11 .08.2011 "Dead Souls-2" IN RNIMU hen ... 3,11 -3,44 . ... openbaar lezingen leiders... Tsjeboksary... en krabbelen samenvattingen publiek - ... informatiefsystemen En technologie. ... systeem onderwijs, zegt docent ... compilers ... onderdelen echt inhoud ...

Het concept van OLAP is gebaseerd op het principe van multidimensionale gegevensrepresentatie. In een artikel uit 1993 ging EF Codd in op de tekortkomingen van het relationele model, waarbij hij vooral wees op het onvermogen om "gegevens te combineren, te bekijken en te analyseren in termen van multidimensionaliteit, dat wil zeggen op de meest begrijpelijke manier voor bedrijfsanalisten", en identificeerde algemene vereisten voor OLAP-systemen die de functionaliteit van relationele DBMS uitbreiden en multidimensionale analyse als een van de kenmerken ervan opnemen.

In een groot aantal publicaties duidt de afkorting OLAP niet alleen een multidimensionale weergave van data aan, maar ook de opslag van de data zelf in een multidimensionale database. Over het algemeen is dit niet waar, zoals Codd zelf opmerkt: "Relationele databases waren, zijn en zullen de meest geschikte technologie zijn voor het opslaan van bedrijfsgegevens. Er is geen behoefte aan nieuwe databasetechnologie, maar eerder aan analysetools die de functies van bestaande DBMS en voldoende flexibel om de verschillende soorten intellectuele analyse die inherent zijn aan OLAP te bieden en te automatiseren. Een dergelijke verwarring leidt tot contrasten zoals "OLAP of ROLAP", wat niet helemaal correct is, aangezien ROLAP (relationele OLAP) op conceptueel niveau alle functionaliteit ondersteunt die wordt gedefinieerd door de term OLAP. Het lijkt beter om de speciale term MOLAP te gebruiken voor OLAP op basis van multidimensionale DBMS, zoals in .

Volgens Codd is een multidimensionaal conceptueel beeld een meervoudig perspectief dat bestaat uit verschillende onafhankelijke dimensies waarlangs bepaalde gegevenssets kunnen worden geanalyseerd. Simultane analyse op meerdere dimensies wordt gedefinieerd als multivariate analyse. Elke dimensie omvat richtingen voor gegevensconsolidatie, bestaande uit een reeks opeenvolgende niveaus van generalisatie, waarbij elk hoger niveau overeenkomt met een grotere mate van gegevensaggregatie voor de overeenkomstige dimensie. Zo kan de dimensie Aannemer worden bepaald door de richting van consolidatie, bestaande uit niveaus van generalisatie "onderneming - onderverdeling - afdeling - werknemer". De dimensie Tijd kan zelfs twee consolidatierichtingen bevatten - "jaar - kwartaal - maand - dag" en "week - dag", aangezien het tellen van de tijd per maand en per week niet compatibel is. In dit geval wordt het mogelijk om willekeurig het gewenste niveau van informatiedetail voor elk van de metingen te selecteren. De werking van de afdaling (drilling down) komt overeen met de beweging van de hogere consolidatieniveaus naar de lagere; integendeel, het heffen (oprollen) betekent het verplaatsen van lagere naar hogere niveaus (Fig. 2).

Rijst. 2. Dimensies en richtingen van gegevensconsolidatie

Bedrijfsdatabases van economische informatiesystemen

3. Online analytische verwerking (On-Line Analytical Processing, OLAP)

De technologie van complexe multidimensionale data-analyse wordt OLAP (On-Line Analytical Processing) genoemd. OLAP is een belangrijk onderdeel van datawarehousing. Het concept van OLAP is in 1993 beschreven door Edgar Codd en heeft de volgende toepassingsvereisten voor multidimensionale analyse:

multidimensionale conceptuele representatie van gegevens, inclusief volledige ondersteuning voor hiërarchieën en meerdere hiërarchieën (belangrijkste OLAP-vereiste);

het verstrekken van de resultaten van de analyse aan de gebruiker in een acceptabele tijd (meestal niet meer dan 5 s), ten koste van een minder gedetailleerde analyse;

de mogelijkheid om elke logische en statistische analyse die specifiek is voor deze toepassing uit te voeren en deze op te slaan in een vorm die toegankelijk is voor de eindgebruiker;

toegang voor meerdere gebruikers tot gegevens met ondersteuning voor geschikte vergrendelingsmechanismen en geautoriseerde toegangstools;

de mogelijkheid om toegang te krijgen tot alle benodigde informatie, ongeacht het volume.

Een OLAP-systeem bestaat uit vele componenten. Op het hoogste presentatieniveau omvat het systeem een ​​gegevensbron, een multidimensionale database (MDB) die de mogelijkheid biedt om een ​​OLAP-rapportage-engine, een OLAP-server en een client te implementeren. Het systeem is gebouwd volgens het client-server-principe en biedt externe en multi-user toegang tot de MDB-server.

Overweeg de componenten van een OLAP-systeem.

bronnen. De bron in OLAP-systemen is de server die de gegevens aanlevert voor analyse. Afhankelijk van het toepassingsgebied van het OLAP-product kan de bron een datawarehouse zijn, een overgenomen database met algemene gegevens, een reeks tabellen die financiële gegevens combineren of een combinatie van het bovenstaande.

Gegevensopslag. De initiële gegevens worden verzameld en geplaatst in een magazijn dat is ontworpen volgens de principes van het bouwen van datawarehouses. CD is een relationele database (RDB). De hoofdgegevenstabel (feitentabel) bevat de numerieke waarden van de indicatoren waarvoor statistische informatie wordt verzameld.

Multidimensionale database. De gegevensopslag dient als informatieleverancier voor een multidimensionale database, die een verzameling objecten is. De belangrijkste klassen van deze objecten zijn dimensies en indicatoren. Dimensies omvatten sets van waarden (parameters) waarmee gegevens worden geïndexeerd, bijvoorbeeld tijd, regio's, type instelling, enz. Elke dimensie is gevuld met waarden uit de bijbehorende dimensietabellen van het datawarehouse. De set van metingen bepaalt de ruimte van het onderzochte proces. Metrieken zijn multidimensionale gegevenskubussen (hyperkubussen). De hypercube bevat de gegevens zelf, evenals geaggregeerde sommen voor de dimensies waaruit de indicator bestaat. De indicatoren vormen de hoofdinhoud van de MDB en zijn ingevuld volgens de feitentabel. Langs elke as van de hyperkubus kunnen de gegevens worden georganiseerd in een hiërarchie die verschillende detailniveaus vertegenwoordigt. Hiermee kunt u hiërarchische dimensies creëren, volgens welke tijdens de daaropvolgende gegevensanalyse de aggregatie of verfijning van de gegevenspresentatie wordt uitgevoerd. Een typisch voorbeeld van een hiërarchische dimensie is een lijst van territoriale objecten gegroepeerd op districten, regio's, districten.

Server. Het applicatiegedeelte van het OLAP-systeem is de OLAP-server. Dit onderdeel doet al het werk (afhankelijk van het systeemmodel) en slaat alle informatie op die actief wordt benaderd. Serverarchitectuur wordt bepaald door verschillende concepten. Het belangrijkste functionele kenmerk van OLAP-producten is met name het gebruik van MDB of RDB voor gegevensopslag.

klant applicatie. Gegevens die op de juiste manier zijn gestructureerd en zijn opgeslagen in de MDB, zijn beschikbaar voor analyse met behulp van de clienttoepassing. De gebruiker krijgt de mogelijkheid om op afstand toegang te krijgen tot gegevens, complexe query's te formuleren, rapporten te genereren en willekeurige subsets van gegevens te verkrijgen. Een rapport krijgen komt neer op het kiezen van specifieke meetwaarden en het bouwen van een sectie van een hypercube. De doorsnede wordt bepaald door de geselecteerde meetwaarden. De gegevens voor de rest van de metingen zijn samengevat.

De basisconcepten van een multidimensionaal datamodel zijn: Data Hypercube, Dimension, Memders, Cell en Measure.

Een data-hyperkubus bevat een of meer dimensies en is een geordende reeks cellen. Elke cel wordt gedefinieerd door één en slechts één set dimensiewaarden - labels. Een cel kan gegevens bevatten - een maat of leeg zijn.

Een dimensie is een set labels die een van de vlakken van de hyperkubus vormen. Een voorbeeld van een tijddimensie is een lijst van dagen, maanden, kwartalen. Een voorbeeld van een geografische dimensie kan een lijst zijn van territoriale objecten: nederzettingen, districten, regio's, landen, enz.

Om toegang te krijgen tot de gegevens, moet de gebruiker een of meer cellen specificeren door dimensiewaarden te selecteren die overeenkomen met de vereiste cellen. Het proces van het selecteren van meetwaarden wordt labelfixatie genoemd en de set geselecteerde meetwaarden wordt een vaste labelset genoemd.

De voordelen van het gebruik van server-OLAP-tools in vergelijking met client-OLAP-tools: in het geval van het gebruik van servertools, vinden de berekening en opslag van geaggregeerde gegevens plaats op de server en ontvangt de clienttoepassing alleen de resultaten van query's naar hen, wat over het algemeen het netwerk vermindert uitvoeringstijd voor verkeer en query's en resourcevereisten die door de clienttoepassing worden verbruikt.

1. Multidimensionale gegevensweergave - hulpmiddelen voor eindgebruikers die multidimensionale visualisatie en gegevensmanipulatie bieden; de multidimensionale representatielaag abstraheert van de fysieke structuur van de gegevens en behandelt de gegevens als multidimensionaal.

2. Multidimensionale verwerking - een tool (taal) voor het formuleren van multidimensionale queries (de traditionele relationele SQL-taal blijkt hier ongeschikt) en een processor die zo'n query kan verwerken en uitvoeren.

3. Multidimensionale opslag - middelen voor de fysieke organisatie van gegevens die zorgen voor een efficiënte uitvoering van multidimensionale zoekopdrachten.

De eerste twee niveaus zijn verplicht in alle OLAP-tools. Het derde niveau, hoewel veel gebruikt, is niet vereist, aangezien gegevens voor multidimensionale representatie ook kunnen worden opgehaald uit gewone relationele structuren.

In elk datawarehouse - zowel conventioneel als multidimensionaal - worden naast gedetailleerde gegevens die zijn opgehaald uit operationele systemen, ook geaggregeerde indicatoren (totaalindicatoren) opgeslagen, zoals de som van verkoopvolumes per maand, per productcategorie, enz.

De belangrijkste nadelen zijn de toename van de hoeveelheid opgeslagen informatie (wanneer nieuwe dimensies worden toegevoegd, groeit de hoeveelheid gegevens waaruit de kubus bestaat exponentieel) en de tijd die nodig is om ze te laden.

De mate van toename van de hoeveelheid gegevens bij het berekenen van aggregaties hangt af van het aantal dimensies van de kubus en de structuur van deze dimensies, d.w.z. de verhouding tussen het aantal "ouders" en "kinderen" op verschillende meetniveaus. Om het probleem van het opslaan van aggregaten op te lossen, worden complexe schema's gebruikt die het mogelijk maken om, bij het berekenen van verre van alle mogelijke aggregaten, een significante verhoging van de prestaties van query-uitvoering te bereiken.

Zowel bron- als geaggregeerde gegevens kunnen worden opgeslagen in relationele of multidimensionale structuren. In dit verband worden momenteel drie methoden voor het opslaan van multidimensionale gegevens gebruikt:

MOLAP (Multidimensional OLAP) - bron- en geaggregeerde gegevens worden opgeslagen in een multidimensionale database. Door gegevens in multidimensionale structuren op te slaan, kunt u gegevens manipuleren als een multidimensionale array, zodat de snelheid van het berekenen van geaggregeerde waarden hetzelfde is voor alle dimensies. In dit geval is de multidimensionale database echter overbodig, aangezien de multidimensionale gegevens de oorspronkelijke relationele gegevens volledig bevatten.

Deze systemen bieden een volledige cyclus van OLAP-verwerking. Ze bevatten, naast de servercomponent, hun eigen geïntegreerde clientinterface of gebruiken externe spreadsheetprogramma's om met de gebruiker te communiceren.

ROLAP (Relationele OLAP) - de originele gegevens blijven in dezelfde relationele database waar ze zich oorspronkelijk bevonden. Geaggregeerde gegevens worden in servicetabellen geplaatst die speciaal zijn gemaakt voor hun opslag in dezelfde database.

HOLAP (Hybrid OLAP) - de originele gegevens blijven in dezelfde relationele database waar ze oorspronkelijk stonden, terwijl de geaggregeerde gegevens worden opgeslagen in een multidimensionale database.

Sommige OLAP-tools ondersteunen alleen gegevensopslag in relationele structuren, andere alleen in multidimensionale structuren. De meeste moderne OLAP-servertools ondersteunen echter alle drie de gegevensopslagmethoden. De keuze van de opslagmethode hangt af van het volume en de structuur van de brongegevens, de vereisten voor de snelheid van het uitvoeren van query's en de frequentie van het bijwerken van OLAP-kubussen.

OLAP-technologieën als krachtig hulpmiddel voor realtime gegevensverwerking

Dr. E.F. (Ted) Coddy bedacht de term Online Analytical Processing (OLAP) in 1993....

Analytische gegevensverwerking (OLAP). Informatie datawarehouse. Gegevensmodellen die worden gebruikt om informatiemagazijnen te bouwen

De belangrijkste taak voor het OLTP-model is snelle verwerking van query's, het handhaven van de gegevensintegriteit, multi-toegang tot de omgeving, de efficiëntie wordt gemeten door het aantal transacties per seconde...

Selectie en rechtvaardiging van de configuratie van een personal computer gericht op het werken met geluid op amateurniveau

RAM (Engels Random Access Memory, Random Access Memory) is een vluchtig onderdeel van een computergeheugensysteem dat tijdelijk gegevens en opdrachten opslaat die de processor nodig heeft om een ​​bewerking uit te voeren ...

Selectie en rechtvaardiging van de configuratie van een personal computer, gericht op het uitvoeren van een bepaald takenpakket

RAM (Eng. Random Access Memory, Random Access Memory; computerjargon. Memory, RAM) is een vluchtig onderdeel van een computergeheugensysteem dat tijdelijk gegevens en opdrachten opslaat ...

processorplanningsalgoritme In online verwerkingssystemen wordt de gemiddelde tijd voor het onderhouden van applicaties gebruikt als het belangrijkste efficiëntiecriterium. Het is gemakkelijk in te zien dat in het geval dat de tijden van het oplossen van problemen a priori bekend zijn...

Studie van resource management-algoritmen voor servers met één processor tijdens online verwerking van taken (SPT- en RR-algoritmen)

Het SPT-algoritme wordt gebruikt wanneer de tijden voor het oplossen van problemen (processen) bekend zijn. Om dit te doen, sorteert het, voordat het direct wordt opgelost, eerst de taken in oplopende volgorde...

Bedrijfsdatabases van economische informatiesystemen

De technologie van complexe multidimensionale data-analyse wordt OLAP (On-Line Analytical Processing) genoemd. OLAP is een belangrijk onderdeel van datawarehousing. Het concept van OLAP werd beschreven in 1993...

Vooruitzichten voor de ontwikkeling van de pc

Random Access Memory (RAM) is een reeks kristallijne cellen die gegevens kunnen opslaan. RAM is een zeer belangrijk onderdeel van een computer. Het slaat programma's en gegevens op waar de pc direct mee werkt...

PC-ontwerp voor vakantiekosten

Van bijzonder belang met betrekking tot computertechnologie en telecommunicatie zijn "online" en "offline" modi. De "online" modus is een offline modus voor computergebruik, een permanente verbinding met internet. Softwareproducten...

Moederborden, typen en specificaties

Random Access (hoofd) geheugen (uit het Engels. Random Access Memory - "geheugen met willekeurige toegang") is een vluchtig onderdeel van een computergeheugensysteem dat tijdelijk de gegevens en opdrachten opslaat die de processor nodig heeft om bewerkingen uit te voeren (Figuur 3). ..

Moderne multimedia-apparatuur van computers

Zoals u weet, slaat de computer gegevens voornamelijk op een speciaal apparaat op - een harde schijf. En terwijl hij aan het werk is, neemt hij het van daaruit over. Waar wordt de informatie dan geplaatst? Begrijpelijk...

1.1.1 Skype-softwareproduct Skype (Skype) - met het programma kunt u via internet communiceren met uw collega's, vrienden, familieleden over de hele wereld ...

Vergelijkende analyse van systemen voor afstandsonderwijs

1.2.2 Moodle-systeem voor afstandsonderwijs Moodle LMS is een omgeving voor afstandsonderwijs die is ontworpen om afstandsonderwijs te creëren en te gebruiken...

OLAP-technologie

Bij het bouwen van een informatiesysteem kan OLAP-functionaliteit worden geïmplementeerd door zowel server- als client-OLAP-tools...

De structuur van de magazijndatabase is meestal zo ontworpen dat de analyse van informatie zoveel mogelijk wordt vergemakkelijkt. De gegevens moeten gemakkelijk in verschillende richtingen worden "opgemaakt" (dimensies genoemd). Tegenwoordig wil een gebruiker bijvoorbeeld een overzicht van onderdelenzendingen per leverancier om hun prestaties te vergelijken. Morgen heeft dezelfde gebruiker een beeld nodig van veranderingen in het volume van leveringen van onderdelen per maand om de dynamiek van leveringen te volgen. De structuur van de database moet dit soort analyses ondersteunen, zodat gegevens kunnen worden geëxtraheerd die overeenkomen met een bepaalde reeks metingen.

Operationele analytische gegevensverwerking is gebaseerd op het principe van het organiseren van informatie in een hyperkubisch model. De eenvoudigste driedimensionale gegevenskubus voor de levering van onderdelen voor de eerder overwogen testdatabase wordt getoond in Fig. 3.11. Elk van zijn cellen komt overeen met een "feit" - bijvoorbeeld de leveringsomvang van een onderdeel. Langs één zijde van de kubus (één dimensie) staan ​​de maanden waarin de leveringen die door de kubus worden weerspiegeld, zijn gedaan. De tweede dimensie is onderdeeltypes en de derde dimensie komt overeen met leveranciers. Elke cel bevat de leveringshoeveelheid voor de bijbehorende combinatie van waarden over alle drie de dimensies. Opgemerkt moet worden dat bij het vullen van de kubus de aggregatie van de waarden voor de leveringen van elke maand uit de testdatabase is uitgevoerd.


3.11. Vereenvoudigde Hypercube-variant voor analyse van onderdelenlevering

OLAP-klassensystemen verschillen in de manier waarop gegevens worden gepresenteerd.

Multidimensionale OLAP (MOLAP) – deze systemen zijn gebaseerd op een multidimensionale gegevensstructuur op basis van dynamische arrays met geschikte toegangsmethoden. MOLAP is geïmplementeerd op gepatenteerde technologieën voor het organiseren van multidimensionale DBMS. Het voordeel van deze benadering is het gemak van het uitvoeren van berekeningen op hypercube-cellen, aangezien: onder alle combinaties van metingen worden de overeenkomstige cellen ingevoerd (zoals in een spreadsheet). Klassieke vertegenwoordigers van dergelijke systemen zijn onder meer Oracle Express, SAS Institute MDDB.



Relationele OLAP (ROLAP)– ondersteunt multidimensionale analytische modellen via relationele databases. Deze klasse van systemen omvat Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Desktop-OLAP (Desktop-OLAP)– tools voor het genereren van multidimensionale queries en rapporten voor lokale informatiesystemen (spreadsheets, platte bestanden). De volgende systemen kunnen worden onderscheiden - Business Objects, Cognos Power Play.

EF Codd definieerde twaalf regels waaraan een product van de OLAP-klasse moet voldoen, waaronder multidimensionale conceptuele representatie van gegevens, transparantie, toegankelijkheid, robuuste prestaties, client-serverarchitectuur, gelijkheid van dimensies, sparse matrix dynamische verwerking, ondersteuning voor meerdere gebruikers, onbeperkte ondersteuning voor -dimensionale bewerkingen, intuïtieve gegevensmanipulatie, flexibel rapportagemechanisme, onbeperkt aantal dimensies en aggregatieniveaus.



De meest voorkomende klassensystemen ROLAP. Hiermee kunt u een informatiemodel organiseren over een relationeel volledige opslag van een structuur of over een speciale datamart.

Rijst. 3.12. Onderdelenlevering Analytisch Mart-sterdiagram

Voor de meeste datawarehouses is de meest efficiënte manier om een ​​N-dimensionale kubus te modelleren een "ster". Op afb. Figuur 3.11 toont een hypercube-model voor analyse van onderdelenlevering, waarin informatie wordt geconsolideerd over vier dimensies (leverancier, onderdeel, maand, jaar). Het sterrenschema is gebaseerd op een feitentabel. De feitentabel bevat een kolom die de leveringsomvang specificeert, evenals kolommen die refererende sleutels specificeren voor alle dimensietabellen. Elke kubusdimensie wordt weergegeven door een waardentabel die een verwijzing is naar de feitentabel. Om de niveaus van veralgemening van informatie te ordenen, worden categorische inputs georganiseerd boven de referentieboeken van metingen (bijvoorbeeld "materiaal-detail", "stad-leverancier").

De reden waarom de schakeling in Fig. 3.12 een "ster" wordt genoemd, is vrij duidelijk. De uiteinden van de "ster" worden gevormd door dimensietabellen en hun links naar de feitentabel in het midden vormen stralen. Met dit databaseontwerp komen de meeste bedrijfsanalysequery's samen in een centrale feitentabel met een of meer dimensietabellen. Een zoekopdracht om de verzendingen van alle onderdelen in 2004 per maand te krijgen, uitgesplitst naar leverancier, ziet er bijvoorbeeld als volgt uit:

SELECT SUM(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

VAN FEIT, LEVERANCIER

WHERE FACT.YEAR_ID=2004

AND FACT.SUPPLIER_CODE=LEVERANCIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MAAND_ID.

Op afb. 3.13 toont een fragment van het rapport dat is gegenereerd als resultaat van een bepaalde zoekopdracht.