Методи за аналитична обработка на данни в подкрепа на вземането на решения. Онлайн аналитична обработка (OLAP)

Аналитични технологии бизнес процеси

Системите за бизнес разузнаване (BI) комбинират различни инструменти и технологии за анализиране и обработка на данни от корпоративно ниво. На базата на тези инструменти се създават BI системи, чиято цел е да подобрят качеството на информацията за приемане управленски решения.

BI включва софтуерни продукти от следните класове:

· системи за онлайн аналитична обработка (OLAP);

· инструменти за извличане на данни (DM);

Софтуерните продукти от всеки клас изпълняват определен набор от функции или операции, използвайки специални технологии.

OLAP (On-Line Analytical Processing) - онлайн аналитична обработка - не е името на конкретен продукт, а на цяла технология. Концепцията OLAP се основава на многомерно представяне на данни.

12 критерия на OLAP технологията, които впоследствие се превърнаха в основно съдържание на нова и много обещаваща технология.

По-късно те бяха разработени в теста FASMI, който определя изискванията за OLAP продуктите:

· FAST (бързо). OLAP приложението трябва да осигурява минимално време за достъп до аналитичните данни – средно около 5 секунди;

· АНАЛИЗ (анализ). Едно OLAP приложение трябва да позволява на потребителя да извършва числени и статистически анализи;

· SHARED (споделен достъп). Едно OLAP приложение трябва да позволява на много потребители да работят с информация едновременно;

· MULTIDIMENSIONAL (многоизмерност);

· ИНФОРМАЦИЯ (информация). Едно OLAP приложение трябва да позволи на потребителя да получи информацията, от която се нуждае, независимо в кое електронно хранилище на данни се намира.

Въз основа на FASMI може да се даде следната дефиниция: OLAP приложения -Това са системи за бърз многопотребителски достъп до многомерна аналитична информация с възможности за числени и статистически анализи.

Основната идея на OLAP е да изгради многоизмерни кубове, които ще бъдат достъпни за потребителски заявки. Многомерните кубове (фиг. 5.3) са изградени на базата на изходни и агрегирани данни, които могат да се съхраняват както в релационни, така и в многомерни бази данни. Следователно в момента се използват три метода за съхранение на данни: МОЛАП (Многомерен OLAP), ROLAP (релационен OLAP) и ХОЛАП (Хибриден OLAP).



Съответно OLAP продуктите се разделят на три подобни категории въз основа на метода за съхранение на данни:

1. В случая на MOLAP изходните и многоизмерните данни се съхраняват в многоизмерна база данни или в многоизмерен локален куб. Този метод на съхранение осигурява висока скоростизвършване на OLAP операции. Но многоизмерната база в този случай най-често ще бъде излишна. Куб, изграден на негова основа, ще зависи до голяма степен от броя на измеренията. С увеличаването на броя на измеренията обемът на куба ще нараства експоненциално. Понякога това може да доведе до „експлозивен растеж“ в обема на данните.

2. В ROLAP продуктите изходните данни се съхраняват в релационни бази данни или в плоски локални таблици на файлов сървър. Обобщените данни могат да бъдат поставени в сервизни таблици в същата база данни. Преобразуването на данни от релационна база данни в многомерни кубове става по заявка на OLAP инструмент. В този случай скоростта на изграждане на куб ще зависи до голяма степен от вида на източника на данни.

3. Когато използвате хибридна архитектура, оригиналните данни остават релационна база данни, а агрегатите са поставени в многомерен. OLAP куб се изгражда по искане на OLAP инструмент, базиран на релационни и многоизмерни данни. Този подход избягва експлозивния растеж на данните. В този случай е възможно да се постигне оптимално време за изпълнение на клиентските заявки.

Използвайки OLAP технологиите, потребителят може да извършва гъвкав преглед на информация, да получава различни срезове от данни, да извършва аналитични операции на детайлизиране, свиване, разпределение от край до край, сравнение във времето, т.е. компилира и динамично публикува доклади и документи.

3.4 Методи за аналитична обработка на данни

За да могат съществуващите хранилища за данни да подкрепят вземането на управленски решения, информацията трябва да бъде представена на анализатора в в необходимата форма, т.е. трябва да има разработени инструменти за достъп и обработка на данни за съхранение.

Много често информационните и аналитични системи, създадени с очакванията за пряка употреба от вземащите решения, се оказват изключително лесни за използване, но силно ограничени като функционалност. Такива статични системи се наричат ​​изпълнителни информационни системи (IIS) или изпълнителни информационни системи (EIS). Те съдържат много въпроси и макар да са достатъчни за ежедневен преглед, не могат да отговорят на всички въпроси, които могат да възникнат при вземането на решения. Резултатът от такава система, като правило, са многостранични отчети, които след внимателно проучване анализаторът получава Нов епизодвъпроси. Но всяка нова заявка, която не е била предвидена при проектирането на такава система, трябва първо да бъде официално описана, кодирана от програмиста и едва след това изпълнена. Времето за изчакване в този случай може да бъде часове и дни, което не винаги е приемливо.

Он-лайн аналитична обработка. Или онлайн аналитична обработка, OLAP е ключов компонент за организиране на складове за данни. Концепцията OLAP е описана през 1993 г. от Едгар Код и има следните изисквания за приложения за многоизмерен анализ:

– многомерно концептуално представяне на данни, в т.ч пълна подкрепаза йерархии и множество йерархии ( ключово изискване OLAP);

– предоставяне на потребителя на резултати от анализа за приемливо време (обикновено не повече от 5 s), дори на цена по-малка от подробен анализ;

– възможност за извършване на всякакъв логически и статистически анализ, специфичен за дадено приложение и запазването му по достъпен начин краен потребителформа;

– многопотребителски достъп до данни с поддръжка на подходящи заключващи механизми и средства за разрешен достъп;

- възможност за контакт с всеки необходимата информациянезависимо от неговия обем и място на съхранение.

OLAP системата се състои от много компоненти. На най-високо ниво на представяне системата включва източник на данни, многомерна база данни (MDB), която предоставя възможност за реализиране на механизъм за докладване, базиран на OLAP технология, OLAP сървър и клиент. Системата е изградена на принципа клиент-сървър и осигурява отдалечен и многопотребителски достъп до MDB сървъра.

Нека да разгледаме компонентите на OLAP система.

Източници.Източникът в OLAP системите е сървърът, който доставя данни за анализ. В зависимост от областта на използване на продукта OLAP, източникът може да бъде хранилище на данни, наследена база данни, съдържаща общи данни, набор

таблици, комбиниращи финансови данни или комбинация от горните.

Съхранение на данни. Изходните данни се събират и съхраняват в склад, проектиран в съответствие с принципите за съхранение на данни. Хранилището на данни е релационна база данни (RDB). Основната таблица DW (фактическа таблица) съдържа числови стойностипоказатели, за които се събира статистическа информация.

Многомерна база данни.Складът за данни служи като доставчик на информация за многомерна база данни, която е колекция от обекти. Основните класове на тези обекти са размери и мерки. Измеренията включват набори от стойности (параметри), чрез които се индексират данните, например време, региони, тип институция и др. Всяко измерение се попълва със стойности от съответните таблици с измерения на хранилището на данни. Наборът от измервания определя пространството на изследвания процес. Индикаторите се отнасят до многомерни кубове с данни (хиперкубове). Хиперкубът съдържа самите данни, както и агрегирани суми за измеренията, включени в индикатора. Индикаторите представляват основното съдържание на MDB и се попълват в съответствие с таблицата с фактите. По всяка ос на хиперкуб данните могат да бъдат организирани в йерархия, представляваща различни нива на детайлност. Това ви позволява да създавате йерархични измерения, които ще се използват за агрегиране или детайлизиране на представянето на данни по време на последващ анализ на данни. Типичен пример за йерархично измерение е списък от териториални обекти, групирани по области, региони и области.

сървър.Приложната част на OLAP системата е OLAP сървърът. Този компонент върши цялата работа (в зависимост от модела на системата) и съхранява цялата информация, на която е предоставена активен достъп. Сървърната архитектура се управлява от различни концепции. По-специално, основната функционална характеристика на OLAP продуктите е използването на MDB или RDB за съхранение на данни.

Клиентско приложение.Данните, структурирани по съответния начин и съхранени в MDB, са достъпни за анализ с помощта на клиентско приложение. Потребителят получава възможност за отдалечен достъп до данни, формулиране сложни заявки, генериране на отчети, получаване на произволни подгрупи от данни. Получаването на отчет се свежда до избиране на конкретни стойности на измерване и изграждане на част от хиперкуб. Напречното сечение се определя от избраните измервателни стойности. Данните за други измервания са обобщени.

OLAPна клиента и на сървъра.Многовариантният анализ на данни може да се извърши с помощта на различни средства, които могат да бъдат разделени на клиентски и сървърни OLAP инструменти.

Клиентски OLAP инструменти (напр. Пивотни таблици Excel 2000 от Microsoft или ProClarity от Knosys) са приложения, които изчисляват обобщени данни и ги показват. В същото време самите агрегирани данни се съдържат в кеш вътре в адресното пространство на такъв OLAP инструмент.

Ако изходните данни се съдържат в десктоп СУБД, изчисляването на обобщените данни се извършва от самия OLAP инструмент. Ако източникът на първоначалните данни е сървърна СУБД, много от клиентските OLAP инструменти изпращат SQL заявки към сървъра и в резултат получават обобщени данни, изчислени на сървъра.

Обикновено OLAP функционалността се реализира в инструменти статистическа обработкаданни и в някои електронни таблици.

Много инструменти за разработка съдържат библиотеки от класове или компоненти, които ви позволяват да създавате приложения, които реализират проста OLAP функционалност (като компонентите Decision Cube в Borland Delphi и Borland C++ Builder). Освен това много компании предлагат ActiveX контроли и други библиотеки, които реализират подобна функционалност.

Клиентските OLAP инструменти се използват, като правило, с малък брой измерения (обикновено не повече от шест) и малко разнообразие от стойности за тези параметри - тъй като получените обобщени данни трябва да се поберат в адресното пространство подобни средстваи техният брой нараства експоненциално с увеличаване на броя на измерванията.

Много OLAP клиентски инструменти ви позволяват да запазите съдържанието на кеша с обобщени данни като файл, за да не ги преизчислявате. Тази възможност обаче често се използва за отчуждаване на обобщени данни с цел прехвърлянето им на други организации или за публикуване.

Идеята за запазване на кеш с обобщени данни във файл получи своя плод по-нататъчно развитиев сървърни OLAP инструменти (например Oracle Express Server или Microsoft OLAP Services), в които се извършва съхранението и модифицирането на сборни данни, както и поддръжката на хранилището, което ги съдържа отделно приложениеили процес, наречен OLAP сървър. Клиентските приложения могат да поискат такова многоизмерно съхранение и да получат определени данни в отговор. Някои клиентски приложения могат също да създават такива хранилища или да ги актуализират въз основа на променени изходни данни.

Предимствата на използването на сървърни OLAP инструменти в сравнение с клиентските OLAP инструменти са подобни на предимствата на използването на сървърни СУБД в сравнение с тези за настолни компютри: когато се използват сървърни инструменти, изчисляването и съхраняването на обобщени данни се извършва на сървъра, а клиентското приложение получава само резултати от заявки срещу тях, което позволява като цяло да намали мрежов трафик, времето за изпълнение на заявката и изискванията за ресурси, използвани от клиентското приложение.

3.5 Технически аспектимногоизмерно съхранение на данни

Многоизмерността в OLAP приложенията може да бъде разделена на три нива:

1. Многомерно представяне на данни– инструменти за краен потребител, които предоставят многоизмерна визуализация и манипулиране на данни; многомерният слой на представяне се абстрахира от физическа структураданни и възприема данните като многоизмерни.

    Многоизмерна обработка – средство (език) за формулиране на многомерни заявки (традиционният релационен език SQL е неподходящ тук) и процесор, който може да обработва и изпълнява такава заявка.

    Многоизмерно съхранение– средства за физическа организация на данните, осигуряващи ефективното изпълнение на многомерни заявки.

Първите две нива са задължителни във всички OLAP инструменти. Третото ниво, макар и широко разпространено, не е необходимо, тъй като данните за многомерно представяне могат да бъдат извлечени и от обикновени релационни структури. Процесорът на многомерни заявки в този случай превежда многомерните заявки в SQL заявки, които се изпълняват от релационната СУБД.

Във всеки склад за данни - както обикновен, така и многоизмерен - заедно с подробни данни, извлечени от операционна система, също се съхраняват агрегирани показатели (общи показатели), като сумата от обемите на продажбите по месеци, по продуктова категория и др. Агрегатите се съхраняват изрично с единствената цел да се ускори изпълнението на заявките. В крайна сметка, от една страна, в склада обикновено се натрупва много голямо количество данни, а от друга страна, анализаторите в повечето случаи се интересуват от обобщени, а не от подробни показатели. И ако милиони отделни продажби трябваше да се събират всеки път, за да се изчислят общите продажби за годината, скоростта най-вероятно би била неприемлива. Следователно, при зареждане на данни в многомерна база данни, всички общи показатели или част от тях се изчисляват и съхраняват.

Използването на обобщени данни обаче има недостатъци. Основните недостатъци са увеличаването на обема на съхраняваната информация (при добавяне на нови измерения, обемът на данните, които съставляват куба, нараства експоненциално) и времето, необходимо за зареждането им. Освен това обемът на информацията може да се увеличи десетки и дори стотици пъти. Например в една от публикуваните стандартизирани тестовепълното изчисление на агрегатите за 10 MB оригинални данни изисква 2,4 GB, т.е. данните нарастват 240 пъти!

Степента на увеличаване на обема на данните при изчисляване на агрегатите зависи от броя на измеренията на куба и структурата на тези измерения, т.е. съотношението на броя на „родителите“ и „потомците“ на различни ниваизмервания. За да решат проблема със съхраняването на единици, те използват сложни вериги, които правят възможно постигането на значително увеличение на производителността на заявките при изчисляване на не всички възможни агрегати.

Както необработените, така и обобщените данни могат да се съхраняват в

релационни или в многоизмерни структури. В тази връзка в момента се използват три метода за съхраняване на многоизмерни данни:

МОЛАП (Multidimensional OLAP) – изходните и обобщените данни се съхраняват в многомерна база данни. Съхраняването на данни в многоизмерни структури ви позволява да манипулирате данните като многоизмерен масив, което увеличава скоростта на изчислението съвкупни стойностие едно и също за всяко от измерванията. В този случай обаче многоизмерната база данни е излишна, тъй като многоизмерните данни съдържат изцяло оригиналните релационни данни.

Тези системи осигуряват пълен цикъл на OLAP обработка. Те или включват, в допълнение към сървърния компонент, собствен интегриран клиентски интерфейс, или използват външни програмиработа с електронни таблици.

ROLAP (Relational OLAP) - оригиналните данни остават в същата релационна база данни, където са били първоначално разположени. Агрегираните данни се поставят в служебни таблици, специално създадени за съхраняването им в същата база данни.

ХОЛАП (Hybrid OLAP) – оригиналните данни остават в същата релационна база данни, където са били първоначално разположени, а обобщените данни се съхраняват в многоизмерна база данни.

Някои OLAP инструменти поддържат съхраняване на данни само в релационни структури, някои само в многоизмерни. Повечето съвременни сървърни OLAP инструменти обаче поддържат и трите метода за съхранение на данни. Изборът на метод за съхранение зависи от обема и структурата на изходните данни, изискванията за скоростта на изпълнение на заявката и честотата на актуализиране на OLAP кубовете.

3.6 Извличане на данни (ДанниМинен)

Терминът Data Mining се отнася до процеса на търсене на корелации, тенденции и връзки чрез различни математически и статистически алгоритми: групиране, регресия и корелационен анализи др. за системи за подпомагане на вземането на решения. В този случай натрупаната информация автоматично се обобщава до информация, която може да се характеризира като знание.

Съвременната технология за извличане на данни се основава на концепцията за шаблони, които отразяват модели, присъщи на подизвадките от данни и представляват така нареченото скрито знание.

Търсенето на модели се извършва с помощта на методи, които не използват никакви априорни предположения за тези подизвадки. Важна характеристикаИзвличането на данни е нестандартното и неочевидно естество на моделите, които се търсят. С други думи, инструментите за извличане на данни се различават от инструментите за обработка на статистически данни и OLAP инструментите по това, че вместо да проверяват връзките, предварително приети от потребителите

между данните, те, въз основа на наличните данни, могат самостоятелно да намират такива връзки, както и да изграждат хипотези за тяхната природа.

Като цяло процесът на извличане на данни се състои от три етапа

    идентифициране на модели (свободно търсене);

    използване на идентифицирани модели за прогнозиране на неизвестни стойности (предсказуемо моделиране);

    анализ на изключения, предназначен да идентифицира и интерпретира аномалии в откритите модели.

Понякога изрично се идентифицира междинен етап на проверка на надеждността на намерените модели между тяхното откриване и използване (етап на валидиране).

Има пет стандартни видовемодели, идентифицирани чрез методите за извличане на данни:

1.Асоциацияви позволява да идентифицирате стабилни групи от обекти, между които има неявни връзки. Честотата на поява на отделен елемент или група от елементи, изразена като процент, се нарича разпространение. Ниският процент на разпространение (по-малко от една хилядна от един процент) предполага, че връзката не е значима. Асоциациите са написани под формата на правила: А=> б, Където А -пакет, В -следствие. Да се ​​определи важността на всеки получен правило за асоциираненеобходимо е да се изчисли стойност, наречена увереност АДа се IN(или връзка А и Б).Увереността показва колко често кога Апоявява се IN.Например, ако d(A/B)=20%, това означава, че при закупуване на продукт Авъв всеки пети случай се закупува и стоката IN.

Типичен пример за използване на асоциация е анализът на моделите на покупка. Например, когато провеждате проучване в супермаркет, можете да откриете, че 65% от тези, които купуват картофен чипс, купуват и Coca-Cola, а ако има отстъпка за такъв комплект, те купуват кока-кола в 85% от случаите. Такива резултати са ценни при оформянето на маркетингови стратегии.

2. Последователност - това е метод за идентифициране на асоциации във времето. В този случай се дефинират правила, които описват последователното възникване на определени групи събития. Такива правила са необходими за изграждането на сценарии. В допълнение, те могат да се използват, например, за формулиране на типичен набор от предишни продажби, които могат да доведат до последващи продажби на определен продукт.

3.Класификация - инструмент за обобщение. Това ни позволява да преминем от разглеждането на отделни обекти към обобщени понятия, които характеризират определени колекции от обекти и са достатъчни за разпознаване на обекти, принадлежащи към тези колекции (класове). Същността на процеса на формиране на концепцията е да се намерят модели, характерни за класовете. За описание на обектите се използват много различни знаци (атрибути). Проблемът за формиране на концепции въз основа на описания на характеристики е формулиран от M.M. Бонгарт. Решението му се основава на прилагането на две основни процедури: обучение и тестване. В процедурите за обучение правилото за класифициране се изгражда въз основа на обработката на набора от обекти за обучение. Процедурата за проверка (изследване) се състои в използване на полученото правило за класификация за разпознаване на обекти от нова (изследваща) проба. Ако резултатите от теста се считат за задоволителни, тогава процесът на обучение приключва, в в противен случайПравилото за класификация се усъвършенства в процеса на повторно обучение.

4.Клъстеризиране – това е разпределението на информация (записи) от базата данни в групи (клъстери) или сегменти с едновременното дефиниране на тези групи. За разлика от класификацията, анализът тук не изисква предварително разпределяне на класове.

5. Прогнозиране на времеви редове е инструмент за определяне на тенденциите в промените в атрибутите на разглежданите обекти във времето. Анализът на поведението на времевите редове ни позволява да предвидим стойностите на изследваните характеристики.

За решаването на такива проблеми се използват различни методи и алгоритми за извличане на данни. Поради факта, че Data Mining се е развил и се развива в пресечната точка на такива дисциплини като статистика, теория на информацията, машинно обучение и теория на базите данни, съвсем естествено е, че повечето алгоритми и методи за Data Mining са разработени въз основа на различни методи от тези дисциплини.

От разнообразието съществуващи методиМогат да се разграничат следните изследвания на данни:

    регресионен, дисперсионен и корелационен анализ(имплементиран в повечето съвременни статистически пакети, по-специално в продуктите на SAS Institute, StatSoft и др.);

    методи за анализв конкретна тематична област, базирана на емпирични модели (често използвани, например, в евтини инструменти за финансов анализ);

    невронни мрежови алгоритми– метод за симулиране на процеси и явления, който позволява да се възпроизвеждат сложни зависимости. Методът се основава на използването на опростен модел биологичен мозъки се състои в това, че първоначалните параметри се разглеждат като сигнали, които се трансформират в съответствие със съществуващите връзки между „невроните“, а отговорът на цялата мрежа към първоначалните данни се счита за отговор, който е резултат от анализа . В този случай връзките се създават чрез така нареченото мрежово обучение чрез голям размер на извадката, съдържаща както първоначални данни, така и верни отговори. Невронните мрежи се използват широко за решаване на проблеми с класификацията;

    размита логикаизползвани за обработка на данни с размити стойности на истината, които могат да бъдат представени от различни лингвистични променливи. Представянето на размито знание се използва широко за решаване на проблеми с класификацията и прогнозирането, например в системата XpertRule Miner (Attar Software Ltd., UK), както и в AIS, NeuFuz и др.;

    индуктивни изводиви позволяват да получите обобщения на факти, съхранявани в базата данни. Процесът на индуктивно обучение може да включва специалист, който предоставя хипотези. Този метод се нарича обучение под наблюдение. Търсенето на правила за обобщение може да се извърши без учител от автоматично генериранехипотези. В модерните софтуерПо правило и двата метода се комбинират, като за проверка на хипотези се използват статистически методи. Пример за система, използваща индуктивни проводници, е XpertRule Miner, разработен от Attar Software Ltd. (Великобритания);

    разсъждения въз основа на подобни случаи(метод на „най-близкия съсед“) (Case-based reasoning – CBR) се основават на търсене в базата данни на ситуации, чиито описания са подобни по редица начини на дадена ситуация. Принципът на аналогията ни позволява да предположим, че резултатите от подобни ситуации също ще бъдат близки един до друг. Недостатъкът на този подход е, че той не създава никакви модели или правила, които да обобщават предишен опит. В допълнение, надеждността на изведените резултати зависи от пълнотата на описанието на ситуациите, както при индуктивните процеси на извод. Примери за системи, използващи CBR са: KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, САЩ);

    дървета на решенията– метод за структуриране на проблем под формата на дървовидна графика, чиито върхове съответстват на производствени правила, които ви позволяват да класифицирате данни или да анализирате последствията от решенията. Този метод дава визуално представяне на системата от правила за класификация, ако няма много от тях. Прости задачисе решават с този метод много по-бързо от използването невронни мрежи. За сложни проблеми и за някои типове данни дърветата на решенията може да не са подходящи. В допълнение, този метод се характеризира с проблема за значимостта. Едно от последствията от йерархичното групиране на данни е липсата на голям брой примери за обучение за много специални случаи и следователно класификацията не може да се счита за надеждна. Методите на дървото на решенията са внедрени в много софтуерни инструменти, а именно: C5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, UK), SIPINA (University of Lyon, France), IDIS (Information Discovery, USA);

    еволюционно програмиране– търсене и генериране на алгоритъм, изразяващ взаимозависимостта на данните, базиран на първоначално зададен алгоритъм, модифициран в процеса на търсене; понякога търсенето на взаимозависимости се извършва между определени типове функции (например полиноми);

ограничени алгоритми за търсене, изчисляване на комбинации от прости логически събития в подгрупи от данни.

3.7 ИнтеграцияOLAPИДанниМинен

Онлайн аналитична обработка (OLAP) и извличане на данни (Data Mining) са два компонента на процеса за подпомагане на вземането на решения. Днес обаче повечето OLAP системи се фокусират само върху предоставянето на достъп до многоизмерни данни, а повечето инструменти за копаене на шаблони работят с едноизмерни перспективи на данни. За да се повиши ефективността на обработката на данни за системи за подпомагане на вземането на решения, тези два вида анализ трябва да се комбинират.

Понастоящем се появява съставният термин „OLAP Data Mining“ (многоизмерно копаене) за обозначаване на такава комбинация.

Има три основни начина за формиране на „OLAP Data Mining“:

    „Кубиране след това копаене“. Способността за извършване на интелигентен анализ трябва да бъде предоставена върху всеки резултат от заявка за многомерно концептуално представяне, тоест върху всеки фрагмент от всяка проекция на хиперкуб от индикатори.

    „Копаене след това кубиране“. Подобно на данните, извлечени от склад, резултатите от копаене трябва да бъдат представени във форма на хиперкуб за последващ многоизмерен анализ.

    "Кубиране по време на копаене." Този гъвкав метод на интеграция ви позволява автоматично да активирате същия тип интелектуални механизми за обработка на резултата от всяка стъпка на многоизмерен анализ (преход) между нивата на обобщение, извличане на нов фрагмент от хиперкуб и т.н.).

    11 клас [Текст... тяхкак Частвсичко системи ... асистент ... Чебоксари, 2009. № 10. Стр. 44 -49... . автори- компилатори: Н... бележкилекции, ...

  • Учебно-методическо ръководство

    ... лекции. Подготовка лекцииматематика. Писане бележкилекции лекции. Използване информациятехнологии ...

  • И Кондаурова с Лебедев, изследователска дейност на бъдещия учител по математика, творчески задачи по елементарна математика и методи за нейното преподаване

    Учебно-методическо ръководство

    ... лекции. Подготовка лекцииматематика. Писане бележкилекции. Подготовка нагледни помагала. Техника на четене лекции. Използване информациятехнологии ...

  • М МЕДИЕН МОНИТОРИНГ Модернизация на професионалното образование март – август 2011г

    Резюме

    ... 11 .08.2011 "Мъртви души-2" В RNIMU тях ... 3,11 -3,44 . ... обществено лекциилидери... Чебоксари... и драскане бележкипублика - ... информационенсистемиИ технологии. ... системаобразование, казва асистент ... компилатори ... частиувеличение реално съдържание ...

Концепцията OLAP се основава на принципа на многомерно представяне на данни. В статия от 1993 г. E. F. Codd разглежда недостатъците релационен модел, като на първо място посочи невъзможността за „комбиниране, преглед и анализ на данни от гледна точка на множество измерения, т.е. по най-разбираемия за корпоративните анализатори начин“, и определи Общи изискванияДа се OLAP системи, разширяване на функционалността релационна СУБДи включително многовариантен анализ като една от неговите характеристики.

IN голямо числопубликации, съкращението OLAP обозначава не само многоизмерен изглед на данни, но и съхранението на самите данни в многоизмерна база данни. Най-общо казано, това не е вярно, тъй като самият Код отбелязва, че „релационните бази данни бяха, са и ще бъдат най-подходящата технология за съхранение на корпоративни данни. Нуждата не е от нова технология за база данни, а по-скоро от инструменти за анализ, които допълват функциите на съществуващи СУБД и достатъчно гъвкави за предоставяне и автоматизиране различни видовеинтелектуален анализ, присъщ на OLAP." Такова объркване води до опозиции като "OLAP или ROLAP", което не е напълно правилно, тъй като ROLAP (релационен OLAP) на концептуално ниво поддържа цялата функционалност, дефинирана от термина OLAP. Изглежда по-предпочитано да използвайте многомерна СУБД за OLAP специален термин MOLAP, както е направено в .

Според Код, многоизмерният концептуален изглед е множествена перспектива, състояща се от няколко независими измерения, по които могат да бъдат анализирани специфични набори от данни. Едновременният анализ по множество измерения се определя като многовариантен анализ. Всяко измерение включва насоки за консолидиране на данни, състоящи се от поредица от последователни нива на обобщение, където всяко по-високо ниво съответства на по-висока степен на агрегиране на данни за съответното измерение. По този начин измерението Изпълнител може да се определи от посоката на консолидация, състояща се от нивата на обобщение „предприятие - подразделение - отдел - служител“. Измерението Време може дори да включва две посоки на консолидация - "година - тримесечие - месец - ден" и "седмица - ден", тъй като отчитането на времето по месец и по седмица е несъвместимо. В този случай става възможно произволно да се избере желаното ниво на детайлност на информацията за всяко от измеренията. Операцията на пробиване съответства на движението от по-високи към по-ниски етапи на консолидация; напротив, операцията на навиване означава движение от по-ниски към по-високи нива (фиг. 2).

Ориз. 2. Размери и насоки на консолидация на данните

Корпоративни бази данни на икономически информационни системи

3. Онлайн аналитична обработка (OLAP)

Технологията за комплексен многоизмерен анализ на данни се нарича OLAP (On-Line Analytical Processing). OLAP е ключов компонент на складирането на данни. Концепцията OLAP е описана през 1993 г. от Едгар Код и има следните изисквания за приложения за многоизмерен анализ:

многомерно концептуално представяне на данни, включително пълна поддръжка за йерархии и множество йерархии (ключово изискване на OLAP);

предоставяне на потребителя на резултатите от анализа за приемливо време (обикновено не повече от 5 s), за сметка на по-малко подробен анализ;

възможност за извършване на всякакъв логически и статистически анализ, специфичен за дадено приложение и запазването му във вид, достъпен за крайния потребител;

многопотребителски достъп до данни с поддръжка на подходящи заключващи механизми и средства за оторизиран достъп;

възможност за достъп до всяка необходима информация, независимо от нейния обем.

OLAP системата се състои от много компоненти. На най-високо ниво на представяне системата включва източник на данни, многомерна база данни (MDB), която предоставя възможност за реализиране на механизъм за докладване, базиран на OLAP технология, OLAP сървър и клиент. Системата е изградена на принципа клиент-сървър и осигурява отдалечен и многопотребителски достъп до MDB сървъра.

Нека да разгледаме компонентите на OLAP система.

Източници. Източникът в OLAP системите е сървърът, който доставя данни за анализ. В зависимост от използването на OLAP продукта, източникът може да бъде хранилище на данни, наследена база данни, съдържаща общи данни, набор от таблици, които агрегират финансови данни, или всяка комбинация от горните.

Съхранение на данни. Изходните данни се събират и съхраняват в склад, проектиран в съответствие с принципите за съхранение на данни. Хранилището на данни е релационна база данни (RDB). Основната таблица с данни (фактическа таблица) съдържа числени стойности на показателите, за които се събира статистическа информация.

Многомерна база данни. Складът за данни служи като доставчик на информация за многоизмерна база данни, която е колекция от обекти. Основните класове на тези обекти са размери и мерки. Измеренията включват набори от стойности (параметри), чрез които се индексират данните, например време, региони, тип институция и др. Всяко измерение се попълва със стойности от съответните таблици с измерения на хранилището на данни. Наборът от измервания определя пространството на изследвания процес. Индикаторите се отнасят до многомерни кубове с данни (хиперкубове). Хиперкубът съдържа самите данни, както и агрегирани суми за измеренията, включени в индикатора. Индикаторите представляват основното съдържание на MDB и се попълват в съответствие с таблицата с фактите. По всяка ос на хиперкуб данните могат да бъдат организирани в йерархия, представляваща различни нива на детайлност. Това ви позволява да създавате йерархични измерения, които ще се използват за агрегиране или детайлизиране на представянето на данни по време на последващ анализ на данни. Типичен пример за йерархично измерение е списък от териториални обекти, групирани по области, региони и области.

сървър. Приложната част на OLAP системата е OLAP сървърът. Този компонент върши цялата работа (в зависимост от модела на системата) и съхранява цялата информация, до която е осигурен активен достъп. Сървърната архитектура се управлява от различни концепции. По-специално, основната функционална характеристика на OLAP продуктите е използването на MDB или RDB за съхранение на данни.

Клиентско приложение. Данните, структурирани по съответния начин и съхранени в MDB, са достъпни за анализ с помощта на клиентско приложение. Потребителят получава възможност за отдалечен достъп до данни, формулиране на сложни заявки, генериране на отчети и получаване на произволни подмножества от данни. Получаването на отчет се свежда до избиране на конкретни стойности на измерване и изграждане на част от хиперкуб. Напречното сечение се определя от избраните измервателни стойности. Данните за други измервания са обобщени.

Основните понятия на многомерния модел на данни са: Хиперкуб на данните, Измерение, Мемдери, Клетка и Измерване.

Хиперкубът на данните съдържа едно или повече измерения и е подредена колекция от клетки. Всяка клетка се дефинира от един и само един набор от стойности на измерение - етикети. Клетката може да съдържа данни - мярка или да е празна.

Измерението е набор от знаци, които образуват една от страните на хиперкуб. Пример за времево измерение е списък от дни, месеци, тримесечия. Пример за географско измерение може да бъде списък с териториални обекти: населени места, области, региони, държави и др.

За достъп до данните, потребителят трябва да посочи една или повече клетки, като избере стойностите на размерите, които съответстват на желаните клетки. Процесът на избор на стойности на измерване се нарича фиксиране на етикети, а наборът от избрани стойности на измерване се нарича набор от фиксирани етикети.

Предимства на използването на сървърни OLAP инструменти в сравнение с клиентски OLAP инструменти: когато се използват сървърни инструменти, изчисляването и съхранението на обобщени данни се извършва на сървъра, а клиентското приложение получава само резултатите от заявките към тях, което като цяло позволява намаляване на мрежовия трафик и изпълнение на заявки изисквания за време и ресурси, изразходвани от клиентското приложение.

1. Многомерно представяне на данни - инструменти за крайния потребител, които осигуряват многомерна визуализация и манипулиране на данни; Слоят на многомерното представяне абстрахира физическата структура на данните и ги третира като многоизмерни.

2. Многомерна обработка - средство (език) за формулиране на многомерни заявки (традиционният релационен език SQL е неподходящ тук) и процесор, който може да обработва и изпълнява такава заявка.

3. Многомерно съхранение - средство за физическа организация на данните, осигуряващо ефективното изпълнение на многомерни заявки.

Първите две нива са задължителни във всички OLAP инструменти. Третото ниво, макар и широко разпространено, не е необходимо, тъй като данните за многомерно представяне могат да бъдат извлечени и от обикновени релационни структури.

Във всяко хранилище на данни - както редовно, така и многоизмерно - заедно с подробни данни, извлечени от операционни системи, се съхраняват и агрегирани показатели (общи показатели), като сумата от обемите на продажбите по месеци, по продуктова категория и т.н.

Основните недостатъци са увеличаването на обема на съхраняваната информация (при добавяне на нови измерения, обемът на данните, които съставляват куба, нараства експоненциално) и времето, необходимо за зареждането им.

Степента на увеличаване на обема на данните при изчисляване на агрегати зависи от броя на измеренията на куба и структурата на тези измерения, т.е. съотношението на броя на „родителите“ и „потомците“ на различни нива на измерване. За решаване на проблема със съхранението на агрегати се използват сложни схеми, които позволяват да се постигне значително увеличение на производителността на заявките при изчисляване на не всички възможни агрегати.

Както необработените, така и обобщените данни могат да се съхраняват в релационни или многоизмерни структури. В тази връзка в момента се използват три метода за съхраняване на многоизмерни данни:

MOLAP (Multidimensional OLAP) - изходните и обобщените данни се съхраняват в многомерна база данни. Съхраняването на данни в многоизмерни структури ви позволява да манипулирате данните като многоизмерен масив, поради което скоростта на изчисляване на агрегатните стойности е еднаква за всяко от измеренията. В този случай обаче многоизмерната база данни е излишна, тъй като многоизмерните данни съдържат изцяло оригиналните релационни данни.

Тези системи осигуряват пълен цикъл на OLAP обработка. Те или включват, в допълнение към сървърния компонент, собствен интегриран клиентски интерфейс, или използват външни програми за електронни таблици, за да комуникират с потребителя.

ROLAP (Relational OLAP) - оригиналните данни остават в същата релационна база данни, където са били първоначално разположени. Агрегираните данни се поставят в служебни таблици, специално създадени за съхраняването им в същата база данни.

HOLAP (Hybrid OLAP) - оригиналните данни остават в същата релационна база данни, където са били първоначално разположени, а агрегираните данни се съхраняват в многомерна база данни.

Някои OLAP инструменти поддържат съхраняване на данни само в релационни структури, някои само в многоизмерни. Повечето съвременни сървърни OLAP инструменти обаче поддържат и трите метода за съхранение на данни. Изборът на метод за съхранение зависи от обема и структурата на изходните данни, изискванията за скоростта на изпълнение на заявката и честотата на актуализиране на OLAP кубовете.

OLAP технологиите като мощен инструмент за обработка на данни в реално време

Д-р Е.Ф. (Тед) Коди измисли фразата Онлайн аналитична обработка (OLAP) през 1993 г....

Аналитична обработка на данни (OLAP). Информационен склад за данни. Модели на данни, използвани за изграждане на информационни складове

Основната задача за модела OLTP бърза обработказаявки, поддържане на целостта на данните, мулти-достъп до средата, нейната ефективност се измерва с броя транзакции в секунда...

Избор и обосновка на конфигурация персонален компютърориентиран за работа със звук на любителско ниво

RAM памет(на английски: Random Access Memory, памет с произволен достъп) - летлива част от компютърна памет, в която временно се съхраняват данни и команди, необходими за процесораза извършване на операцията...

Избор и обосновка на конфигурацията на персонален компютър, фокусиран върху изпълнението на определен набор от задачи

Паметта с произволен достъп (памет с произволен достъп; компютърен жаргон: памет, RAM) е летлива част от компютърната памет, в която временно се съхраняват данни и команди...

алгоритъм за планиране на процесора В системите за онлайн обработка средното време за обслужване на заявките се използва като основен критерий за ефективност. Лесно е да се види, че в случай, когато времето за решаване на проблемите е известно предварително...

Изследване на алгоритми за управление на ресурсите за еднопроцесорни сървъри с оперативна обработкапроблеми (алгоритми SPT и RR)

SPT алгоритъмът се използва, когато са известни времената за решаване на проблеми (процеси). За да направи това, преди директно да го реши, той първо сортира проблемите във възходящ ред...

Корпоративни бази данни на икономически информационни системи

Технологията за комплексен многоизмерен анализ на данни се нарича OLAP (On-Line Analytical Processing). OLAP е ключов компонент на складирането на данни. Концепцията за OLAP е описана през 1993 г.

Перспективи за развитие на компютъра

Паметта с произволен достъп (RAM) е масив от кристални клетки, способни да съхраняват данни. RAM е много важен елемент от компютъра. Той съхранява програми и данни, с които компютърът работи директно...

Проектиране на компютър за изчисляване на ваканционни разходи

От особено значение във връзка с компютърна технологияи телекомуникациите имат „онлайн“ и „офлайн“ режими. Режимът „Онлайн“ е неавтономен режим на работа на компютъра, постоянна връзка с интернет. Софтуерни продукти...

Дънни платки, видове и спецификация

Паметта с произволен достъп (RAM) е летлива част от компютърната памет, която временно съхранява данни и команди, необходими на процесора за извършване на операции (Фигура 3)...

Модерен мултимедийно оборудванекомпютри

Както знаете, компютърът съхранява данни главно на специално устройство - твърд диск. И в процеса на работа той го взима от там. Къде отива информацията по-късно? Ясно е...

1.1.1 Софтуерен продукт Skype Skype е програма, която ви позволява да общувате чрез интернет с вашите колеги, приятели, роднини по целия свят...

Сравнителен анализсистеми за дистанционно обучение

1.2.2 Система за дистанционно обучение Moodle Moodle LMS е среда за дистанционно обучение, предназначена за създаване и използване на дистанционни курсове...

OLAP технология

При изграждането на информационна система, OLAP функционалността може да бъде реализирана с помощта на сървърни и клиентски OLAP инструменти...

Структурата на складовата база данни обикновено е проектирана по такъв начин, че да улеснява максимално анализа на информацията. Трябва да е удобно да се „оформят“ данните в различни посоки (наречени измерения). Например, днес потребителят иска да види обобщение на доставките на части по доставчик, за да сравни своите дейности. Утре същият потребител ще се нуждае от снимка на промените в обема на доставките на части по месеци, за да проследи динамиката на доставките. Структурата на базата данни трябва да поддържа тези типове анализи, като позволява извличането на данни, които съответстват на даден набор от измерения.

В основата на оперативната аналитична обработка на данни е принципът на организиране на информацията в хиперкубичен модел. Най-простият триизмерен куб с данни за доставки на части за обсъжданата по-рано тестова база данни е показан на фиг. 3.11. Всяка клетка отговаря на „факт“ – например обемът на доставка на част. По едната страна на куба (едно измерение) са месеците, през които са извършени доставките, отразени от куба. Второто измерение се състои от типове части, а третото измерение съответства на доставчици. Всяка клетка съдържа количеството за доставка за съответната комбинация от стойности и в трите измерения. Трябва да се отбележи, че при попълване на куба стойностите за доставките за всеки месец от тестовата база данни бяха агрегирани.


3.11. Опростена опция за хиперкуб за анализиране на доставките на части

Системите от клас OLAP се различават по начина, по който представят данни.

Многомерен OLAP (MOLAP) – тези системи са базирани на многомерни, базирани на динамични масивиструктура от данни със съответните методи за достъп. MOLAP се реализира с помощта на патентовани технологии за организиране на многомерни СУБД. Предимството на този подход е удобството за извършване на изчисления върху клетки на хиперкуб, т.к Съответстващите клетки се създават за всички комбинации от измервания (като в електронна таблица). Класически представители на такива системи включват Oracle Express и SAS Institute MDDB.



Релационен OLAP (ROLAP)– поддържа многомерни аналитични модели върху релационни бази данни. ДА СЕ този классистемите включват Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Настолен OLAP– инструменти за генериране на многомерни заявки и отчети за локални информационни системи ( електронни таблици, плоски файлове). Можете да изберете следните системи– Business Objects, Cognos Power Play.

Е.Ф. Код дефинира дванадесет правила, на които един OLAP продукт трябва да отговаря, включително многомерно концептуално представяне на данни, прозрачност, наличност, стабилна производителност, клиент-сървър архитектура, равенство на измеренията, динамична обработка на разредени матрици, поддръжка за многопотребителски режим, неограничена поддръжка за междуизмерни операции, интуитивно манипулиране на данни, гъвкав механизъм за генериране на отчети, неограничен брой измерения и нива на агрегиране.



Най-често срещаните системи са клас ROLAP. Те ви позволяват да организирате информационен моделвърху релационно пълно съхранение на всяка структура или върху специален витрина за данни.

Ориз. 3.12. Звездообразна схема на аналитична витрина за доставка на части

За повечето хранилища за данни най-много ефективен начинмоделирането на N-измерен куб е „звезда“. На фиг. Фигура 3.11 показва модел на хиперкуб за анализиране на доставките на части, в който информацията е консолидирана по четири измерения (доставчик, част, месец, година). Звездната схема се основава на таблица с факти. Фактическата таблица съдържа колона, указваща доставеното количество, както и колони, указващи външни ключове за всички таблици с размери. Всяко измерение на куб е представено от таблица със стойности, която е референция по отношение на таблицата с фактите. За да се организират нивата на обобщаване на информацията, категориалните входове се организират над справочниците за измерване (например „материална част“, ​​„град на доставчик“).

Причината, поради която диаграмата на фиг. 3.12 се нарича „звезда“, съвсем очевидно. Краищата на звездата се формират от таблиците с размери, а връзките им с таблицата с фактите, разположена в центъра, образуват лъчите. С тази структура на база данни повечето заявки за бизнес анализ комбинират централна таблица с факти с една или повече таблици с измерения. Например, заявка за получаване на обема на доставките на всички части през 2004 г. по месеци, разбити по доставчик, изглежда така:

ИЗБЕРЕТЕ SUM(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

ОТ ФАКТ, ДОСТАВЧИК

WHERE FACT.YEAR_ID=2004

И FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

На фиг. Фигура 3.13 показва фрагмент от отчета, генериран в резултат на посочената заявка.