Metoder for visuell presentasjon av data. Visualiseringsmetoder. Datavisualisering innen vitenskap og teknologi

Legg igjen en kommentar 6,950

Datagrafikk er et felt innen informatikk som omhandler algoritmer og teknologier for datavisualisering. Utviklingen av datagrafikk bestemmes hovedsakelig av to faktorer: de reelle behovene til potensielle brukere og egenskapene til maskinvare og programvare. Behovene til forbrukerne og teknologiens evner vokser stadig, og i dag brukes datagrafikk aktivt på ulike felt. Følgende bruksområder for datagrafikk kan skilles:

Informasjonsvisualisering.
Modellering av prosesser og fenomener.
Design av tekniske objekter.
Organisering av brukergrensesnittet.

Informasjonsvisualisering

De fleste vitenskapelige artikler og rapporter klarer seg ikke uten datavisualisering. En anstendig form for datapresentasjon er en godt strukturert tabell med de nøyaktige verdiene til en funksjon avhengig av noen variabler. Men ofte er en mer visuell og effektiv form for datavisualisering en grafisk, og for eksempel innen modellering og bildebehandling er den den eneste mulige. Noen typer visning av informasjon av ulik opprinnelse er oppført i følgende tabell:

Mange programmer for økonomiske, vitenskapelige, tekniske beregninger bruker disse og noen andre metoder for datavisualisering. Den visuelle presentasjonen av informasjon er et utmerket verktøy for vitenskapelig forskning, en klar og overbevisende argumentasjon i vitenskapelige artikler og diskusjoner.

Modellering av prosesser og fenomener

Moderne grafikksystemer er kraftige nok til å lage komplekse animasjoner og dynamiske bilder. Simuleringssystemer, også kalt simulatorer, prøver å få og visualisere et bilde av prosessene og fenomenene som oppstår eller kan oppstå i virkeligheten. Det mest kjente og mest komplekse eksemplet på et slikt system er en flysimulator, som brukes til å simulere situasjonen og flyprosessen når man trener piloter. I optikk brukes simulatorer for å simulere komplekse, kostbare eller farlige fenomener. For eksempel simulering av bildebehandling eller simulering av prosesser i laserresonatorer.

Design av tekniske objekter

Design er en av hovedstadiene i etableringen av et produkt innen teknologi. Moderne grafiske systemer lar deg visuelt visualisere det utformede objektet, noe som bidrar til tidlig identifisering og løsning av mange problemer. Utvikleren bedømmer arbeidet sitt ikke bare etter tall og indirekte parametere, han ser designobjektet på sin egen skjerm. Datasystemer gjør det mulig å organisere interaktiv interaksjon med det utformede objektet og simulere produksjonen av en modell fra et plastmateriale. CAD-systemer forenkler og fremskynder arbeidet til designingeniøren, og frigjør ham fra den rutinemessige tegneprosessen.

Organisering av brukergrensesnittet

De siste 5-7 årene har det visuelle paradigmet for å organisere grensesnittet mellom datamaskinen og sluttbrukeren blitt dominerende. Det grafiske grensesnittet med vinduer er innebygd i mange moderne operativsystemer. Settet med kontroller som brukes til å bygge et slikt grensesnitt er allerede ganske standardisert. De fleste brukere er allerede vant til en slik organisering av grensesnittet, som lar brukerne føle seg mer komfortable og øke effektiviteten av interaksjonen.

Alt dette tyder på at et tilstrekkelig stort antall funksjoner allerede må implementeres i selve operativsystemet for å visualisere kontroller. For eksempel gir Windows-operativsystemet utviklere en GDI (Graphics Device Interface). Som praksis viser, for noen applikasjoner, er egenskapene som tilbys av systemets API ganske nok til å visualisere dataene som behandles (bygge de enkleste grafene, som representerer modellerte objekter og fenomener). Men slike ulemper som lav visningshastighet, mangel på støtte for 3D-grafikk bidrar ikke til bruken for visualisering av vitenskapelige data og datamodellering. Noen vitenskapelige og tekniske programmer med komplekse grafiske utdata krever funksjoner for raskere, kraftigere og mer fleksibel visualisering av beregnede data, simulerte fenomener og utformede objekter.

Datagrafikkteknologi

I moderne vitenskapelige og tekniske applikasjoner implementeres kompleks grafikkgjengivelse ved hjelp av OpenGL-biblioteket, som har blitt de facto-standarden innen 3D-gjengivelse. OpenGL-biblioteket er et svært effektivt programvaregrensesnitt til grafikkmaskinvare. Den største ytelsen dette biblioteket lar deg oppnå i maskinvaresystemer som kjører på grunnlag av moderne grafikkakseleratorer (maskinvare som frigjør prosessoren og utfører beregningene som kreves for gjengivelse).

Bibliotekets arkitektur og algoritmer ble utviklet i 1992 av spesialister fra Silicon Graphics, Inc. (SGI) for proprietær Iris-grafikkarbeidsstasjonsmaskinvare. Noen år senere ble biblioteket portert til mange maskinvare- og programvareplattformer (inkludert Intel + Windows) og i dag er det et pålitelig multiplattformbibliotek.

OpenGL-biblioteket er gratis distribusjon, som er dens utvilsomme fordel og årsaken til så utbredt bruk.

OpenGL er ikke et objektorientert, men et prosedyrebibliotek (ca. hundre kommandoer og funksjoner), skrevet i C. På den ene siden er dette en ulempe (datagrafikk er et fruktbart område for bruk av objektorientert programmering), men programmerere som jobber med OpenGL kan jobbe med i C++, Delphi, Fortran og til og med Java og Python.

I forbindelse med OpenGL brukes vanligvis flere hjelpebiblioteker for å hjelpe til med å tilpasse biblioteket i et gitt miljø eller for å utføre mer komplekse, komplekse gjengivelsesfunksjoner som implementeres gjennom primitive OpenGL-funksjoner. I tillegg er det et stort antall spesialiserte grafikkbiblioteker som bruker OpenGL-biblioteket som en lavnivåbasis, en slags assembler, på grunnlag av hvilke komplekse grafikkutdatafunksjoner bygges (OpenInventor, vtk, IFL og mange andre) . OpenGL-brukerfellesskapet finner du på www.opengl.org

Microsoft har også utviklet og foreslår å bruke DirectX multimediebibliotek til lignende formål. Dette biblioteket er mye brukt i spill- og multimedieapplikasjoner, men har ikke fått utbredt distribusjon i vitenskapelige og tekniske applikasjoner. Årsaken er mest sannsynlig at DirectX bare fungerer under Windows.

Denne artikkelen ble skrevet av en representant for DevExpress-selskapet og publisert i en blogg på HabraHabr.

Medisinske forskere har funnet ut at hvis det bare er tekst i instruksjonene for en medisin, assimilerer en person bare 70 % av informasjonen fra den. Hvis du legger til bilder i instruksjonen, vil personen allerede lære 95 %.

Det er åpenbart at en person er disponert for å behandle kun visuell informasjon. Foruten å være utmerket behandlet av hjernen vår, har datavisualisering flere fordeler:

Fokus på ulike aspekter ved data

Ved hjelp av grafer kan du enkelt trekke leserens oppmerksomhet til de røde indikatorene.

Analyse av et stort datasett med en kompleks struktur
Redusere informasjonsoverbelastningen til en person og holde oppmerksomheten hans
Entydighet og klarhet i utdata
Fremheve relasjonene og relasjonene i informasjonen

Viktige data kan lett sees på grafen.

Estetisk tiltrekning

Estetisk tiltalende grafikk gjør presentasjonen av data effektiv og minneverdig.

Edward Tufty, forfatter av noen av de beste bøkene om visualisering, beskriver det som et verktøy for å vise data; oppmuntre betrakteren til å tenke på essensen, ikke metodikken; unngå å forvrenge hva dataene skal si; vise mange tall på en liten plass; viser et stort datasett i en sammenhengende og sammenhengende helhet; be seeren om å sammenligne data; tjene tilstrekkelig klare mål: beskrivelse, forskning, bestilling eller dekorasjon ().

Hvordan bruke datavisualisering riktig?

Suksessen til visualisering avhenger direkte av riktigheten av applikasjonen, nemlig av valget av type diagram, riktig bruk og design.

60 % av visualiseringssuksessen avhenger av valget av graftype, 30 % av riktig bruk og 10 % av riktig design.

Riktig graftype

Grafen lar deg uttrykke ideen om at dataene bærer på den mest komplette og nøyaktige måten, så det er veldig viktig å velge riktig type diagram. Valget kan gjøres i henhold til algoritmen:

Visualiseringsmål- dette er implementeringen av hovedideen til informasjon, dette er hva du trenger for å vise de valgte dataene, hvilken effekt du trenger å oppnå - identifisere forhold i informasjon, vise distribusjon av data, sammensetning eller sammenligning av data.

Den første raden viser grafer med mål om å vise sammenhenger på dataene og fordelingen av dataene, mens den andre raden viser målene om å vise sammensetning og sammenligne data.

Dataforhold– det er slik de er avhengige av hverandre, sammenhengen mellom dem. Ved å bruke relasjoner kan du identifisere tilstedeværelse eller fravær av avhengigheter mellom variabler. Hvis hovedideen til informasjonen inneholder setningene "refererer til", "minker / øker med", må du strebe etter å vise nøyaktig forholdet i dataene.
Fordelingen av data er hvordan den er plassert i forhold til noe, hvor mange objekter som faller inn i visse sekvensielle områder med numeriske verdier. Hovedideen i dette tilfellet vil inneholde setninger "i området fra x til y", "konsentrasjon", "frekvens", "fordeling".

Datasammensetning- kombinere data for å analysere helhetsbildet som helhet, sammenligne komponentene som utgjør en prosentandel av en viss helhet. Nøkkelsetninger for komposisjonen er "x%", "andel", "prosent av helheten".

Sammenligning av data - kombinere data for å sammenligne noen indikatorer, avsløre hvordan objekter forholder seg til hverandre. Det er også en sammenligning av komponenter som endres over tid. Nøkkelsetninger for en idé ved sammenligning er "mer / mindre enn", "lik", "endringer", "øker / minker".

Etter å ha bestemt formålet med visualiseringen, må du bestemme datatypen. De kan være svært heterogene i sin type og struktur, men i det enkleste tilfellet skiller de kontinuerlige numeriske og tidsmessige data, diskrete data, geografiske og logiske data. Kontinuerlige numeriske data inneholder informasjon om avhengigheten av en numerisk verdi av en annen, for eksempel grafer av funksjoner som y = 2x. Kontinuerlige tidsrammer inneholder data om hendelser som skjer over en viss tidsperiode, som en graf over temperaturen målt hver dag. Diskrete data kan inneholde avhengigheter av kategoriske verdier, for eksempel en graf over antall salg av varer i forskjellige butikker. Geografiske data inneholder ulike opplysninger knyttet til plassering, geologi og andre geografiske indikatorer, et godt eksempel er et vanlig geografisk kart. Boolske data viser det logiske arrangementet av komponenter i forhold til hverandre, for eksempel et slektstre.

Grafer av kontinuerlige numeriske og tidsmessige data, diskrete data, geografiske og logiske data.

Avhengig av formålet og dataene kan du velge den mest passende tidsplanen for dem. Det er best å unngå variasjon for variasjonens skyld og velge jo enklere jo bedre. Bare for spesifikke data, bruk spesifikke typer diagrammer, i andre tilfeller er de vanligste diagrammene godt egnet:

lineær (linje)
med arealer
kolonner og histogrammer (stolpe)
kakediagram (pai, smultring)
polar graf (radar)
spre, boble
kart
trær (tre, mentalt kart, trekart)
tidsdiagrammer (tidslinje, gantt, foss).

Linjediagrammer, områdediagrammer og histogrammer kan inneholde flere verdier i ett argument for én kategori, som enten kan være absolutt (da legges prefikset stablet til disse diagramtypene) eller relative (fullstablet).

Diagram med stablede verdier og med fullt stablet

Når du velger en passende tidsplan, kan du bli veiledet av følgende tabell satt sammen fra dette diagrammet og:

Riktig bruk av grafen

Det er viktig ikke bare å velge riktig type diagram, men også å bruke det riktig:

Det er ikke nødvendig å laste grafen med mye informasjon. Det optimale antallet forskjellige typer data, kategorier er ikke mer enn 4-5, ellers er det mer hensiktsmessig å dele et slikt diagram i flere deler.

Et slikt diagram kan sammenlignes med spaghetti og deles best inn i flere diagrammer.

Velg riktig skala og skala for grafen. For histogrammer og plott med arealer er det å foretrekke å starte verdiskalaen på null. Prøv å ikke bruke omvendte skalaer - dette villeder ofte seeren om dataene.

En feil skala påvirker oppfatningen av dataene negativt. I det første tilfellet er skalaen feil valgt, i det andre er skalaen invertert.

For sektordiagrammer og grafer som viser en prosentandel av totalen, skal summen av verdiene alltid være 100 %.
For en bedre oppfatning av dataene er det bedre å ordne informasjonen på aksen - enten etter verdier, eller alfabetisk, eller etter logisk betydning.

Riktig utforming av timeplanen

Ingenting er mer behagelig for øyet enn velformede grafer, og ingenting ødelegger diagrammene mer enn tilstedeværelsen av grafisk søppel. Grunnleggende designprinsipper:

bruk paletter med lignende, ikke lyse farger, og prøv å begrense deg til et sett med seks deler
hjelpe- og sekundærlinjer skal være enkle og ikke iøynefallende

Hjelpelinjer på grafen bør ikke distrahere fra hovedideen til dataene.

der det er mulig, bruk kun horisontale akseetiketter;
for tomter med områder er det å foretrekke å bruke en farge med gjennomsiktighet;
bruk en annen farge for hver kategori på diagrammet.

konklusjoner

Visualisering- et kraftig verktøy for å kommunisere tanker og ideer til sluttbrukeren, en assistent for persepsjon og analyse av data. Men som alle verktøy, må det brukes til rett tid og sted. Ellers kan informasjon oppfattes sakte, eller til og med feil.

Grafene viser de samme dataene, de viktigste visualiseringsfeilene vises til venstre, og de er korrigert til høyre.

Når den brukes dyktig, kan datavisualisering gjøre innhold imponerende, morsomt og minneverdig.

De siste tiårene har nesten revolusjonerende endringer funnet sted innen overføring av visuell informasjon:

volumet og mengden av overført informasjon har økt enormt;

nye typer visuell informasjon og metoder for overføring har utviklet seg.

Teknologisk fremgang og dannelsen av en ny visuell kultur setter uunngåelig sitt preg på kravene til lærernes aktiviteter.

Et av virkemidlene for å forbedre den faglige opplæringen til fremtidige lærere, i stand til pedagogiske innovasjoner, til utvikling av teknologier for å designe effektive pedagogiske aktiviteter til en student under betingelsene for dominansen til det visuelle miljøet, er dannelsen av deres spesielle ferdigheter i visualisere pedagogisk informasjon. Begrepet «visualisering» kommer fra det latinske visualis – oppfattet visuelt, visuelt. Informasjonsvisualisering presentasjon av numerisk og tekstlig informasjon i form av grafer, diagrammer, strukturdiagrammer, tabeller, kart m.m. En slik forståelse av visualisering som en observasjonsprosess forutsetter imidlertid minimal mental og kognitiv aktivitet hos elevene, og visuelle didaktiske verktøy utfører kun en illustrativ funksjon. En annen definisjon av visualisering er gitt i de velkjente pedagogiske konseptene (teorien om skjemaer - RS Anderson, F. Bartlett; teorien om rammer - Ch. Volker, M. Minsky, etc.), der dette fenomenet tolkes som fjerning i prosessen med kognitiv aktivitet fra den interne planen til det ytre planet av mentale bilder, hvis form er spontant bestemt av mekanismen for assosiativ projeksjon.

På samme måte er begrepet visualisering forstått av A. Verbitsky: «Prosessen med visualisering er foldingen av mentalt innhold til et visuelt bilde; blir oppfattet, kan bildet distribueres og tjene som en støtte for tilstrekkelige mentale og praktiske handlinger." Denne definisjonen gjør det mulig å skille begrepene "visuelle", "visuelle midler" fra begrepene "visuelle", "visuelle midler". I den pedagogiske betydningen av konseptet er "visuell" alltid basert på demonstrasjon av spesifikke objekter, prosesser, fenomener, presentasjonen av et ferdig bilde, gitt fra utsiden, og ikke født og utført fra den interne planen for menneskelig aktivitet. Prosessen med å utfolde et mentalt bilde og "overføre" det fra det indre planet til det ytre planet er en projeksjon av det mentale bildet. Projeksjon er innebygd i prosessene for interaksjon mellom subjektet og objektene i den materielle verden, den er avhengig av tenkningsmekanismene, dekker ulike nivåer av refleksjon og refleksjon, manifesterer seg i ulike former for pedagogisk aktivitet.

Hvis vi målrettet betrakter produktiv kognitiv aktivitet som en prosess av interaksjon mellom eksterne og interne planer, som overføring av fremtidige produkter av aktivitet fra den interne planen til den eksterne, som en justering og implementering i den eksterne planen av ideer, så virker visualisering som hovedmekanismen som gir dialog mellom eksterne og interne aktivitetsplaner. Følgelig, avhengig av egenskapene til didaktiske visuelle hjelpemidler, avhenger nivået av aktivering av den mentale og kognitive aktiviteten til studentene.

I denne forbindelse øker rollen til visuelle modeller for presentasjon av pedagogisk informasjon, slik at man kan overvinne vanskelighetene knyttet til læring basert på abstrakt logisk tenkning. Avhengig av typen og innholdet til pedagogisk informasjon, brukes metoder for komprimering eller trinnvis distribusjon ved hjelp av en rekke visuelle midler. Foreløpig ser bruken av kognitiv visualisering av didaktiske objekter ut til å være lovende i undervisningen. Denne definisjonen inkluderer faktisk alle mulige typer visualisering av pedagogiske objekter, funksjon etter prinsippene for konsentrasjon av kunnskap, generalisering av kunnskap, utvidelse av orientering og presentasjonsfunksjoner av visuelle didaktiske midler, algoritmisering av pedagogiske og kognitive handlinger, implementert i visuelle midler.

I praksis brukes mer enn hundre metoder for visuell strukturering - fra tradisjonelle diagrammer og grafer til veikart, edderkopper og årsakslenker. Dette mangfoldet skyldes betydelige forskjeller i kunnskapens art, egenskaper og egenskaper på ulike fagområder. Den største informasjonskapasiteten, etter vår mening, er universaliteten og integrerbarheten til strukturelle og logiske ordninger. Denne metoden for systematisering og visuell visning av pedagogisk informasjon er basert på identifisering av betydelige koblinger mellom elementene i kunnskap og analytisk-syntetisk aktivitet når man oversetter verbal informasjon til ikke-verbal (figurativ), og syntetiserer et integrert system av kunnskapselementer. Å mestre de listede typene konkretiserende betydninger, utfolde en logisk tankekjede, beskrive bilder og deres tegn på mental aktivitet, samt operasjoner som bruker verbale midler for å utveksle informasjon, danner produktive måter å tenke på som er så nødvendige for spesialister i moderne tempo utvikling av vitenskap, teknologi og teknologi. I følge prestasjonene til nevropsykologien er "læring effektiv når potensialet til den menneskelige hjernen utvikler seg gjennom å overvinne intellektuelle vanskeligheter i søken etter mening gjennom etablering av mønstre."

Strukturelle og logiske diagrammer skaper spesiell klarhet ved å arrangere innholdselementer i en ikke-lineær form og fremheve logiske og suksessive sammenhenger mellom dem. Denne synligheten er basert på strukturen og assosiative sammenhenger som er karakteristiske for en persons langtidshukommelse. På en måte fungerer strukturelt-logiske skjemaer som et mellomledd mellom det eksterne lineære innholdet (teksten i læreboken) og det interne ikke-lineære innholdet (i sinnet). Som en av fordelene med de strukturelle logiske kretsene A.V. Petrov understreker at "den utfører funksjonen med å kombinere konsepter i visse systemer." I seg selv kan ikke begreper si noe om innholdet i undervisningsfaget, men knyttet til et bestemt system avslører de fagets struktur, dets oppgaver og utviklingsveier. Å forstå og forstå en ny situasjon oppstår når hjernen finner støtte i tidligere kunnskap og ideer.

Dette innebærer viktigheten av konstant oppdatering av tidligere erfaring for å mestre ny kunnskap. Prosessen med å lære nytt materiale kan representeres som oppfatningen og behandlingen av ny informasjon ved å korrelere den med konseptene og handlingsmetodene som er kjent for studenten, gjennom bruk av de intellektuelle operasjonene han mestrer. Informasjon som kommer inn i hjernen gjennom ulike kanaler konseptualiseres og struktureres, og danner konseptuelle nettverk i bevisstheten. Ny informasjon bygges inn i eksisterende kognitive skjemaer, transformerer dem og danner nye kognitive skjemaer og intellektuelle operasjoner. Samtidig etableres sammenhenger mellom kjente begreper og handlingsmetoder og ny kunnskap, og strukturen til ny kunnskap kommer frem.

I følge psykologer blir ny informasjon assimilert og husket bedre når kunnskap og ferdigheter er "innprentet" i systemet med visuelt-romlig minne, derfor lar presentasjonen av pedagogisk materiale i en strukturert form deg raskt og bedre assimilere nye begrepssystemer , handlingsmetoder. Et eksempel er det visuelle skjemaet: "RGB-fargemodell" (se fig. 2).

Ris. 2.

Visualisering av pedagogisk materiale åpner muligheten for ikke bare å samle alle teoretiske beregninger, som lar deg raskt reprodusere materialet, men også bruke ordninger for å vurdere graden av mestring av emnet som studeres. I praksis er metoden for å analysere et spesifikt diagram eller tabell også mye brukt, der ferdigheter i å samle inn og behandle informasjon utvikles. Metoden gjør at traineer kan være aktivt involvert i anvendelse av teoretisk informasjon i praktisk arbeid. En spesiell plass er gitt til felles diskusjon, der det er mulighet for å få rask tilbakemelding, for å bedre forstå deg selv og andre mennesker. For å oppsummere det som er sagt, merker vi at, avhengig av stedet og formålet med visuelt didaktisk materiale, i prosessen med å danne et konsept (studere en teori, et fenomen), bør ulike psykologiske og pedagogiske krav stilles til valget av en bestemt strukturell modell og visuell visning av treningsinnholdet.

Når du visualiserer undervisningsmateriell, bør det tas i betraktning at visuelle bilder forkorter kjedene til verbale resonnementer og kan syntetisere et skjematisk bilde av en større "kapasitet", og dermed kondensere informasjon. I prosessen med å utvikle pedagogisk og metodisk materiale er det nødvendig å kontrollere graden av generalisering av treningsinnholdet, duplisere den verbale informasjonen til det figurative og omvendt, slik at om nødvendig koblingene til den logiske kjeden gjenopprettes fullstendig. av elevene.

Et annet viktig aspekt ved bruk av visuelt undervisningsmateriell er å bestemme det optimale forholdet mellom visuelle bilder og verbal, symbolsk informasjon. Konseptuell og visuell tenkning i praksis er i konstant samspill. De utfyller hverandre og avslører ulike aspekter ved det studerte konseptet, prosessen eller fenomenet. Verbal-logisk tenkning gir oss en mer nøyaktig og generalisert refleksjon av virkeligheten, men denne refleksjonen er abstrakt. I sin tur hjelper visuell tenkning med å organisere bilder, gjør dem helhetlige, generaliserte, komplette.

Visualisering av pedagogisk informasjon lar deg løse en rekke pedagogiske problemer:

tilbud om intensivering av trening;

forbedre pedagogiske og kognitive aktiviteter;

dannelse og utvikling av kritisk og visuell tenkning;

visuell oppfatning;

figurativ presentasjon av kunnskap og læringsaktiviteter;

kunnskapsoverføring og mønstergjenkjenning;

forbedre visuell kompetanse og visuell kultur.

"De sier at én tegning er verdt tusen ord, og det stemmer, forutsatt at tegningen er bra." Bowman

Med en økning i mengden akkumulert data, selv ved bruk av vilkårlig kraftige og allsidige Data Mining-algoritmer, blir det mer og mer vanskelig å "fordøye" og tolke resultatene som oppnås. Og, som du vet, er en av bestemmelsene i Data Mining søket etter praktisk nyttige mønstre. Et mønster kan bare være praktisk nyttig hvis det kan forstås og forstås.

I 1987, på initiativ av ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, i forbindelse med behovet for å bruke nye metoder, verktøy og datateknologier, ble de tilsvarende oppgavene til visualiseringsretningen formulert.

Metoder for visuell eller grafisk presentasjon av data inkluderer grafer, diagrammer, tabeller, rapporter, lister, strukturelle diagrammer, kart, etc.

Tradisjonelt har visualisering blitt sett på som et hjelpemiddel i dataanalyse, men nå snakker stadig mer forskning om dens uavhengige rolle.

Tradisjonelle bildeteknikker kan finne følgende applikasjoner:

∙ presentere informasjon til brukeren i en visuell form;

∙ kompakt beskrive mønstrene som er iboende i det originale datasettet;

∙ redusere dimensjoner eller komprimere informasjon;

∙ reparere hull i datasettet;

∙ finne støy og uteliggere i et datasett.

Visualisering av datautvinningsverktøy

Hver av Data Mining-algoritmene bruker en spesifikk visualiseringstilnærming. I tidligere forelesninger har vi dekket en rekke Data Mining-metoder. I løpet av bruken av hver av metodene, eller rettere sagt, programvareimplementeringen, mottok vi noen visualisatorer, ved hjelp av hvilke vi var i stand til å tolke resultatene oppnådd som et resultat av arbeidet med de tilsvarende metodene og algoritmene.

∙ For beslutningstrær er dette en visualisering av beslutningstre, en liste over regler, en beredskapstabell.

∙ For nevrale nettverk, avhengig av verktøyet, kan det være nettverkstopologien, en graf over endringen i feilverdien, som viser læringsprosessen.

∙ For Kohonen-kort: kort med innganger, utganger, andre spesifikke kort.

∙ For lineær regresjon fungerer regresjonslinjen som en visualisering.

∙ For gruppering: dendrogrammer, spredningsplott.

Spredningsdiagrammer og plott brukes ofte for å vurdere ytelsen til en metode.

Alle disse måtene å visualisere eller vise data på kan utføre en av følgende funksjoner:

∙ er en illustrasjon av å bygge en modell (for eksempel som representerer strukturen (grafen) til et nevralt nettverk);

∙ hjelp til å tolke det oppnådde resultatet;

∙ er et middel for å vurdere kvaliteten på den konstruerte modellen;

∙ kombinere funksjonene oppført ovenfor (beslutningstre, dendrogram).

Visualisering av Data Mining-modeller

Den første funksjonen (illustrasjon av å bygge en modell), er faktisk en visualisering av Data Mining-modellen. Det er mange forskjellige måter å presentere modeller på, men den grafiske representasjonen gir brukeren maksimal "verdi". Brukeren er i de fleste tilfeller ikke spesialist i modellering, som oftest er han en ekspert på sitt fagområde. Derfor bør Data Mining-modellen presenteres på det språket som er mest naturlig for den, eller i det minste inneholde et minimum antall ulike matematiske og tekniske elementer.

Dermed er tilgjengelighet en av hovedkarakteristikkene til Data Mining-modellen. Til tross for dette er det også en så utbredt og enkleste måte å representere en modell på som en "black box". I dette tilfellet forstår ikke brukeren oppførselen til modellen han bruker. Men til tross for misforståelsen, får han resultatet - de avslørte mønstrene. Et klassisk eksempel på en slik modell er den nevrale nettverksmodellen.

En annen måte å representere modellen på er å presentere den på en intuitiv, forståelig måte. I dette tilfellet kan brukeren virkelig forstå hva som skjer "inne" i modellen. Dermed er det mulig å sikre hans direkte deltakelse i prosessen.

Slike modeller gir brukeren mulighet til å diskutere eller forklare sin logikk med kolleger, klienter og andre brukere.

Å forstå modellen fører til forståelse av innholdet. Som et resultat av forståelse øker tilliten til modellen. Et klassisk eksempel er et beslutningstre. Det konstruerte beslutningstreet forbedrer virkelig forståelsen av modellen, dvs. brukte Data Mining-verktøyet.

I tillegg til forståelse, gir slike modeller brukeren muligheten til å samhandle med modellen, stille spørsmål og få svar. Et eksempel på denne interaksjonen er hva-hvis-anlegget. Gjennom «system-bruker»-dialogen kan brukeren få en forståelse av modellen.

La oss nå gå videre til funksjonene som hjelper til med å tolke og evaluere resultatene av å bygge Data Mining-modeller. Dette er alle slags grafer, diagrammer, tabeller, lister osv.

Eksempler på visualiseringsverktøy som kan brukes til å vurdere kvaliteten på en modell er et spredningsplott, en beredskapstabell og en graf over endringen i feilens størrelse.

Spredningsplott er en graf over avviket til verdiene spådd av modellen fra de virkelige. Disse diagrammene brukes for kontinuerlige verdier. Visuell vurdering av kvaliteten på den konstruerte modellen er bare mulig på slutten av prosessen med å bygge modellen.

Beredskapstabell brukes til å evaluere klassifiseringsresultatene. Slike tabeller brukes til ulike klassifiseringsmetoder. Vi har allerede brukt dem i tidligere forelesninger. Vurdering av kvaliteten på den konstruerte modellen er bare mulig på slutten av prosessen med å bygge modellen.

Grafen for endringen i størrelsen på feilen... Grafen viser endringen i størrelsen på feilen i prosessen med modelldrift. For eksempel, under driften av nevrale nettverk, kan brukeren observere endringen i feilen på trenings- og testsettene og stoppe treningen for å forhindre at nettverket blir "omskolert". Her kan vurderingen av kvaliteten på modellen og dens endringer vurderes direkte i prosessen med å bygge modellen.

Eksempler på visualisatorer som hjelper til med å tolke resultatet er: trendlinje i lineær regresjon, Kohonen-kart, scatterplot i klyngeanalyse.

Bildeteknikker

Visualiseringsmetoder, avhengig av antall målinger som brukes, er vanligvis klassifisert i to grupper:

∙ presentasjon av data i én, to og tre dimensjoner;

∙ presentasjon av data i fire eller flere dimensjoner.

Presentasjon av data i en, to og tre dimensjoner

Denne gruppen av metoder inkluderer velkjente metoder for å vise informasjon som er tilgjengelig for oppfatning av den menneskelige fantasien. Nesten alle moderne Data Mining-verktøy inkluderer visuelle presentasjonsmetoder fra denne gruppen.

I henhold til antall dimensjoner av visningen, kan disse være følgende måter:

∙ endimensjonal (univariat) dimensjon, eller 1-D;

∙ en todimensjonal (bivariat) dimensjon, eller 2-D;

∙ 3D eller projeksjonsmåling, eller 3-D.

Det skal bemerkes at det menneskelige øyet mest naturlig oppfatter todimensjonale representasjoner av informasjon.

Ved bruk av to- og tredimensjonal presentasjon av informasjon har brukeren mulighet til å se mønstrene til datasettet:

∙ dens klyngestruktur og fordelingen av objekter i klasser (for eksempel i et spredningsdiagram);

∙ topologiske trekk;

∙ tilstedeværelse av trender;

∙ informasjon om gjensidig arrangement av data;

∙ eksistensen av andre avhengigheter som er iboende i det studerte datasettet.

Hvis datasettet har mer enn tre dimensjoner, er følgende alternativer mulige:

∙ bruk av flerdimensjonale metoder for å presentere informasjon (de diskuteres nedenfor);

∙ reduksjon i dimensjon til en-, to- eller tredimensjonal presentasjon. Det er ulike måter å redusere dimensjonen på, en av dem – faktoranalyse – ble diskutert i en av de tidligere forelesningene. Selvorganiserende Kohonen-kart brukes til å redusere dimensjonalitet og samtidig visualisere informasjon på et todimensjonalt kart.

Presentasjon av data i 4+ dimensjoner

Representasjoner av informasjon i firedimensjonale og flere dimensjoner er utilgjengelige for menneskelig oppfatning. Det er imidlertid utviklet spesielle metoder for muligheten til å vise og oppfatte slik informasjon av en person.

De mest kjente måtene for multidimensjonal informasjonspresentasjon:

∙ parallelle koordinater;

∙ "Tsjernovs ansikter";

∙ radarkart.

Parallelle koordinater

I parallelle koordinater er variabler horisontalt kodet, med en vertikal linje som definerer verdien til variabelen. Et eksempel på et datasett presentert i kartesiske koordinater og parallelle koordinater er vist i fig. 16.1. Denne metoden for å representere flerdimensjonale data ble oppfunnet av Alfred Inselberg i 1985.

Informasjonsvisualisering

Av tradisjon, la oss starte med en definisjon.

Informasjonsvisualisering- presentasjon av informasjon i form av grafer, diagrammer, strukturdiagrammer, tabeller, kart m.m.

ecsocman.edu.ru

Hvorfor visualisere informasjon? "Dumt spørsmål!" – vil leseren utbryte. Selvfølgelig oppfattes tekst med bilder bedre enn «grå» tekst, og bilder med tekst oppfattes enda bedre. Det er ikke for ingenting at vi alle elsker tegneserier så mye - tross alt lar de oss bokstavelig talt gripe informasjon i farten, tilsynelatende uten den minste mentale innsats! Og husk hvor godt du husker under studiene materialet fra disse forelesningene, som ble ledsaget av lysbilder!

Det første vi tenker på når vi sier visualisering er ϶ᴛᴏ grafer og diagrammer (her er det, kraften til assosiasjoner!). På den annen side kan kun numeriske data visualiseres på denne måten, ingen har ennå klart å bygge en graf basert på sammenhengende tekst. For teksten kan vi bygge en plan, fremheve hovedtankene (oppgavene) - lage en kort oppsummering. Vi vil snakke om ulempene og farene ved å ta notater litt senere, men nå vil vi si at hvis du kombinerer planen og en kort oppsummering - "heng" tesene på grenene til et tre, hvis struktur tilsvarer strukturen (planen) av teksten - da får vi en utmerket blokkdiagram tekst͵ som vil bli husket mye bedre enn noen synopsis. I dette tilfellet vil grenene spille rollen som de "sporene" - spor som forbinder konsepter og teser som vi snakket om tidligere.

Husker du hvordan vi bygde UML-diagrammer basert på beskrivelsen av det utformede programvaresystemet mottatt fra fremtidige brukere? De resulterende bildene ble oppfattet av både klienter og utviklere mye enklere og raskere enn en tekstbeskrivelse. På samme måte kan du "avbilde" absolutt hvilken som helst tekst, ikke bare den tekniske oppgaven for utviklingen av systemet. Tilnærmingen beskrevet ovenfor lar deg visuelt presentere absolutt hvilken som helst tekst - det være seg et eventyr, en teknisk oppgave, en forelesning, en science fiction-roman eller resultatene av et møte - i form av et praktisk og lettfattelig tre . Du kan bygge det som du vil - hvis du bare får et klart og forståelig diagram, som ville vært fint å illustrere med passende tegninger.

Slike ordninger er også praktiske å bruke i kommunikasjon når man diskuterer problemer og problemer. Som praksis viser, skaper ikke fraværet av klare notasjonsstandarder absolutt noen kommunikasjonsvansker for deltakerne i diskusjonene. Tvert imot lar bruken av ikke-verbale former for presentasjon av informasjon deg fokusere på nettopp hovedpunktene i problemet. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, visualisering er et av de mest lovende områdene for å øke effektiviteten til analyse, presentasjon, persepsjon og forståelse av informasjon.

Wow, endelig er vi ferdige med den kjedelige beskrivelsen av vitenskapelige teorier, metoder og teknikker som brukes til å behandle, organisere og visualisere informasjon! Den forrige delen av kapittelet trøtte både forfatteren og leserne sterkt, og likevel var det nødvendig: som et resultat så vi at funksjonene i hjernen vår allerede brukes aktivt av forskere innen forskjellige vitenskapsfelt, mange ting som virker kjent for oss, - personlige datamaskiner, brukergrensesnitt, kunnskapsbaser, etc. - ble opprinnelig bygget under hensyntagen til den assosiative naturen til menneskelig tenkning og dens tendens til hierarkisk representasjon og visualisering av informasjon. Men høydepunktet og det naturlige grafiske uttrykket for menneskelige tankeprosesser er tankekartlegging, som vi endelig diskuterer. Og samtidig vil vi prøve å utvide vår forståelse av prinsippene for visuell tenkning.

Informasjonsvisualisering - konsept og typer. Klassifisering og funksjoner i kategorien "Informasjonsvisualisering" 2017, 2018.