Kuinka valita oikea visualisointimuoto datalle – ohjeet eri tilanteisiin

Valtteri Nättiaho

Datan visualisointi
Datan visualisointi

Prosessi

Datan visualisoinnissa oikean visualisointityypin valinta on kriittinen osa raportointia ja data-analytiikkaa. Käsittelen tässä blogissa prosessia ja mitä sinun tulisi pitää mielessä, kun päätät, minkä kuvaajan valitset eri tilanteisiin.

Oikean kuvaajan valinta on kolmiosainen prosessi:

  1. Kysy: Miksi raportoimme tätä dataa?
  2. Ymmärrä: Millaista dataa raportoimme?
  3. Valitse: Kun ymmärrät tarkoituksen ja datan visualisoinnin valitseminen on helppoa.

Miksi raportoimme tätä dataa?

Lähestytään datan visualisoinnin valintaa tästä näkökulmasta. Sinulla on varmasti mielessä minkä takia haluat raportoida jotain asiaa. Ehkä haluat ratkoa jokin tietyn ongelman, ehkä sinun täytyy raportoida tietyt luvut muualle organisaatiossasi tai ulkoisille sidoryhmille, tai ehkä haluat vain tietää enemmän liiketoiminnastasi datan valossa. Tässä kuitenkin esimerkkikysymyksiä, joita voit kysyä itseltäsi tai raportoinnin sidosryhmiltä:

  • Haluammeko seurata muutoksia ajan yli?
  • Vertailemmeko kahta muuttujaa toisiinsa?
  • Tutkimmeko miten asiat jakautuvat kategorioiden mukaan?
  • Esitämmekö maantieteellistä dataa?

Millaista dataa raportoimme?

Datan erilaiset dimensio- ja faktatiedot määrittävät, minkäkaltaisesta datasta on kysymys. Näennäisesti samankaltaiset taulut voivat sisältää erilaista dataa, jos tauluun lisätään yksikin sarake. Nämä datan tyypitykset soveltuvat erilaisiin visualisointeihin juuri näiden dimensioiden ja faktojen välisten erojen takia. Konkreettinen esimerkki tästä voisi olla matriisivisualisointi. Jos lähdedatassasi on vain yksi dimensio, sitä ei ole kovinkaan järkevää visualisoida hierarkisessa matriisissa. Ennen keskustelua siitä, millainen data soveltuu mihinkin visuaaliin, määritellään eri tietotyypit.


Datan roolipohjaisia tyypityksiä on seuraavat kategoriat:

  1. Aikasidonnainen data
  2. Kategorinen data
  3. Numeerinen data
  4. Vertaileva data
  5. Hierarkinen data
  6. Maantieteellinen data
  7. Moniulotteinen data
  8. Tekstipohjainen data

Oheiset datatyypit voi tunnistaa dimensiotiedoista, mitä sinulla on saatavilla faktatiedoistasi. Tässä lyhyt jaottelu asioista, mistä datan roolin voi tunnistaa.

  • Aikasidonnainen data: Sisältää aikadimension, jonka yli dataa voidaan tutkia. Dataa kerätään ajan yli kuten päivittäin, viikoittain tai kuukausittain.
  • Kategorinen data: Dimensiodata, joka kertoo lisätietoja faktoista (asiakas, tuote…)
  • Numeerinen data: Laskettavaa faktatietoa, kuten liikevaihto. Soveltuu aggregaatioiden tekemiseen (summa, keskiarvo…)
  • Vertaileva data: Datan perusteella voi kertoa kategorian järjestysnumeron.
  • Hierarkinen data: Data jakautuu tasoihin. (Tuoteryhmä, tuote)
  • Maantieteellinen data: Data perustuu maantietellisiin tietoihin (sijainti, koordinaatit…)
  • Moniulotteinen data: Data sisältää monia eri dimensioita (aika, sijainti, tuote…)
  • Tekstipohjainen data: Data rakentuu sanoista, lauseista tai kappaleista

Käydään läpi, mitä tämä tarkoittaa käytännössä esimerkkien avulla. Oletetaan, että haluat tutkia ja visualisoida liikevaihtodataa. Käytät faktatauluna [SalesOrders] -taulua. Taulun data voisi näyttää esimerkiksi tältä:

Tämänkaltainen data voidaan luokitella kuuluvan suoraan seuraaviin kategorioihin:

  1. Aikasidonnainen
  2. Numeerinen
  3. Kategorinen
  4. Moniulotteinen

Voimme visualisoida datan ajan yli [OrderDate] ja [ShipDate] -kenttien perusteella, joten data on aikasidonnaista. Data sisältää dimensiotietoja (asiakas, tuote), sekä faktatietoja (määrä, hinta, kokonaishinta). Data on sekä kategorista että numeerista. Taulussa ei ole suoraan saatavilla maantiellisiä tietoja siitä, mihin tilaukset ovat toimitettuja. Data sisältää erilaisia dimensioita, kuten asiakkaan ja tuotteen. Data on moniulottiesta. Yksikään sarake ei sisällä merkittävää määrää tekstiä, joten data ei ole tekstipohjaista. Taulu ei sisällä järjestystietoja, kuten mille asiakkaalle on myyty eniten, tai hierarkioita. Data ei ole hierarkista tai vertailevaa.

Datan ja tavoitteen yhdistäminen?

Erilaiset kuvaajat sopivat eri tilanteisiin, ja jotta voit valita oikean datan visualisoinnin sinun tulee tunnistaa, millaista dataa olet raportoimassa. Katsotaan esimerkkejä siitä, millainen visualisointi soveltuu mihinkin dataan.

Erilaisia datakategoroita ja niihin sopivia graaeja

  • Aikasidonnainen data. Aikasidonnaisen datan määrittävä atribuutti on sen aikadimensio. Tästä syystä visuaalit, jotka korostavat tämän dimension merkitystä x-akselilla ovat erinomaisia. Tästä tyypillisimmät variaatiot ovat pylväs- ja viivakaaviot.

Esimerkki: Liikevaihto kuukausittain.

  • Kategorinen data. Kategorinen data korostaa erilaisten dimensioryhmien merkitystä ja datan koostumusta. Tästä syystä visuaalit, jotka esittävät osan suhdetta kokonaisuudesta, ovat hyviä. Näitä ovat muun muassa piirakkakaavio, pinottu pylväsdiakaavio sekä pinottu aluekaavio.

Esimerkki: Liikevaihdon jakauma tuotteittain

  • Vertaileva data. Vertaileva data korostaa kategorioiden välisiä eroja ja järjestystä. Tästä syystä kaaviot, jossa ryhmien erot korostuvat, ovat toimivia. Pylväskaavio, jossa dimensiona on ryhmittely, pistekaavio ja suppilokaavio, ovat hyviä valintoja.

Esimerkki: Tuoteryhmien kokonaiskate

  • Numeerinen data. Numeerinen data on usein perustana monessa visualisoinnissa, mutta kun halutaan korostaa ryhmien jakaumaa, visualisoinnit, kuten laatikkokaavio, viulukaavio ja histogrammi ovat parhaita valintoja.

Esimerkki: Tuoteryhmien katteen jakauma laatikkokaaviossa.

  • Maantieteellinen data. Maantieteellinen data korostaa arvojen sijaintiin pohjautuvaa merkitystä. Tästä syystä erilaiset kartat, olivat ne sitten maantieteellisiä tai pohjapiirrustuksia toimivat hyvin.

Esimerkki: Kaupungissa sijaitsevan kaupan liikevaihto.

  • Moniulotteinen data. Moniulotteinen data vertailee muuttujien keskinäisiä suhteita. Tästä syystä visualisoinnit, mitkä hyväksyvät monta dimensiota, visualisoivat datan toimivasti. Näitä ovat muun muassa pistekaavio, kuplakaavio sekä lämpökartta.

Esimerkki: Markkinointikustannusten vaikutus liikevaihtoon.



  • Hierarkinen data. Hierarkinen data määräytyy parent-child -rakenteen pohjalta erilaisiin tasoihin. Tästä syystä kaaviot, joissa hierarkia korostuu, ovat toimivia. Näitä ovat mm. puukaavio, organisaatiokaavio, matriisi sekä sunburst-kaavio.
  • Tekstipohjainen data. Tekstipohjainen data ei sisällä laskennallisia kovia arvoja. Tästä syystä tekstin kategorisointiin keskittyvät visualisoinnit ovat ainoita järkeviä valintoja. Näitä ovat sanapilvi, esiintymistiheyden taulukko sekä sentimenttikaavio.

Kiinnostuitko aiheesta? Ota yhteyttä niin jutellaan lisää!


Valtteri Nättiaho

Lead Data Analyst

S-posti: Valtteri.Nattiaho(a)dbproservices.fi

LinkedIn: Valtteri Nättiaho | LinkedIn

Puhelin: +358 400 847 405

Valtteri on Power BI:n syväosaaja, joka tykkää ratkoa data-analytiikkaan liittyviä haasteita. Hänellä on kokemusta Power BI:stä vuodesta 2016 alkaen ja pyörittelee ohjelmistoa myös vapaa-ajallaan, jolloin hänet saattaa bongata golf-kentän lisäksi myös Fabricin Power BI foorumeilla, missä hän vastailee Power BI ongelmiin.

Ota yhteyttä