Mitä on Data-analyst?
Osana blogisarjaa erilaisista datatiimien rooleista käyn tässä blogissa läpi data-analyst roolin merkitystä osana datatiimiä. Data-analystin rooli voi mukautua ja sekoittua data scientist, data architect tai data engineer tekemiseen projektin mukaan, mutta
lyhyesti tiivistettynä data-analystin tärkein tehtävä on toimia sillanrakentajana liiketoiminnan ja datatiimin välillä. Tämä ei itsessään kerro vielä paljon, joten avaan asiaa kolmen mielestäni tärkeimmän data-analystin taidon kautta.
Data-analystin tärkeimmät taidot:
- Analytiikan taustalla olevan liiketoimintatarpeen ymmärrys
- Datan mallinnus raportointitarpeiden näkökulmasta
- Tarinankerronta datan avulla
Valitsin nämä kolme kokonaisuutta blogiini myös sen takia, että näiden kolmen kokonaisuuden avulla voimme kuvailla ylätasolla miten hyvin tyypillinen data-analytiikka projekti etenee.
Analytiikan taustalla olevan liiketoimintatarpeen ymmärrys
Data-analytiikka pyrkii tukemaan ja parantamaan päätöksentekoa. Konkreettisesti sen tavoitteena on vähentää mutuilua päätöksenteossa ja mahdollistaa tietoon perustuva päätöksenteko. Tämä ei kuitenkaan tarkoita, että hiljainen tieto, kuten kokemukseen tai vaistoon perustuvat näkemykset, katoaisi päätöksenteosta kokonaan. Sen sijaan suhde datan ja hiljaisen tiedon välillä muuttuu. Allegoriana tästä toimii vesilasi: jos historiallisesti päätöksenteon “vesilasissa” on ollut puoli desiä dataa ja puolitoista desiä mutua, data-analytiikka voi auttaa kääntämään tilanteen päälaelleen. Tällöin päätökset perustuvat ensisijaisesti dataan, mutta hiljainen tieto täydentää analyysiä.
Historiallisesti päätöksenteon tueksi on kehitetty useita järjestelmiä, kuten Decision Support Systems (DSS) ja Executive Information Systems (EIS). Nykyisin Business Intelligence (BI) -työkalut edustavat modernia data-analytiikan paradigmaa. BI-työkalut, kuten Power BI ja Tableau, erottuvat EIS-järjestelmistä etenkin kyvyllään yhdistää tietoa useista eri järjestelmistä sekä tarjoamalla mahdollisuuden itsepalveluraporttien rakentamiseen. Tämä tekee BI:stä entistä joustavamman ja käyttäjälähtöisemmän työkalun päätöksenteon tueksi.
Koska data-analytiikan tavoitteena on tukea päätöksentekoa, data-analyytikon on tärkeää ymmärtää, mitä päätöksiä liiketoiminta pyrkii tekemään. Tämä tarkoittaa sitä, että analyytikon on perehdyttävä tarkasti liiketoiminnan tarpeisiin ja niiden erityispiirteisiin. Kysymällä oikeita kysymyksiä ja syventymällä tarpeisiin analyytikko pystyy varmistamaan, että analytiikasta tuotettava tieto vastaa juuri niihin kysymyksiin, joilla on merkitystä liiketoiminnalle. Tämä parantaa analyysin vaikuttavuutta ja auttaa yritystä tekemään tietoon perustuvia päätöksiä.
Datan mallinnus raportointitarpeiden näkökulmasta
BI-työkalut ovat tyypillisesti se paikka mistä eri järjestelmissä olevaa dataa tutkitaan. Tästä syystä BI-työkaluissa taustalla oleva datamalli on kriittinen osa analytiikkaa, sillä huonosti rakennettu datamalli vaikeuttaa analytiikkaa. BI-työkalujen laskentatehokkuus kärsii, jos data malli on huonosti suunniteltu. Tämä johtaa usein analytiikan hitauteen ja lisäkustannuksiin lisenssien osalta.
Datan mallinnus on kriittinen osa dataprojektia, sillä kun datainsinöörit, data-arkkitehdit ja data-analystit ovat samaa mieltä siitä millaista datamallia rakennetaan heidän, välisensä yhteistyö on sujuvampaa. Yhteinen visio siitä miten data tulisi strukturoida tiivistää dataprojektin vision ja näin mahdollistaa tehokkaamman työnteon.
Data-analystin tulisi myös ymmärtää miten eri datamallit vaikuttavat performanssiin visualisointien näkökulmasta ja miten työkalut kyselevät erilaisissa datan tallennusvaihtoehdoissa. Tyypillisesti näissä työkaluissa data on BI-työkalujen datamalleissa joko muistipohjainen (in-memory storage) tai realiaikainen (live connection, directquery). Muistipohjaisissa malleissa dataa kysellään tyypillisesti työkalun omalla teknologialla, (vertipaq, hyper, associative engine), kun taas realiaikaisissa yhteyksissä kielenä on usein, mutta ei aina, SQL.
Datan tallennustyyppi vaikuttaa siihen millainen datamallin tulisi olla data-analytiikan osalta. Tämä on ilmeisintä, kun datamäärät ovat valtavia ja datamallin optimointi on analytiikan edellytys. Esimerkkinä tästä toimii seuraava tilanne:
Yritys X haluaa tutkia varastosaldojaan WMS järjestelmästä missä varastotapahtumat ovat tallennettu kumulatiivisesti. Jotta yritys X saa nykyisen varastosaldon, heidän täytyy laskea varastohistoria 10 vuoden ajalta. Tämä tarkoittaa 500 miljoonan rivin laskentaa.
Tällainen skenaario tulisi nostaa data-analystille paljon kysymyksiä. Mikä on liiketoimintatarve? Millaisia visualisointeja datasta halutaan tehdä? Millä granulariteetti tasolla dataa halutaan tutkia? Voiko kumulatiivisen laskennan tehdä kannassa? Jos liiketoiminta haluaa nähdä datan transaktiotasolla ja mahdollisesti kaiken datan samassa kuvaajassa, osa laskennasta täytyy tehdä jo data-alustalla. Jos laskenta tehdään visualisointitasolla, on todennäköistä, että BI-työkalu antaa seuraavan tyyppisen virheilmoituksen: ” Visual has Exceeded Available Resources”/ ”Out of Memory”. Ratkaisuna voisi olla esimerkiksi malli, jossa data-alustalla lasketaan yhteen tauluun nykyistä kuukautta edeltävät varastosaldot kumulatiivisesti ja Bi-työkalussa tehtäisiin loppuosa laskennasta dynaamisesti. Toisaalta jos liiketoiminnan kanssa käytävästä dialogista ilmenee, että päätöksenteon tueksi riittää kuukausitason näkymä varastosaldoista datan voidaan aggregoida kuukausitason tauluun. Tämä vähentää käsiteltävän datan määrää valtavasti ja näin ratkoo ongelman.
Data-analystin tulee myös pystyä miettimään millainen datamalli vastaa liiketoimintatarpeen vaatimuksiin dimensio- ja faktataulujen osalta. BI-työkaluissa tehtävä analytiikka on luonteeltaan dynaamista ja sen toiminta on usein riippuvainen erilaisista dimensioista millä dataa halutaan suodattaa. Talousanalytiikassa hyvä esimerkki voisi olla kustannuspaikka tai liiketoimintayksikkö kohtainen suodatus. Jotta liiketoiminta käyttäjä voi tarkastella faktataulun pohjalta laskettuja tunnuslukuja dimensiotaulujen relaatiot täytyy olla toimivia. Data-analyst hahmottaa mitä lopullinen raportointi vaatii näiden taulujen osalta ja näin voi kommunikoida vaatimuksen datainsinöörille.
Tarinankerronta datan avulla
Data-analytiikan tavoite on mahdollistaa ”eureka-hetket” jolloin datasta paljastuu havaintoja minkä avulla voidaan tehdä faktaan pohjautuvia päätöksiä. Erilaiset datan visualisointi menetelmät soveltuvat erilaisiin data tyyppeihin juuri tästä syystä.
Olen kirjoittanut blogin siitä, miten voit valita oikean visualisointityypin datalle, mutta otetaan ääriesimerkki siitä, miten datan visualisointi voi mahdollistaa tai esimerkin kohdalla estää havaintojen tekemisen. Seuraavat kaksi kuvaajaa esittävät samaa dataa.
Kuvaaja 1 pinottu Area chart:
Kuvaaja 2 pylväsdiagrammi samasta datasta:
Toisin kun ensimmäisessä kuvaajassa datan tulkitsija voi tehdä johtopäätöksiä datasta ja sen implikaatioista toisessa kuvaajassa. Data-analystin tehtävä on miettiä miten erityyppistä dataa voi esittää niin että siitä voi tehdä käytännöllisiä oivalluksia.
Pelkkä visualisointien oikeanlainen valinta ei kuitenkaan yksinään riitä tähän vaan data-analystin tulee miettiä myös raportointikokonaisuutta. Tämä on erityisen tärkeää, kun data projektissa pyritään rakentamaan itsepalvelu raportointikokonaisuuksia. Dashboardit ja raportit tulee suunnitella dataprojektissa niin, että kokonaisuus ei ole liian ”meluisa”. Enemmän on usein vähemmän raportoinnissa ja erilaisten design periaatteiden miettiminen ja seuraaminen kuuluu data-analystin tontille.
Käytännön esimerkki tästä dataprojektissa on valintojen implikaatioiden kommunikointi liiketoiminnan edustajille. On helppoa mukautua siihen mitä loppukäyttäjä toivoo ja rakentaa juuri sellaista raportointia mitä data-analystiltä pyydetään, mutta mielestäni tällaisessa tilanteessa hyvän data-analystin vastuulle kuuluu ainakin kertoa mitä seurauksia, sillä on datan analysoinnin näkökulmasta, jos raportointi rakennetaan liian monimutkaiseksi ja liian täyteen erilaisia visualisointeja.
Yhteenveto
Yhteenvetona voidaan todeta, että data-analystin rooli on keskeinen osa datatiimiä, ja heidän tehtävänsä on toimia sillanrakentajana liiketoiminnan ja datatiimin välillä. Data-analystin tärkeimmät taidot – liiketoimintatarpeen ymmärtäminen, datan mallinnus raportointitarpeiden näkökulmasta ja tarinankerronta datan avulla – auttavat varmistamaan, että analytiikka tukee liiketoimintapäätöksentekoa tehokkaasti. Data-analysti ei vain valitse oikeita visualisointeja ja rakenna toimivia datamalleja, vaan myös varmistaa, että raportointi on selkeää ja käytännöllistä loppukäyttäjälle. Hyvin suoritettu analytiikka parantaa päätöksenteon laatua ja mahdollistaa tietoon perustuvan päätöksenteon, joka tukee yrityksen strategisia tavoitteita.
DB Pro Services tarjoaa huippuluokan data-analyytikoita, jotka hallitsevat Azure- ja AWS-alustat sekä Databricks-, Snowflake-, Fabric- ja Synapse-tietoalustat. Ota yhteyttä, niin autamme sinua ja organisaatiotasi hyödyntämään dataa tehokkaasti ja tekemään parempia päätöksiä!
Valtteri Nättiaho
Lead Data Analyst
S-posti: Valtteri.Nattiaho(a)dbproservices.fi
LinkedIn: Valtteri Nättiaho | LinkedIn
Puhelin: +358 400 847 405
Valtteri on Power BI:n syväosaaja, joka tykkää ratkoa data-analytiikkaan liittyviä haasteita. Hänellä on kokemusta Power BI:stä vuodesta 2016 alkaen ja pyörittelee ohjelmistoa myös vapaa-ajallaan, jolloin hänet saattaa bongata golf-kentän lisäksi myös Fabricin Power BI foorumeilla, missä hän vastailee Power BI ongelmiin.