Kuinka juuri teidän yrityksenne voi luoda kilpailuetua oikeaoppisen datan varastoinnin, hallinnan, optimoinnin, integraatioiden ja edistyneen analytiikan avulla?
Varaa ilmainen sparraus, sinulle sopivaan aikaan!
Tietomallinnus – intro
Tämä postaus aloittaa blogisarjani tietomallinnuksesta.
Tietomallinnus, eli tietomallintaminen on tärkein yksittäinen vaihe reaaliaikaisen (OLTP) tietojärjestelmän tai tietovaraston (DW, Datamart) toteutuksessa. Tämän tehtävän suorittaa tyypillisesti asiaan vihkiytynyt tietomallintaja. Tietomallinnus kuvataan usein kaksivaiheisena prosessina: Sen ensisijaisena tarkoituksena on luoda ylätasolla yhteinen käsitekartta liiketoiminnan, tietokantaosaajien (data-arkkitehti, DBA), datainsinöörien (Data Engineer) sekä data-analyytikoiden (Data Analyst) välille. Tällöin puhutaan käsiteanalyysistä. Kun käsiteanalyysi on valmis, valitaan skenaarioon parhaiten sopiva tietomallinnusmetodi ja suunnitellaan ns. fyysinen tietomalli. Fyysisen tietomallin pohjalta voidaan sitten toteuttaa varsinainen tietokanta. Fyysisiä tietomalleja ovat mm.
- OLTP- eli relaatiomalli (3NF)
- Star Schema (tähtimalli)
- Snowflake Schema (lumihiutalemalli)
- Conformed Data Warehouse BUS
- Data Vault
Fyysisen tietomallin tehtävänä on palvella liiketoiminnan tarpeita mahdollisimman tehokkaasti. Hyvä fyysinen tietomalli ottaa liiketoimintatarpeiden lisäksi huomioon mm. seuraavat seikat:
- Tietokantaratkaisun suorituskyky sekä skaalautuvuus käyttöskenaarion mukaan
- Tietomallin ymmärrettävyys
- Tietomallin ylläpidettävyys sekä:
- Tietomallin helppokäyttöisyys tietokantakyselyiden laatimisessa
Usein tietomallinnuksessa tehdään sellainen virhe, että käsiteanalyysin sijaan lähdetään kuvaamaan suoraan tietokannan fyysistä tietomallia, joka johtaa mm. siihen, että DBA tuo turhaan monimutkaisia teknisiä yksityiskohtia liiketoiminnan pohdittavaksi. Lisäksi tuollaisessa lähestymistavassa on merkittävä vaara, että liiketoiminta tulee tähän fyysiseen tietomalliin väärinkuvatuksi ja sitä kautta fyysisen datamallin refaktorointikustannukset voivat olla dramaattiset, etenkin jos ollaan jo tuotannossa. Vaikka jotkin fyysiset tietomallit kuten Data Vault 2.0 ja suoraviivaisesti toteutettu Star schema (full load), antavatkin paremmin anteeksi mahdollisia ”suunnittelukukkasia”. Tämän takia tietomallintamiseen kannattaa suhtautuakin iteratiivisena prosessina, jossa tietomallia hiotaan asteittain, kunnes lopputulos vastaa tarkasti liiketoimintaa. Lisäksi on hyvä tiedostaa, että hyväkään fyysinen tietomalli ei millään tavoin korvaa kyvykkään DBA:n osuutta tietokannan suorituskyvyllisten ominaisuuksien maksimoimisessa, vaan ainoastaan antaa siihen ainoastaan parhaan mahdollisen pohjan. Jos verrattaisiin datahanketta talonrakentamiseen, voitaisiinkin ajatella, että tietomallintaminen on eräänlaista arkkitehtityötä ja tietokannan fyysinen koodaaminen insinöörityötä.
Ylätason käsiteanalyysi
Tietomallinnuksessa olennaisia ovat oliot, olioiden ominaisuudet sekä olioiden väliset suhteet eli relaatiot. Reaalimaailmassa voidaan kuvata miltei mikä tahansa kokonaisuus mielekkäästi ja ymmärrettävästi nk. käsitemallin avulla. Reaalimaailmassa olioita ovat ne asiat, joilla voi olla useita ominaisuuksia eli attribuutteja. Yksittäinen olio voi sitten joko liittyä tai olla liittymättä toisiin olioihin. Tätä suhdetta olioiden välillä kutsutaan relaatioksi.
Ohessa yksinkertaistettu esimerkki koulumaailmasta, jossa mallinnetaan lukion oppilastietojärjestelmää:
Olioita ovat:
- Opettaja
- Oppilas
- Oppiaine
- Kurssi
Ominaisuudet jakautuvat olioittain:
Opettajan ominaisuuksia ovat esimerkiksi:
- Etunimi
- Sukunimi
- Syntymäaika
- Opettajanumero (numero, joka identifioi oppilaan tietojärjestelmässä)
Oppilaan ominaisuuksia ovat esimerkiksi:
- Etunimi
- Sukunimi
- Syntymäaika
- Oppilasnumero (numero, joka identifioi oppilaan tietojärjestelmässä)
Oppiaineen ominaisuuksia ovat esimerkiksi.
- Nimi (Englanti, Matematiikka, Psykologia jne.)
- Kategoria (Kielet, Luonnontieteet, Kasvatustieteet jne.)
Kurssin ominaisuuksia ovat esimerkiksi:
- Nimi (Englannin preppauskurssi abeille, Tilastotieteen perusteet, Johdanto psykologiaan)
- Kesto (Kurssin kesto opintoviikkoina)
- Alkupvm (Esim. 1.4.2023)
- Loppupvm (Esim. 30.5. 2023)
Relaatio siis kuvaa olioiden välistä suhdetta. Relaatioita voi olla erilaisia. Niitä kuvataan käsitteillä ”nolla”, ”yksi” tai ”monta”. Esimerkiksi:
- Opettajalla voi olla ”yhdestä moneen” kurssia opetettavanaan
- Kurssi voi liittyä vain ”yhteen” (=tiettyyn) oppiaineeseen
- Oppilaalla voi olla ”nollasta moneen” kurssia valittuna (kun oppilas aloittaa kurssien valitsemisen niitä ei ole yhtään valittuna)
Tästä voidaan edelleen olemassa olevien sääntöjen varassa päätellä että:
- Opettajalla voi olla ”yhdestä moneen” oppiainetta (joku oppiaine on oltava ja jotkut opettaja hallitsevat useammankin oppiaineen)
- Opettajalla voi olla ”nollasta moneen” oppilasta tietyssä kurssissa (joskus oppilaat eivät valitse tiettyä kurssia ollenkaan)
- Oppilaalla voi olla ”yhdestä moneen” oppiainetta valittuna (pakko olla ainakin yksi oppiaine)
Käsiteanalyysissä muodostuvaa tietomallia voidaan ylätasolla kuvata yksinkertaisimmillaan näin:

Ylätason käsiteanalyysissä on keskeistä kuvata myös olioiden ja attribuuttien synonyymit, kuten liiketoiminnallisten käsitteiden suhde teknisempiin ja ”slangiutuneisiin” termeihin.
Kiinnostuitko aiheesta? Onko organisaatiossasi ehkä käynnistymässä tietojärjestelmähanke, johon tarvitset tietomallintamisen ammattilaisen apua? Ole hyvä ja ota meihin yhteyttä, ehkä voimme olla avuksi!
Jani K. Savolainen
jani.savolainen@dbproservices.fi
0440353637
CEO & Chairman
DB Pro Services Oy