Datatieteen
määritelmä

Datatiede eli Data Science yhdistää matematiikan, tilastotieteen ja koneoppimisen. Moderni datalähtöinen päätöksenteon tuki vaatii tämän lisäksi tehokkaan tietojen keräämisen, reaaliaikaisen data-analytiikan, ja tiedon ymmärrettävän esittäminen graafisesti, esimerkiksi dashboardina.

Random Park keskittyy erityisesti matemaattiseen ja tilastolliseen mallinnukseen sekä tietomallien laadintaan. Lisäksi konsultoimme laskenta-alustojen valinnassa ja kokoonpanossa. Erikoisalueemme on eri tekniikoiden yhdistäminen Ubuntu- ja Red Hat Linux -pohjaisille pilvialustoille.

Ohjelmoimme kaiken avoimella lähdekoodilla ja ilman lisenssimaksuja. Tarjoamme erittäin laajan osaamisen, syvällisen ymmärryksen menetelmien toiminnasta sekä käytännön kokemuksen aikaisemmista projekteista. Kultaista vasaraa ei ole: haluamme kuunnella ja selvittää ensin todellisen tarpeen. Vasta sen jälkeen tarjoamme yksilöllisen ratkaisun yksittäisiin tekniikoihin jumiutumatta.

Kuva: Datatiede yhdistää matematiikan, tilastotieteen ja ohjelmistotekniikan ja sovellukset (Zone Research 2014 Guide to Big Data, sivu14).

Matemaattinen ja tilastollinen mallinnus

Tilastollinen mallinnus perustuu havaintoihin; siihen mitä asiakas tekee, mitä järjestelmässä tapahtuu tai mitä hahmoja tunnistetaan virtaavasta datasta? Näiden avulla ennustetaan tulevaa ja tunnistetaan poikkeamia.

Matemaattinen mallinnus puolestaan perustuu mekanismeihin. Malli kertoo matemaattisti sen, mitä tiedetään liki varmasti, kuten fysiikassa, tai oletetaan kokemusperäisesti tapahtuvaksi, kuten taloustieteessä.

Molempien mallinnustapojen avulla voidaan ennustaa lopputulosta, optimoida prosesseja ja arvioida herkkyyttä tai toimien vaikuttavuutta.

Matemaattiset ja tilastolliset menetelmät ovat yhteiskunnan muutoksen ajuri.

Jakauma, jolla on kompakti kantaja Analyyttisiä yhtälöitä

Koneoppiminen

Koneoppimisessa tietokoneohjelma muuttaa käytöstään tarkoituksenmukaisempaan suuntaan saamiensa havaitojen perusteella. Koneoppimisella voidaan esimerkiksi (1) luokitella kuluttajia tai potilaita annettuihin ryhmiin (classification), (2) etsiä mitä ryhmiä ylipäätään on (clustering), (3) ennustaa numeerista vastetta ja (4) toteuttaa tekoälysovelluksia.

Käytämme koneoppimiseen alan parhaita työkaluja. Muun muassa R-kielestä ja Wekasta meillä on vuosikausien kokemus.

ROC-käyräDecision Tree

Tietomallinnus

Esimerkki yksinkertaisesta
tietomallista

Big Data eli massadatan menetelmät ovat mullistaneet tietovarastoinnin.

Teemme tarvittaessa data-analyysiin liittyviä tietomallinnus- ja yhteismitallistamisprojekteja. Työvälineinä ovat sekä perinteiset avoimen lähdekoodin relaatiokannat (PostgreSQL ja MySQL) että Hadoop ja Hive (CHD5).

Avoin lähdekoodi

Tarjoamme räätälöityjä, avoimen alustan ratkaisuja kaikkiin tarpeisiin. Lisenssimaksuttomuuden lisäksi hyötynä on tekniikoiden erittäin laaja testaus ja validointi. Lisensseistä kaikki yleisimmät, kuten BSD, Apache 2.0, ja GPL-lisenssi sopivat myös myytäviin ohjelmistoihin, joskin tietyin rajoituksin. Asiakkaan tarve määrää toteutuksen.

Kokonaisnäkemys

Random Parkin palvelu perustuu kokonaisnäkemykseen, luottamukseen ja henkilökohtaiseen palveluun. Osaamisen perustana on uteliaisuus ja kokemus. Kerromme ylpeästi myös sen, jos emme osaa.

maths stats cs

Kuva. Aikajana