R-KORNERI

Ja minähän en R:ää käytä!

Aikaisemmilta vuosilta tuttu Ärräkorneri tekee nyt paluun Kapitaaliin. Ensimmäisessä kirjoituksessa käsitellään R-ohjelmointikielen opettelemisen merkitystä tulevalle ekonomistille.

Tervetuloa Ärräkornerin pariin! 

Ärräkorneri on moniosainen juttusarja, jossa osa Kapitaalin palstatilasta uhrataan nörttiagendan edistämiseen. Tarkoituksenamme on herätellä motivaatiota R:n opiskeluun ja tarjota apua niille, joille R tuntuu vieraalta tai pelottavalta. Lisäksi toivomme, että palstamme tarjoaa elämää helpottavia vinkkejä myös hieman tottuneemmille koodareille. Ensimmäisessä osassa aloitamme aivan perusasioista: minkä takia jokaisen itseään ekonomistiksi tulevaisuudessa kutsuvan tulisi laajentaa osaamistaan Excelistä maagiseen R:n maailmaan?

Excel on varmasti kaikille taloustieteen opiskelijoille tuttu jo ajalta ennen yliopisto-opintojen aloittamista. Harva kuitenkaan törmää R:än ennen fuksivuottaan. Ensireaktio opiskelijalle saattaa olla syvä hämmennys, eikä täysin syyttä. R ja tilastotiede tutuksi -kurssista huolimatta kosketus R:än ja sen käyttömahdollisuuksiin saattaa jäädä varsin pinnalliseksi. Alkuhämmennys saattaa pian muuttua lieväksi ärtymykseksi, joka puolestaan hoitamattomana voi äityä pahanlaatuiseksi turhautumiseksi sekä vihaksi R:ää kohtaan. Lopputuloksena turhautunut opiskelija heittää hanskat tiskiin ja yrittää tehdä ”data-analyysinsä” Excelillä. Toivomme voivamme vaikuttaa siihen, että mahdollisimman harva KTTO:lainen joutuisi tähän pisteeseen.

No eikö se Excel sitten riitä? Mitä mukamas R:llä voi tehdä, jota Excelillä ei voi?

Vertailuasetelma Excelin kanssa on jopa hieman keinotekoinen, sillä nämä kaksi työvälinettä ovat kehitetty täysin erilaiseen käyttöön. Excel on taulukkolaskentaohjelma, joka soveltuu moniin liiketalouden sovelluksiin ja pienempien aineistojen tarkasteluun. R on puolestaan tilastolliseen analyysiin suunniteltu ohjelmointikieli, joka mahdollistaa suurien aineistojen käsittelyn, (hienojen!) grafiikoiden luomisen ja valmiit funktiot lähes kaikkiin tilastotieteellisiin ongelmiin, joihin taloustieteilijä voi törmätä. Varmastikin R:n tärkein ominaisuus onkin sen sisältämät paketit. Paketteja on tälläkin hetkellä yli 10 000 pelkästään CRAN -nimisessä verkostokannassa, josta niiden lataaminen on lapsellisen helppoa, varsinkin R-Studiota käytettäessä.

Monelle ohjelmointiin tottumattomalle opiskelijalle saattaa aineiston ja toiminnallisuuksien erillisyys tuntua vieraalta. Excelissä aineisto on jatkuvasti näkyvissä, ja halutut laskut sekä toiminnot suoritetaan samaan tiedostoon aineiston kanssa. R:ssä kirjoitetaan sen sijaan ohjelmakoodi, joka ajettaessa tekee halutut temput valitulle aineistolle. Excelissä suurempien aineistojen käsittely hidastaa koko ohjelman toimintaa, ja riittävän suuri aineisto lopulta estää ohjelman toiminnan kokonaan. Näin käy, koska aineisto on jatkuvasti aktiivisena, eikä aineiston muutoksia ja analyysia erikseen ajeta kuten R:ssä ja muissa ohjelmointikielissä. Excel soveltuukin huonosti jo vain joitakin tuhansia rivejä sisältävien aineistojen käsittelyyn.

Hyvä syy opetella koodaamaan on samankaltaisten tehtävien toistettavuus. Tekemällä analyysiprosessin R:llä (tai millä tahansa ohjelmointikielellä) kaikki työvaiheet aineiston muovaamisesta analyyseihin tallentuvat ohjelmakoodiin, jolloin pätkiä aiemmin tehdystä ohjelmakoodista voi käyttää uudestaan pienillä muokkauksilla. Tässä vaiheessa on toki hyvä huomauttaa, että myös Excelissä prosesseja voi suorittaa kirjoittamalla ohjelmakoodia Excelin omalla kielellä Visual Basicilla. Se ei kuitenkaan valmiiden toiminnallisuuksiensa puolesta ole lainkaan vertailukelpoinen R:n kanssa.

Monista hyvistä ominaisuuksistaan huolimatta edes R ei ole kaikkivoipa. Sitä ei ole optimoitu esimerkiksi monimutkaisten ohjelmien suunnitteluun tai valtavien tietomäärien käsittelyyn. Jos siis haluat kehittyä data-analytiikan mestariksi, täytyy R:n lisäksi hallita muitakin data-analytiikan työvälineitä. Osaava tilastonikkari pystyy hyödyntämään monia tietoteknisiä menetelmiä ja tarpeen tullen osaa käyttää niitä myös yhdessä. Tilastonikkarin työkalupakkiin kuuluvat kiinteästi SQL-kyselyt ja vähintäänkin perustason osaaminen tietokannoista. R:n lisäksi hyödyllisiä ohjelmointikieliä data-analyytikolle ovat esimerkiksi Python, Mathlab ja Scala

Ja ei sitä Exceliäkään kannata unohtaa, koska kyllähän sitä voi käyttää vaikka sitten, no, muistiinpanojen tekemiseen.

TEKSTI: Meeri Seppänen ja Juho Lähteenmaa

Jatka keskustelua: