Rapidan razvoj informacijskih i komunikacijskih tehnologija (IKT) u znatnoj mjeri mijenja naš podatkovni pejzaž, utječući na sve, od naših svakodnevnih života, preko poslovanja i znanosti, do javne uprave.
Data explosion je termin kojim se opisuje trenutno stanje proizvodnje podataka. Novi (obično umreženi) IKT uređaji (tzv. novi mediji, internetske stvari) samo su neki od faktora koji su doprinijeli sve većem obimu i varijetetu podataka. Gotovo svaka osoba, firma, organizacija ili institucija svakodnevno proizvodi podatke pomoću računara, pametnih telefona, pametnih TV-aparata, samovoznih auta, razne opreme itd. Neke procjene govore o tome da će do 2020. doći do povećanja godišnje stope proizvodnje podataka od 4,300%, što znači da će se 2020. proizvoditi 44 puta više podataka nego 2009. godine.
U tom smislu, nove tehnologije stvaraju preduvjete – a i potrebu – za sofisticiranijim manipuliranjem i analizom podataka. Međutim, izlaženje nakraj s podacima predstavlja sve veći i veći izazov. Nova stvarnost postavlja brojne izazove pred tradicionalne pristupe u empirijskom istraživanju i analizi podataka, garantirajući da se ‘novoj stvarnosti’ ne može izići na crtu bez novih, na tehnologiji zasnovanih tehnika. Sa druge strane, svijest o novim tehnološkim kapacitetima i prilikama stvara sve veću potražnju za sofisticiranijim oblicima korištenja podataka kao što su analize u realnom vremenu, automatizirana obrada podataka i donošenje odluka putem mašinskog učenja itd.
Taj jaz između novih prilika koje su iznikle iz savremenog podatkovnog i tehnološkog pejzaža i starih analitičkih tehnika odnedavno premošćuje tzv. znanost o podacima.
Šta je znanost o podacima?
Iako je termin znanost o podacima raširen u upotrebi, nema konsenzusa oko njegove definicije, a i značenje mu je nejasno. Znanost o podacima često se dovodi u isključivu vezu sa velikim skupovima podataka (Big Data), tj. neopravdano je percipirana kao interdisciplinarno stručno polje isključivo orijentirano na manipuliranje i analiziranje velikih skupova podataka. No, čak i male količine podataka mogu se naći u fokusu znanosti o podacima, tako da se definicija tog polja ne može ograničiti na velike skupove podataka.
Znanost o podacima relativno je mlado polje, još uvijek u nastanku, a može se najjednostavnije definirati kao „znanost o ekstrakciji znanja iz podataka”[i] ili kao interdisciplinarno polje orijentirano ka stjecanju korisnih i primjenjivih uvida na osnovu određenih količina podataka, primjenom znanstvenih metoda, kao i napredne informacijske tehnologije, te tehnika koje podržavaju visokosofisticiranu obradu i analizu podataka. U tehničkim okvirima, znanost o podacima može se definirati pomoću SPIMI (OSEMN) modela, tj. „u odnosu na sljedećih pet koraka: (1) stjecanje podataka (2) pročišćavanje podataka, (3) istraživanje podataka, (4) modeliranje podataka i (5) interpretiranje podataka”[ii].
Dakle, znanost o podacima često se shvata kao presjek napredne statistike, računarstva i konkretne domenske ekspertize (vidi sliku 1).
Slika 1: Venov dijagram znanosti o podacima
Izvor: Management Circle[iii]
Neki autori, kao što su Ben Lorica i Michael Li, tvrde da postoji distinkcija između znanosti o podacima za ljude i znanosti o podacima za mašine. U prvom slučaju, fokus je na stjecanju uvida iz kompleksnih skupova podataka primjenom tehnoloških alatki i rješenja, gdje je „konačni donositelj odluka i korisnik analize drugo ljudsko biće”. U drugom slučaju, fokus je na pronalaženju mašinskih, automatiziranih rješenja za obradu podataka, modeliranje i donošenje odluka, pomoću mašinskog učenja i moćnih algoritama. U tom slučaju, “konačni donositelj odluka i korisnik analize je računar”. Međutim, u oba slučaja koriste se mašinski alati kako bi se podaci učinili razumljivim i/ili upotrebljivim.
S obzirom na to da je znanost o podacima novo polje, ali istovremeno sve prisutnije u poslovnom i akademskom sektoru, došlo je do velikog nerazumijevanja i nejasnoće oko razlika između znanosti o podacima i empirijskog istraživanja i tradicionalne analize podataka. Najčešće pitanje odnosi se na razliku između znanosti o podacima i statistike.
Prije svega, znanost o podacima je šire i, kako je već objašnjeno, interdisciplinarno polje koje „posuđuje od statistike, mašinskog učenja i upravljanja bazama podataka kako bi stvorilo jedan potpuno novi komplet alata za one koji rade s podacima”. Zato je suštinska razlika u tome što „znanost o podacima ističe podatkovne probleme 21. stoljeća, kao što su pristup informacijama iz velikih baza podataka, pisanje koda za manipuliranje podacima, te vizueliziranje podataka”. Drugim riječima, znanost o podacima traga za tehnološki podržanim načinima obrade i manipuliranja kompleksnim podacima – naročito velikim skupovima – ali i nastoji ubrzati, pojednostaviti, pa čak i automatizirati te procese. Za razliku od tradicionalnog istraživača, statističara ili analitičara podataka, podatkovni znanstvenik primjenjuje znanja iz oblasti metodike i matematike te analitičke vještine koristeći programske jezike (npr. Python, R, SQL) i algoritme te druga računarska rješenja (npr. programe za vizuelizaciju, kao što je Tableau) kako bi kompleksne podatke učinio upotrebljivim za rješavanje problema. S obzirom na to da znanost o podacima zahtijeva širok spektar znanja i vještina, a često i specifičnu ekspertizu u određenom domenu kako bi se riješio specifičan problem, uobičajeno je da se formira tim sačinjen od profesionalaca raznih profila koji posjeduju različite vještine za obavljanje zadataka iz domena znanosti o podacima.
Radi ilustracije i boljeg razumijevanja, tabela 1 prikazuje neke od ključnih razlika između pristupa zasnovanog na istraživanju tržišta i pristupa zasnovanog na znanosti o podacima, u slučajevima kada su krajnji ciljevi slični.
Tabela 1: Razlike između tradicionalnog istraživanja tržišta i znanosti o podacima
Izvor: Chris Martin[iv]
Iako je znanost o podacima još uvijek u fazi artikulacije, ekspertiza na tom polju veoma je tražena, a IBM predviđa da će potražnja za podatkovnim znanstvenicima do 2020. skočiti za 28%. Harvard Business Review kaže da je zanimanje podatkovnog znanstvenika „najseksi” posao 21. stoljeća. Prema Glassdoorovoj rang-listi zanimanja koja uzima u obzir broj slobodnih radnih mjesta, zadovoljstvo poslom i centralnu vrijednost osnovne godišnje plaće – profesija podatkovnog znanstvenika je na samom vrhu ljestvice u SAD za 2017. godinu, čime je postala najbolje zanimanje u toj zemlji drugu godinu zaredom. Međutim, vlada nestašica tih kadrova. Naprimjer, prema procjeni McKinsey Global Institute, „Sjedinjene Države suočit će se do 2018. sa deficitom od 190.000 podatkovnih znanstvenika koji su prošli naprednu izobrazbu iz oblasti statistike i mašinskog učenja”.
Znanost o podacima u kreiranju politika
Posljednjih decenija raste svijest da podaci „mogu smanjiti nesigurnost po pitanju najboljeg načina postupanja” u dizajnu politika, tj. da mogu oblikovati bolje procese kreiranja politika i rezultirati adekvatnijim, efikasnijim i efektivnijim javnim politikama. Stoga su kreatori i zagovarači politika često skloni iznošenju argumenata zasnovanih na podacima u korist određenih političkih rješenja, do kojih su obično došli putem pouzdanog empirijskog istraživanja ili analize date teme.
U tom smislu, datafikacija – po riječima Daniela Diermeiera, bivšeg dekana čikaške škole javnih politika Harris School of Public Policy, koji je opisuje kao „sposobnost pretvaranja netradicionalnih izvora informacija kao što su tekst, slike i transakcijski zapisi u podatke” – pružila je kreatorima politika priliku da steknu dublje, na podacima zasnovane uvide u relevantna pitanja i „omogućila kvantitativnoj analizi da prodre u proces kreiranja politika dublje nego ikad prije”. A ta tehnološka realnost stvorila je prilike i/ili potrebu za kompleksnijim, sofisticiranijim i tehnološki zasnovanim pristupom transformaciji podataka u političko djelovanje koje nadilazi tradicionalno empirijsko istraživanje, a taj pristup je znanost o podacima.
Još jedan važan trend – politički, a ne tehnički – koji omogućuje prodor znanosti o podacima u sferu javnih politika jeste otvaranje podataka organa vlasti. Naime, sve veća potražnja za transparentnom, odgovornom i pristupačnom vlasti – koja dolazi od građana ali i od inicijativa poput Open Government Partnership – rezultira sve većim brojem vlada koje odlučuju otvoriti svoje podatke javnosti. Ilustrativan primjer: dok bivši predsjednik SAD-a Barack Obama nije „2012. predstavio svoju direktivu pod nazivom ‘Digital Government’, znanost o podacima igrala je minornu ulogu u izgradnji vladinih politika” s obzirom na to da su podaci bili „relativno nepristupačni kako za javnost tako i za vladino osoblje”. Međutim, američka vlada otvorila je svoje velike skupove podataka – 194.263 skupova u trenutku pisanja – pokretanjem stranice data.gov i time omogućila zainteresiranim stranama da pristupe, analiziraju ili koriste vladine podatke u razne svrhe. Kada podaci postanu otvoreni i dostupni, prilike za njihovu primjenu u raznim sferama, od poslovanja do nadziranja i analize politika, postaju neograničene.
Međutim, sve je jača svijest o tome da znanost o podacima može pružiti „nove izvore dokaza za kreiranje politika”. U tom smislu, mogućnosti i prilike za primjenu podatkovnoznanstvenih rješenja u domenu javnih politika u sve većoj mjeri postaju od interesa. Naprimjer, Data for Policy, neovisna inicijativa pokrenuta 2015. godine, nastoji debatirati o „teoriji i primjeni znanosti o podacima relevantnoj za vlade i politička istraživanja”, okupljajući „akademske institucije, vladine odjele, međunarodne agencije, neprofitne institucije i preduzeća”. Centralni dio inicijative je godišnja međunarodna konferencija koja pokriva teme relevantne za ovaj domen[v].
Korištenje tehnoloških rješenja i znanosti o podacima za donošenje političkih mjera postaje naročito popularno među gradskim upravama u SAD-u. S tim u vezi, američki gradovi „počeli su koristiti podatke koje skupljaju u sve većim količinama kako bi poboljšali planiranje, ponudili bolje usluge i animirali građane”.
Tako, naprimjer, gradska uprava San Francisca primjenjuje određeni vid pristupa zasnovanog na znanosti o podacima da smanji broj saobraćajnih nesreća u gradu. Naime, zbog čestih nesreća u saobraćaju, koje za posljedicu imaju znatan broj izgubljenih života na godišnjem nivou, kao i općenito lošu sigurnost u saobraćaju, vlada je naložila Odjelu za javno zdravstvo (Department of Public Health) i Odjelu za saobraćaj (Department of Transportation) da razviju adekvatne politike kojima bi se riješio taj problem. Odjel za javno zdravstvo i Odjel za saobraćaj odlučili su dati moguća rješenja na tehnološki sofisticiran i podacima zasnovan način. Prvi korak bio je uspostavljanje mehanizma za kontinuirano mapiranje i vizuelizaciju saobraćajnih nesreća u cijelom gradu pomoću softverske platforme TransBase. Zatim, na osnovu prikupljenih podataka, razvijena je mreža Vision Zero High Injury Network kako bi se utvrdilo gdje su nastali glavni problemi i kakve politike vlada treba donijeti. Otkrili su da nesreće koje se dešavaju na „samo 12% raskrsnica za posljedicu imaju 70% teških povreda”. Na kraju, stečeni uvidi pretvoreni su u političko rješenje uvođenjem „zaštićenih raskrsnica”, podzemnih raskrsnica i zaštićenih biciklističkih staza, što su samo neke od mjera.[vi]
Slika 2: Ispis ekrana mreže Vision Zero High Injury Network
Izvor: abhi nemani[vii]
Sve više gradova širom svijeta oprema se raznim tehnološkim rješenjima (npr. aplikacija za pametne telefone koja spaja građane sa javnim servisima, razne vrste senzora i slično), koja omogućuju vlade i druge zainteresirane strane, čime se unapređuje dobrobit građana i funkcioniranje gradova. Međutim, često se dešava da vladini službenici i donositelji odluka nisu svjesni punog potencijala podataka generiranog takvim rješenjima, tj. nedostaje im znanje, vještine i tehnička ekspertiza i/ili tehnološka infrastruktura kako bi stekli korisne uvide iz spomenutih izvora. Drugim riječima, usprkos „tehnologizaciji” gradskih uprava, karika koja nedostaje kako bi se iz prikupljenih podataka mogli ekstrahirati relevantni politički uvidi i optimizirati efektivnost implementiranih IKT rješenja jeste znanost o podacima. Nadalje, „gradovi bi trebali igrati aktivniju ulogu posrednika u korist urbanih podataka” tako što bi postali „čuvari lokalnog podatkovnog ekosistema” i poticali građane i relevantne aktere da dijele podatke, štiteći pritom privatnost i garantirajući transparentnost algoritama.
Važnost i potencijale znanosti o podacima u upravljanju i kreiranju politika prepoznaju i akademske institucije. U tom smislu, pokreću se studijski programi u tom polju kako bi studentima i široj zajednici pružili vještine i znanja koja idu ukorak s tehnološkim razvojem. Univerzitet u Chicagu utire put u tom domenu, pokretanjem obrazovnih i istraživačkih programa. Tako, naprimjer, magistarski program računarske analize i javnih politika na tom univerzitetu kombinira „tradicionalni kurikulum iz oblasti javnih politika sa izobrazbom iz oblasti znanosti o podacima – uključujući teme kao što su programiranje, baze podataka i mašinsko učenje” – i omogućuje studentima stjecanje „stručnih i općih vještina potrebnih da se pokrije nedostatak talenata za analizu podataka u javnom sektoru”. Na istom tom univerzitetu osnovan je Centar za znanost o podacima i javne politike (Center for Data Science and Public Policy) sa ciljem pružanja podrške izobrazbi profesionalaca koji su u stanju primijeniti znanje iz oblasti znanosti o podacima na kontest kreiranja politika, potpomaganja istraživanja u tom domenu i razvoja „open-source alata koji neprofitnim organizacijama i vladama omogućuju da počnu koristiti znanost o podacima”.
Znanost o podacima i nevladini akteri na polju javnih politika
Iako je znanost o podacima još uvijek u povojima, jasno je da će tehnološki trendovi u velikoj mjeri oblikovati budućnost javnog upravljanja i kreiranja politika. Vlade postaju sve svjesnije takvih trendova, te im se sve više prilagođavaju, a znanost o podacima počinje igrati sve važniju ulogu u javnim politikama.
Pored toga, jača svijest o tome da bi građansko društvo trebalo uhvatiti korak s tim trendovima kako bi osiguralo demokratskije upravljanje, odgovornost i utjecaj neinstitucionalnih aktera na kreiranje politika. U skladu s tim, inicijative poput Civic Analytics Network i Data Science for Social Good, promoviraju primjenu znanosti o podacima na rješavanje stvarnih problema zajednica, pružaju neophodne alate (ili tehnološku infrastrukturu) te obrazuju profesionalce i osnažuju građansko društvo kako bi ono moglo učestvovati u kreiranju politika služeći se tehnologijama i rješenjima znanosti o podacima. Drugim riječima, takve inicijative pokušavaju pomoći zajednicama da prevladaju nedostatke znanja i tehnološke barijere učešću u kreiranju politika u savremenom podatkovnom okruženju.
Novi podatkovni pejzaž donosi nove prilike, i to ne samo vladama već i drugim zainteresiranim stranama uključenim u procese donošenja politika. Dok vlade već čine prve korake ka inkorporiranju znanosti o podacima u upravljanje, nevladini akteri će taj trend morati ozbiljnije shvatiti u narednom periodu, te svoj rad i kapacitete prilagoditi tako da mogu odgovarati na probleme koji se tiču politika analizom i stavljanjem u upotrebu kompleksnih skupova podataka. S tim u vezi, svi akteri, od građanskih pokreta do think tankova, morat će više pažnje posvetiti jačanju kapaciteta za primjenu znanosti o podacima. To u konačnici znači da će znanstvenici koji se bave podacima igrati sve važniju ulogu, zajedno sa istraživačima i analitičarima, u analizi javnih politika i formuliranju zahtjeva koji se u njima postavljaju.
[i] Lehigh University, Data Science and Analytics, https://goo.gl/uCHdrV
[ii] Jeroen Janssens, Data Science at the Command Line (Sebastopol: O’Reilly Media, 2015), str. 2, https://goo.gl/yVGCXs
[iii] Marina Vogt, Was ist eigentlich Data Science? In Management Circle (21. 2. 2017), https://goo.gl/AURqNv
[iv] Chris Martin, Market Research vs Data Science: What's the Difference? In FlexMR (15. 6. 2016), https://goo.gl/AfGGwD
[v] U posljednje dvije godine obrađene su sljedeće teme: „Kreiranje politika u doba velikih skupova podataka: prilike i izazovi” (Policy-making in the Big Data Era: Opportunities and Challenges) (2015) i „Obzori znanosti o podacima u službi vlada: ideje, prakse i projekcije” (Frontiers of Data Science for Government: Ideas, Practices, and Projections) (2016). Treća godišnja konferencija, pod nazivom „Vladanje putam algoritama” (Government by Algorithm), bit će održana u septembru 2017.
[vi] abhi nemani, „Data-Driven Policy”: San Francisco just showed us how it should work in Medium (28. 8. 2016)
[vii] abhi nemani, „Data-Driven Policy”: San Francisco just showed us how it should work in Medium (28. 8. 2016)