← Back Published on

Riian linkkivinkit: Googlen ilmaiset datatyökalut journalisteille


Amerikkalaisten mediajättien kritisoiminen on helppoa kuin lasta löisi. Mutta kun nyt kerran olemme täällä internetin äärellä, miksei otettaisi siitä kaikkea iloa irti.

Avasin Googlen toimittajia varten rakentaman työkalupakin, ja arvioin, mitkä työkalut voisivat olla hyödyllisiä suomalaisille tietotyöläisille ja tutkijoille. 

Esittelen tässä tekstissä muutaman jännän uutuuden, ja kerron mitä Googlen datatyökaluja itse pidän hyödyllisimpinä. Pakista löytyy myös itseopiskelumoduuleita - Googlen hyödyntämiseen, luonnollisesti. Se on toki nykytoimittajalle olennainen taito, veikkaan.
Tutustu Google News Initiativeen.

Käsittele tekstitiedostoja ja etsi faktoja

Pinpoint on työkalu erinimien ja sijaintien löytämiseen isosta tekstimassasta. Palveluun voit ladata vaikka prujun tutkimuskirjallisuutta PDFnä, ja selailla, mitkä nimet on mainittu missäkin kohdassa. Palvelu ei tarjoa ainakaan tällä hetkellä mahdollisuutta saada tietoja sieltä ulos, aineistoa voi palvelussa ainoastaan selailla. Google vakuuttaa, että tiedot pysyvät yksityisenä.

Käsittääkseni Pinpoint on yksi sovellus koneoppivasta "entity extraction" toiminnosta, joka osaa eristää entiteetteja kuten erisnimiä aineistosta. Google tarjoaa samaa palvelua maksullisena pilvipalvelussaan täysillä ominaisuuksilla. Pinpoint toimii erisnimien eristämiseen erittäin hyvin, ainakin niihin ilmaisten tai testattavien entity extraction työkaluihin verrattuna, joita olen tähän mennessä kokeillut. Se osaa suht. hyvin jopa suomea.

Googlen faktantarkistuskirjasto on mielenkiintoinen paikka. Faktantarkistuksen suomenkielisten sisältöjen osalta tekee ilmeisesti uutisoimisto AFP. Viime kuukausien tarkistetut faktat liittyvät - yllätys - usein koronaan. Alla kuvakaappaus sivuilta. Voit etsiä kirjastosta aineistoja aihesanalla kuten Suomi.

Dataset Search löytää Googlen tiedossa olevia tietokantoja. Google tarjoaa erikseen myös Public Dataset Searchin, jossa on rajoitetummat tietolähteet, mutta dataa näytetään jo etsintänäkymässä visualisoituna. 


Googlen uutisarkistoon on tallennettu uutisia menneiltä vuosiltä.

Tähän listaan lisäisin myös yhden Googlen kätevän työkalun, jota Journalist Studiossa ei ole mainittu: Googlen NGram kertoo, millaisia sanoja Googlen indeksoimissa kirjoissa on käytetty eri vuosina. Esimerkiksi tänä vuonna "trandasi " uusi normaali: Google NGram: “New normal” and other words we used a lot this year.

Monet Journalist Studion sovellukset keskittyvät tällä hetkellä Yhdysvalloista saatuun dataan. Ne kuitenkin näyttävät hienoilta. Esimerkkinä näistä Data Commons.

Data Commons

Data commons hakee dataa eri lähteistä, ja esittää sitä karttana, kahden eri tilastollisen muuttujan suhteena, tai trendikaaviona. Harmillisesti näyttää tällä hetkellä toimivan parhaiten vaan Yhdysvaltojen suhteen. 

Alla karttoja diabeteksen ilmaantuvuudesta suhteessa mediaanituloon. En tiedä mitä tästä pitäisi ajatella.

Data Commonsista löytyy jonkin verran myös Suomea koskevaa dataa. Onko tämä kuranttia, ovatko numerot verrannollisia? Tämä tulisi tarkistaa, ennenkuin miettisi näitä pidemmälle. Voiko Suomessa olla yksi EU:n korkeimmista sähkönkulutuksista per nuppi? Palvelun mukaan vuonna 2001 Suomen lukemat ylittivät Ruotsin. Ehkä, onhan tämä kylmä maa, ja myös sähköllä lämmitetään. Norjan lukuja ei harmillisesti palvelusta löydy.

Tarkastele kaaviota itse täällä: Data Commons, Timelines explorer. 

Google charts ja Google Data Studio - mikä ero?

Kaavioiden tekoon Google Gharts ja Google Data Studio ovat ilmaisten työkalujen joukossa aika lyömättömiä. Ensimmäisellä taittuu mikä vaan perus-visualisointi ja käyttöliittymä on Excel-taitajille tuttu. Jälkimmäinen soveltuu varsinkin verkkosivuille upotettavien "dashboardien" tekoon. 

Myös Chartseilla voi kuitenkin tehdä vuorovaikutteisia, klikkailtavia elementtejä. Ero on kai siinä, että Data Studio on tehty ensisijaisesti päivittyvän datan näyttämiseen,  Charts taas perinteisiin kaavioihin. Sittemmin Chartsiin on lisätty mahdollisuuksia syöttää dataa myös päivittyvien rajapintojen (API) kautta, ja Data Studioon monipuolisempia kaavio-ominaisuuksia.

Google Data Studiolla on toteutettu esimerkiksi lista Suomen käydyimmistä sivustoista: Public Media Site Toplist

Data Studion esimerkkigalleriasta löytyy silmää miellyttäviä visualisointeja, kuten vuoden 2019 googlatuimmat uutiset:

Ylläoleva visualisointi löytyy klikkailtavana Data Studiosta. Creditsit: Data: Google News Lab via Bob Rudis | Original Chart: Danielle Alberti/Axios | Created by Marc Soares

Alla esimerkki siitä, miten Data Studioita voi käyttäää ravitsemustiedon esittämiseen. Lomakkeeseen voi syöttää raaka-aineen nimen, ja systeemi kertoo, onko se aineelle herkälle yes or no.


Googlen visualisointityökaluilla
voit myös tehdä enemmän tai vähemmän hyödyllisiä GIFfejä.

Tiedon visualisointia matemaattisesti kädettömillekin: Flourish

Sokerina pohjalla: paras tähän mennessä testaamani ilmainen työkalu vuorovaikutteisten visualisointien tekoon on Flourish. Hands down. Flourish on listattu Googlen Journalist Studioon, vaikka se ei ole käsittääkseni osa Googlea, vaan akateemisesta datajournalismista kasvanut start-up Englannista. Google on Flourishin asiakas - tai jotain.

Oli miten oli, tällaisiä apuvälineitä arvostavat etenkin he, jotka eivät osaa itse kummoisesti koodata, eivätkä ole matematiikkataidoilla siunattuja, mutta joiden pitää esittää isoja tietomassoja järkeenkäyvästi.

Flourishin Survey-työkalu on viehättävä tapa esimerkiksi asiakaskyselyn tai kvati tai kvali-sisältöanalyysin tulosten esittämiseen.

Alla kuvakaappaus muutamista Flourishin tarjoamista visualisointipohjista. Myös perushommat kuten pylväät, viivat ja piirakat onnistuvat. Käyttöliittymä toimii cut & paste -menetelmällä: omat numerot sisään, tulos heti ulos. Opasteita löytyy, ja se ovat selkeitä.

Esimerkkejä Flourishin käyttötavoista löydät heidän blogistaan, esimerkiksi: Flourish year in review 2021. Blogissa on esitteillä toimintoja kuten raksuttava numerolaskuri, asioiden esittäminen klikkailtavana karusellina, joissa on näytillä niitä varsinaisia visualisointeja. Kuvakaappaus koosteesta alla.

Ota haltuun ainakin nämä: Google Trends ja Google Charts

Google Trends ja Google Charts ovat mielestäni vasaroita minkä ammattilaisen työkalupakkiin. Kukapa ei hyötyisi siitä, että tietää, mikä ihmisiä kiinnostaa? Ja kenen ei tarvisi joskus tehdä edes simppeliä kaavioita esitykseen tai raporttiin?

Google Trends kertoo arvioita siitä, millaisia asioita ihmiset ovat googlettaneet, missä ja milloin. Käyttöohjeet vaikka linkista alta:

Santeri Kallio: Google Trends käyttöopas – Näin tutkit hakutrendejä

Google Chartseihin en löytänyt ajan tasalla olevaa suomenkielistä ohjetta. Mutta eipä toimi koko työkalukaan suomeksi. Kannattaa siis mennä katsomaan paikan päälle. Chartseilla saat tehtyä varmaan kaiken kaavioiden saralla, mihin mielikuvitus riittää. Toki jotkut muut työkalut voivat tarjota jännempiä automatisointeja, jotka ovat hyödyllisiä etenkin niille, joilta ei matematiikka tai koodaus niin suju.

Itse olen ihastunut sanapuihin. Niiden avulla voi esittää vaikka eläinlajien tai konseptien suhteita. Alla esimerkki eliökunnasta. Tee itse perässä, koodiesimerkki löytyy Google Charts -sivuilta.






That's all folks. Have fun!

PS. Googlen dataa löytyy myös palveluista kuten Our World in data, joka esittää tietoja liikkuvuudesta interaktiivisina karttoina. Google itse antaa ne tällä hetkellä vain maakohtaisina PDF:ni. Veikkaan, koska eri maiden tietojen vertaileminen on hankalaa.