5. maaliskuuta 2018

Aineistojen tietosuoja luupin alla - jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Ei kommentteja: