27. huhtikuuta 2018

Uudet sopimusmallit tutkimusaineistojen arkistointiin

Tietoarkisto on uudistanut tutkimusaineistojen arkistointia koskevat yleiset sopimusmallinsa vastaamaan tietosuoja-asetuksen (2016/679) vaatimuksia. Sopimuksia kehitettäessä on lähtökohtana ollut Tietoarkiston tutkijoille tarjoamien palvelujen luotettavuus ja laillisuus.

Rekisterinpitäjä, joka luovuttaa tutkimusaineiston Tietoarkistoon käsiteltäväksi, täyttää uusien sopimusten myötä tietosuojalainsäädäntöön perustuvat omat velvoitteensa, joita edellytetään sopimuksen sisällöstä 25.5.2018 jälkeen. Sopimusjärjestely suojelee samalla tutkittavia huolehtimalla tietosuojan ja -turvan korkeasta tasosta heidän tietojaan käsiteltäessä.

Miksi sopimusmallien päivittäminen oli tarpeellista?

Sopimuksia solmittaessa yleinen lähtökohta on sopimusvapaus, johon kuuluvat muun muassa sisältövapaus ja muotovapaus. Poikkeuksia sopimusvapauteen on pakottavassa lainsäädännössä. Tietosuoja-asetus laajentaa henkilötietolailla (523/1999) kansallisesti toimeenpannun tietosuojadirektiivin (95/46/EY) sopimuksille asettamia vaatimuksia. Tietosuojasopimuksia koski aiemmin etenkin tietosuojadirektiivin 17 artikla, joka edellytti huolehtimaan lähinnä yleisellä tasolla käsittelyn turvallisuudesta ja seuraamaan rekisterinpitäjän ohjeita. Direktiivistä poiketen uusi tietosuoja-asetus määrittelee yksityiskohtaisesti rekisterinpitäjän ja henkilötietojen käsittelijän välisen sopimuksen sisältöä ja muotoa.

Tietoarkisto toimii useimmiten henkilötietojen käsittelijän roolissa tutkimusaineiston toimittaneen rekisterinpitäjän lukuun. Tietosuoja-asetuksen edellyttämät yksityiskohtaiset ehdot on sisällytetty arkistointisopimuksen liitteeksi. Aineiston jatkokäyttöä koskevat perusratkaisut on arkistointisopimuksessa jätetty ennalleen. Jos henkilötietoja sisältävä tutkimusaineisto toimitetaan Tietoarkistolle ennen arkistointisopimuksen tekemistä, solmitaan luovuttajan ja Tietoarkiston välille erillinen sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi.

Kaikki tutkimusaineistot eivät tietenkään sisällä henkilötietoja. Joskus tätä on vaikea arvioida etukäteen tarkastelematta aineistoa. Tämän vuoksi henkilötietojen käsittelyä koskevat sopimusehdot on otettu osaksi kaikkia sopimuksia.

Mitä hyötyä uusista sopimusehdoista on?

Uusilla sopimusehdoilla on useita etuja aineiston luovuttavan rekisterinpitäjän kannalta. Rekisterinpitäjän kannalta henkilötietojen käsittelyä koskevat yksityiskohtaiset sopimusehdot

  • auttavat toteuttamaan tietosuoja-asetuksen 5 artiklan 2 kohdan mukaista osoitusvelvollisuutta
  • lisäävät tutkittavien luottamusta henkilötietojen vastuulliseen käsittelyyn
  • mahdollistavat tutkimusaineiston laillisen siirtämisen Tietoarkiston käsiteltäväksi
  • voidaan ottaa huomioon tietosuojaa koskevassa vaikutustenarvioinnissa.

Sopimusehdoilla on myös etuja aineiston luovuttajan ja Tietoarkiston väliselle yhteistyölle. Sopimus

  • parantaa tiedonkulkua sopijapuolten välillä
  • vahvistaa henkilötietojen käsittelyn turvallisuutta
  • selkeyttää työnjakoa.

Lisätietoa:

» Sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi (PDF)
» Arkistointisopimus (PDF)

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
New contract models for archiving research data.

New contract models for archiving research data

The Finnish Social Science Data Archive (FSD) has updated its general contract models for archiving research data to fulfill the requirements imposed by the General Data Protection Regulation (2016/679, "GDPR"). Central goals in the development process were to maintain trust and ensure the legality of the services provided by FSD to researchers.

Data controllers depositing research data to FSD for processing fulfil their obligations imposed by data protection legislation on the contents of the contract by using the new contract models. The new legislation is enforceable from 25 May 2018. The contractual arrangement also protects research subjects by ensuring high level of data protection and data security.

Why was it necessary to update the contract models?

Freedom of contract is a general principle that includes, for example, freedoms of content and form. Exceptions to freedom of contract usually stem from consumer protection legislation or competition law, for instance. The GDPR broadens the requirements set for contracts between data controllers and data processors, when compared to Directive 95/46/EC on data protection which was implemented in the Finnish legislation by the Personal Data Act (523/1999). Previously, the terms and clauses in contracts on data protection were governed by Article 17 of the Directive. Article 17 contained a rather general requirement to stipulate in a contract on the security of data processing and that the processor follows the instructions of the data controller. In contrast, the GDPR contains detailed provisions on the content and form of a contract between a data controller and a data processor.

In most cases, FSD acts as the data processor on behalf of the data controller who has deposited the research data. The detailed contractual terms required by the GDPR have been included in the annex of the deposit agreement. The fundamental solutions regarding data reuse have been left intact in the agreement. In the event where research data containing personal information is delivered to FSD before a deposit agreement is concluded, the situation is covered by a separate agreement on personal data processing for assessing the suitability of research data for archiving.

All research data do not necessary contain personal data. This is often difficult to evaluate at the outset without reviewing the data in more detail. For this reason, the contractual terms regarding the processing of personal data have been included in all contracts.

Benefits of the new contract terms

The new contractual terms have multiple benefits for data controllers depositing research data. From their point of view, the detailed contract terms on personal data processing

  • facilitate fulfilling the data controller's obligation of accountability in accordance with Article (5)(2) of the GDPR
  • increase research participants' confidence in responsible handling of their data
  • allow to legally transfer research data to FSD for processing
  • can be taken into account when performing data protection impact assessment (DPIA).

The contract terms also have benefits for the cooperation between the depositor and FSD. The contract

  • enhances communication between the contracting parties
  • strengthens the security of personal data processing
  • clarifies the division of obligations and duties.

Additional information:

» Agreement on personal data processing for assessing the suitability of research data for archiving (PDF)
» Deposition Agreement (PDF)

Antti Ketola
lawyer
firstname.surname [at] uta.fi

This blog post is available also in Finnish:
Uudet sopimusmallit tutkimusaineistojen arkistointiin.

3. huhtikuuta 2018

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on "that Invites Computation", eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.


Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi