Hyppää pääsisältöön

Pitkäaikaissäilytyksen lyhyt historia I

Tämä on kansallisten digitaalisten pitkäaikaissäilytyspalveluiden rakentumisesta kertovan blogisarjan ensimmäinen kolmesta osasta. Kerron sarjassa tapahtumista, jotka loivat pohjan digitaaliselle pitkäaikaissäilytykselle hallinnollisesti, teknologisesti sekä kyvykkyyksien osalta, ja lopulta johtivat toiminnan käynnistämiseen.

Tässä osassa kerrotaan siitä hallinnollisesta pohjatyöstä, jota tehtiin parin vuosikymmenen ajan ennen kansallisia PAS-palveluita. Sarjan seuraavissa osissa käsitellään digitaalisen pitkäaikaissäilytyksen standardointia ja ohjelmistoja sekä osaamista digitaalisen pitkäaikaissäilytyksen kansallisesta näkökulmasta.

 


 

Digitaalisten aineistojen pitkäaikaissäilytyksellä (PAS) tarkoitetaan toimenpiteitä, joiden avulla näiden aineistojen ymmärrettävyys pystytään säilyttämään periaatteessa pysyvästi. Pelkkä bittien säilyttäminen ei riitä; tiedostojen pitää olla myös tulkittavissa jonkin sovelluksen avulla käyttäjiä varten. Käyttäjät voivat olla ihmisiä tai muita sovelluksia. 

Pitkäaikaissäilytys alkoi Suomessa toden teolla vuonna 2015, kun Tieteen tietotekniikan keskus CSC:n PAS-palvelu otti vastaan ensimmäiset säilytettävät aineistot. Tämä artikkeli kertoo siitä, millainen reitti johti tämän Opetus- ja kulttuuriministeriön alaisten kirjastojen, arkistojen ja museoiden yhteisen järjestelmän perustamiseen. Teknisesti Suomen ratkaisu ei poikkea merkittävästi muissa maissa toteutetuista PAS-palveluista, mutta organisaatio- ja sektorirajat ylittävä yhteistyö on poikkeuksellista. 

Kuvaus perustuu osittain omiin kokemuksiini digitaalisen pitkäaikaissäilytyksen parissa, mutta pyrkii välttämään subjektiivisuutta. 

Kivijalan luonti

Tahtotila 

22. maaliskuuta 2005 Arkistolaitos, Helsingin yliopiston kirjasto – eli silloinen kansalliskirjasto –, Suomen elokuva-arkisto, Tieteen tietotekniikan keskus CSC ja Yhteiskuntatieteellinen tietoarkisto lähettivät Opetusministeriölle johtajiensa allekirjoittaman kirjeen otsikolla Sähköisen tietoaineiston säilyttäminen. 

Kirjeessä todetaan, että sen lähettäneet organisaatiot ovat jo ryhtyneet yhteistyöhön sähköisten aineistojen pitkäaikaissäilytyksen organisoimiseksi. Kun PAS-palvelu käynnistyi vasta 10 vuotta tämän kirjeen jälkeen, voi päätellä, ettei tekninen yhteistyö tässä vaiheessa ollut edennyt pitkälle. Mutta oli syntynyt ehkä jotakin vielä merkittävämpää, eli tahto toteuttaa yhteinen PAS-ratkaisu. Kaikki allekirjoittajatahot ovat yhtä mieltä siitä, että jos niistä jokainen joutuisi ratkomaan pitkäaikaissäilytykseen liittyviä ongelmia itse, tuloksena olisi päällekkäistyötä ja mahdollisesti ennen pitkää myös arvokkaan sähköisen datan menettäminen.  

Kirjeen lopuksi kirjeen lähettäneet organisaatiot esittävät opetusministeriölle ensimmäisenä yhteisenä askelena pitkäaikaissäilytystä Suomessa analysoivan laajapohjaisen työryhmän perustamista. Ryhmän toivottiin laativan esityksen vastuutahoista ja niiden keskinäisestä työnjaosta, pitkäaikaissäilytykseen liittyvistä tehtävistä ja niiden priorisoinnista sekä alustavan arvion ehdotetun toiminnan henkilöstö- ja muista kustannuksista vuosina 2006–2010. 

Kirje johti opetusministeriössä sanoista tekoihin, koska sillä oli pitkäaikaissäilytyshaasteen ratkaisemiseen hallituksen mandaatti. Huhtikuussa 2004 hyväksytyssä tietoyhteiskunnan politiikkaohjelmassa ministeriön vastuulle oli sälytetty sähköisten aineistojen säilytys- ja palvelujärjestelmän suunnittelu. Tätä opetusministeriö ei tietenkään voinut eikä halunnut tehdä yksin. Se tarvitsi tuekseen niitä oman hallinnonalansa organisaatioita, joilla oli joko jo valmiiksi tai lähiaikoina tulossa lakisääteisiä sähköisten aineistojen pitkäaikaissäilytysvastuita. Lähettämällään kirjeellä nämä organisaatiot ilmoittautuivat vapaaehtoisiksi, ja heittivät pallon ministeriölle, jonka vastaus oli Kansallisen elektronisen kirjaston hanke.

Opetusministeriö ei saanut PAS-vastuuta sattumalta. Sen vuonna 2003 julkaisema Kulttuuriperinnön digitointiryhmän eri KULDIn Kulttuuriperintö tietoyhteiskunnassa -strategiadokumentti esitti, että valtion – käytännössä siis opetusministeriön - tulee paitsi rahoittaa kulttuuriperintöaineistojen digitointia, myös turvata resurssit digitoitujen aineistojen pitkäaikaissäilytyksen ratkaisemiseksi (Kulttuuriperintö, s. 14–15). Strategia pohjusti KDK-hanketta myös edellyttämällä muistiorganisaatioiden yhteisen hakujärjestelmän kehittämistä.  

KULDIn strategiassa mainitaan myös Euroopan Unionin neuvoston 25. kesäkuuta 2002 julkistettu päätöslauselma “Huomisen muistin säilyttäminen – digitaalisen sisällön säilyttäminen tuleville sukupolville”. Lauselmassa korostetaan pitkäaikaissäilytykseen liittyvien kysymysten ratkaisemista, digitaalisen kulttuurin ja kulttuuriperinnön säilyttämiseen ja saatavuuteen tähtäävien politiikkojen kehittämistä sekä museoiden, arkistojen ja kirjastojen roolia näissä tehtävissä (Kulttuuriperintö, s. 19). Nämä tehtävät Suomi on hoitanut tavalla, josta muut EU-maat voisivat ottaa mallia. 

Kaikki allekirjoittajatahot eivät osallistuneet ministeriölle lähetetyn kirjeen laatimiseen yhtä aktiivisesti. Aktiivisimmat toimijat olivat Kansallisarkisto ja kansalliskirjasto, jotka olivat keskinäisissä neuvotteluissaan päätyneet siihen, että yhteinen PAS-ratkaisu oli Suomen oloissa ainoa realistinen mahdollisuus. Kansallisarkistosta näissä keskusteluissa sekä kirjeen muotoilussa oli mukana erityisesti arkistoneuvos Raimo Pohjola.     

Teknisestä infrastruktuurista

Tätä kirjoitettaessa tieteelliset julkaisut ilmestyvät ja niitä käytetään etupäässä digitaalisina. Niiden osalta digitalisoituminen alkoi jo 1990-luvun puolivälin jälkeen tieteellisistä kausijulkaisuista. Muu julkaisutoiminta on seurannut perässä. Myös asiakirja-aineistojen digitalisoituminen on ollut sekä kattava että historian valossa nopea prosessi.  

Siirtyminen painetuista aineistoista digitaalisiin edellytti toimivaa teknistä infrastruktuuria. Sen perusta on Internet. Pohjoismaisia korkeakouluja hellittiin toimivilla verkkoyhteyksillä jo 1990-luvun alussa. Kiitos tästä kuuluu kansallisille tutkimusverkoille kuten FUNETille sekä yhteispohjoismaiselle NORDUNET-verkolle. Mutta muualla Euroopassa verkot saattoivat tässä vaiheessa olla epäluotettavia ja hitaita, koska niissä ei vielä ollut omaksuttu Internetin TCP/IP-tietoliikenneprotokollaa. EU:n suositus oli pitkään X.25-pakettiverkon käyttö. Vasta kun siitä oli luovuttu, verkkoyhteydet paranivat riittävälle tasolle. 

Toimiva tietoliikenne oli välttämätön mutta ei vielä riittävä ehto digitaalisen tiedon välitykselle. Lisäksi tarvittiin toimiva siirtoprotokolla aineistojen välittämiseen, ja tätä protokollaa soveltava helppokäyttöinen ohjelmisto. Aina 1990-luvun puoliväliin asti parasta mitä Internet saattoi tarjota, oli tiedostonsiirtoprotokolla FTP. CSC:n tiedostopalvelinta osoitteessa ftp.funet.fi käytettiin ahkerasti esimerkiksi ohjelmistojen välitykseen. Tieteellisen julkaisemisen välineeksi FTP oli kuitenkin liian tekninen. 

Ratkaisuksi tulivat Tim Berners-Leen kehittämä World Wide Web ja Web-selaimet. Web-selaimen tärkeyttä alleviivaa se, että kun Berners-Lee esitteli WWWlle CERNissä rakennettua komentopohjaista käyttöliittymää NORDUnet 93 -kokouksessa Helsingissä helmikuussa 1993, aniharva ymmärsi näkevänsä tulevaisuuden. Konferenssiesitelmän jälkeen illemmalla pidetyssä Birds of Feather -tapaamisessa oli mahdollista saada Berners-Leeltä vielä lisää tietoa. Paikalle vaivautui vain kourallinen konferenssin osallistujia, mukaan lukien allekirjoittanut. En voi väittää, että olisin edes toisella selittämällä ymmärtänyt, mistä oli kyse. Vain kaksi vuotta myöhemmin Web oli jo merkittävä Internetin tietopalvelu (tästä kertoo raporttini NORDUnet 95 -kokouksesta.

Berners-Lee keksi World Wide Webin 1989, mutta ensimmäinen graafinen Web-selain, NCSA Mosaic, julkistettiin vasta tammikuussa 1993. Vuosien viive johtuu muun muassa siitä, että ensimmäinen hyvin toimiva Windows-versio, 3.1, ilmestyi huhtikuussa 1992. Uutuutena siinä oli esimerkiksi multimediatuki.

Mosaicin tilalle tuli lokakuussa 1994 julkaistu Netscape Navigator. Harva Web-käyttäjä muistaa enää tätä sovellusta, jonka kehittäminen päättyi jo 2008. Mutta 30 vuotta sitten se korvasi Windowsin päälle rakennetut sovelluskohtaiset käyttöliittymät, mikä helpotti ratkaisevasti Internet-tiedonlähteiden käyttöä.

1990-luvun puolivälin jälkeen verkkojulkaisemisen edellyttämä tekninen infrastruktuuri oli olemassa, ja sitä alettiin soveltaa. Mutta valmiudet digitaalisten julkaisujen tai asiakirjojen pitkäaikaiseen säilyttämiseen olivat 30 vuotta sitten olemattomat. Puutteita oli sekä lainsäädännössä, standardoinnissa, ohjelmistoissa että resursseissa. Tämä johti siihen, että mitään yhteistä käsitystä siitä, millainen järjestelmä PAS-palvelu on ja miten sen pitää toimia, ei ollut olemassa. 

Kansallinen elektroninen kirjasto -hanke

Ajatus PAS-palvelun toteuttamisesta oli syntynyt jo useita vuosia ennen yllä mainittua kirjettä. Opetusministeriön asettama Kansallinen elektroninen kirjasto -hanke pohti tammikuusta toukokuuhun 1997 keinoja elektronisessa muodossa tarjottavan informaation määrän merkittävään lisäämiseen. 

Työryhmää johti ylitarkastaja Annu Jylhä-Pyykönen, ja sen sihteerinä toimi suunnittelija Annikki Hyvärinen Helsingin yliopiston kirjastosta (eli kansalliskirjastosta). Näiden avainhenkilöiden lisäksi ryhmässä oli kuusi muuta jäsentä, joista monilla oli vahvaa teknistä osaamista:

  • erikoistutkija Juha Hakala, Helsingin yliopiston kirjasto
  • ylikirjastonhoitaja Päivi Kytömäki, Oulun yliopiston kirjasto
  • apulaisprofessori Markku Peltoniemi, Teknillinen korkeakoulu
  • Funetin johtaja Markus Sadeniemi, CSC-Tieteellinen laskenta oy
  • johtaja Kristel Sarlin, Teknillisen korkeakoulun atk-keskus
  • johtaja Jarmo Viteli, Tampereen yliopiston Hypermedialaboratorio

Ryhmän tiukkaa aikataulua selittää se, että Opetusministeriö oli saanut valtion omaisuuden myyntituloja, joita haluttiin sijoittaa kirjastojen kehittämiseen vielä vuoden 1997 kuluessa. 

Ryhmän lukuisat suositukset ovat mielenkiintoista luettavaa. Monet niistä ovat aikojen saatossa unohtuneet, mutta useat myös toteutuneet; jotkin tuota pikaa, jotkin toiset vasta paljon myöhemmin. 

Kansallisen aineiston keskeisinä kehityskohteina mainitaan 

  • vapaakappalelain uudistaminen siten, että myös elektronisessa muodossa julkaistu aineisto saadaan sen piiriin, sekä 
  • yliopistojen ja julkishallinnon oman elektronisen julkaisutoiminnan kehittäminen ja julkaisukäytänteiden yhtenäistäminen esimerkiksi yhteisten standardien avulla. 

Uudistettu vapaakappalelaki astui voimaan vasta vuosikymmentä myöhemmin, mutta lain uudistamisprosessi käynnistyi pian raportin julkaisemisen jälkeen. Yliopistojen oma digitaalisten julkaisujen tuotanto käynnistyi toden teolla 2000-luvulla, kun DSpace ja muut julkaisuarkistosovellukset saatiin käyttöön. Ja opetus- ja kulttuuriministeriön asetustason ohjauksella yliopistojen ja ammattikorkeakoulujen opinnäytteitä on jo usean vuoden ajan julkaistu verkossa vapaasti käytettäviksi arkistokelpoisessa PDF/A-muodossa. 

Kansainvälinen aineisto tulee raportin mukaan hankkia jatkossa pääasiassa julkaisijoiden kanssa tehtävin kansallisin (lisenssi)sopimuksin. Tämä suositus toteutui ensimmäisten joukossa: Helsingin yliopiston kirjastoon eli silloiseen kansalliskirjastoon perustettiin FinELib-hanke 1998, jonka vetäjäksi tuli Kristiina Hormia-Poutanen. Hänen ohjaamanaan FinELib kehittyi kansalliseksi digitaalisten aineistojen lisensointikeskukseksi. 

Kansallisen elektronisen kirjaston hankkeen loppuraportti lienee ensimmäinen opetusministeriön hallinnonalan julkaisu, johon sisältyy ehdotus elektronisten tietoaineistojen sijoittamisesta erillisille arkisto- ja dokumenttipalvelimille (eli PAS-järjestelmiin ja julkaisuarkistoihin).  

Raportin mukaan arkistopalvelin on (Kansallinen, s. 22):

järjestelmä, jota käytetään elektronisten dokumenttien pitkäaikaissäilytykseen. Sillä olevat tallenteet vastaavat nykyisten vapaakappalekokoelmien dokumentteja siinä, että ne eivät ole vapaasti kirjastojen asiakkaiden käytettävissä. Mahdollista pysyvää yleisökäyttöä varten dokumentit kopioidaan dokumenttipalvelimelle. Arkistopalvelinlaitteistot on suojattava tehokkaasti asiatonta käyttöä vastaan, ja arkistoitavat dokumentit on, mikäli mahdollista, koodattava siten, että niiden muutosyritykset havaitaan. 

Raportin mukaan pitkäaikaissäilytys edellyttää muun muassa aineiston konvertointia vanhentuneesta formaatista uuteen sekä kopiointia vanhalta medialta uudelle. Juuri muuta ei PAS-palvelusta kerrotakaan. Tämä ei ole yllätys, olivathan vuonna 1997 sekä julkaisuarkistot että PAS-palvelut olemassa vain paperilla. Mutta CSCn PAS-palvelu toteutui raportissa esitettyjen suuntaviivojen mukaisesti, joskin 18 vuoden viipeellä. Siihen verrattuna julkaisuarkistot tulivat käyttöön tuota pikaa, sillä niitä jouduttiin odottamaan vain vajaat kymmenisen vuotta. 

Raportin mukaan elektronisen kirjaston aineistojen tulee olla haettavissa integroidun, helppokäyttöisen käyttöliittymän kautta. Tämä tavoite toteutui jo vuonna 2004, kiitos Kansalliskirjaston Nelli-metahakupalvelun. Metahaussa sovellettu tekninen ratkaisu (sama haku tehdään käyttäjän valitsemissa etätietokannoissa, ja tulokset kootaan asiakasohjelmassa yhteen) osoittautui ennen pitkää huonosti toimivaksi, ja Nelli poistui käytöstä vuoden 2016 lopussa. Sen korvasi KDK-hankkeen toteuttama Finna-hakupalvelu, jossa etätietokantojen viitetiedot haravoidaan keskitetysti ylläpidettyyn indeksiin. 

NEDLIB

Networked European Deposit Library (NEDLIB) oli Euroopan komission rahoittama hanke vuosina 1998-2000. Hankkeen tavoite oli (van der Werf):

to develop a common architectural framework and basic tools for building deposit systems for electronic publications (DSEP). The project addresses major technical issues confronting national deposit libraries that are in the process of extending their deposit, whether by legal or voluntary means, to digital works.

Hankkeeseen osallistui kahdeksan kansalliskirjastoa (kuten Helsingin yliopiston kirjasto), kolme kustantajaa, kaksi tietotekniikka-alan yritystä sekä yksi kansallisarkisto. Hankkeen vetovastuu oli Koninklijke bibliotheekilla. 

NEDLIBin mahdollisuudet rakentaa ohjelmistoja PAS-palveluille olivat vähäiset, koska tekniset valmiudet etenkin standardoinnin osalta olivat keskeneräiset. Hollannin kansalliskirjastolle rakennettiin kansallisella rahoituksella IBM-keskuskoneen ja emulointiin perustuvan PAS-ratkaisun, josta kirjasto on sittemmin luopunut. Muita käyttäjiä tämä IBM-PAS ei tiettävästi koskaan saanut.  

Yhdessä suhteessa hanke oli kuitenkin merkittävä (van der Werf): 

A major step forward in the conceptual design of a DSEP was made in December 1998, when the project consortium agreed to adopt the Open Archival Information System (OAIS) model as a Reference Model. The fact that the model was being used by other, similar, projects such as CEDARS in the UK and PANDORA in Australia, prompted the decision.  

Kuten Pitkäaikaissäilytyksen viitemalli -luvussa ilmenee, OAIS-standardi oli 1998 vielä keskeneräinen, mutta kuitenkin niin pitkälle kehitetty, että NEDLIB saattoi yksimielisesti hyväksyä sen pitkäaikaissäilytyksen viitemalliksi. NEDLIB-hankkeen tekemän ratkaisun ja projektissa hankitun osaamisen vuoksi Kansalliskirjasto edisti aktiivisesti OAIS-standardin käyttöönottoa PAS-palvelussa.  

Lainsäädännön kehitys

Kansalliskirjastolla on lakisääteinen velvollisuus säilyttää Suomessa julkaistut tai Suomea koskevat julkaisut pysyvästi. Vuoden 2008 alusta voimaan tulleen Kulttuuriaineistolain nojalla kirjasto saa sekä painetut että elektroniset suomalaiset julkaisut, ja voi haravoida itselleen kopiot suomalaisista tai suomenkielisistä verkkoaineistoista.

Kulttuuriaineistolakia edeltänyt vapaakappalelaki vuodelta 1980 ei kattanut digitaalisia julkaisuja. Kansalliskirjasto oli tosin lain nojalla oikeutettu saamaan CD-levyillä tai C-kaseteilla julkaistut äänitteet. Niiden lisäksi kirjastoon toimitettiin CD ROM -pohjaisia tuotteita, kuten pelejä. Niitä ei olisi tarvinnut luovuttaa, eikä kirjastossa pidetty merkittävänä ongelmana sitä, että joitakin pelejä ei luovutettu. Vasta sitten kun Webistä tuli merkittävä julkaisukanava, syntyi akuutti tarve vapaakappalelain uudistamiseen. 

Kansalliskirjaston toiveesta ja Opetus- ja kulttuuriministeriön ohjauksessa lain uudistaminen käynnistyi jo 1997. Lakiluonnokseen kirjattiin jo tässä vaiheessa verkkoaineiston ”haravointia” koskevat periaatteet. Kulttuuriaineistolain §7 sanoo asiasta seuraavaa: 

Kansalliskirjaston tehtävänä on ohjelmallisesti hakea ja tallentaa yleisön saatavilla olevaa verkkoaineistoa tietoverkoista. Haettavaan ja tallennettavaan verkkoaineistoon tulee sisällyttää edustavasti ja monipuolisesti tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa.

Kansalliskirjasto voi käyttää 1 momentin mukaisten tehtävien suorittamisessa apuna ulkopuolisia. Kansalliskirjaston tulee huolehtia siitä, että ulkopuoliset sitoutuvat toimimaan tämän lain mukaisesti.

Tämä pykälä on muotoiltu niin, että aineistoa voidaan haravoida myös verkkoarkistoista. Kansalliskirjasto on tallentanut verkkoa vuodesta 2008, mutta ajassa on mahdollista mennä taaksepäin kaksitoista vuotta. Useat kansalliskirjastot ovat ostaneet täydennystä varhaisen verkkoaineistoonsa Internet Archivesta. 

Verkkoarkiston kannalta tärkeä on myös lain §9: 

Opetusministeriö vahvistaa Kansalliskirjaston esityksestä suunnitelman verkkoaineistojen hakemisen ja tallentamisen laajuudesta sekä verkkoaineistojen luovuttamiskäytännöistä. Suunnitelmassa otetaan huomioon Kansalliskirjaston käytettävissä olevat tekniset ja taloudelliset resurssit, lain tarkoituksenmukaisen tutkimuksen ja kulttuurihistoriallisen arkistoinnin tarpeet samoin kuin verkkojulkaisijoiden tasapuolinen kohtelu.

Verkkoaineisto tulee tallentaa ja arkistoida siten, että aineiston alkuperäisyys on todennettavissa ja että tiedoista käy ilmi aineiston alkuperäinen sijaintipaikka ja tallennusajankohta. Luovutettavaan verkkoaineistoon tulee sisällyttää tieto aineiston alkuperäisestä sijaintipaikasta. 

Verkon haravointia koskeva suunnitelma lisättiin lakiluonnokseen vasta myöhemmin, mutta muilta osin teksti on vanhaa perua. Vaatimus haravoidun aineiston eheyden mahdollistavan tiedon kuten tiedoston tarkistussumman ja alkuperäisen sijaintipaikan tallentamisesta on tärkeä. Julkishallinnon asiakas voi esimerkiksi riitauttaa asiansa väittämällä, että hän on noudattanut verkossa ollutta ja sittemmin kadonnutta ohjetta, jossa neuvottiin toimimaan tietyllä tavalla. Verkkoarkiston avulla voidaan todentaa, onko asiakas oikeassa. 

Verkon haravoinnin pioneereja ovat Internet Archive ja Ruotsin kansalliskirjasto. Edellinen käynnisti koko World Wide Webin haravoinnin toukokuussa 1996, ja Kungliga biblioteket aloitti KulturARW3-hankkeen 1997. Käytännön työstä vastasi Ruotsissa pitkään Lundin yliopiston kirjaston Netlab-yksikkö, jonka kanssa Kansalliskirjasto teki tiivistä yhteistyötä. Tämän yhteistyön ansiosta kirjastolla oli tekninen tietämys ja osaaminen, jota lakiluonnoksen laadinta edellytti. 

Internet Archiven ja KulturARW3-hankkeiden käynnistyessä verkon haravointi ei ollut valtavirtaa, päinvastoin. Muistan EU:n julkaisseen raportin, jossa kirjastoja kehotettiin jättämään Webissä julkaistu aineisto huomiotta. Tähän oli kaksi perustetta: Webissä ei julkaista mitään merkittävää, eikä kirjastoilla ole resursseja verkkoaineistojen kuvailuun. Mutta jokaiselle Webin kehitystä alusta asti seuranneelle oli selvää, että siitä kehittyy merkittävä tiedon välityskanava. Eikä verkkojulkaisuihin tarvinnut eikä pitänytkään soveltaa kirjastojen perinteisiä työmenetelmiä. Haravoidut tekstit voitiin indeksoida koneellisesti. 

Verkon haravoinnin sisällyttäminen lakiin ei sujunut helposti. Ensimmäinen kompastuskivi oli se, että tekijänoikeusjärjestöjen edustaja työryhmässä edellytti, että haravointiin hankittaisiin Web-palvelimen omistajan kirjallinen lupa. Tässä vaiheessa Web-palvelimia oli Suomessa vielä rajallinen määrä, ja esimerkiksi Britanniassa vastaava vaade kirjattiin lakiin. Ei liene yllätys, että siellä tämän periaatteen noudattaminen kävi pian mahdottomaksi. Kulttuuriaineistolakia viimeisteltäessä luvan hankkimisesta ei enää keskusteltu.

Vaikka lain uudistaminen käynnistyi ripeästi, prosessi kesti melkein kymmenen vuotta. Tähän viivästykseen on hyvät perustelut. 

Vapaakappalelain ohella ministeriöllä oli akuutti tarve uudistaa myös elokuvien arkistoinnista vuonna 1984 annettu laki. Uuteen lakiin haluttiin sisällyttää oikeus radio- ja TV-ohjelmien haravointiin, mihin digitaaliset lähetysverkot olivat luoneet edellytykset. 

Teknisesti radio- ja tv-ohjelmien haravointi on helpompaa kuin Webin haravointi, koska aineistojen tiedostomuotoja on vähän, ja ne tiedetään etukäteen. Verkon haravoinnissa varsinkin alkuvaiheessa oli paljon teknisiä haasteita http-palvelimien teknisen kypsymättömyyden ja epästandardien tiedostojen vuoksi. Mutta TV-ohjelmat vievät paljon levytilaa, ja niiden tallentaminen olisi vielä 1990-luvun lopussa tullut aivan liian kalliiksi. Tämä ongelma oli Kulttuuriaineistolain voiman tullessa onneksi jo poistunut päiväjärjestyksestä.

Periaatteellisempi ongelma oli se, ettei Kulttuuriaineistolakiin voinut sisällyttää merkittäviä tekijänoikeuden rajoituksia. Sellaisia ovat periaatteessa kaikki pitkäaikaissäilytyksen edellyttämät toimet: säilytettävän julkaisun kopiointi eri tallenteelle, muuntaminen toiseen tiedostomuotoon sekä mahdollisen kopiosuojauksen poisto.   

Nämä rajaukset kirjattiin ensin Tekijänoikeusdirektiiviin. Kirjaston kannalta onnekkaasti Jukka Liedes Opetus- ja kulttuuriministeriösta osallistui direktiivin laadintaan. PAS-toiminnan tarpeet selitettiin Liedekselle, ja hän huolehti niiden sisällyttämisestä direktiiviin, joka puolestaan mahdollisti oman tekijänoikeuslakimme uudistamisen. Siihen lisättiin vuonna 2005 §16, jossa sanotaan muun muassa seuraavaa: 

Valtioneuvoston asetuksella säädettävä arkisto ja yleisölle avoin kirjasto tai museo saa, jollei tarkoituksena ole välittömän tai välillisen taloudellisen edun tuottaminen, valmistaa kappaleita omissa kokoelmissaan olevasta teoksesta:

  1. aineiston säilyttämistä ja sen säilyvyyden turvaamista varten;

Kulttuuriaineistolain §19 täsmentää: 

… luovutus- tai tallettamisvelvollisen tulee huolehtia siitä, että luovutettavat ja talletettavat aineistot ovat kopioitavissa tallennusvälineeltä toiselle ja muunnettavissa pitkäaikaissäilytykseen sopivaan muotoon teknisten suojausten estämättä. Luovutettavan ja talletettavan aineiston tiedollisen, kuvallisen ja äänellisen sisällön tulee vastata mahdollisimman tarkasti alkuperäisen aineiston sisältöä.

Lain §23 sälyttää velvoitteita PAS-palvelulle ja säilyttävälle organisaatiolle: 

Aineiston säilyttämisen edellyttämän kopioimisen ja muuntamisen toiseen muotoon tulee tapahtua siten, että kopioidun ja muunnetun aineiston tiedollinen, kuvallinen ja äänellinen sisältö vastaa alkuperäistä.  

Tekijänoikeuslain päivityksen jälkeen kuvittelin, ettei matkaan ole enää tulossa lisää mutkia. Se oli virhe; Tietosuojavaltuutettu otti Kansalliskirjastoon yhteyttä ja halusi keskustella uudesta vapaakappalelaista tietosuojan kannalta. 

Jokainen verkkoarkisto on samalla myös henkilörekisteri. Googlen avulla löytää helposti tiettyyn henkilöön (tai johonkin toiseen, saman nimiseen henkilöön) liittyvää tietoa, joka saattaa olla arkaluontoista. Jos esimerkiksi urallaan edennyt poliitikko on vaikkapa 15 vuotta sitten julkaissut verkossa rasistisia mielipiteitä, verkon arkistoinnin vuoksi hän saattaa löytää ne edestään, vaikka alkuperäinen viesti olisi poistettu aikoja sitten. 

Tämä ongelma ei ole uusi. 1930- ja 1940-luvuilla monet julkisuuden henkilöt, kuten vaikkapa V. A. Koskenniemi, julkaisivat äärioikeistolaisia tekstejä, joista on sittemmin häveliäästi vaiettu esimerkiksi heidän henkilöbibliografioissaan. Kansallisbibliografiasta ja kansalliskokoelmasta niitä ei kuitenkaan ole poistettu. Kansalliskirjasto saa edelleen silloin tällöin julkaisujen poistopyyntöjä, mutta niihin ei ole suostuttu. Kansalliskokoelmaa kartuttaessaan Kansalliskirjasto hoitaa lakisääteistä velvollisuuttaan. 

Kansallisbibliografiamme oli pitkään saatavilla vain kirjana, eivätkä kirjojen henkilöhakemistot ole aiheuttaneet ongelmia. Nykyään Fennica on maksutta verkossa haettavissa, eikä sen käyttöä ole vieläkään tarvinnut rajoittaa. Verkkoarkisto on kuitenkin eri mittaluokan haaste, koska ihmiset voivat päätyä verkkoarkistossa haettavaksi monista syistä, kuten vaikkapa lehtiartikkelissa julkistetun vankilatuomioiden vuoksi. 

Tietosuojavaltuutettu antoi meille lopulta synninpäästön. Verkon haravointi on osa Kansalliskirjaston ydintehtävää, joten toiminta pitää sallia. Mutta Suomessa ja muuallakin mahdollisuuksia verkkoarkistojen kokotekstihakuun on rajoitettu. Arkistoista ei voi hakea sivuja esimerkiksi henkilöiden nimillä, vaan vain verkko-osoitteen perusteella.     

Tämä kuvaus on edes jossakin määrin kattava vain digitaalisten julkaisujen osalta. Esimerkiksi asiakirjoja koskevat lainsäädäntö vaatisi erillisen kuvauksen.

Juha Hakala

(Blogisarjan toinen osa, jossa käsitellään digitaalisen pitkäaikaissäilytyksen standardointia ja ohjelmistoja, julkaistaan toukokuun alussa.)

Kirjoittaja

Juha Hakala

 

Juha Hakala, eläkkeellä, toimi erityisasiantuntijana Kansalliskirjastossa. Hän työskenteli digitaalisen säilyttämisen parissa lähes 30 vuoden ajan aina eläkkeelle jäämiseensä vuoteen 2023 saakka. Hän osallistui standardointityöhön ISO:ssa ja IETF:ssä keskittyen tunnistestandardeihin, kuten URN, ISBN ja ISSN. KDK-hankkeessa hän vastasi standardisalkusta. SFS:n Tietohuolto-standardointiryhmän puheenjohtajana Hakala edisti pitkäaikaissäilytyksen viitemallin kääntämistä ja hyväksymistä suomalaiseksi standardiksi.

Lähteet 

  • Kansallinen elektroninen kirjasto. Opetusministeriön työryhmien muistioita 19:1997. Helsinki: Opetusministeriö, 1997.
  • Kulttuuriperintö tietoyhteiskunnassa : strategiset tavoitteet ja toimenpide-ehdotukset. Opetusministeriön julkaisuja 2003:24. Helsinki: Opetusministeriö, 2003. Elektroninen julkaisu, saatavissa: https://urn.fi/URN:ISBN:952-442-520-3
  • van der Werf, Titia: Long term preservation of electronic publications: The NEDLIB project. DLIB Magazine, September 1999. Elektroninen julkaisu, saatavissa: https://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html

Tagit