Pitkäaikaissäilytyksen lyhyt historia III
Tämä on kansallisten digitaalisten pitkäaikaissäilytyspalveluiden rakentumisesta kertovan blogisarjan viimeinen osa. Kerron sarjassa tapahtumista, jotka loivat pohjan digitaaliselle pitkäaikaissäilytykselle hallinnollisesti, teknologisesti sekä kyvykkyyksien osalta, ja lopulta johtivat toiminnan käynnistämiseen.
Tässä osassa käsitellään digitaalisen pitkäaikaissäilyttämisen kyvykkyyksiä. Ensimmäisessä osassa käsiteltiin hallinnoinnin kehitystä ja toisessa osassa toiminnan teknologisia edellytyksiä.
Osaaminen
Viimeisimpänä vaan ei vähäisimpänä pitkäaikaissäilytyksen 90-lukulaisena haasteena esittelen osaamisvajeen. Jos pitkäaikaissäilytyksen edellyttämää lainsäädäntöä, standardeja ja ohjelmistoja ei ollut, mitä tiedettiin? Ja mistä oli mahdollista kertoa?
40 vuotta sitten pitkäaikaissäilytys oli käytännössä bittien säilyttämistä. Muistan, että jossakin vaiheessa PAS-ratkaisuksi markkinoitiin kullattuja CD ROM -levyjä, joille tallennetun datan luvattiin säilyvän lukukelpoisena ainakin sata vuotta. Tallennetun datan tulkintaan tarvittavan sovelluksen säilyttämisestä mainos vaikeni.
1990-luvun puolivälin PAS-osaaminen tiivistyy Jeff Rothenbergin Scientific American -lehden tammikuun numerossa vuonna 1995 julkaistuun artikkeliin Ensuring the longevity of digital documents. Se oli ensimmäisiä laajalevikkisessä lehdessä julkaistuja PAS-artikkeleita, ja monille ensimmäinen askel pitkäaikaissäilytyksen perusteiden opiskeluun. Yleistajuisia tekstejä aiheesta oli 1990-luvulla tarjolla vain vähän. Hyödynsin artikkelin tietoja muun muassa kirjoittaessani pitkäaikaissäilytystä koskevia osuuksia Kansallisen elektronisen kirjaston hankeraporttiin.
Scientific American -artikkelista on verkossa luettavissa päivitetty versio nimellä Ensuring the longevity of digital information (Rothenberg 1999 A). Tässä artikkelissa käytän lähteenä myös toista samana vuonna julkaistua lähdettä, Rothenbergin 1999 Council on Information and Library Resources -organisaatiolle kirjoittamaa raporttia. Sekin on edelleen verkossa luettavissa (Rothenberg 1999 B).
Rothenberg aloittaa ongelman kuvauksen tallennusvälineiden elinkaarista viittaamalla lähteeseen, jonka mukaan se voi olla alle viisi vuotta (Rothenberg 1999 B, s. 7). Aiemmassa artikkelissaan hän arvioi levykkeiden säilyvän lukukelpoisina korkeintaan 5–10 vuotta, magneettinauhojen 2–30 vuotta ja optisten levyjen eli CD- ja CD ROM -levyjen 5–59 vuotta (Rothenberg 1999 A, s, 3).
Levykkeet voivat olla uusi tuttavuus nuoremmille lukijoille, joten pieni kertaus on paikallaan. 1970-luvulta aina 1990-luvulle asti ”lerppujen” ja ”korppujen” eli 3.5 ja 5.25 tuuman levykkeiden hyödyntäminen tallennusvälineinä oli jokapäiväistä. Kun henkilökohtaisten tietokoneiden muistien koko mitattiin kilotavuissa ja kovalevyjen kapasiteetti megatavuissa, ulkoisia tallennevälineitä oli pakko käyttää.
30 vuotta sitten arviot levykkeiden luettavuuden kestosta olivat empiirisiin testeihin perustuneita valistuneita arvauksia. Tätä kirjoitettaessa tiedämme, että esimerkiksi levykkeet voivat säilyä lukukelpoisina paljon Rothenbergin arviota pidempään. Esimerkiksi Cambridgen yliopiston Future nostalgia -projekti pelastaa kymmeniä vuosia vanhoilta levykkeiltä esimerkiksi fyysikko Stephen Hawkingin henkilökohtaiseen arkistoonsa tallentamia dokumentteja.
Ikuisia levykkeet eivät tietenkään ole, eikä niihin ole voinut luottaa enää pitkään aikaan. Niihin, ja kaikkiin muihinkin tallennevälineisiin pätee se, että jokainen arkistoitu tiedosto on säännöllisin väliajoin kopioitava uudelle medialle. Kopioinnissa bittien tulkinnan on säilyttävä samana, vaikka käytettävät laitteistot, varusohjelmistot tai datan pakkausalgoritmi muuttuvat.
Tallenteen lukukelpoisuus ei vielä riitä; yhtä tärkeää on tiedostojen lukemiseen ja ymmärtämiseen tarvittavien laitteiden ja ohjelmistojen saatavuus. Tältä osin tallennetusta datasta saattaa tulla ongelma jo muutamassa vuodessa. Levyke, jolle tallensin Valtion tietokonekeskuksen (VTKK) TEKO-tekstinkäsittelyohjelmalla tekstin vuonna 1987, voi olla yhä lukukelpoinen. Mutta levykkeen lukeminen ja tekstin avaaminen edellyttää toimintakuntoista MikroMikko 2 -tietokonetta. Lisäksi tarvitaan joku, joka tietää riittävästi laitteen omasta MS-DOS -käyttöjärjestelmäversiosta ja TEKO-ohjelmistosta.
Tämä asiantuntija – mitä luultavimmin eläkeläinen - tarvitsee ohjelman, jolla TEKO-tiedosto voidaan muuntaa uudempaan tiedostomuotoon, ja välineet, joilla uusi tiedosto voidaan siirtää modernille laitteelle. MikroMikko 2 -laitteen kytkeminen paikallisverkkoon ei ole mahdollista, joten väline on käytännössä erikoisvarusteinen levykeasema, jota sekä MikroMikko 2 että moderni laite tukevat.
VTKK laati aikanaan sovelluksen, jolla TEKO-tiedostojen konversio onnistui. Mutta tämän konversio-ohjelman tuottama uusi tiedostomuoto on sekin vanhentunut jo vuosikymmeniä sitten. Mitä pidempään aikaa kuluu, sitä vaikeampaa vanhojen tiedostojen pelastamisesta tulee.
Olen Rothenbergin kanssa samaa mieltä siitä, että pitkäaikaissäilytys onnistuu vain, jos tiedämme mitä olemme tallentaneet. Tallennetun tiedoston oikea tulkinta on vaikeaa tai mahdotonta, jos emme tiedä siitä mitään. Kuten Rothenberg havainnollisten esimerkkien kera kertoo, yksittäinen tavu, vaikkapa 00010101, voidaan tulkita kokonaisluvuksi 21, kirjaimeksi U, reaaliluvuksi 1.3125, kuvaksi, loogiseksi bittikartaksi (ei, ei, ei, kyllä, ei, kyllä, ei, kyllä) tai ääneksi, riippuen tiedoston muodosta (Rothenberg 1999 A, s, 5-7).
Mutta Rothenbergille tiedoston tunnistaminen ei vielä riitä. Hänen mielestään tiedostot voi tulkita vain niillä ohjelmilla, joilla ne on alun perin tehty (Rothenberg 1999 A, s. 9-10; alleviivaukset tekijän):
As documents become more complex than simple streams of alphabetic characters, it becomes increasingly meaningless to think of them as existing at all except when they are interpreted by the software that created them. The bits in each document file are meaningful only to the program that created that file. In effect, document files are programs, consisting of instructions and data that can be interpreted only by the appropriate software. That is, a document file is not a document in its own right: it merely describes a document that comes into existence only when the file is “run” by the program that created it. Without this authoring program—or some equivalent viewing software—the document is held cryptic hostage to its own encoding.
Tämä kappale on mielenkiintoinen, koska sen alun jyrkkää sanomaa vesittävät toiseksi viimeisen rivin sanat ”or some equivalent viewing software”. Esimerkiksi Webin käyttö olisi aika hankalaa, jos jokainen verkon dokumentti pitäisi avata ohjelmalla, jolla se on alun perin tuotettu. Rothenbergin varauma avaa oven Web-selaimille, jotka olivat vuonna 1999 jo laajasti käytössä.
Tiedostojen luonnissa käytettyjen ohjelmien ajaminen alkuperäisillä laitteilla on tietenkin ennen pitkää mahdotonta. Rothenbergin pitkäaikaissäilytysratkaisu onkin alkuperäisen laitteiston jäljittely eli emulointi (Rothenberg 1999 A, s. 15):
Emulators—programs that mimic the behavior of hardware—can be created to take the place of obsolete hardware as needed. Assuming that future computers will be orders of magnitude more powerful than ours, future users should be able to ask their computers to generate emulators for obsolete systems on demand. This may require accessing saved specifications for the desired hardware, but this hardware could not have existed in the first place if detailed specifications for its design and construction had not also existed. These specifications must be saved in a digital form that will be readable by future emulator generators (whether human or machine).
Emulaattorin pitäisi siis jäljitellä esimerkiksi MikroMikko 2 -laitteistoa niin tarkasti, että emulaattorin päällä voitaisiin ajaa Mikon käyttöjärjestelmää ja edelleen mitä tahansa sille kehitettyä ohjelmistoa.
2000-luvun taitteessa tiedostomuotojen standardointi oli vielä kesken. Rothenberg olettaa, että tiedostomuodot ovat vasta kehityksensä alussa, ja että ne voivat siksi uudistua täysin. Radikaalien teknisten muutosten jälkeen arkistoitujen tiedostojen muuntaminen uusiin tiedostomuotoihin ei hänen mielestään ehkä onnistuisi lainkaan (Rothenberg 1999 A, s. 13):
Unlike ancient Greek and English, which have roughly equivalent expressive power and semantics, digital documents are still evolving so rapidly that periodic paradigm shifts are inevitable. And new paradigms do not always subsume their predecessors: they represent revolutionary changes in what we mean by documents. By definition, paradigm shifts do not necessarily provide upward compatibility
Kun Rothenberg kirjoitti artikkelinsa, tiedostomuotojen kirjo oli paljon nykyistä suurempi. Esimerkiksi erilaisia kuvaformaatteja oli yli sata; periaatteessa jokaisella kuvankäsittelyohjelmistolla omansa. On helppoa ymmärtää, miksi hän kirjoitti näin (ibid):
Although defining ultimate standards for digital documents may be an admirable goal, it is premature. Information technology is still on the steepest slope of its learning curve. The field is too new to have developed an accepted, formal understanding of the ways that humans manipulate information. It would be presumptuous to imagine that we are ready to enumerate the most important kinds of digital applications, let alone to propose that we are ready to circumscribe their capabilities by standardizing them. Any attempt to force users to settle for artificial limitations imposed by such standards would be futile, since the momentum of the information technology revolution derives directly from the attraction of new capabilities.
Tätä kirjoitettaessa tilanne on muuttunut perusteellisesti. Laajalti käytettyjä kuva-, ääni- ja tekstiaineistojen tiedostomuotoja on vain vähän, ja ne ovat de jure- tai ainakin de facto -standardeja, joita tukevia sovelluksia on paljon. Useimmat käyttäjät tuskin kokevat näiden standardiformaattien käyttöä ongelmaksi. Vaativia käyttäjiä varten ohjelmistot voivat tukea sisäisiä tallennusformaatteja, mutta pitkäaikaissäilytystä varten aineistot voidaan tallentaa pitkäaikaissäilytykseen soveltuvassa standardimuodossa.
Yksikään tiedostomuotostandardi ei ole ”lopullinen”, niistä tulee uusia versioita. Tekniikan kehittyessä tulee kenties täysin uusiakin ratkaisuja. Mutta uskon, ettemme jatkossakaan näe Rothenbergin olettamia täydellisiä katkoksia. Esimerkiksi Word-tekstinkäsittelyohjelmiston tiedostomuoto koki perustavaa laatua olevan muutoksen Microsoftin sisäisestä ja ei-julkisesta tiedostomuodosta XML-pohjaiseen OOXMLään. OOXML on useiden tuhansien sivujen laajuinen raskas siksi, että vanhat Word-tiedostot piti voida konvertoida uuteen tiedostomuotoon häviöttömästi.
Yksikään ohjelmistotalo ei voi vaihtaa sovelluksensa tiedostomuotoa uudempaan tarjoamatta häviötöntä tai ainakin lähes häviötöntä migraatiota. Muu ratkaisu aiheuttaisi käyttäjien protestiaallon.
Rothenberg ei osannut ennakoida tiedostomuotojen standardoinnin voittokulkua, vaikka se oli alkanut jo 1980-luvulla SGML-standardin myötä, ja pääsi vauhtiin 1990-luvun alussa. 2000-luvun tekninen kehitys on parantanut oleellisesti migraation soveltamismahdollisuuksia, ja se onkin emuloinnin useimpien PAS-palveluiden ensisijainen säilytysstrategia.
Rothenbergin artikkelit ovat osittaisesta vanhentuneisuudestaan huolimatta mielenkiintoista luettavaa, koska ne kuvaavat PAS-osaamisen tason 30 vuotta sitten. Tiedostojen tallennukseen ja ymmärtämiseen liittyvien riskien osalta teksti on edelleen ajan tasalla. Mutta migraatiosta ja standardien. ja erityisesti tiedostomuotostandardien, kehityksestä ja merkityksestä kirjoittaessaan hän erehtyy. Hän ottaa esille erityisesti relaatiotietokannat esimerkkinä standardisoinnin hyödyttömyydestä. Mutta relaatiotietokantoja ei edes yritetä säilyttää sellaisenaan; niiden sisältämän datan säilyttämiseen on sittemmin kehitetty XML- ja SQL-kieliin perustuva SIARD-standardi (Software Independent Archiving of Relational Databases). Se on yksi CSC:n PAS-palvelun pitkäaikaissäilytykseen soveltuvista tiedostomuodoista.
Rothenberg summaa pitkäaikaissäilytyksen haasteen seuraavasti (Rothenberg 1999 A, s. 16):
As we have seen, interpreting a bit stream depends on knowing how it has been encoded, and a bit stream cannot be fully self-describing, since any description that we encode in the bit stream must itself be interpreted. The only way to bootstrap this process is to include easily-readable annotation with every digital document, explaining how to interpret its bits.
Tästä on helppo olla samaa mieltä. Valitettavasti 25 vuotta sitten asiasta ei ollut mahdollista puhua tätä konkreettisemmin. Mutta nyt voimme sanoa, että säilytettävät aineistot siirretään esimerkiksi CSC:n PAS-palveluun METS-standardia noudattavina OAIS-siirtopaketteina, jotka sisältävät tiedoston tulkinnan ja migraation edellyttämät pitkäaikaissäilytyksen metatiedot PREMIS- ja muissa formaateissa. Ja tämän saman voisi sanoa myös Rothenberg, kunhan vain sana migraatio korvataan emulaatiolla. Sen edellyttämät metatiedot ovat nimittäin aivan toiset kuin mitä migraatio vaatii.
2000-luvun taitteessa ei ollut lainkaan selvää, mikä pitkäaikaissäilytysstrategia tulisi valita. Asiasta keskusteltiin aktiivisesti muun muassa NEDLIB-projektissa, jossa emulaatiota puolusti itse Jeff Rothenberg, ja sitä kritisoi David Bearman. Hänen kantansa oli tyly (Bearman):
it is important to state that emulation is not a viable approach to preservation at this time and to note that even Rothenberg does not suggest that it is. Electronic records that are not moved out of obsolete hardware and software environments are very likely to die with them.
Bearmanin näkemysten ohjaamana suhtauduin itse emulaation nostamiseen etusijalle kriittisesti alusta lähtien. En ajatellut niinkään tekniikkaa, vaan sitä. että pitkäaikaissäilytys tiedostojen alkuperäisiä käyttöympäristöjä jäljitellen vaikeuttaa kohtuuttomasti PAS-palveluun tallennetun aineiston käyttöä.
Voidakseen lukea yhden TEKO-tekstinkäsittelyohjelmalla kirjoitetun dokumentin, käyttäjän pitäisi opiskella MikroMikko 2:n oma Nokia MS-DOS -käyttöjärjestelmä ja TEKO-ohjelmisto. PAS-palvelun pitäisi huolehtia siitä, että jokaisessa palvelua hyödyntävässä organisaatiossa on käytettävissä sen tarvitsemat emulaattorit, sekä tarjota koulutusta henkilökunnalle niiden käytössä. Sekä arkistoitujen aineistojen käyttäjille, hyödyntäville organisaatioille että PAS-palvelulle itselleen on helpompaa, jos vanhentuneet tiedostomuodot modernisoidaan. Hyödyntävän organisaation niin vaatiessa alkuperäiset tiedostot voidaan tietenkin säilyttää migraation jälkeen. Tähän on selkeä peruste, varsinkin jos muunnoksen tiedetään olleen häviöllinen, tai jos sitä on syytä edes epäillä.
Lopuksi
Monien opetusministeriön rahoittamien kulttuurialan IT-hankkeiden ajoitus on ollut mainio. Jos esimerkiksi yliopistokirjastojen Linnea-kirjastojärjestelmähanke ei olisi käynnistynyt 1987 vaan vuoden tai pari aiemmin, yhtään projektin tarpeita vastaavaa sovellusta ei olisi ollut tarjolla, tarvittavat laitteistot olisivat maksaneet budjetoitua enemmän eivätkä verkkoyhteydet olisi olleet riittävän nopeita kirjastojen välisen luettelointiyhteistyön kannalta.
Myös Kansallisen digitaalisen kirjaston hankkeen PAS-palvelun rakentamisprojekti oli ajoituksen suhteen onnekas. Kun se käynnistyi, pitkäaikaissäilytyksen tekninen infrastruktuuri, kuten OAIS, METS, PREMIS ja teknisen metadatan standardit sekä tiedostomuotojen standardointi, olivat valmistuneet ja sovellettavissa. Hankkeen piti tietenkin vielä päästä yhteisymmärrykseen siitä, että toiminnan perustaksi otetaan olemassa olevat standardit, eikä keksitä itse jotakin vielä parempaa. Mitenkään itsestään selvää tämä ei ollut; yhä edelleen tapaa PAS-toimijoita, jotka eivät tunne esimerkiksi OAIS-standardia.
NEDLIB-hankkeen ansiosta kansalliskirjasto omaksui jo varhain sen kannan, että vaikka tuotantojärjestelmämme ovat erilaisia, PAS-palvelu voi olla kaikkien muistiorganisaatioiden yhteinen. Tämä näkemys perustui pitkäaikaissäilytyksen viitemalliin. Siinä ei ole mitään, mikä soveltuisi vain sen laatineille avaruusjärjestöille, eikä myöskään mitään muistiorganisaatioiden kannalta ongelmallista. OAIS ei rajaa mitenkään sitä, mitä aineistoa PAS-palvelu säilyttää: se voi olla julkaisuja, asiakirjoja, museoaineistoa tai tutkimusdataa. Laajan sovellettavuuden taustalla on OAIS-mallin abstraktisuus, joka tekee siitä työlään omaksua, mutta vaiva kannattaa nähdä. Meillä kaikilla voi olla ikään kuin luonnostaan näkemys siitä, miten kirjasto toimii, mutta vastaavaa intuitiivista näkemystä PAS-palvelun toiminnoista ja toimijoista ei kenelläkään ole valmiina.
Sektoririippumattomuus on leimallista muillekin yhteisille PAS-standardeille. METS on alun perin kirjastoille kehitetty, mutta METS-pakettiin voidaan tallentaa minkä tahansa organisaation tuottamaa metadataa ja tiedostoja, riippumatta metadataformaatista tai tiedostojen muodosta. Myös PREMIS ja teknisen metadatan standardit ovat alun perin kirjastojen laatimia, mutta soveltuvat kaikille. Kuvatiedoston teknisten ominaisuuksien kirjaamisessa ei ole mitään kirjasto-, arkisto- tai museokohtaista, kuten ei myöskään tiedostoon kohdistuneiden säilytystoimenpiteiden kuvauksessa.
KDK-hankkeen käynnistyessä kaikki keskeiset muistiorganisaatiot uskoivat yhteisen PAS-palvelun toteuttamisen olevan mahdollista. Ilman tätä yhteisymmärrystä ne eivät olisi vuonna 2005 lähettäneet ministeriölle yhteistä kirjettä, jossa toivottiin pitkäaikaissäilytysratkaisuun tähtäävän valmistelun aloittamista. Se, ettei missään muualla maailmassa ollut edes suunniteltu saati toteutettu mitään vastaavaa, ei haitannut. Muistiorganisaatioiden onneksi myös ministeriössä katsottiin, että yhteisen palvelun luominen on paitsi mahdollista, myös järkevin ratkaisu.
Hankkeeseen osallistuneiden kirjastojen, arkistojen ja museoiden luottamus yhteisen pitkäaikaissäilytysjärjestelmän toteuttamisen mahdollisuuteen oli ja on edelleen KDK PAS-palvelun elinehto. Yhteistyöhön kannusti toki sekin, että organisaatiokohtaisten PAS-palvelujen toteuttamiseen olisi ollut vaikeaa ellei mahdotonta saada riittävästi resursseja. Jos muistiorganisaatiot olisivat ajautuneet hajautettuun ratkaisuun, Suomessa olisi nyt useita alamittaisia PAS-palveluita, jotka eivät ehkä selviytyisi edes bittien säilyttämisestä täysin luotettavasti.
Sanotaan, että pitkäaikaissäilytyksessä voi todistaa vain sen, että siinä epäonnistuttiin. Ensimmäinen vuosikymmen on nyt takana, ja kaikki on sujunut hyvin. Mutta onnistuminen on varmaa vain silloin, kun sekä PAS-palvelu että sitä hyödyntävät organisaatiot noudattavat yhdessä sovittuja pelisääntöjä. Epäonnistumisen vaara kasvaa, jos hyödyntävä organisaatio ei tallenna siirtopaketteihinsa riittäviä metatietoja tai säilytyskelpoisia tiedostoja.
Mutkien oikominen aineistoa PAS-palveluun siirrettäessä työntää ongelmat tuonnemmaksi, mutta mitä enemmän aikaa kuluu, sitä hankalammaksi niiden ratkominen saattaa käydä. Eikä PAS-siirto tietenkään ole ensimmäinen vaihe, jossa asiat voivat mennä pieleen. Digitointia ja e-julkaisemista suunniteltaessa on hyvä muistaa, että elektronisen aineiston pitkäaikaissäilytys on prosessi, joka alkaa tiedostoa luotaessa.
Juha Hakala
Kirjoittaja
![]()
| Juha Hakala, eläkkeellä, toimi erityisasiantuntijana Kansalliskirjastossa. Hän työskenteli digitaalisen säilyttämisen parissa lähes 30 vuoden ajan aina eläkkeelle jäämiseensä vuoteen 2023 saakka. Hän osallistui standardointityöhön ISO:ssa ja IETF:ssä keskittyen tunnistestandardeihin, kuten URN, ISBN ja ISSN. KDK-hankkeessa hän vastasi standardisalkusta. SFS:n Tietohuolto-standardointiryhmän puheenjohtajana Hakala edisti pitkäaikaissäilytyksen viitemallin kääntämistä ja hyväksymistä suomalaiseksi standardiksi. |
Lähteet
- Bearman, David: Reality and chimeras in the preservation of electronic records. D-Lib Journal, April 1999. Elektroninen julkaisu, saatavissa: https://www.dlib.org/dlib/april99/bearman/04bearman.html
- Rothenberg, Jeff (1999 A). Ensuring the longevity of digital information. Santa Monica, CA: RAND, 1999. Elektroninen julkaisu, saatavissa: https://www.clir.org/wp-content/uploads/sites/6/ensuring.pdf
- Rothenberg, Jeff (1999 B). Avoiding technological quicksand : Finding a viable technical foundation for digital preservation. A report to the Council on Library and Information Resources. Washington, DC: CLIR, 1999. Elektroninen julkaisu, saatavissa: https://www.clir.org/wp-content/uploads/sites/6/pub77.pdf
