Tulostusversio

1/2011

Tallennetaanko suomalaiset verkkosivut jonnekin?

 

"Kansalliskirjaston tehtäväksi on annettu kerätä talteen suomalaiselle yleisölle tarkoitettua verkkoaineistoa", kertoo pääsuunnittelija Esa-Pekka Keskitalo. Velvollisuus perustuu lakiin kulttuuriaineistojen tallettamisesta ja säilyttämisestä, joka tuli voimaan 2008.

Mitä Kansalliskirjasto ottaa talteen?

"Talteen kerätään .fi-päätteiset ja ahvenanmaalaiset .ax-päätteiset sivustot. Lisäksi tallennetaan esimerkiksi .com-päätteisiä sivustoja, jotka sijaitsevat suomalaisilla palvelimilla. Tallennettavaksi tulkitaan myös muunmaalaisella palvelimella sijaitseva suomalaiselle yleisölle suunnattu aineisto, kuten suomenkieliset blogit. Aineistoa on kerätty myös teemakohtaisesti esimerkiksi euroviisuista ja Islannin tuhkapilvestä."

Kerätäänkö myös poistetut sivustot talteen?

"Ei. Verkkoaineistoa haravoiva robotti kerää sen, mikä sillä hetkellä sattuu olemaan palvelimella."

Kuinka usein nettisivuja kerätään?

"Suomalainen web käydään läpi kerran vuodessa. Tosin verkkolehtien sivustoja kerätään talteen kuukausittain ja sanomalehtien www-sivuja päivittäin."

Paljonko sivuja on tähän mennessä kertynyt?

"Meillä on nyt noin 500 miljoonaa tiedostoa, parinkymmenen teratavun verran. 2010 keräsimme yli 150 miljoonaa tiedostoa ja odotamme määrän pysyvän samana lähivuosinakin."

"Kaksi kolmannesta on teksti- ja kolmannes kuvatiedostoja. Äänen ja videon osuus on vain pari prosenttia."

Saadaanko kaikki haluttu aineisto talteen?

"Ei saada. Robotti voi vain seurata linkkejä, ei esimerkiksi tehdä hakuja tietokantoihin, joten paljon niissä olevaa aineistoa jää saamatta. Joudumme myös rajoittamaan sitä, kuinka pitkälle robotti seuraa linkkiketjuja. Siksi hyvin syvällä sivuhierarkiassa olevat sivut saattavat puuttua verkkoarkistosta."

"Robotti ei pääse keräämään aineistoa, joka on verkkomaksamisen takana eikä sivuja, jotka vaativat rekisteröitymistä. Jatkossa yritämme saada talteen myös aineiston, jonne pääsyä on rajoitettu."

"Laki velvoittaa Kansalliskirjaston joko haravoimaan verkkoaineistoa tai hankkimaan sitä niin, että ylläpitäjä luovuttaa aineiston. Luovuttaminen vie aikaa ja vaivaa, joten sitä tehdään säästeliäästi."

Tallennetaanko aineisto pysyvästi?

"Kyllä ja alkuperäisessä tiedostomuodossa, joten käyttökokemus pysyy samana."

"Haasteena on, millaisia tallennusmuotoja tulevaisuudessa on, esimerkiksi miten pdf-tiedostot myöhemmin saadaan auki. Tätä pohditaan kansainvälisestikin."

Ketkä saavat tutustua kerättyihin nettisivuihin?

”Aineiston käyttö on tekijänoikeuslaissa rajattu Kansalliskirjastolle, Åbo Akademin kirjastolle, Turun, Jyväskylän, Oulun ja Itä-Suomen yliopistojen kirjastoille, eduskunnan kirjastolle ja Kansalliselle audiovisuaaliselle arkistolle. Niissä on aineiston käyttöä varten erityisiä työasemia. Aineistosta ei saa digitaalisia kopioita.”

”Käyttö on laissa rajattu tutkimusta ja yksityistä opiskelua varten. Käytännössä sitä on tulkittu hyvin liberaalisti.”

Sen, onko jokin sivusto tallennettu, ja tallennusajankohdan voi tarkistaa osoitteessa http://verkkoarkisto.kansalliskirjasto.fi

---

Askarruttaako jokin henkilötietojen suojaan, yksityisyyteen, viestinnän luottamuksellisuuteen tai tietoturvaan liittyvä asia? Lähetä kysymyksesi meille, me etsimme sille sopivan vastaajan. Kysymyksiä voi lähettää osoitteeseen info@tietosuoja-lehti.fi

Anna palautetta

Kommentit (0 kpl)

Ei kommentteja.

 

Kommentoi








Kyllä


* = Pakollinen tieto
 

 

tietosuoja_logo_2013.gif

 

 

 

Vastaava toimittaja
Hanna Tamminen


 


 

 

 

 

Julkaisijat
Tietosuojalautakunta
Tietosuojavaltuutetun toimisto
Viestintävirasto
Patentti- ja rekisterihallitus



 

 

 

 

 

 

 

Rekisteriselosteet »

Tietoa evästeistä »

 

 

 

Tietosuoja-verkkojulkaisua julkaistaan Tietosuoja-lehden yhteydessä. Yhdessä lehti ja verkkojulkaisu tutustuttavat tietosuojan normeihin ja käytäntöön, tietoturvaan ja viestinnän luottamuksellisuuteen. Tarkoituksena on ohjata hyvään rekisterinpitoon sekä tietoturvallisuuden ja viestinnän luottamuksellisuuden varmistamiseen.