Unterlagen zum Modul Digitale Bibliothek

Langzeitarchivierung


von Margarete Payer

mailto: payer@hdm-stuttgart.de


Zitierweise / cite as:

Payer, Margarete <1942->: Unterlagen zum Modul Digitale Bibliothek : Langzeitarchivierung. -- Fassung vom 2006-01-29. -- URL: http://www.payer.de/digitalebibliothek/digbib02.htm

Erstmals publiziert:  2005-01-10

Überarbeitungen: 2006-01-29 [Ergänzungen]

Anlass: Lehrveranstaltung im Masterstudiengang Bibliotheks- und Medienmanagement an der HdM Stuttgart, 2002/03 und Lehrveranstaltung Information Engineering WS 04/05 in den Studiengängen Bibliotheks- und Medienmanagement und Informationswirtschaft     

Unterrichtsmaterialien (gemäß § 46 (1) UrhG)

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Herausgeberin.

Dieser Text ist Teil der Abteilung Informationswesen, Bibliothekswesen, Dokumentationswesen  von Tüpfli's Global Village Library.


0. Übersicht



1. Einleitung und Begriffsbestimmung


"„Elektronische Medien sind nicht archivierbar“ resümiert Clifford Stoll, amerikanischer Astronom und Spezialist für Datenschutz und Computersicherheit, 1996 in seinem Buch „Die Wüste Internet. Geisterfahrten auf der Datenautobahn“1. Stoll verweist auf die Daten, die 1979 von der Raumsonde „Pioneer“ vom Saturn übertragen und bei der NASA2 auf Magnetbänder archiviert wurden. Obwohl die Daten auf vier verschiedenen Datenträgern gespeichert waren (9-Spur-Magnetband, 7-Spur-Magnetband, Lochstreifen und Lochkarte), sollen sie 1994 nicht mehr lesbar gewesen sein, da bei der NASA für keinen dieser vier Datenträger mehr Lesegeräte vorhanden waren.

Bereits 1985 sind erste Datenverluste bei der NASA eingetreten: bei den Magnetbändern mit den Daten der Raumsonde „Viking“ aus dem Jahr 19763. Mitte der 1990er Jahre waren mehr als 1,2 Millionen Magnetbänder mit Daten aus 30 Jahren Raumfahrt nicht mehr benutzbar4, teilweise wegen mangelnder Zuordnung zu den jeweiligen Weltraummissionen und Projekten. Vom sogenannten „NASA-Effekt“ wird gesprochen - die Bänder waren nicht oder nur notdürftig beschriftet5.

Die meisten Daten der US-Volkszählung von 1960, die beim US Bureau of the Census auf Magnetband gespeichert waren, konnten nach der Umstellung auf ein neues Speicherformat gerade noch gerettet werden6. Die gesamten Datenverluste sind in einem Bericht an das amerikanische Repräsentantenhaus aus dem Jahr 1990 aufgelistet7.

Offensichtlich sind diese Datenverluste nicht etwa auf technische, sondern auf organisatorische Defizite zurückzuführen. Das Problem war nicht die mangelnde Haltbarkeit des einen oder des anderen Datenträgertyps, sondern die Nichteinhaltung einfacher Archivierungsgrundsätze. Das „Technische Konzept für die Datenarchivierung im Bundesarchiv“ legt das - bisher im Bundesarchiv erfolgreich praktizierte - Verfahren fest, Daten langfristig für die Forschung und Verwaltung zu sichern. Datenverluste sind daher bei den im Bundesarchiv archivierten Datenbeständen nicht eingetreten."


Anmerkungen:

1 Clifford Stoll: Die Wüste Internet. Geisterfahrten auf der Datenautobahn. Frankfurt am Main 1996, S. 263.

2 NASA = National Aeronautics and Space Administration (Weltraumbehörde der USA)

3 Hilmar Schmundt: Im Dschungel der Formate. In: Der Spiegel 26/2000. URL: http://www.spiegel.de/druckversion/0,1588,82510,00.html

4 Hilmar Schmundt (wie Anm. 3) und Patrick Bock: No Future. In: DIE WOCHE, 1996.

5 Archimedes. Wir verlieren unser Gedächntnis, vom 04.05.1999. URL: http://www.arte-tv.com/hebdo/archimed/19990504/dtext/sujet1.html.

6 Jeff Rothenberg: Die Konservierung digitaler Dokumente. In: Spektrum der Wissenschaft, Sept. 1995.

7 Taking a Byte out of History: The Archival Preservation of Federal Computer Records. Bericht 101-978 des U. S. House of Representatives Committee on Government Operations, 6. November 1990.

[Quelle: Rathje, Ulf: Technisches Konzept für die Datenarchivierung im Bundesarchiv. -- In: Der Archivar, Jg. 55 (2002), S. 117-120. -- http://www.bundesarchiv.de/imperia/md/content/abteilungen/abtb/1.pdf. -- Zugriff am 2005-01-10]

Unter Langzeitarchivierung versteht man die Erfassung und langfristige Aufbewahrung von in digitaler Form vorliegenden Informationen. Meist wird auch das dauerhafte Zur-Verfügung-Stellen dazu gerechnet.

Im Englischen spricht man meist von "digital preservation", im Französischen von "conservation numérique", "Langzeitverfügbarkeit" ist im Englischen "long-term accessibility" oder "long-term availability".

Grundsätzlich muss gefragt werden, was man eigentlich erhalten will: den authentischen Informationsgehalt einer digitalen Ressource oder die originale Fassung als solche.

Während physikalische Objekte seit langer Zeit u. a. in Archiven, Museen und Bibliotheken aufbewahrt und erhalten werden, stellen sich bei Elektronischen Publikationen ganz neue Herausforderungen. Daten, die auf digitalen Datenträgern gespeichert sind, können in relativ kurzer Zeit nicht mehr lesbar sein ("digitales Vergessen"). Die Ursachen für diesen Informationsverlust sind die begrenzte Haltbarkeit der Trägermedien und der schnelle Medien- und Systemwandel. Bei der Umgehung dieser Schranken bereiten unter anderem proprietäre Formate und urheberrechtliche Beschränkungen Probleme.


2. Probleme

Um die Probleme, die für eine Langzeitarchivierung zu beachten sind, richtig zu verstehen, sollte man sich die Entstehungsumgebung einer digitalen Ressource vor Augen halten: untereinander abhängig sind:

Für die Nutzungsumgebung ist es bekanntlich am besten, wenn diese der Entstehungsumgebung entspricht.


2.1. Haltbarkeit der Trägermedien


Während beispielsweise altes Pergament und Papier bei guter Lagerung viele hundert Jahre haltbar sind, trifft dies auf neue Speichermedien nicht zu. Die meisten Publikationen aus der ersten Hälfte des 20. Jahrhunderts sind auf Papier gedruckt, das sich durch Säurefraß zersetzt. Auch Filme, Fotos und Magnetbänder haben nur eine begrenzte Haltbarkeit. Noch kürzer ist die Lebensdauer digitaler Speichermedien wie Disketten und CDs. Datenträger verlieren ihre Informationen durch Umwelteinflüsse (z.B. durch Magnetfelder in der Nähe von Disketten oder Magnetbändern) oder sie werden durch chemische oder physikalische Einwirkungen so stark verändert, dass sie keine Informationen mehr speichern können oder nicht mehr auslesbar sind (z.B. UV-Strahlung auf CD-ROMs).

Lebensdauern einiger Datenträger
Medium Erwartete Lebensdauer (in Jahren)
CD-ROM / DVD 0 bis 100
QIC80 Magnetbänder (1 - 3 Jahre)
Computer-Disketten 5 bis 10
VHS-Band 10 bis 30
Digitalband 10 bis 30
Mikrofilm 10 bis500
Kodachrome Dias 100

Zur Zeit sind CD-ROMs als Speichermedien sehr beliebt, deshalb sollte man folgendes beachten:

Kriterien für die Auswahl der Datenträger für Langzeitarchivierung:


2.2. Der schnelle Medien- und Systemwandel


2.2.1. Veraltete Datenformate


Da die Informationen nicht unmittelbar zugänglich vorliegen, sondern binär codiert sind, ist nur möglich, die Informationen zu lesen, wenn ein Programm und ein Betriebssystem vorliegt, das den Code einer Datei "versteht". Da viele Betriebssysteme und Programme ein eigenes (proprietäres) Verfahren einsetzen, um die Daten zu codieren, ist eine Lesbarkeit von Daten nicht mehr gegeben, wenn ein Betriebssystem oder ein Programm nicht weiterentwickelt wird. Verschärft wird dieses Problem durch die Politik vieler Softwarehersteller, neue Programmversionen mit veränderten Datenformaten zu veröffentlichen, die ältere Datenformate des gleichen Programms nicht vollständig nutzen können.

Empfehlung für Datenformate:


2.2.2. Veraltete Datenträger und Systeme


Ähnlich wie bei den Datenformaten ist die Situation bei den Trägerformaten. Eine Datei, die vollständig und in einem noch lesbaren Dateiformat vorliegt, kann von fast allen Computerbenutzern nicht mehr gelesen werden, wenn sie auf einer 5,25"-Diskette liegt. Waren Laufwerke, die dieses Format lesen konnten, bis weit in die 1990er Jahre üblich, so sind heute kaum noch welche zu finden.


Abb.: Wer kennt dieses Speichermedium der 1990er-Jahre noch?: 5,25'' Diskette


2.3. Weitere Beschränkungen


Proprietäre Systeme und urheberrechtliche Beschränkungen erschweren das zur Langzeitarchivierung notwendige Umkopieren und Migrieren von Daten, weil die dafür notwendigen Schritte nicht bekannt bzw. nicht erlaubt sind. Ein großes Problem ist der immer häufiger zu findende Kopierschutz bei CD-ROMs und DVDs, der nur mit illegaler Software geknackt werden kann.


3. Verfahren


Grundsätzlich lassen sich zur Archivierung Methoden

unterscheiden.

Bei der Migration/Konversion werden die Daten umgewandelt und so den neuen technischen Gegebenheiten angepasst. Da die Daten dabei von einer Darstellungsform zur anderen "wandern" spricht man von Migration (="Wanderung"). Man unterscheidet dabei:

Ziel ist das möglichst authentische Weitergeben der Daten und das Sicherstellen der dauernden Nutzbarkeit, wobei man einen bestimmten Verlust in Kauf nimmt, z.B. könnte es sein, dass Hyperlinks eines HTML-Textes nicht mehr nachvollziehbar sind, d.h. die ursprüngliche Nutzungsumgebung kann nicht gewährleistet werden. 

Metadaten zu den Ressourcen sollten getrennt migriert werden.

Bei der Emulation werden in den neuen technischen Geräten die älteren simuliert. Dies geschieht durch sogenannte "Emulatoren", d.h. Programme, die die Funktionsweise älterer Hardwarekomponenten simulieren. Gegenstand der Emulation kann sein:

Man hat mit Emulatoren durchaus Erfahrungen: z.B. bei Entwicklung neuer Computer werden herstellerseitig Emulatoren angeboten, damit nicht mit jeder neuen Computergeneration alle Anwendungsprogramme sofort ausgetauscht werden müssen. Emulatoren werden schon lange bei Computerspielen eingesetzt.

 

Bei der Instandhaltung veralteter Geräte und Programme baut man eine Art Museum funktionstüchtiger Geräte und Programme auf und achtet darauf, dass die Konservatoren das nötige Know-How bewahren. Diese Methode ist im Allgemeinen die Aufwendigste.

Durch den Einsatz von offenen Standards wie z.B. HTML oder XML, die als relativ langlebig betrachtet werden und deren Aufbau öffentlich bekannt ist, sind die Zyklen, nach denen eine Information umformatiert werden muss, länger. Die Wahrscheinlichkeit, dass es in einigen Jahren noch Systeme und Programme gibt, die die Daten lesen können, ist deutlich höher.

Um den Verlust von Daten durch die Alterung von Datenträgern zu verhindern, müssen die Daten regelmäßig auf neue Datenträger kopiert werden. Dadurch kann auch auf ein neues Trägerformat gewechselt werden, wenn das bisher genutzte durch die technische Weiterentwicklung obsolet geworden ist.

Die hohen Kosten, die durch diese Pflege der Datenbestände entstehen, haben allerdings zur Folge, dass meistens nur die wichtigsten Daten derart konserviert werden können. Die Informationsflut, die nicht zuletzt durch die neuen digitalen Datenverarbeitungssysteme entsteht, verschärft das Problem zusätzlich. Der Anteil der langfristig gespeicherten Daten wird notwendigerweise relativ gering sein, was an die Auswahl der gesicherten Informationen hohe Anforderungen stellt. Dies betrifft nicht nur die Daten im staatlichen und kommerziellen Bereich, sondern auch im Privatbereich werden herkömmliche, oftmals langfristig lagerfähige Medien durch leichter handhabbare digitale Medien ersetzt (Photographien und Negative durch digitale Bilder auf einer CD-ROM).

Für die Langzeitarchivierung sind in Deutschland die Pflichtexemplarbibliotheken und die Archive zuständig.

Solche Archive müssen folgendes beachten (vgl. dazu OAIS):

National und international bemüht man sich zur Zeit Archive zu zertifizieren. Z.B. gibt es eine Arbeitsgruppe "Vertrauenswürdige Archive - Zertifizierung.

 Auch von der Arbeitsgruppe "Elektronisches Publizieren" der Deutschen Initiative für Netzwerkinformation (DINI) gibt es ein Papier "DINI-Zertifikat Dokumenten- und Publikationsserver". Nov. 2003. http://www.dini.de/documents/Zertifikat.pdf  Zugriff am 2006-01-26

Bei diesem Zertifikat liegt der Schwerpunkt auf der Güte von aktuellen Dokumenten- und Publikationsservern, wobei man erwartet, dass jedes Dokument mindestens 5 Jahre zugänglich gemacht wird, und man sich darüber hinaus kümmert um die Langzeitarchivierung der Dokumente.

International gibt es einen Vorschlag für die Zertifizierung zuverlässiger digitaler Archive von der Research Libraries Group und OCLC:  Trusted digital repositories : attributes and reponsibilities ; an RLG-OCLC report. Montain View, CA : RLG, May 2002. http://www.rlg.org/en/pdfs/repositories.pdf  Zugriff am 2006-01-26

 


4. OAIS - Open Archival Information System


Das OAIS (Open Archival Information System) hat seine Wurzeln im Gebiet der Raumfahrt. Dort sind schon seit den 1960er-Jahren elektronische Daten in großen Mengen gesammelt worden. OAIS wurde seit 1997 vom Consultative Committee for Space Data Systems (CCSD, Webpräsenz: http://www.ccsds.org/. -- Zugriff am 2005-01-10)  entwickelt, einer Arbeitsgemeinschaft verschiedener Luft- und Raumfahrtorganisationen (NASA, ESA/European Space Operations Center , Deutsches Zentrum für Luft- und Raumfahrt e.V.  ...) unter Federführung der NASA. Von bibliothekarischer und archivarischer Seite waren beteiligt die US National Archives and Records Administration (NARA, Webpräsenz: http://www.archives.gov/. -- Zugriff am 2005-01-10)  und die Research Libraries Group (RLG, Webpräsenz: http://www.rlg.org/. -- Zugriff am 2005-01-10).

Das OAIS wurde im Jahre 1999 erstmals vollständig in Form eines  Red Book vorgelegt. Dieser Entwurf wurde bei der ISO (International Organization for Standardization)  als internationaler Standard eingereicht. Nach Ergänzung und Überarbeitung wurde OAIS im Juni 2001 als ISO/DIS 14721 angenommen und zum 1. Januar 2002 offizielle Norm.

DIN -Norm ist es noch nicht geworden.

Das OAIS-Modell ist online zugänglich: http://www.ccsds.org/documents/650x0b1.pdf. -- Zugriff am 2005-01-10. -- Die Abbildungen in diesem Abschnitt sind dieser Ressource entnommen.

Das OAIS-Konzept ist ein Standard in Form eines Referenzmodells für ein dynamisches, erweiterungsfähiges Archivinformationssystem. Ganz bewusst versteht sich OAIS als ein offener und allgemeingültiger Standard. Dies bedeutet:

  1. OAIS ist nicht auf bestimmte Datentypen, Datenformate oder Systemarchitekturen beschränkt
  2. OAIS will anwendungsfähig und skalierbar sein für unterschiedliche Institutionen mit ihren verschiedenen Bedürfnisse.

Obwohl das OAIS im Prinzip gegen alle Archivierungstechniken wie z.B. Emulation offen ist, setzt es dennoch vollständig auf eine Migrationsstrategie.

Wie es bei solchen Unternehmungen üblich ist, werden zunächst für triviale Tatbestände bombastische Begriffe und Modelle eingeführt.

Die Umgebung (Environment) eines OAIS-Archivs zeigt folgende Darstellung (producer, management und consumer sind also außerhalb des OAIS):


Abb.: Figure 2-1: Environment Model of an OAIS

OAIS unterscheidet  zwischen drei sogenannten Informationsobjekten, die sich aufeinander beziehen

  1. Submission Information Packages (SIP): die digitalen Ressourcen, die die aufbewahrenden Institutionen übernehmen
  2. Archival Information Packages (AIP): Submission Information Packages (SIP), die vom Archiv durch Metainformationen ergänzt wurden. Die Form, in der die digitalen Ressourcen langfristig aufbewahrt werden
  3. Dissemination Information Packages (DIP): die digitalen Ressourcen, wie sie für bestimmte Nutzergruppe je nach Vorliegen bestimmter rechtlicher
    Bedürfnisse generiert und zielgruppenorientiert zur Verfügung gestellt werden können.

Archival Information Packages (AIP) bestehen aus:

  1. Den Daten samt Information über ihre Darstellung (Content Information)
  2. (Preservation Description Information (PDI): Informationen, die die dauerhafte Aufbewahrung beschreiben; sie besteht aus vier Elementen
    1. die Provenienz: Quelle der Inhaltsinformation seit Beginn und ihre weitere Entwicklung
    2. der Kontext: Verbindung der Ressource mit anderen Ressourcen
    3. die Beziehungen (References):  Identifikatoren (Signaturen) (unique identifiers) zur ein-eindeutigen Identifikation der Ressource
    4. Informationen zur Stabilisierung (Fixity), damit die Inhaltsinformationen vor nicht dokumentierter Veränderung bewahrt werden können


Abb.: Figure 2-3: Information Package Concepts and Relationships


Abb.: Table 4-1: Examples of PDI Types

Das OAIS-Modell umfasst sechs Aufgabenbereiche:

  1. Übernahme (Ingest)
  2. Aufbewahrung (Archival Storage)
  3. Daten Management
  4. Systemverwaltung
  5. die vorausschauende digitale Bestandserhaltung (Preservation Planning)
  6. Zugang (Access)


Abb.: Figure 4-1: OAIS Functional Entities


Abb.: Figure 4-6: Functions of Preservation Planning

Migration wird in vier Bereiche zergliedert:

  1. Refreshment: wieder Auffrischen mit dem Ziel, die Lesbarkeit der Datenträger zu sichern.
  2. Replication: der Kontext der verschiedenen Informationssysteme wird regelmäßig überprüft: bestehende Verknüpfungen oder im Rahmen der Generierung von AIPs im Archiv hergestellte Verknüpfungen werden auf ihre Funktionstüchtigkeit und darauf überprüft, ob sie logisch schlüssig und verständlich sind.
  3. Repackaging: eine Art von digitaler Umbettung, damit die bestehenden Verknüpfungen wieder funktionstüchtig oder neue Verknüpfungen (z.B. mit neu eingehenden Ressourcen) erstellt werden
  4. Transformation: die Übertragung auf neue Speichermedien

Bisher wurde das OAIS-Modell angewandt, bzw. orientierte man sich an ihm z.B. in:


5. Beispiele


5.1. KOPAL - Kooperativer Aufbau eines Langzeitarchivs Digitaler Informationen


Webpräsenz: http://www.langzeitarchivierung.de. -- Zugriff am 2005-01-10

"Am 1. Juli 2004 beginnt in Deutschland das Verbundprojekt “KOPAL - Kooperativer Aufbau eines Langzeitarchivs Digitaler Informationen". Inhalt des dreijährigen Projekts ist die praktische Erprobung und Implementierung eines kooperativ erstellten und betriebenen Langzeitarchivierungssystems für digitale Publikationen. Als Verbundpartner wollen Die Deutsche Bibliothek, die Niedersächsische Staats- und Universitätsbibliothek Göttingen und IBM Deutschland in diesem Vorhaben eine kooperativ betriebene und nachnutzbare Lösung für die Langzeiterhaltung digitaler Ressourcen implementieren. Der technische Systembetrieb erfolgt durch die Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen.  Der transparente und beständige Zugriff auf digitale Informationen wird im Interesse unserer Wissenschaftler, Studierenden und Informationsnutzer als integrierter Dienst der Informationsbeschaffung und -lieferung verstanden und umgesetzt. Die Beteiligung der nationalen Archivbibliothek und eines innovativen universitären Informationszentrums stellt sicher, dass unterschiedliche konzeptionelle Sichten und Kundeninteressen bei der Realisierung berücksichtigt werden. Die technische Umsetzung der in KOPAL zu realisierenden Funktionalität beruht auf Vorarbeiten, die von der Königlichen Bibliothek der Niederlande (KB) und IBM als gemeinschaftliches Entwicklungsprojekt bereits seit dem Jahr 2000 betrieben werden. Das seit 2003 produktive eDepot für elektronische Ressourcen der KB hat als Unterbau das IBM-eigene "Digital Information Archiving System - DIAS", dessen Kern in KOPAL nachgenutzt wird. Die Weiterentwicklung zu einem kooperativ betriebenen, mit standardisierten Schnittstellen ausgestatteten System im Rahmen von KOPAL wird von IBM übernommen. Die von den Verbundpartnern erstellte Software soll den Status "Open Source" erhalten.
Die Deutsche Bibliothek und die Niedersächsische Staats- und Universitätsbibliothek Göttingen werden umfangreiche und heterogene digitale Datenmengen in das System einspeisen, um die Leistungsfähigkeit und Nachnutzbarkeit des Konzeptes unter den Bedingungen eines produktiven Betriebs unter Beweis zu stellen. Bereits während der Projektlaufzeit werden die Verbundpartner Vorkehrungen treffen, um die Nachnutzung des Systems durch weitere Institutionen zu ermöglichen."

[Quelle: http://www.langzeitarchivierung.de/modules.php?op=modload&name=News&file=article&sid=25&mode=thread&order=0&thold=0. -- Zugriff am 2005-01-10]


5.2. Bundesarchiv


Ulf Rathje

Rathje, Ulf: Technisches Konzept für die Datenarchivierung im Bundesarchiv. -- In: Der Archivar, Jg. 55 (2002), S. 117-120. -- http://www.bundesarchiv.de/imperia/md/content/abteilungen/abtb/1.pdf. -- Zugriff am 2005-01-10

beschreibt die Grundsätze des Technischen Konzepts der Datenarchivierung im Bundesarchiv:

"Grundsätze des Technischen Konzepts

1. Datenformat

Die zu archivierenden Daten werden grundsätzlich als Flat Files10 softwareunabhängig in einem Standard-Zeichencode gespeichert. Mit diesem bis heute gültigen Grundsatz soll ausgeschlossen werden, dass Daten in Zukunft nicht mehr interpretierbar sind, weil es die für ihr Verständnis erforderliche Software nicht mehr gibt oder die alte Software in neuen Systemumgebungen nicht mehr lauffähig ist. 1992/1993 wurden EBCDIC11 und ASCII12 als für die Speicherung geeignete Standard-Zeichencodes ausgewählt13.

Die meisten der bis heute ins Bundesarchiv übernommenen Daten – vor allem aus der ehemaligen DDR - wurden auf Großrechnern erstellt und in EBCDIC gespeichert. Wie wir mit den Jahren lernen mussten, wurden aber in den Rechenzentren die Regeln des EBCDIC-Standards von IBM selten eingehalten. Es war hingegen üblich, gepackte Formate zu verwenden und mit verschiedensten Komprimierungsverfahren zu arbeiten, um Speicherplatz und Rechenzeit zu sparen. Somit liegen diese Daten in aller Regel nicht in einem archivfähigen Standardformat vor, was eine nachträgliche Bearbeitung erforderlich macht. Auf heutigen PCs sind EBCDIC-Daten standardmäßig nicht lesbar – es werden spezielle Viewer bzw. Editoren für das Lesen bzw. Bearbeiten benötigt.

Das Bundesarchiv hat sich auf das in der PC- und in der UNIX-Welt verbreitete Standardformat ASCII festgelegt und konvertiert die übernommenen Daten entsprechend. Allerdings konnte dies bisher erst für einen kleinen Teil der Datenbestände erfolgen.

Die im Bundesarchiv bislang archivierten Daten weisen in der Regel datenbankähnliche Strukturen auf: Die Informationen zu Personen, Betrieben oder anderen Einzelfällen sind jeweils in Datensätzen von gleicher Struktur gespeichert. Meist besteht ein digitales Archivobjekt14 aus einer einzigen Tabelle. Es handelt sich hierbei um Datenbanken der 1. Generation, sogenannte Filesysteme. Heute können diese Daten nach ihrer Konvertierung in das ASCII-Standardformat in erster Linie mit Datenbankmanagementsystemen (z. B. DBASE, ACCESS, Oracle, Informix) oder Statistiksoftware (SPSS u. a.) ausgewertet werden. Alle diese Anwendungsprogramme haben eines gemeinsam – sie unterstützen den Datenimport von ASCII-Dateien, die tabellarische Informationen enthalten, die durch Feldtrennzeichen, z. B. durch Komma, getrennt sind. Es empfiehlt sich also, die EBCDIC-Flat Files, die originär keinerlei Strukturinformationen enthalten, sondern aus reinen sequentiellen Zeichenketten bestehen, bei ihrer Konvertierung bereits um Feld- und Satztrennzeichen zu ergänzen und sie als sogenannte „ASCII-Dateien mit comma separated values“ (csv) zu archivieren. Nicht nur für die Anwendungssoftware, sondern auch für den die Daten betrachtenden Archivar werden die Datensatzstrukturen durch Trennzeichen transparenter.

Die Konvertierungsarbeiten erfolgen mit speziell für jede Tabelle geschriebenen Programm-Modulen. Die Programme enthalten Prüfroutinen auf die Plausibilität der Codierungen. Die Konvertierungsergebnisse werden „intellektuell kontrolliert“, das heißt, die Daten werden systematisch und in Stichproben überprüft, auch im Hinblick auf codierte Informationen in einzelnen Datenfeldern. Nicht nur jede Kopierung, sondern auch jede Konvertierung von Daten wird protokolliert und dokumentiert, um die Bearbeitung der Daten transparent zu halten. Somit wird die „informationelle Authentizität“ der Daten sichergestellt: nicht „Original“-Datenträger, -Datenformat und -Bitstrom werden archiviert, sondern der authentische Informationsgehalt der Daten.

Im vergangenen Jahr 2000 wurden in Kooperation mit der Forschungsstelle für Verwaltungsinformatik an der Universität Koblenz im Rahmen einer Diplomarbeit15 und eines sich daran anschließenden Werkvertrags erste Tests mit XML16 durchgeführt, um dieses neue Datenformat auf seine Eignung für die Langzeitarchivierung von Daten zu überprüfen. Viele Anzeichen sprechen dafür, dass sich XML als neues Datenformat auch für die Langzeitarchivierung durchsetzen wird, die weitere Entwicklung bleibt vorerst abzuwarten.

2. Bedingungen für die Eignung von Datenträgern zur Archivierung

Es sollen nur Datenträger verwendet werden, für die internationale Standards gelten, die am Markt eine ausgesprochen weite Verbreitung haben, als haltbar gelten und daher auch in anderen Nationalarchiven und Forschungseinrichtungen eingesetzt werden. Mit diesen Grundsätzen soll das Risiko minimiert werden, dass der gewählte Archiv-Datenträger vom Markt verschwindet bzw. überraschend von einem Hersteller nicht mehr produziert wird und nicht mehr gelesen werden kann, weil die Laufwerke nicht mehr verfügbar sind. Ein weit verbreitetes Medium kann auch zur Weitergabe an Benutzer verwendet werden. Aufgrund der vorgenannten Bedingungen kommen derzeit Magnetbänder, Magnetbandkassetten, Digital Audio Tapes (DAT) und CD-R als Archivierungsmedium vorrangig in Frage.

Eine Umfrage des niederländischen Rijksarchiefdienstes in Den Haag 1994/1995 ergab, dass in den Nationalarchiven in Dänemark, Frankreich, Italien, Norwegen, Portugal, Schweden und der Schweiz Daten auf Magnetbändern und Magnetbandkassetten archiviert wurden. Beide Archivierungsmedien wurden Mitte der 1990er Jahre ebenfalls im Center of Electronic Records (CER) der National Archives and Records Administration (NARA) in Washington D. C. (USA) verwendet. Die Archivare im dänischen Rigsarkivet in Kopenhagen kopieren derzeit ihre etwa 4000 Magnetbänder um – dort ist die CD-R inzwischen das Archivierungsmedium. Im schwedischen Riksarkivet in Stockholm wurden Umkopierungen im vergangenen Jahr auf Magnetbandkassetten vorgenommen. Das Magnetband gilt als ein sehr haltbares und zuverlässiges Medium und ist bis heute noch in einigen Nationalarchiven im Einsatz. Mehr als 25 Jahre war es das Standard-Speichermedium in der EDV. Auch im Bundesarchiv wurden von 1993 bis 1998 Erstsicherungen auf Magnetband angefertigt. Heutigen Ansprüchen genügt das Magnetband in der Regel nicht mehr: Durch lange Zugriffszeiten, eine zu geringe Speicherkapazität und den verhältnismäßig hohen Preis geraten Magnetbänder gegenüber modernen Datenträgern ins Hintertreffen17.

Die Magnetbandkassette weist im Vergleich zum Magnetband eine deutlich höhere Speicherkapazität und eine verbesserte Zugriffsgeschwindigkeit auf und wird ebenfalls in vielen Nationalarchiven zur Archivierung von Daten verwendet. Sie ist aber ebenfalls relativ teuer, so dass die Entscheidung im Bundesarchiv zu Ungunsten der Magnetbandkassette ausfiel. Magnetbänder und Magnetbandkassetten finden sich daher im Bundesarchiv heute nur noch als Eingabemedium.

Seit 1995 werden Sicherungen auf Digital Audio Tape (DAT) angefertigt, einem seit etwa 1990 sehr weit verbreiteten Backup-Medium. Das DAT wird zudem in vielen Nationalarchiven als Archivierungsmedium verwendet. Die Nachteile, dass das DAT alle zwei Jahre umkopiert werden muss und dass es sich um ein relativ langsames, sequentielles Medium handelt, werden dadurch aufgewogen, dass es eine recht hohe Speicherkapazität aufweist. Der kurze Migrationszyklus rührt von dem besonderen (Schrägspur-) Aufzeichnungsverfahren her. Im Bundesarchiv werden derzeit noch Tapes nach dem Standard DDS-118 verwendet, die eine Kapazität von 2 GB haben. In Kürze soll auf DDS-3 umgestellt werden (Kapazität 12 GB). Von Vorteil ist, dass das Backup komfortabel mit sehr geringem Zeitaufwand erfolgen kann19. Das DAT gilt als besonders wirtschaftlich, da der erforderliche Personalaufwand bei der Verwendung von Backup-Software gering ist und die Datenträger preiswert sind: Ein DAT kostet derzeit ca. 6,- DM. Mit der Umstellung auf DDS-3 wird eine weitere Rationalisierung einhergehen, da künftig auch größere Datenbestände auf ein einziges DAT gespeichert werden können.

Die Zweitsicherung erfolgt im Bundesarchiv seit 1998 auf CD-R20. Zum selben Zeitpunkt wurden die Erstsicherungen auf Magnetband eingestellt. Die CD ist ein relativ schnelles Medium mit Direktzugriff. Wie Tests ergeben haben, können bis zu 18 (!) Gigabyte EBCDIC- oder ASCII-Flat Files in komprimierter Form auf einer CD-R gespeichert werden. Die CD dürfte heute eines der am meisten verbreiteteten Datenträger am Markt sein und damit vielleicht eine Position erreicht haben, die das Magnetband in den 1970er und 1980er Jahren inne hatte. Auch die Archivierung auf CD-R ist eine wirtschaftliche Lösung, da der Personalaufwand gering ist und die Rohlinge preiswert sind.

Zeitraum Typ des Datenträgers:

  • 1993 bis 1998 Magnetband

  • Seit 1995 Digital Audio Tape (DAT)

  • Seit 1998 CD-R

Tabelle 2: Datenträger für die Archivierung im Bundesarchiv

Disketten haben zwar eine sehr weite Verbreitung gefunden, scheiden aber wegen ihrer geringen Speicherkapazität und ihrer äußerst geringen Haltbarkeit als Archivmedium aus. Sie sind als nicht archivfähig anzusehen. Die praktische Erfahrung hat gezeigt, dass vereinzelt moderne 3,5“-Disketten bereits nach ein bis zwei Jahren Lesefehler aufweisen, während zu unserer Überraschung viele 8“-Disketten aus den 1980er Jahren heute noch ohne Probleme vollständig lesbar sind.

3. Doppelte Sicherung auf unterschiedlichen Datenträgern

In den National Archives of Canada, Ottawa, wurden in den 1980er Jahren Daten auf nicht standardisierte 12“-WORMs21 archiviert. Als diese WORM überraschend schnell vom Markt genommen wurde, mussten diese Daten mit erheblichem finanziellen Aufwand vorzeitig auf andere Datenträger kopiert werden22. Aufgrund dieser schlechten Erfahrungen wurde in Ottawa eine Arbeitsgruppe eingesetzt, die sich mit der Frage zu befassen hatte, welche Medien für die Langzeitarchivierung geeignet sind23: Eine der zentralen Empfehlungen der Experten galt der grundsätzlichen Archivierung der Daten auf zwei verschiedenen Datenträgern. 1995 wurden in Ottawa Magnetbänder und 8mm Exabyte Tape verwendet.

Auch im Bundesarchiv wird jede Datei zweifach und auf zwei verschiedenen Datenträgern gespeichert. Die doppelte Kopierung der Daten auf einen magnetischen (DAT) und einen optischen Datenträger (CD-R) bringt aufgrund der Verschiedenartigkeit der Medien zusätzliche Sicherheit bei Hardwareausfällen und Marktveränderungen.

4. Sachgerechte Lagerung

Erst- und Zweitsicherungen sind getrennt voneinander in verschiedenen Archivmagazinen aufzubewahren. Mit der getrennten Lagerung der beiden Archivdatenträger wird das Konzept der doppelten Sicherung konsequent fortgeschrieben24. Darüberhinaus sind sie in speziellen Datenträgerschränken abzulegen. Die Räumlichkeiten sollen klimatisiert sein, was besonders für Bandmedien von Bedeutung ist. Vor allem sollen die Klimawerte möglichst konstant gehalten werden: Raumtemperatur 17-20°C, relative Luftfeuchtigkeit 35-45%25. Bandmedien sind senkrecht aufzubewahren. Im Bundesarchiv hängen die Magnetbänder bereits seit 1986 in einer Rollregalanlage mit speziellen Hängevorrichtungen.

5. Regelmäßige Umkopierung und Migration der Medien

Um Datenverlusten vorzubeugen, sind die Sicherungskopien regelmäßig umzukopieren (Refreshment, DATs alle zwei, CD-Rs alle fünf Jahre). Die Umkopierfristen orientieren sich an Herstellerangaben, an Ergebnissen aus Labortests und an Erfahrungen anderer Archive. Aufgrund der ständigen Ablösung der Speichermedien durch neue Typen gilt es, die Entwicklungen auf dem Markt kontinuierlich zu beobachten und zu gegebener Zeit die Daten auf modernere Medien vorzunehmen (Migration). 1998 hat das Bundesarchiv infolgedessen die Speicherung auf 9-Spur-Magnetband eingestellt und zum selben Zeitpunkt mit der Kopierung auf CD-R begonnen. 2003 werden die Umkopierungsfristen für die letzten Magnetbänder abgelaufen sein, die dann kassiert werden können.

Es bleibt abzuwarten, welche Datenträger sich auf dem Markt durchsetzen. Auch die Erfahrungen anderer Archive sind in die Strategie einzubeziehen. Perspektivisch ist davon auszugehen, dass das DAT durch andere magnetische Speichermedien höherer Kapazität ersetzt wird. Es ist davon auszugehen, dass bei den optischen Medien die DVD-R die CD-R vom Markt verdrängen wird. Die DVD-R hat im Vergleich zur CD-R etwa die siebenfache Speicherkapazität (4,7 GB gegenüber 650 MB). Die Hardwarepreise fallen stetig und die Verbreitung der DVD-R auf dem Markt steigt.

Fazit

Das Bundesarchiv blickt im Jahr 2001 auf langjährige Erfahrungen in der Datenarchivierung zurück. Das „Technische Konzept für die Datenarchivierung“ hat sich bewährt: Bei den im Bundesarchiv entsprechend diesem Konzept archivierten Daten sind Datenverluste bis heute nicht eingetreten.


Anmerkungen:

10 Flat Files sind als sequentielle Zeichenfolge gespeicherte Daten ohne Software-Elemente.

11 EBCDIC = Extended Binary Coded Decimal Interchange Code

12 ASCII = American Standard Code for Information Interchange

13 Michael Wettengel: Technische Infrastruktur für die Archivierung von digitalen Datenbeständen - Anforderungen und Verfahrensweisen. In: „Mitteilungen aus dem Bundesarchiv“, Jg. 5 (1997), S. 8.

14 Digitales Archivobjekt: eine Archivalieneinheit (Daten aus einer DV-Fachanwendung einer Provenienzstelle), die aus einer Datei, aber auch aus einer Vielzahl einzelner Dateien bestehen kann. Siehe: Bettina Martin-Weber: Erschließung und Nutzbarmachung digitaler Unterlagen im Bundesarchiv. Vortrag auf der 5. Tagung des Arbeitskreises „Archivierung von Unterlagen aus digitalen Systemen“ am 5./6. März 2001 in München. Tagungsband in Vorbereitung.

15 Björn Dehms: Langzeitarchivierung einfacher, relationaler Datenbanken. Entwicklung eines Prototypen zur Migration nach XML. Diplomarbeit an der Universität Koblenz-Landau, Fachbereich Informatik. Koblenz, Dezember 2000.

16 XML = Extensible Markup Language. XML ist ein Derivat der international standardisierten Dokumentenbeschreibungssprache SGML. Die aktuelle XML-Spezifikation Version 1.0 wurde 1996-1998 vom World Wide Web Consortium (W3C) entwickelt.

17 Für das 9-Spur-Magnetband gelten v. a. folgende DIN-Normen: Nr. 66011, 66014, 66015 und 66029. Siehe:
Datenträger Magnetband: Normen. Hrsg. DIN, Deutsches Institut für Normung e. V. 4. Aufl., Stand der
abgedr. Normen: September 1992. Berlin, Köln: Beuth 1993 (DIN-Taschenbuch 125).

18 URL: http://www.pandora.inline.de/netware/faq/031c17.html.

19 Das DAT kommt ursprünglich aus der Unterhaltungsindustrie. Das Aufzeichnungsformat DDS (Digital Data Storage) wurde Ende der 1980er Jahre entwickelt und stellt eine Erweiterung des ursprünglichen Audio-Formats dar. Folgende Normen haben Gültigkeit erlangt: ISO/IEC 11557, Ausgabe 1992-12 für DDS-DC, ISO-IEC 12247, Ausgabe 1993-12 für DDS, ISO-IEC 13923, Ausgabe 1996-12 für DDS-2, ISO/IEC 15521, Ausgabe 1998-06 für DDS-3 sowie ISO/IEC 17462, Ausgabe 2000-09 für DDS-4. Siehe URL http://www.din.de und http://www.beuth.de. Derzeit ist der aktuelle Standard DDS-4 (Speicherkapazität ca. 10 GB).

20 Die CD-ROM ist standardisiert durch die Norm ISO 9660 und das sogenannte „Orange Book“ (Spezifikation
der Firmen Sony und Philips).

21 WORM = Write Once Read Many (optische Speicherplatte). Es handelte sich um eine WORM, die nur von einem Hersteller vertrieben wurde und für die es keinen internationalen Standard gab.

22 Stefan Klein: Fröhlicher Wildwuchs. In: DER SPIEGEL Nr. 40/1995, S. 228-230.

23 National Archives of Canada: Report of the Working Group on Conservation Standards and Technologies. Ottawa, 1992.

24 Michael Wettengel: Technische Infrastruktur für die Archivierung von digitalen Datenbeständen - Anforderungen und Verfahrensweisen. In: „Mitteilungen aus dem Bundesarchiv“, Jg. 5 (1997), S. 9.

25 Bundesarchiv: Anweisung für die archivarische Tätigkeit (1.1): Übernahme, Bewertung, Erschließung, Konservierung und Benutzung maschinenlesbarer Dateien (Stand 28.08.1995), S. 9, Michael Wettengel: Technische Infrastruktur für die Archivierung von digitalen Datenbeständen - Anforderungen und Verfahrensweisen. In: „Mitteilungen aus dem Bundesarchiv“, Jg. 5 (1997), S. 9.


6. Weiterführende Ressourcen


Langzeitarchivierung : Methoden zur Erhaltung digitaler Dokumente / Uwe M. Borghoff ... -- 1. Aufl. -- Heidelberg : dpunkt-Verl., 2003. -- XV, 283 S. : graph. Darst. ; 25 cm. -- Literaturverz. S. 271 - 275. -- ISBN: 3-89864-245-3

National Digital Information Infrastructure and Preservation Program / Library of Congress. -- URL: http://www.digitalpreservation.gov/. -- Zugriff am 2005-01-10

Neumann, Claudia: Nachhaltige Nutzung digitaler Dokumente. -- Stuttgart, 2003. -- Fachhochschule Stuttgart - Hochschule der Medien: Diplomarbeit. -- 69 S.

nestor : Kompetenznetzwerk Langzeitarchivierung. -- URL: http://www.langzeitarchivierung.de  -- Zugriff am 2005-01-10