Unterlagen zum Modul Digitale Bibliothek

Internet-Ressourcen-Logistik I

von Margarete Payer

mailto: payer@hdm-stuttgart.de

Zitierweise / cite as:

Payer, Margarete <1942->: Unterlagen zum Modul Digitale Bibliothek : Internet-Ressourcen-Logistik I. -- Fassung vom 2004-10-20. -- URL: http://www.payer.de/digitalebibliothek/digbib01.htm

Erstmals publiziert: In Bearbeitung [2002-11-30]

Überarbeitungen: 2004-10-20 [Ergänzungen]

Anlass: Lehrveranstaltung im Masterstudiengang Bibliotheks- und Medienmanagement an der HdM Stuttgart, 2002/03 und Lehrveranstaltung Information Engineering WS 04/05 in den Studiengängen Bibliotheks- und Medienmanagement und Informationswirtschaft

Unterrichtsmaterialien (gemäß § 46 (1) UrhG)

©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Herausgeberin.

Dieser Text ist Teil der Abteilung Informationswesen, Bibliothekswesen, Dokumentationswesen von Tüpfli's Global Village Library.

0. Übersicht

1. Aufbau einer [guten] digitalen Sammlung
- 1.1. Vorbemerkung
- 1.2. Was ist unter einer "guten" digitalen Sammlung zu verstehen?
- 1.3. Die digitalen Objekte
- 1.4. Digitale Publikationen als Pflichtexemplare in der DDB?
- 1.5. Elektronische Zeitschriften
- 1.6. Digitalisierung

1. Aufbau einer [guten] digitalen Sammlung

1.1. Vorbemerkung

Es geht im Folgenden um digitale Sammlungen von Bibliotheken, Dokumentationsstellen, Firmen und Einzelpersonen.

Heutige digitale Sammlungen sind aus unterschiedlichen Gründen entstanden: [u.a.]

Begeisterung des einzelnen privaten Sammlers

z.B. Dieter E. Zimmer. URL: http://www.zeit.de/digbib/ . -- Zugriff am 2002-10-30

Beiträge von vielen Freiwilligen ( z.B. Gutenberg-Projekt)

Interessen der Sponsoren

Politische Interessen

z.B. Bibliotheca universalis. URL: http://www.ddb.de/gabriel/bibliotheca-universalis/index.htm . -- Zugriff am 2002-04-30

zur Verfügung stehende digitale Materialien (z.B. Hochschulschriften)

z.B. OPUS

Erhaltung wertvoller Materialien

z.B. Angebote von Nationalbibliotheken, u.a. www.bl.uk

Angebot einer Studienbibliothek mit elektronischen Lehrbüchern und -materialien

z.B. Digitale Bibliothek NRW

als Projekt zum Testen

als Sammlung digitaler Unterlagen in Firmen (E-Mails und sonstige wichtige Dokumente)

1.2. Was ist unter einer "guten" digitalen Sammlung zu verstehen?

Vgl. für das Folgende:

A framework of guidance for building good digital collections / by the Digital Library Forum, a group convened by the Institute of Museum and Library Services. -- November 6, 2001. -- URL: http://www.imls.gov/pubs/forumframework.htm . -- Zugriff am 2002-06-16

und:

DESIRE information gateways handbook. -- Print version, last updated: 26 April 00. -- URL: http://www.desire.org/handbook/print4.html . -- Zugriff am 2002-10-30

Gemäß des Rahmenwerkes wird eine digitale Sammlung definiert als ein ausgewählter und geordneter Satz von digitalen Objekten, die mit Metadaten beschrieben sind. Dazu gibt es mindestens eine Schnittstelle für den Zugang.

Sie orientiert sich am Nutzer, bringt relevante Inhalte, ist gut zugänglich.

Außerdem wird gefordert, dass im Kontext eines internationalen Netzwerkes Nachnutzung, Dauerhaftigkeit, Verifizierung und Dokumentation gewährleistet werden. Es müssen Mechanismen eingebaut werden, die das Copyright einhalten lassen.

Ob eine Sammlung gut ist, kann immer nur in Hinblick auf ihren Zweck gesagt werden. Es ist auch ein Unterschied in der Beurteilung, ob es sich um digital-entstandene Ressourcen ("born-digital") oder um nachträglich digitalisierte Materialien handelt.

Folgende Prinzipien sind wichtig:

Es muss eine festgelegte Sammelrichtlinie vorliegen. Sie muss festgeklopft sein, bevor man mit dem Sammeln bzw. Digitalisieren beginnt. Diese Sammelrichtlinie soll der Aufgabe der sammelnden Organisation entsprechen ("mission of the organization"). D.h.: Man muss sich fragen, ob die Sammlung diese Aufgabe unterstützt, ob die vorgesehene Zielgruppe heute und/oder später einen Nutzen von der Sammlung hat, ob die Sammlung in die allgemeine Sammelrichtlinie der Bibliothek passt und ob es z.B. sinnvoll ist, vorhandene Objekte zu digitalisieren. In der Richtlinie (scope policy) muss angegeben sein, welche Fächer abgedeckt werden sollen und welche Ressourcenarten aufgenommen werden sollen, daneben können sprachliche und geographische Parameter aufgeführt werden, oder/und Parameter, die für die speziellen Nutzer relevant sind. Es ist wichtig, dass die Richtlinien öffentlich bekannt gemacht werden, denn
- daraus erkennt der Nutzer, dass nach Qualität ausgewählt wurde
- mit welchem Niveau er rechnen kann
- es hilft den Bearbeitern in ihrer Auswahl konsistent zu bleiben und die Qualität zu halten
- es hilft, wenn neue Mitarbeiter eingelernt werden müssen
- es hilft bei der Absprache, wenn die Arbeit auf unterschiedliche Teams verteilt ist
Beispiel für Auswahl zur Digitalisierung:

Selecting research collections for digitization / Dan Hazen, Jeffrey Horrell, Jan Merrill-Oldham. -- 8/98. - - URL: http://www.clir.org/pubs/reports/hazen/pub74.html . -- Zugriff am 2002-10-30

Richtlinien zur Auswahl elektronischer Medien:

http://www.hti.umich.edu/cgi/b/bib/bib-idx?c=dlf

Richtlinien zur Auswahl für Langzeiterhaltung (preservation):

Selection guidlines for preservation / Janet Gertz. -- [ca. 1999]. -- URL: http://www.rlg.org/preserv/joint/gertz.html . -- Zugriff am 2002-10-30

Erstellung einer Richtlinie:

s. DESIRE information gateways handbook. Section 2.1. -- URL: http://www.desire.org/handbook/print4.html . -- Zugriff am 2002-10-30
Die Sammlung als solche muss beschrieben werden: u.a. Thema, Format, Zugangseinschränkungen, Besitzer, Vollständigkeit (die Existenz der Sammlung muss bekannt gemacht werden). Außerdem sollten die Auswahlkriterien, eine Beschreibung der verantwortlichen Organisation, spezielle Softwareanforderungen, Copyrightbedingungen und E-mail-Adressen für Rückfragen angegeben werden.
Eine Sammlung soll über längere Zeit hin erreichbar bleiben. D.h. von Anfang an muss klar sein, wer in Zukunft die Sache finanziert. Es muss gewährleistet sein, dass eventuelle Suchroutinen bestehen bleiben, dass Upgrades in der Serverhard- und -software durchgeführt werden, dass die Sicherheit erhalten bleibt und dass genügend backups gemacht werden.
Eine Sammlung muss einem breiten Nutzerkreis zugänglich sein - also auch für Personen mit Behinderungen, eventuell durch den Einsatz hilfreicher Software.

Einen de facto-Standard hat das World Wide Web Consortium (W3C) gesetzt:

Web content accessibility guidelines 1.0 : W3C recommendation 5-May-1999. -- URL: http://www.w3.org/TR/WAI-WEBCONTENT/ . -- Zugriff am 2002-10-30 [darin z.B. "Guideline 1. Provide equivalent alternatives to auditory and visual content." Erklärung: "Provide content that, when presented to the user, conveys essentially the same function or purpose as auditory or visual content." z.B. Textersatz für Nicht-Text-Inhalt, weil Text durch Braille oder Sprachsynthesizer genutzt werden kann.]

Eine gute Sammlung respektiert die Rechte der Eigentümer der Ressourcen. Die Verantwortlichen führen eine Liste der Rechteinhaber und ihrer Genehmigungen.("Viewed from any side, rights issues are rarely clear cut, and the rights policy related to any collection is more often a matter of risk management than one of absolute right and wrong." A framework of guidance for building good digital collections. Collections principle 5.
Es soll regelmäßig die Benutzung festgestellt werden. Entsprechende Statistiken sollen längere Zeit vergleichbar bleiben. ( z.B. wieviele Besucher von wie vielen Domains? Was wurde herunter geladen? Welche Seiten sind gelinkt?
Eine gute Sammlung soll in den größeren Kontext bedeutender nationaler und internationaler digitaler Bibliotheks-Initiativen passen. (z.B. sollen die Metadaten für entsprechende Suchmaschinen aufbereitet werden. Absprachen in der Qualität können getroffen werden.
- z.B. Teilnahme an: The Open Archives Initiative: http://www.openarchives.org/
- z.B. Teilnahme an Portalen: Healthweb (Kooperation von über 20 Bibliotheken im Bereich Medizin): http://healthweb.org/

Als Prinzipien für gute Objekte (Ressourcen) kann man Folgendes aufführen:

Ein gutes digitales Objekt wird so produziert, dass es die Prinzipien der Sammlung unterstützt.
Ein solches Objekt ist dauerhaft. Es soll trotz wechselnder Technologien zugänglich bleiben und zwar entweder durch Migration oder Emulation, wobei man zur Zeit davon ausgeht, dass man durch die Wahl eines Standardformats Migration oder Emulation erleichtert.
Ein gutes Objekt liegt möglichst in einem Standardformat vor. Beim Digitalisieren sollte darauf geachtet werden, dass die Mastercopy möglichst gut sein sollte, damit man später wiederholt Abzüge für die Gebrauchskopie machen kann. (vgl. mittelalterliche Handschriften auf CD-ROM und einfache Versionen im Internet). Allerdings gibt es auch Ressourcen, für die sich dieser Aufwand nicht lohnt. Das ist jeweils festzulegen. (vgl. Table 1. Typology of Formats in A framework...)
Ein gutes Objekt erhält einen dauerhaften, eindeutigen Identifier, der einem Standard-Schema entspricht: ISBN, ISSN, DOI. Die unsichere URL eignet sich nicht dazu. Entstammt der Identifier einem lokalen System, muss dies öffentlich dokumentiert werden. Eine Möglichkeit ist die Einführung von PURLs, die aber zentral gepflegt werden müssen.
Die Echtheit des Objekts muss gewährleistet sein: die Fassung des Textes muss die richtige sein und der genannte Verfasser muss der echte sein. Das wird in den Metadaten bestätigt, muss aber technisch gelöst sein z.B. durch digitale Signaturen, Checksummen, Wasserzeichen.
Ein gutes Objekt wird mit Metadaten beschrieben, die dem Objekt beigegeben sind oder getrennt in einer eigenen Datei vorgehalten werden. Die Wahl des Metadatenschemas hängt wiederum von dem Ziel und Inhalt der Sammlung ab: u.a. Dublin Core, Encoded Archival Description (EAD). Das Schema sollte einen Austausch ermöglichen, z.B. die Anwendung von Z39.50. Dass für die Sacherschließung ein standardisiertes kontrolliertes Vokabular zugrunde gelegt werden soll, ist eine selbstverständliche Forderung. Diese Metadaten sollten so ausgebaut sein, dass sie auch für Langzeitanwendung einsetzbar sein können.
Ein gutes Objekt muss neben den Auswahlkriterien der Sammelrichtlinien bestimmten Qualitätskriterien unterliegen.

Bei Firmen zeichnet sich eine "gute" digitale Sammlung durch Folgendes aus:

Alle geschäftskritischen Unterlagen werden möglichst zentral gesammelt (und lagern nicht nur auf den Festplatten der Mitarbeiter)
Ein gutes Record-Management ermöglicht das schnelle Wiederauffinden der Dokumente (Untersuchungen ergaben, dass in Deutschland im Jahr 2003 das Wiederfinden eines einzigen Dokuments 1,91 Euro kostete. "Dies bedeutet, dass deutsche Unternehmen rechnerisch 100 Milliarden Euro für die Ablage und Verwaltung bereits erzeugter Dokumente ausgeben. Laut einer Untersuchung des Bürospezialisten Xerox verschlampen vier von hundert deutschen Managern jede Woche ein wichtiges Papier." [Dänzer,Ralf: Gesetze pushen Archivsoftware. - In: Computerwoche. - 2004, 12. - S. 74]
Steuerrechtlich relevante Unterlagen werden so vorgehalten, dass das Finanzamt auch nach Jahren die Dokumente einsehen kann. Die Vorschriften zur Aufbewahrungsfrist befinden sich im Handelsgesetzbuch und in der Abgabenordnung. Beachtet werden die Grundsätze ordnungsgemäßer DV-gestützter Buchführungssysteme, die Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen und - wenn es sich um Dokumente mit digitaler Signatur handelt - das Signaturgesetz.
Die Aufbewahrungsfristen von Konstruktionsdaten werden nach dem Produkthaftungsgesetz geregelt. (Besonders in den USA gibt es inzwischen im Bereich des Gesundheitswesens sehr strenge Vorschriften zur Aufbewahrung der Dokumente mit den wichtigsten Entscheidungen. Das betrifft z.B. die Entwicklung von Medikamenten.)
Bei personenbezogenen Daten wird das Bundesdatenschutzgesetz beachtet.
Ein korrektes Record-Management kann das Rating eines Unternehmens verbessern (sog. Soft Facts) (vgl. Eigenkapitalrichtlinie nach Basel II).

1.3. Die digitalen Objekte

1.3.1. Arten digitaler Objekte

Man kann die Objekte technisch unterscheiden nach

offline-zugänglichen Texten (z.B. auf CD-ROM) . Es ist zu klären, wieweit man diese Texte online-zugänglich machen will und darf.
online-zugänglichen Texten:
- Angebote im WWW : Text, Bild, Audio, Multimedia
- Angebot als FTP: vor allem bei Software
- Angebot als Telnet: geht stark zurück. Eher bei Datenbanken.
- Angebot als e-mail
- Angebot als chat, Usenet usw.

Man kann die digitalen Objekte nach ihrer Herkunft unterscheiden in kommerzielle Objekte (als Netzressourcen und als Ressourcen auf CD-ROMs), frei zugängliche Internetressourcen, selbst digitalisierte Ressourcen (auf Grund von Print- und ähnlichen Materialien) und digitale betriebliche Ressourcen. In der Realität gibt es allerdings fließende Übergänge, so kann eine zur Zeit frei zugängliche kostenfreie Ressource eines Verlags im Internet morgen eine zu bezahlende Ressource sein und umgekehrt. Auch die selbst digitalisierten Ressourcen können für eine andere Institution zu einer teuren Ressource werden, wenn die erstellende Institution Geld dafür verlangt.

Kommerzielle Objekte (im allgemeinen mit Kosten verbunden) sind Erzeugnisse und werden angeboten von:
- Verlagen: allgemeine Verlage, Universitätsverlage, Verlage von Fachgesellschaften (vgl. die Angaben der Frankfurter Buchmesse, vgl. die Liste bei Endres S. 450) (Beim Kauf ist meist zusätzlich eine lizenzrechtliche Klärung für die Nutzung im Netz notwendig.
- Sortimenter
- Dokumentlieferdienste
  
  Hinweis: Die DDB hat zusammen mit dem Springer-Verlag im Rahmen des Pilotprojekts Langzeitarchivierung von Online-Publikationen die Archivierung von 430 e-Zeitschriften abgeschlossen. "Die Volltextversionen von 430 Zeitschriften wurden in über 2 Millionen Dateien abgelegt, die in den Räumen der Deutschen Bibliothek kostenlos gelesen werden können. Der Springer-Verlag ist nach eigenen Angaben einer der international führenden Anbieter von Internet-basierten wissenschaftlichen Online-Inhalten von knapp 500 Zeitschriften." Kurzmeldung. -- In: NZZ. -- 2002, Nr. 255 vom 2.3. 11. 02. --S. 56
Objekte nichtgewerblicher Anbieter (mit vollen Kosten, mit Gebühren, mit Spenden oder kostenlos)
- Forschungseinrichtungen
- Universitäten
- Bibliotheken
- Pressearchive
- Regierungen, nationale und internationale Regierungsorganisationen, Patentämter
- private Einrichtungen: NGOs, Kirchen, Vereine, Parteien, Firmen und Banken
- Privatleute
Selbst zu erstellende Materialien
- Digitalisierung von Printwerken
- Elektronisches Publizieren im Hochschulbereich
- Produktion eigener Multimedia-Materialien ("wie beispielsweise interaktive Lernsoftware zur Benutzung der Bibliothek vor Ort" Die Digitale Bibliothek NRW - Konzept. -- URL: http://www.hbz-nrw.de/produkte_di...ib/dokumente/konzept/konzept.html . -- Zugriff am 2002-10-31)
Digitale betriebliche Ressourcen (digitale Akten)
- E-Mails z.B. Bestellungen, Rechnungen, Bewerbungsunterlagen
- Sitzungsprotokolle
- Forschungsunterlagen
- Prüfprotokolle usw.
- Projektunterlagen usw.

1.3.2. Auswahlkriterien

Entscheidend für Auswahlkriterien sind die ins Auge gefassten Nutzer. Man unterscheidet 5 Arten von Nutzern:

den gelegentlichen Nutzer
Schüler, Studierende und regelmäßige Nutzer
der Informationssuchende oder Hobbyist
der Forscher
Geschäftswelt

Auswahlkriterien für Online-Ressourcen (remote access) [vgl. auch das schon vorher gesagte zu der Auswahl nach den Sammelrichtlinien] (Diese Auswahlkriterien sind in erster Linie für eine aktuelle digitale Bibliothek gedacht, Auswahlkriterien für die Langzeiterhaltung unterliegen teilweise anderen Anforderungen.)

Auswahl bezüglich der Kosten (einmalig, laufend, Verhältnis Qualität - Kosten)
Auswahl bezüglich der Lizenzen (Frage: sind die Lizenzbedingungen so, dass ich die Ressource meinen Nutzern ohne große Probleme anbieten kann?)
Auswahl nach Qualität (je eindeutiger die Zielgruppe zu beschreiben ist, desto klarer sind die Qualitätskriterien zu definieren: sind die Objekte qualitätsvoll für meine Nutzergruppe? zur Zielgruppe s. auch Endres S. 144ff.
für wissenschaftliche Bibliotheken s. Payer, Margarete: Wie kann man die Qualität von Internetressourcen für den wissenschaftlichen Bereich beurteilen? -- Fassung vom 1997-06-07. -- URL: http://www.payer.de/einzel/infoq.html
Anbieten von nur digital vorliegenden Quellen z. B. Daten vom Marsflug

Auswahlkriterien für zu digitalisierende Materialien

Neben den oben genannten Punkten kommen hier einige weitere dazu, die unter Umständen die oben genannten Punkte bezüglich der Qualität auch relativieren können.

S. z.B. die Beziehung Nutzerart zu zu digitalisierenden Objekten: Market segments and their information needs / Colorado Digitization Project. -- 1999. - URL: http://coloradodigital.coalliance.org/users.html. -- Zugriff am 2002-10-30 :

Bessere Nutzungsmöglichkeit als Aspekt der Auswahl:
- alte sonst unzugängliche wertvolle Materialien
- Lehrmaterialien (Ermöglichen gleichzeitiger Nutzung)
- klassische Materialien (wegen der besseren Aufarbeitung und Suchbarkeit
- Fernleihe digital (z.B. bei Diplomarbeiten)
Erhaltung des kulturellen Erbes
- Schutz der alten wertvollen Objekte
- Ersatz bei säurehaltigem Papier
Erhaltung der Quellen
- Erhaltung von Primärdaten der Forschung
- Firmenunterlagen (z.B. Steuerunterlagen)
- Archivunterlagen z.B. Patientendateien

1.4. Digitale Publikationen als Pflichtexemplare in der DDB?

Bisher ist Pflichtablieferung gesetzlich nur für digitale Publikationen auf physischen Trägern vorgesehen. Im Vorgriff auf ein erweitertes Gesetz sammelt die DDB seit 1998 Online-Dissertationen und -Habilitationen. Seit 2002 sammelt sie aufgrund einer Rahmenvereinbarung mit dem Deutschen Börsenverein freiwillig abgelieferte Netzpublikationen. Es geht vor allem auch darum, Erfahrungen mit Netzpublikationen zu sammeln, um ein gutes Gesetz zu erarbeiten. [Im folgenden werden die Texte auf der Homepage der DDB ausgewertet, insbesondere aus http://deposit.ddb.de Zugriff am 2003-12-08]

Als besondere Aufgabe der DDB wird angesehen:

Langzeiterhaltung
Sammlung von "transferfähigen" Dokumenten (nicht Dateien).( Transferfähig sind z.B. Materialien in PDF-Format oder sonstigen nicht-proprietären Formaten, keine Materialien mit interaktiver Serveranbindung)
Voraussetzung für sofortige Benutzung ermöglichen

Die Richtlinien für die Sammlung dieser Materialien sehen u. a. vor:

im allgemeinen gelten die bisherigen Sammelrichtlinien für Pflichtexemplare: sammel- und ablieferungspflichtig sind im Prinzip alle Netzpublikationen, die im Bereich des zukünftigen Gesetzes entstehen und öffentlich zugänglich gemacht werden (nicht gesammelt werden solche Publikationen, die u. a. nur kurzfristig im Netz stehen, z.B. auch e-mails - E-Mail-Zeitschriften dagegen werden gesammelt) [eine ausführliche Liste findet sich auf der Homepage der DDB]
es sind spezielle Anpassungen wegen der Materialart nötig
eine strengere Auswahl als bei Printmaterialien ist vorgesehen
andere Verfahren der Ablieferung, Archivierung und Benutzung sind zu organisieren: die Ablieferung wird im allgemeinen in einer Woche nach der ersten Veröffentlichung erwartet. Zu unterscheiden sind statische Netzpublikationen (das sind solche, die bei Erscheinen abgeschlossen sind: Monographien bzw. abgeschlossene mehrbändige Werke), dynamisch kumulierende Netzpublikationen (fortlaufende Sammelwerke z.B. elektronische Zeitschrift, nicht abgeschlossene mehrbändige Werke z.B. elektronischer Fortsetzungsroman; Ablieferung von Ergänzungsteilen eventuell jährlich), dynamisch aktualisierende Netzpublikationen (das sind Veröffentlichungen, die ständig inhaltliche Änderung erfahren, in denen Texte ersetzt werden z. B. Loseblattausgaben bzw. thematische Web-Site; Ablieferung nach Stichtag) und Datenbanken (Netzpublikationen, die vom Benutzer interaktiv genutzt werden)
zwei unterschiedliche Formen der Behandlung sind nötig: a) Archivierung und Erschließung gleich nach dem Erscheinen und b) Verlinkung und Erschließung ohne Archivierung, wenn eine verteilte Datenhaltung abgesprochen wurde bzw. bei Schwierigkeiten der Archivierung
bei mehreren Ausgaben einer Publikation soll möglichst die Ausgabe genommen werden, die den Standardformatwünschen der DDB am besten entsprechen.

Kooperation mit anderen Pflichtexemplarsbibliotheken ist geplant

mit den regionalen Pflichtexemplarsbibliotheken
international insbesondere mit den Nationalbibliotheken von Österreich und der Schweiz

Benutzung:

bei copyrightfreien Materialien ist der Zugriff von außen auf den Archivserver der DDB möglich
bei anderen Materialien ist der Zugriff nur registrierten Nutzern im Leesesaal der DDB möglich

Es ist ein Verfahren für die Ablieferung ausgearbeitet worden.

1.5. Elektronische Zeitschriften

Definition: ein fortlaufendes digitales "Sammelwerk, dessen einzelne Teile mehr oder weniger regelmäßig mindestens zweimal im Jahr erscheinen und im allgemeinen mehrere Beiträge enthalten" (RAK-WB § 10)

Arten:

genuin elektronisch
mit dem Druck übereinstimmend
nicht mit dem Druck übereinstimmend (nur Auswahl oder zusätzliche Angebote)
nachträglich digitalisiert

Inhaltliche Unterscheidung:

peer-reviewed (hier auch pre-prints)
Verantwortung nur bei einem Herausgeber (einer Institution)
e-news-letters (moderierte und nicht moderierte Mailing-Listen)
e-zines

Hersteller:

Verlage
Gesellschaften, Vereine, Organisationen
Firmen (auch Corporate Publishing)
Privatleute

Kosten:

kostenfreie
kostenfrei für den Leser, kostenpflichtig für den Autor (z.B. New journal of physics: http://www.njp.org )
zur bezahlten Printausgabe gehörig (ohne zusätzliche und mit zusätzlichen Kosten)
Kosten wie normales Abo
Lizenzkosten
Bezahlung über pay-per-view

Erwerbung mit Hilfe von:

Agenten
Buchhandel
direkt vom Verlag
Subskription bei kostenfreien new-letters

Erwerbungsart:

"Online-Vertrag" (Lizenzvertrag: nur Recht auf Zugriff kein Eigentum, entweder nur Zugriff auf aktuelle Artikel oder auch auf Älteres, Zugriff nur so lange die Lizenz besteht auf das schon Bezahlte, oder Recht das ältere Bezahlte auch später zu nutzen). Der Online-Vertrag ist ein Dienstvertrag im Sinne des BGB, d.h. die Rechte und Pflichte werden zwischen den Vertragspartner festgelegt (vgl. Problem bei Fernleihe)
Pay-per-View-Verfahren (bedarfsbezogener Ansatz)

Lizenzvertrag als

Einzellizenz
Campuslizenz
Lizenz im Konsortium (auf regionaler oder nationaler Ebene)
Pauschallizenz (eventuell national)

Was wird erworben?

Möglichkeit des Herunterladens und Vorhalten auf eigenem Server
Freischaltung für den aktuellen Zugriff auf den Server des Verlags durch Nachweis der IP-Adresse oder/und Paßwort

Erschließung:

in ZDB, nachgewiesen in der EZB (Problem der Integration der Aufsatzdaten)

Bekanntmachen des Angebots:

Mailing-Listen
Schwarzes (elektronisches) Brett
Neuerwerbungsliste

Nutzung:

Lesesaal der Bibliothek
in angeschlossener Institutsbibliothek
Arbeitsplätze in der Organisation
zu Hause über Kennung der Bibliothek
zu Hause mit pay-per-view (mit und ohne Bibliothekshilfe)

Fernleihe:

Problem: darf aus einer E-Zeitschrift eine Papierkopie für die Fernleihe gemacht werden, wenn nur noch die e-Ausgabe in Deutschland vorhanden ist? Laut H. Müller: man darf. vgl. Müller, Harald: Ausdrucke aus E-Journals im Leihverkehr : Urheberrecht bei elektronischen Zeitschriften. - In: Bibliotheksdienst. - 36(2002)3. - S. 321 - 329

Ort der Langzeitarchivierung

Depositbibliothek
Verlag
Verbundzentrale

1.6. Digitalisierung

Die Digitalisierung der gewünschten Unterlagen kann manuell oder automatisch mit Hilfe von Scannern geschehen.

Da Abschreiben und Korrigieren sehr teuer ist, gibt es zwei Wege:

Das Abschreiben durch Freiwillige z.B. im Gutenberg-Projekt (nicht planbar)
Das Erfassen durch eine (heute meist asiatische Firma z.B. in den Philippinen). Überprüfung durch Rekeying d. h. es wird ein 2. Mal abgeschrieben und ein Programm überprüft die Übereinstimmung. Bei Nichtübereinstimmung muss manuell verbessert werden. (Ist bei alten Katalogen gemacht worden.).

Wir gehen heute eher von Einscannen aus.

Bei den Scannern ist die Frage der Auflösung wichtig, sollte man von der Druckqualität abhängig machen (z.B. Bücher aus der DDR müssen meist mit 600 dpi gescannt werden). Bei guter Druckqualität reichen 300 dpi, sollten Lesefehler damit häufig sein (z.B. "c" statt "e", "m" statt "rn"), dann 600 dpi. In den USA verlangt man zur Weiterverarbeitung mindestens 400 dpi.

Zu prüfen ist auch die Frage nach der Farbtiefe: (1 bit per Pixel), je nach Vorlage benötigt man 16 oder 256 Graustufen).

Man unterscheidet bei Scannern:

Handscanner. Bis zu 400 dpi, geringe Breite, direkte Berührung mit der Unterlage (eher für den privaten Gebrauch oder vielleicht kleine Lexikonartikel, Zeitschriftenartikel)
Flachbettscanner. 600 dpi ist kein Problem. Die Probleme sind vom Kopierer her bekannt: durch den Druck auf das Buch wird der Rücken beschädigt.
Einzugsscanner. Vorlagen im Format A3, für Massendigitalisierung z.B. bei Zeitungen
Trommelscanner. Bis 4000 dpi.
Buch- und Aufsichtsscanner. Erfüllt die Bedingungen, die man für Bücher an einen Scanner stellt, vor allem Verzerrungsfreiheit im Mittelbund.
Kamerascanner. Hervorragende Qualität vor allem bei farbigen Bildern, sehr schonend. Wurde z.B. bei Handschriften im Vatikan angewandt, aber sehr zeitaufwändig, da 8 Minuten pro Scan.
Mikrofilmscanner. Bei wertvollen Materialien, die entweder schon verfilmt sind oder schonend verfilmt werden.

Dazu gehört die Scan- und Bildbearbeitungssoftware :

Zum Standard gehört, dass die üblichen Retuschen automatisch ausgeführt werden, wie z.B. Schatten von Falz und Rand entfernen, den Kontrast verbessern, Drehen, Ausrichten, vergilbten Hintergrund unterdrücken.

Durch das Einscannen erhält man ein Image. (Das Image kann vom Buch direkt oder über eine Verfilmung hergestellt werden.)

Als Dateiformat für das Image sollten Standardformate gewählt werden. Für den digitalen Master wird bei bitonalen Vorlagen das TIFF-Rasterformat empfohlen. Die LoC empfiehlt für Handschriften und wertvolle Drucke unkomprimiertes TIFF (eine DIN-A4-Seiteschwarz/weiß bei 400 dpi Auflösung verbraucht circa 2 MB!). Zum Speichern wird man doch komprimieren. Bei uns empfiehlt man als Format PNG = Portable Network Graphics, da das Programm zur Komprimierung von TIFF und GIF proprietär ist.

Obwohl ein Image sehr viel Speicherplatz braucht und keine guten Suchmöglichkeiten anbietet, wird man bei einigen Materialien wie Handschriften und alten Drucken die Daten als Image anbieten, weil man die Originalfassung zeigen will. Außerdem ist bei solchen Materialien (dazu gehören auch stark verschmutzte Vorlagen, Texte mit sehr uneinheitlichem Schriftsatz...) eine Texterkennungssoftware oft nicht (oder noch nicht) sinnvoll einsetzbar. Um trotzdem bessere Suchmöglichkeiten anzubieten, wird empfohlen mindestens das Inhaltsverzeichnis suchbar zu gestalten. Es gibt auch Angebote einen ASCII-Text zu erstellen und zu zeigen, der dann zwar sehr fehlerhaft ist, aber eine gewissen Suche nach einzelnen Worten zuläßt.

Erfassung durch Texterkennungssoftware:

Wir unterscheiden zwei unterschiedliche Ansätze zur Erkennung :OCR = Optical Character Recognition und ICR = Intelligent Character Recognition:

bei OCR geht es um einen Mustervergleich (man kann die Buchstabenmuster mit der Software einüben)
Bei ICR geht es um eine Merkmalanalyse, d. h. typische Merkmale eines einzelnen Zeichens werden erfasst.

Gute Software arbeitet kontext- und sprachabhängig, d.h. je nach Sprache wird ein Punkt als diakritisches Zeichen berücksichtigt oder als Fliegendreck interpretiert.

Die Trefferquoten können bis zu 99% gehen (d. h. aber, dass 20 Fehler auf einer Manuskriptseite mit 2000 Zeichen stehen (bei 70% sind es schon 600 bis 800 Fehler). Will man gute Qualität anbieten, darf man auf Korrekturlesen nicht verzichten.

Nach dem Erstellen des ASCII-Textes folgt die Strukturbeschreibung des Dokumentes. Es geht dabei um die formatunabhängige Kennzeichnung bzw. Markierung von distinktiven strukturellen Elementen eines Textes wie Überschrift, Absatz (logische Struktur). Zum Einsatz kann SGML (vgl. American Memory der LoC, die eine DTD für digitalisierte historische Dokumente entwickelt hat), TEI (Text Encoding Intitiative mit SGML-konformen DTDs für die Wiedergabe verschiedener Textsorten wie Lyrik, Drama, Prosa, XML oder auch PDF (Portable Document Format) kommen.

Jedem Text sollte man die Erschließungsdaten beifügen: traditionelles Katalogisat, Angaben der technischen Daten wie z.B. die Auflösung, Angaben zur Struktur.

Die meisten Angaben zur Digitalisierung wurden entnommen aus:

Retrospektive Digitalisierung von Bibliotheksbeständen : Berichte der von der Deutschen Forschungsgemeinschaft einberufenen Facharbeitsgruppen "Inhalt" und "Technik" / Deutsches Bibliotheksinstitut. -- Berlin, 1997. -- 98 S. -- (DBI-Materialien ; 166 : Schriften der Deutschen Forschungsgemeinschaft) -- ISBN 3-87068-966-8

Im Anhang des genannten Buches wird der Aufwand und die Kosten für das Erfassen eines heutigen Standardbuches untersucht mit u.a. :folgenden Festlegungen:

Scannen: 400 dpi, schwarz/weiß
Speichern: TIFF
Indexieren: bibliograph. Kerndaten
Inhaltserschließung: Texterfassung von Inhaltsverzeichnis, Kapitelüberschriften, Register, ggf. auch Volltext
Umfang des Buches 300 Seiten Text zu jeweils 4000 Zeichen

Zusammenfassung: Durchschnittlicher Aufwand für das Erfassen des Standardbuches

Bibliothek

Arbeitsschritt	Bibliothek	Dienstleister	Total
Auswahl der zu erfassenden Bücher	5 Minuten		5 Minuten
Bibliothekarische Vorbereitung	20 Minuten		20 Minuten
Technische Vorbereitung		8 Minuten	8 Minuten
Indexierung		5 Minuten	5 Minuten
Erfassung		30-60 Minuten	30-60 Minuten
Nachbearbeitung		10-60 Minuten	10-60 Minuten
Text-Erfassung Inhaltsverzeichnis / Kapitelüberschriften	10-60 Minuten	10-60 Minuten	10-60 Minuten
Text-Erfassung Register	20-120 Minuten	20-120 Minuten	20-120 Minuten
Permanente Speicherung		4 Minuten	4 Minuten
Endkontrolle, Abnahme	10 Minuten		10 Minuten
Schlussdokumentation	5 Minuten		5 Minuten
Total			127-357 Minuten
Zusätzliche Volltexterfassung	20-100 Stunden	20-100 Stunden	20-100 Stunden

Ohne die Erfassung des gesamten Volltextes erfordert das Verfilmen, Scannen, Indexieren, Texterfassung von Inhaltsverzeichnis/Kapitelüberschriften und Registern und Abspeichern auf CD-R einen Arbeitsaufwand von - je nach gewählter Vorgehensweise - 2 bis 6 Stunden. Die Bandbreite ergibt sich vor allem aus der unterschiedlichen Art der Texterfassung.

Zu Kapitel 2: Langzeitarchivierung