mailto: payer@hdm-stuttgart.de
Zitierweise / cite as:
Payer, Margarete <1942->: Unterlagen zum Modul Digitale Bibliothek : Internet-Ressourcen-Logistik I. -- Fassung vom 2004-10-20. -- URL: http://www.payer.de/digitalebibliothek/digbib01.htm
Erstmals publiziert: In Bearbeitung [2002-11-30]
Überarbeitungen: 2004-10-20 [Ergänzungen]
Anlass: Lehrveranstaltung im Masterstudiengang Bibliotheks- und Medienmanagement an der HdM Stuttgart, 2002/03 und Lehrveranstaltung Information Engineering WS 04/05 in den Studiengängen Bibliotheks- und Medienmanagement und Informationswirtschaft
Unterrichtsmaterialien (gemäß § 46 (1) UrhG)
©opyright: Dieser Text steht der Allgemeinheit zur Verfügung. Eine Verwertung in Publikationen, die über übliche Zitate hinausgeht, bedarf der ausdrücklichen Genehmigung der Herausgeberin.
Dieser Text ist Teil der Abteilung Informationswesen, Bibliothekswesen, Dokumentationswesen von Tüpfli's Global Village Library.
Es geht im Folgenden um digitale Sammlungen von Bibliotheken, Dokumentationsstellen, Firmen und Einzelpersonen.
Heutige digitale Sammlungen sind aus unterschiedlichen Gründen entstanden: [u.a.]
z.B. Dieter E. Zimmer. URL: http://www.zeit.de/digbib/ . -- Zugriff am 2002-10-30
z.B. Bibliotheca universalis. URL: http://www.ddb.de/gabriel/bibliotheca-universalis/index.htm . -- Zugriff am 2002-04-30
z.B. OPUS
z.B. Angebote von Nationalbibliotheken, u.a. www.bl.uk
z.B. Digitale Bibliothek NRW
Vgl. für das Folgende:
A framework of guidance for building good digital collections / by the Digital Library Forum, a group convened by the Institute of Museum and Library Services. -- November 6, 2001. -- URL: http://www.imls.gov/pubs/forumframework.htm . -- Zugriff am 2002-06-16
und:
DESIRE information gateways handbook. -- Print version, last updated: 26 April 00. -- URL: http://www.desire.org/handbook/print4.html . -- Zugriff am 2002-10-30
Gemäß des Rahmenwerkes wird eine digitale Sammlung definiert als ein ausgewählter und geordneter Satz von digitalen Objekten, die mit Metadaten beschrieben sind. Dazu gibt es mindestens eine Schnittstelle für den Zugang.
Sie orientiert sich am Nutzer, bringt relevante Inhalte, ist gut zugänglich.
Außerdem wird gefordert, dass im Kontext eines internationalen Netzwerkes Nachnutzung, Dauerhaftigkeit, Verifizierung und Dokumentation gewährleistet werden. Es müssen Mechanismen eingebaut werden, die das Copyright einhalten lassen.
Ob eine Sammlung gut ist, kann immer nur in Hinblick auf ihren Zweck gesagt werden. Es ist auch ein Unterschied in der Beurteilung, ob es sich um digital-entstandene Ressourcen ("born-digital") oder um nachträglich digitalisierte Materialien handelt.
Folgende Prinzipien sind wichtig:
Beispiel für Auswahl zur Digitalisierung:
Selecting research collections for digitization / Dan Hazen, Jeffrey Horrell, Jan Merrill-Oldham. -- 8/98. - - URL: http://www.clir.org/pubs/reports/hazen/pub74.html . -- Zugriff am 2002-10-30
Richtlinien zur Auswahl elektronischer Medien:
Richtlinien zur Auswahl für Langzeiterhaltung (preservation):
Selection guidlines for preservation / Janet Gertz. -- [ca. 1999]. -- URL: http://www.rlg.org/preserv/joint/gertz.html . -- Zugriff am 2002-10-30
Erstellung einer Richtlinie:
s. DESIRE information gateways handbook. Section 2.1. -- URL: http://www.desire.org/handbook/print4.html . -- Zugriff am 2002-10-30
Einen de facto-Standard hat das World Wide Web Consortium (W3C) gesetzt:
Web content accessibility guidelines 1.0 : W3C recommendation 5-May-1999. -- URL: http://www.w3.org/TR/WAI-WEBCONTENT/ . -- Zugriff am 2002-10-30 [darin z.B. "Guideline 1. Provide equivalent alternatives to auditory and visual content." Erklärung: "Provide content that, when presented to the user, conveys essentially the same function or purpose as auditory or visual content." z.B. Textersatz für Nicht-Text-Inhalt, weil Text durch Braille oder Sprachsynthesizer genutzt werden kann.]
Als Prinzipien für gute Objekte (Ressourcen) kann man Folgendes aufführen:
Bei Firmen zeichnet sich eine "gute" digitale Sammlung durch Folgendes aus:
Man kann die Objekte technisch unterscheiden nach
Man kann die digitalen Objekte nach ihrer Herkunft unterscheiden in kommerzielle Objekte (als Netzressourcen und als Ressourcen auf CD-ROMs), frei zugängliche Internetressourcen, selbst digitalisierte Ressourcen (auf Grund von Print- und ähnlichen Materialien) und digitale betriebliche Ressourcen. In der Realität gibt es allerdings fließende Übergänge, so kann eine zur Zeit frei zugängliche kostenfreie Ressource eines Verlags im Internet morgen eine zu bezahlende Ressource sein und umgekehrt. Auch die selbst digitalisierten Ressourcen können für eine andere Institution zu einer teuren Ressource werden, wenn die erstellende Institution Geld dafür verlangt.
Hinweis: Die DDB hat zusammen mit dem Springer-Verlag im Rahmen des Pilotprojekts Langzeitarchivierung von Online-Publikationen die Archivierung von 430 e-Zeitschriften abgeschlossen. "Die Volltextversionen von 430 Zeitschriften wurden in über 2 Millionen Dateien abgelegt, die in den Räumen der Deutschen Bibliothek kostenlos gelesen werden können. Der Springer-Verlag ist nach eigenen Angaben einer der international führenden Anbieter von Internet-basierten wissenschaftlichen Online-Inhalten von knapp 500 Zeitschriften." Kurzmeldung. -- In: NZZ. -- 2002, Nr. 255 vom 2.3. 11. 02. --S. 56
Entscheidend für Auswahlkriterien sind die ins Auge gefassten Nutzer. Man unterscheidet 5 Arten von Nutzern:
Auswahlkriterien für Online-Ressourcen (remote access) [vgl. auch das schon vorher gesagte zu der Auswahl nach den Sammelrichtlinien] (Diese Auswahlkriterien sind in erster Linie für eine aktuelle digitale Bibliothek gedacht, Auswahlkriterien für die Langzeiterhaltung unterliegen teilweise anderen Anforderungen.)
für wissenschaftliche Bibliotheken s. Payer, Margarete: Wie kann man die
Qualität von Internetressourcen für den wissenschaftlichen Bereich beurteilen?
-- Fassung vom 1997-06-07. -- URL:
http://www.payer.de/einzel/infoq.html
Auswahlkriterien für zu digitalisierende Materialien
Neben den oben genannten Punkten kommen hier einige weitere dazu, die unter Umständen die oben genannten Punkte bezüglich der Qualität auch relativieren können.
S. z.B. die Beziehung Nutzerart zu zu digitalisierenden Objekten: Market segments and their information needs / Colorado Digitization Project. -- 1999. - URL: http://coloradodigital.coalliance.org/users.html. -- Zugriff am 2002-10-30 :
Bisher ist Pflichtablieferung gesetzlich nur für digitale Publikationen auf physischen Trägern vorgesehen. Im Vorgriff auf ein erweitertes Gesetz sammelt die DDB seit 1998 Online-Dissertationen und -Habilitationen. Seit 2002 sammelt sie aufgrund einer Rahmenvereinbarung mit dem Deutschen Börsenverein freiwillig abgelieferte Netzpublikationen. Es geht vor allem auch darum, Erfahrungen mit Netzpublikationen zu sammeln, um ein gutes Gesetz zu erarbeiten. [Im folgenden werden die Texte auf der Homepage der DDB ausgewertet, insbesondere aus http://deposit.ddb.de Zugriff am 2003-12-08]
Als besondere Aufgabe der DDB wird angesehen:
Die Richtlinien für die Sammlung dieser Materialien sehen u. a. vor:
Kooperation mit anderen Pflichtexemplarsbibliotheken ist geplant
Benutzung:
Es ist ein Verfahren für die Ablieferung ausgearbeitet worden.
Definition: ein fortlaufendes digitales "Sammelwerk, dessen einzelne Teile mehr oder weniger regelmäßig mindestens zweimal im Jahr erscheinen und im allgemeinen mehrere Beiträge enthalten" (RAK-WB § 10)
Arten:
Inhaltliche Unterscheidung:
Hersteller:
Kosten:
Erwerbung mit Hilfe von:
Erwerbungsart:
Lizenzvertrag als
Was wird erworben?
Erschließung:
in ZDB, nachgewiesen in der EZB (Problem der Integration der Aufsatzdaten)
Bekanntmachen des Angebots:
Nutzung:
Fernleihe:
Problem: darf aus einer E-Zeitschrift eine Papierkopie für die Fernleihe gemacht werden, wenn nur noch die e-Ausgabe in Deutschland vorhanden ist? Laut H. Müller: man darf. vgl. Müller, Harald: Ausdrucke aus E-Journals im Leihverkehr : Urheberrecht bei elektronischen Zeitschriften. - In: Bibliotheksdienst. - 36(2002)3. - S. 321 - 329
Ort der Langzeitarchivierung
Die Digitalisierung der gewünschten Unterlagen kann manuell oder automatisch mit Hilfe von Scannern geschehen.
Da Abschreiben und Korrigieren sehr teuer ist, gibt es zwei Wege:
Wir gehen heute eher von Einscannen aus.
Bei den Scannern ist die Frage der Auflösung wichtig, sollte man von der Druckqualität abhängig machen (z.B. Bücher aus der DDR müssen meist mit 600 dpi gescannt werden). Bei guter Druckqualität reichen 300 dpi, sollten Lesefehler damit häufig sein (z.B. "c" statt "e", "m" statt "rn"), dann 600 dpi. In den USA verlangt man zur Weiterverarbeitung mindestens 400 dpi.
Zu prüfen ist auch die Frage nach der Farbtiefe: (1 bit per Pixel), je nach Vorlage benötigt man 16 oder 256 Graustufen).
Man unterscheidet bei Scannern:
Dazu gehört die Scan- und Bildbearbeitungssoftware :
Zum Standard gehört, dass die üblichen Retuschen automatisch ausgeführt werden, wie z.B. Schatten von Falz und Rand entfernen, den Kontrast verbessern, Drehen, Ausrichten, vergilbten Hintergrund unterdrücken.
Durch das Einscannen erhält man ein Image. (Das Image kann vom Buch direkt oder über eine Verfilmung hergestellt werden.)
Als Dateiformat für das Image sollten Standardformate gewählt werden. Für den digitalen Master wird bei bitonalen Vorlagen das TIFF-Rasterformat empfohlen. Die LoC empfiehlt für Handschriften und wertvolle Drucke unkomprimiertes TIFF (eine DIN-A4-Seiteschwarz/weiß bei 400 dpi Auflösung verbraucht circa 2 MB!). Zum Speichern wird man doch komprimieren. Bei uns empfiehlt man als Format PNG = Portable Network Graphics, da das Programm zur Komprimierung von TIFF und GIF proprietär ist.
Obwohl ein Image sehr viel Speicherplatz braucht und keine guten Suchmöglichkeiten anbietet, wird man bei einigen Materialien wie Handschriften und alten Drucken die Daten als Image anbieten, weil man die Originalfassung zeigen will. Außerdem ist bei solchen Materialien (dazu gehören auch stark verschmutzte Vorlagen, Texte mit sehr uneinheitlichem Schriftsatz...) eine Texterkennungssoftware oft nicht (oder noch nicht) sinnvoll einsetzbar. Um trotzdem bessere Suchmöglichkeiten anzubieten, wird empfohlen mindestens das Inhaltsverzeichnis suchbar zu gestalten. Es gibt auch Angebote einen ASCII-Text zu erstellen und zu zeigen, der dann zwar sehr fehlerhaft ist, aber eine gewissen Suche nach einzelnen Worten zuläßt.
Erfassung durch Texterkennungssoftware:
Wir unterscheiden zwei unterschiedliche Ansätze zur Erkennung :OCR = Optical Character Recognition und ICR = Intelligent Character Recognition:
Gute Software arbeitet kontext- und sprachabhängig, d.h. je nach Sprache wird ein Punkt als diakritisches Zeichen berücksichtigt oder als Fliegendreck interpretiert.
Die Trefferquoten können bis zu 99% gehen (d. h. aber, dass 20 Fehler auf einer Manuskriptseite mit 2000 Zeichen stehen (bei 70% sind es schon 600 bis 800 Fehler). Will man gute Qualität anbieten, darf man auf Korrekturlesen nicht verzichten.
Nach dem Erstellen des ASCII-Textes folgt die Strukturbeschreibung des Dokumentes. Es geht dabei um die formatunabhängige Kennzeichnung bzw. Markierung von distinktiven strukturellen Elementen eines Textes wie Überschrift, Absatz (logische Struktur). Zum Einsatz kann SGML (vgl. American Memory der LoC, die eine DTD für digitalisierte historische Dokumente entwickelt hat), TEI (Text Encoding Intitiative mit SGML-konformen DTDs für die Wiedergabe verschiedener Textsorten wie Lyrik, Drama, Prosa, XML oder auch PDF (Portable Document Format) kommen.
Jedem Text sollte man die Erschließungsdaten beifügen: traditionelles Katalogisat, Angaben der technischen Daten wie z.B. die Auflösung, Angaben zur Struktur.
Die meisten Angaben zur Digitalisierung wurden entnommen aus:
Retrospektive Digitalisierung von Bibliotheksbeständen : Berichte der von der Deutschen Forschungsgemeinschaft einberufenen Facharbeitsgruppen "Inhalt" und "Technik" / Deutsches Bibliotheksinstitut. -- Berlin, 1997. -- 98 S. -- (DBI-Materialien ; 166 : Schriften der Deutschen Forschungsgemeinschaft) -- ISBN 3-87068-966-8
Im Anhang des genannten Buches wird der Aufwand und die Kosten für das Erfassen eines heutigen Standardbuches untersucht mit u.a. :folgenden Festlegungen:
Zusammenfassung: Durchschnittlicher Aufwand für das Erfassen des Standardbuches
BibliothekArbeitsschritt | Bibliothek | Dienstleister | Total |
---|---|---|---|
Auswahl der zu erfassenden Bücher | 5 Minuten | 5 Minuten | |
Bibliothekarische Vorbereitung | 20 Minuten | 20 Minuten | |
Technische Vorbereitung | 8 Minuten | 8 Minuten | |
Indexierung | 5 Minuten | 5 Minuten | |
Erfassung | 30-60 Minuten | 30-60 Minuten | |
Nachbearbeitung | 10-60 Minuten | 10-60 Minuten | |
Text-Erfassung Inhaltsverzeichnis / Kapitelüberschriften | 10-60 Minuten | 10-60 Minuten | 10-60 Minuten |
Text-Erfassung Register | 20-120 Minuten | 20-120 Minuten | 20-120 Minuten |
Permanente Speicherung | 4 Minuten | 4 Minuten | |
Endkontrolle, Abnahme | 10 Minuten | 10 Minuten | |
Schlussdokumentation | 5 Minuten | 5 Minuten | |
Total | 127-357 Minuten | ||
Zusätzliche Volltexterfassung | 20-100 Stunden | 20-100 Stunden | 20-100 Stunden |
Ohne die Erfassung des gesamten Volltextes erfordert das Verfilmen, Scannen, Indexieren, Texterfassung von Inhaltsverzeichnis/Kapitelüberschriften und Registern und Abspeichern auf CD-R einen Arbeitsaufwand von - je nach gewählter Vorgehensweise - 2 bis 6 Stunden. Die Bandbreite ergibt sich vor allem aus der unterschiedlichen Art der Texterfassung.
Zu Kapitel 2: Langzeitarchivierung