Volltextrecherche im Internet Archive mit Open Library

Open Library ist „ein Projekt zur kollaborativen Erstellung einer auf einer bibliographischen Datenbank basierenden Online-Bibliothek. Selbsterklärtes Ziel der Open Library ist es, eine eigene Webseite für jedes bislang veröffentlichte Buch zu schaffen. In vielen Fällen wird dabei über den bibliographischen Nachweis hinaus auch der Zugang zum Digitalisat des jeweiligen Buchtitels mit hinterlegtem Volltext ermöglicht.“ (Wikipedia: Open Library)

Als Teilprojekt des Internet Archive eignet sich Open Library dabei auch für die Suche in den dort enthaltenen Beständen. Unter der Rubrik „Digitale Medien“ kann nun auch über den Karlsruher Virtuellen Katalog (KVK) im Internet Archive gesucht werden (Klaus Graf in Archivalia).

In einem früheren Beitrag habe ich bereits vorgestellt, wie mit dem Site:-Operator per Google-Suche auf die Volltexte im Internet Archive zugegriffen werden kann. Wikisource liefert hier eine gut durchdachte Variante:

site:archive.org/stream/ filetype:txt *
(Das Sternchen * im Eingabefeld muss dann nur 
durch den gewünschten Suchbegriff ersetzt 
und die Suche gestartet werden.)

Klaus Graf macht in Archivalia auf die Volltextsuche der Open Library aufmerksam. Diese möchte ich anhand des Suchbegriffs „Allmende“ vorstellen und lasse nach diesem suchen. Es erscheint eine Trefferliste mit der Kurzfassung der bibliographischen Angaben jedes gefundenen Werkes:

AllmendeA

 

 

 

 

 

 

 

 

 

Im folgenden verwende ich „Beiträge zur kenntnis der allmendverfassung“ von „Ahron Eliasberg“ als Beispiel. Mit einem Mausklick auf den Namen des Werkes oder Autors gelangt man zu den jeweiligen Datensätzen der Open Library. Unter den bibliographischen Angaben der Suchtreffer werden ausgewählte Fundstellen mit dem hervorgehobenen Suchbegriff angezeigt. Zwar erscheint über der Liste die Anzahl aller ermittelten Treffer, aber leider keine Anzahl der Treffer innerhalb eines bestimmten Werkes. Die hier angezeigten Fundstellen sind nicht vollständig, erst die Funktion „snippets in situ“ zeigt die einzelnen Treffer im Originalkontext:

AllmendeB

 

 

 

 

 

 

 

 

„beitrgezurkennt00eliagoog“ ist der Identifier des Items im Internet Archive, mit dem die Links zu den Metadaten und in diesem Fall zum Volltext gebildet werden:

https://archive.org/details/beitrgezurkennt00eliagoog

Der „Read“-Button mit dem Buchsymbol führt direkt zum Online-Reader des Internet Archive. Auf der Leiste zum Blättern erscheinen nun Lesezeichen für die Fundstellen im geöffneten Volltext:

AllmendeC

 

 

 

 

 

 

 

 

 

 

Mit den Lesezeichen lassen sich nicht nur die einzelnen Seiten mit den Fundstellen gezielt aufrufen, sondern sie ermöglichen eine Vorschau auf die jeweilige Seite, die aber nicht vollständig ist.

Blättert man durch die Seiten im Volltext, werden die gefundenen Wörter farbig unterlegt angezeigt. Durch die hier vorgestellten Funktionen ist diese Suche zur Orientierung überaus praktisch, doch nach wie vor gilt Klaus Grafs Kommentar:

Jedes beim Internet Archive hochgeladene Buch erhält eine OCR, die bei Frakturschriften nach wie vor unbrauchbar ist und bei Antiquaschriften in der Regel auch nicht besonders gut. Dieser E-Text wird häufig von der Google-Websuche erfasst.

Für dieses Problem gibt es in Wikisource ein paar Suchtipps. Nach einigen Probeläufen halte ich die Suche mit dem Site:-Operator von Google nach wie vor für ergiebiger.

Wer archiviert das Internet? Eine Diskussion auf der re:publica 2014

Wer archiviert das Internet? So lautete der Titel einer Diskussion auf der re:publica 2014. Paul Klimpel (http://www.collaboratory.de),  Alexis Rossi (http://archive.org) und Elisabeth Niggemann (Generaldirektorin der Deutschen Nationalbibliothek) diskutierten hierzu am Mittwoch, den 7. Mai auf der re:publica 2014. Hier die Kurzthese zur Diskussion und dem Video hierzu:

Trau, schau, wem: Kulturelle Gedächtniskonzepte jenseits der NSA Im Zuge der NSA-Enthüllungen entstand der Eindruck, Geheimdienste sammeln alles, speichern alles und archivieren alles, was an digitalen Informationen verfügbar ist. Während die Praxis der Geheimdienste im Verborgenen stattfindet, agieren Gedächtnisinstitutionen wie Bibliotheken, Archive und Museen öffentlich und unterliegen Regeln und institutionellen Zuschreibungen. Doch auch nicht-staatliche Institutionen wie das Internet Archive archivieren digitale Daten in frei zugänglicher Form. Wie unterscheiden sich Konzepte, Rahmenbedingungen und Praxis, wo gibt es Überschneidungen, wo Abgrenzungen, wo Lücken?

Recherche im Internet Archive

Das Internet Archive orientiert sich an der Vision, die Gesamtheit des menschlichen Wissens allen verfügbar zu machen. Schon jetzt hat diese Vision zu bemerkenswerten Resultaten geführt. Losgelöst von der kreativen Energie, zu der diese Vision beflügelt, bleibt besonders zu klären, welcher Wissensbegriff diesem utopischen Entwurf unterliegt.

Persönlich bin ich ein großer Fan dieses Projektes und stöbere gerne ausgiebig in den digitalen Beständen. Besonders gefällt mir dabei, dass neben der Erstellung und Pflege digitaler Bestände mit der Eröffnung der physischen Sektion ebenfalls Sorge für die Erhaltung des gedruckten Buches als Kulturgut getragen wird.

Nun möchte ich kurz skizzieren, wie ich Google für die Recherche in den Beständen des Internet Archive nutze. Damit meine ich besonders die Volltext-Recherche. Google erlaubt es, die Suche auf einzelne Internetseiten zu begrenzen. Suchen möchte ich nach dem Zitat von Walter Benjamin über die Kartothek eines Wissenschaftlers, gebe also bei Google ein:

kartothek site:archive.org

„Kartothek“ ist hier mein Stichwort, „site:archive.org“ begrenzt die Suche auf die entsprechende Internetseite. Nun erscheint eine Trefferliste, bei der die gelisteten Fundstellen mit „Full text of“ beginnen. Dies sind natürlich die Fundstellen in den Volltexten. Ich klicke mit der Maus auf „Full text of „Einbahnstraße“ – Internet Archive“, weil ich weiß, dass „Einbahnstraße“ ein berühmtes Werk von Benjamin ist.

Mit dem Link gelange ich zum Volltext des Textes und kann mit meinem Browser innerhalb des Textes nach dem Stichwort „Kartothek“ suchen: Vier Treffer werden angezeigt, und die Suchfunktion meines Browsers bringt mich zum gesuchten Zitat und seinem Kontext, durch die Zeichenerkennung etwas entstellt:

(Und beute scbon ist das Buch, wie die aktuelle wissen-
scbaftlicbe Produktionsweise lehrt, eine veraltete Vermitt-
lung zwischen zwei verscbiedenen Kartothekssystemen.
Denn alles Wesentlicbe findet sich im Zettelkasten des
Forscbers, der’s verfaBte, und der Gelebrte, der darin
studiert, assimiliert es seiner eigenen Kartothek.)

Die Überschrift des Textes heißt hier: „YEREIDIQTEH BUCHERREVISOR“. Etwas weiter oben im Volltext findet sich die Seitenangabe: 26. Ganz oben über dem Volltext findet sich die Überschrift „Full text of „Einbahnstraße““ mit dem Link zum Archiveintrag. Nun kann man auf der linken Seite „Read Online“ wählen und im Reader zur Seite 26 Blättern. Die Seitenzahl bringt mich in die Nähe des Textes, wenige Seiten später treffe ich – durch die Überschrift – auf die gesuchte Stelle. Nun habe ich die bibliographischen Angaben zum gesuchten Zitat sowie einen direkten Link für Belege in digitalen Publikationen:

http://archive.org/stream/Einbahnstrae/BenjaminEinbahnstrae#page/n25/mode/2up

Hier ist die doppelseitige Ansicht ausgewählt.

Mit Hilfe von Google lassen sich so viele Treffer ermitteln, besonders was die Suche nach unselbständigen Publikationen oder besonderen Stichworten (Ortsnamen, veraltete Ausdrücke) betrifft. Aber aufgrund der Qualität der Scans und der Volltexte sollten die Suchabfragen stark variiert werden.

Die Möglichkeit direkter Links zu digitalisierten Quellen stellt einen bisher kaum gehobenen Schatz dar. Klaus Graf nutzt diese Möglichkeit direkter Online-Belege – hier ein Beispiel – in dem von ihm administrierten Gemeinschafts-Blog Archivalia.

The Internet Archive im Film

Im Internet Archive werden Internetdokumente langzeitarchiviert, um auch die Geschichte des Internets und dessen Inhalte zu erhalten. Das Archive ist derzeit die weltgrößte Online-Bibliothek der Welt. In ihr sind 10 Petabytes Informationen (Bücher,Texte, Webseiten, Filme, Audios, Live-Musik, Fernsehsendungen) gespeichert. Um das Erreichen des 10-Petabyte-Meilensteins zu feiern, wurde dieses Video im Oktober 2012 während der „Books in Browsers Conference“ und der „10 Petabyte Celebration“ produziert.

Im ersten Teil des Videos sind Brewster Kahle, Gründer des Internet Archives und seine Kollegen, Robert Miller (Bücher) und Alexis Rossi (Websammlung) zu sehen. Sie erklären ihre Mission, universellen Zugang zum Wissen der Welt zu bieten. Das Video beinhaltet auch eine Tour durch das Hauptquartier des Internet Archives in San Francisco, das Scan-Zentrum für Bücher und die Buchaufbewahrung in Richmond, Karlifornien.

Internet Archive from Deepspeed media on Vimeo.

Directed by Jonathan Minard
Cinematography by John Behrens, Alexander Porter, and Fearghal O'dea
Project supported by Eyebeam