Trends mit Google Books entdecken

Historiker müssen doch jubeln. Dank Suchgigant und Google-Books lassen sich bisher verborgene Trends in Geschichte, Kultur und Sprache online entdecken. Forscher der amerikanischen Havard University wollen in diesen Daten das “Erbgut” der Kultur entdeckt haben.

Man müsste alle Bücher, die jemals geschrieben worden sind, lesen können, um die Fragen beantworten zu können. Wie hat sich das Bild von der Welt verändert? Wie würde es es sich mit der Zeit wandeln. Wie hat sich die Sprache, die Ernährung und das, was wir Kultur nennen verändert? Vier Jahre haben Forscher der Havard-University versucht zusammen mit Google Books diese Frage zu beantworten.

Da niemand mehr alle je geschriebenen Bücher lesen kann, nichtmal alle Bücher die innerhalb eines Jahres erscheinen, hat man mit der Digitalisierung eine gute Lösung gefunden. Dazu werden die Informationen in den Büchern in eine computerverständliche Sprache übersetzt. Nun findet man ca. 15 Millionen digitalisierte Bücher aus Universitätsbibliotheken aus aller Welt bei Google Books, ein Bruchteil von den geschätzt 129 Millionen jemals geschriebenen Büchern.

Daraus hat der Wissenschaftler Erez Lieberman Aiden und sein Team fast 5,2 Millionen Bücher ausgewählt, deren Text in einer guten Qualtität und mit Metadaten verfügbar waren. Wichtige Metadaten waren der Ort und der Zeitpunkt der Publikation. Der Zeitraum geht zurück bis ins 16. Jahrhundert und die Danmenge betrug 500 Milliarden Wörter, 361 Milliarden davon in Englisch und 37 Milliarden in Deutsch.

Aus dieser Datenflut wurde dann herausgefiltert, wie häufig ein bestimmtes Wort in jedem Jahr auftaucht. Daraus lassen sich dann kulturelle und historische Trends herauslesen.

Sie zeigen zum Beispiel, dass in englischen Büchern der Gebrauch des Wortes „Männer“ in den vergangenen 200 Jahren kontinuierlich abgenommen hat und der Gebrauch von „Frauen“ zugenommen hat. Die Häufigkeitsverteilung des Wortes „Influenza“ stimmt mit den großen Pandemien überein. Und das Wort „Gott“ wird seit 1850 immer seltener erwähnt.

Enddatum des Untersuchungszeitraumes ist das Jahr 2000. So lässt sich nicht beantworten, ob das Wort Gott nach den Terroranschlägen im September 2001 wieder häufiger erwähnt wird. Auch die Essgewohnheiten lassen sich aus diesem Begriffsgewirr herauslesen. So wurde Eiscreme um 1950 sehr häufig auf. Erst danach tauchten Pasta und Pizza im Englischen auf und Sushi findet man erst im letzten Viertel des Jahrhunderts in der Wortliste.

Der Ehrgeiz der Forscher geht dazu hin, ein neues Feld der Forschung zu schaffen: die Kulturomik, einer quantitativen Analyse menschlicher Kultur. Da die Daten bisher nur schwierig in ausreichender Menge und passender Form zu beschaffen war, gab es bisher keine quantitative Herangehensweisen an die Erforschung von Kultur. Mit der computergestützten Analyse ist dies nun möglich.

Vorbild sind die Biologen, die im Feld der Genomik das Erbgut hunderter Individuen entziffern, um Unterschiede und Gemeinsamkeiten zu verstehen und den Grundlagen der menschlichen Biologie auf die Schliche zu kommen. Nun wollen die Wissenschaftler das Erbgut der menschlichen Kultur genauso in Daten fassen, eine Art Humangenomprojekt der Geisteswissenschaften.

Überraschend sind aber Erkenntnisse, dass sich in einem Jahrhundert z.B. der Englische Wortschatz fast verdoppelte. So bestand er 1900 aus etwa 544.000 Wörtern, waren es 2000 bereits 1.022.000. Dies widerspricht der gern angebrachten Behauptung, dass unsere Sprache ärmer werde und die Ausdrucksfähigkeit sinkt. (Kleine Anmerkung meinerseits: So mag zwar die Zahl der Begriffe zunehmen, aber meiner Meinung passiert das dann wiederum eher auf der sachlich/fachlichen Ebene, nicht unbedingt in dem Bereich, wo es um Emotionen und Gefühle geht. Hier ist sicherlich eine Verarmung zu bemerken.)

Wolfgang Klein, Direktor des Max-Planck-Instituts für Psycholinguistik im niederländischen Nijmegen kann am deutschen digitalen Wörterbuch zeigen, dass wir eigentlich sehr wenige Wörter verlieren und viele neue hinzugewinnen, wobei viele neue Begriffe ihren Weg noch nicht in die einschlägigen Wörterbücher gefunden haben. So sind z.B. mehr als die Hälfte der entlischen Wörter lexikalisch noch nicht erfasst.

Noch etwas interessantes lässt sich anhand dieser Daten herausfinden. So hat sich z.B. das Durchschnittsalter, in dem eine Person den Ruhmeszenit ereicht hatte, sein 1800 kaum geändert. Es wird mit etwa 75 Jahren erreicht, aber das Einstiegsalter ist von 43 auf 29 Jahre gefallen, wobei die Berühmtheit schneller ansteigt und ein höheres Maß erreicht, sie aber auch schneller wieder vergessen werden.

Und was wird anhand der deutschen Bücher erforscht? Es ist die Zensur und Propaganda. Auffällig ist z.B., dass der Name Marc Chagall, dessen Werke unter den Nazis als “entartete Kunst” galten, zwischen 1936 und 1944 nur ein einziges Mal in deutschen Werken auftauchte, hingegen im englischsprachigen Korpus sich seine Erwähnung in der gleichen Zeit verfünffachte.

Klein sieht in den Daten auch ein wertvolles Werkzeug für deutsche Forscher. So könnten Germanisten beispielsweise Trends herausfinden und z.B. wie Geologen die Stellen finden, an denen es sich lohnt nach Öl zu bohren. Noch spielten quantitative Methoden in den Literaturwissenschaften in allen Ländern nur eine untergeordnete Rolle.

So wundert es niemanden, dass die zugrundeliegende Veröffentlichung in Science von Außenseitern geschrieben wurde. Die Liste der Autoren der multidisziplinären Veröffentlichung liest sich wie ein Who-is-Who der Harvard-Universität. Erez Lieberman Aiden ein Mathematiker, seine Mitautoren sind Linguisten, Psychologen, Systembiologen, Mathematiker, Computer- und Sozialwissenschaftler.

Aber es gibt Schwächen, die man nicht übersehen darf. Das Einscannen ist fehleranfällig, zumal gerade deutsche Texte vor 1900 in Fraktur geschrieben sind. Die Fehlerquote liegt hier bei 30 Prozent. Es fehlt auch eine sprachliche Analyse und eine Verknüpfung jedes Wortes mit weiteren Informationen, z.B. ob es sich um ein Verb, Adverb oder Substantiv handelt.

„Gerade im Englischen, wo fast jedes Verb auch als Nomen verwendet werden kann, reduziert das sonst den Wert für sprachwissenschaftliche Analysen“, sagt Klein.

Luciano Floridi, Unesco-Professor für Informations- und Computerethik an der Universität Hertfordshire, sieht in der “Kulturomik” – oder wie er es nennt, “Ideometrie” (Vermessung von Ideen) ein großartiges Werkzeug, um Hypothesen über Geschichte oder Kultur zu überprüfen. Herausforderung ist es dabei, die richtigen Fragen zu stellen, sonst wird aus dieser Wissenschaft reine Unterhaltung und aus Wissbegier reine Neugier. Der Aufbau der zugrundeliegenden Datenbank wird in der Zeit der Digitalisierung immer einfacher. Die Schwierigkeit dabei ist es, diese dann intelligent zu nutzen und unser Verständnis von der Welt zu vergrößern.

Wenn man jedoch weiß, dass ca. 129 Millionen Bücher geschrieben worden, davon nur 5,2 Millionen ausgewertet worden und die Fehlerrate bei 30 Prozent liegt, weitere Informationen zu den einzelnen Wörter benötigt werden, so kann man nachvollziehen, dass der Linguist Geoffrey Nunberg von der Universität Berkeley die meisten Analysen als „beinahe peinlich ungenau“ bezeichnet.

Für Google war das Projekt von Erez Lieberman Aiden im Frühjahr 2007 ein großer Imagegewinn, um das umstrittene Google Books in einem positiven Licht erscheinen zu lassen. Bisher hatte dieses vor allem mit Urheberrechtsstreitereien und Gerichtsverfahren Schlagzeilen gemacht. Das ist eine Forschungsarbeit in Zusammenarbeit mit der altehrwürdigen Harvard-Universität echt ein Glücksfall.

Pünktlich mit der Veröffentlichung ging auch die Internetseite www.culturomics.org online, welche den Korpus aus 500 Milliarden Wörtern Nutzern aus aller Welt zugänglich macht. Einfach das Wort in die Suchmaske eingeben und als Ergebnis eine Grafik erhalten, welche die Häufigkeit des Wortes im Laufe der Jahre aufzeigt.

Und mal wieder wird dabei auf ein kleines Datenproblem hingewiesen. Peter Schaar, Bundesbauftragter für Datenschutz, warnt, dass derjenige, der sucht, allerdings auch gefunden werden kann. Wer bei Google sucht, dessen Suchanfragen und IP-Adressen werden bei Google gespeichert und auch wenn Google nach neun Monaten die IP-Adresse abschneidet, ist damit nicht sichergestellt, dass die Suchanfragen nicht mehr einer bestimmten Person zugeordnet werden können, so Schaar. Man wird somit Teil der riesigen Datensammlung von Google und niemand kann sagen, welche Fragen damin in einigen Jahren bewantwortet werden sollen und können.

Mehr dazu:
Quantitative Analysis of Culture Using Millions of Digitized Books, Science DOI: 10.1126/science.1199644 (kein Volltextzugang ohne Abo) , Sciene 2010
Culturomics, Projektwebsite

Quelle:
Wie Google Books Trends aufdeckt, Tagesspiegel.de