Korpusbildung

1. Definition

Ein digitales Korpus ist eine maschinenlesbare Sammlung von Texten, die den Gegenstand Ihrer Untersuchungen im Feld digitaler Literaturwissenschaft bildet. Folglich konzipieren Sie es meist bereits mit einem Ziel oder einer Fragestellung. Je nach Methode oder Disziplin variieren die Textanzahl und nötigen Preprocessing-Maßnahmen. Häufig werden Korpora jedoch mit Metadaten angereichert; vor allem in der Korpuslinguistik, wo das quantitative Auswerten von Korpora seinen Ursprung hat, werden Textsammlungen durch ausführliche grammatikalische Annotationen ergänzt.

2. Anwendungsbeispiel

Sie möchten Naturmotive in Dramen des Biedermeier und des Vormärz vergleichen, um zu sehen, wie diese die verschiedenen zeitgenössischen politischen Einstellungen und Lebensweisen verarbeiten. Hierfür planen Sie, digitale Methoden zu Hilfe zu nehmen. Sie haben sich bislang noch nicht festgelegt, welche konkreten Texte Sie untersuchen möchten, und müssen nun ein Korpus zusammenstellen.

3. Literaturwissenschaftliche Tradition

Zwar behandelt Literaturwissenschaft per se Textmaterialien, allerdings, ist das Erforschen und damit auch das Ansammeln größerer Mengen von Primärtexten eher aus anderen Bereichen bekannt, beispielsweise aus Bibliotheken. Lauer zufolge liegen die Ursprünge der Digital Humanities in Traditionen der Philologie, in denen es, bevor man interpretierte, noch mehr um das Sammeln, Katalogisieren, Kontextualisieren und Ordnen gegangen sei (vgl. Lauer 2013, 101). Eco (1993) hingegen sieht 1977 das Ziel wissenschaftlicher Arbeiten als tiefergehende Deutung und befindet, der Fokus auf ein breites Themenspektrum sei „immer Ausdruck von Hochmut” (ebd. 17). Je kleiner das Thema, desto geringer fielen die Lücken aus. Konträr hierzu spricht Moretti sich gegenwärtig für Fragestellungen aus, die sich auf viele Texte beziehen, da die wissenschaftliche Einengung auf Einzeltexte des Kanons einen Großteil der existierenden Literatur außen vor lasse und damit umso größere blinde Flecken erzeuge (vgl. Moretti 2016, 46–50; 65f.).

Ein weiteres Kriterium dafür, welche Texte in eine Untersuchung einbezogen werden, ist für Eco, ob umliegende Bibliotheken sie vorrätig haben. Um das herauszufinden, mussten zuerst mithilfe zweier Zettelkataloge, einem alphabetisch und einem inhaltlich sortierten, erste Bücher recherchiert werden, um aus deren Literaturlisten nach und nach eine Bibliografie erstellen zu können. Für die darin enthaltenen Bücher musste dann erneut im Zettelkatalog recherchiert werden, ob sie Teil des Bibliotheksbestands waren (vgl. Eco 1993, 65–67; 75–78). Darauf konnte man sie entweder dem Freihandbereich entnehmen oder mit einem händisch ausgefüllten Leihzettel aus dem Magazin bestellen. Nicht vorrätige Bücher konnten überregional angefragt werden, was jedoch mehrere Wochen in Anspruch nehmen konnte (vgl. Heidtmann, Fertig und Ulrich 1979, 33–36; 41f.).

Ein großer Unterschied zwischen der damaligen und heutigen Literaturbeschaffung ist also medialer Art. Hier gab es vor allem in den letzten Jahren einflussreiche Entwicklungen: So war die CD-ROM 1979 eine große Entdeckung für Veröffentlichungen von Textsammlungen, da sie als erster Speicherträger ein ganzes Buch fassen konnte. Das Grimmsche Wörterbuch auf CD-ROM war daher Ende des 20. Jahrhunderts noch eine Sensation, ähnlich die CD-ROM-Beilagen mit Textfaksimiles in der Colli/Montinari-Ausgabe des Nietzsche-Gesamtwerks, die inzwischen online zugänglich sind (vgl. Ivanovic 2017; Lauer 2013, 108). Aktuell wird die Edition 15 vom Projekt Gutenberg auf USB-Sticks verkauft, die das Gesamtkorpus des Projekts enthalten und damit ca. 10.000 Werke von etwa 2.000 Autor*innen.

4. Diskussion

Ihre Korpusbildung beginnt mit Fragestellungen, Thesen und Überlegungen zu dem Bereich, den Sie untersuchen wollen, um sich Gedanken über das dafür benötigte Untersuchungsmaterial machen zu können: Welche Daten möchten Sie untersuchen? Möchten Sie sich innerhalb einer Zeit, einer Gattung, einem Raum, des Werks bestimmter Autor*innen bewegen oder Vergleiche ziehen? Welche Methoden wenden Sie dafür an? Wie groß muss Ihr Korpus dazu sein (vgl. Kreuz 2018, 59)?

Diverse digitale Arbeitsweisen sind bei der wissenschaftlichen Textrecherche und -beschaffung bereits Standard: Zettelkästen wurden größtenteils durch digitale Kataloge ersetzt, Fernleihen und Vormerkungen können online vorgenommen werden, statt mit Fotokopien wird meist mit Scans gearbeitet und nicht bei jedem Text ist man darauf angewiesen, dass eine lokale Bibliothek ihn in Buchform vorliegen hat, da inzwischen viel digitalisiert und über Bibliotheksnetze abrufbar ist. Digitale Bibliothekskataloge und Textsammlungen erhöhen die Zugänglichkeit von Texten also bei geringerem Aufwand enorm. Bei der Textauswahl lohnt es auch, auf analoge → Bibliografien und Werkausgaben zurückzugreifen, die möglicherweise bereits viele Werke versammeln, die Sie für Ihre Arbeit nutzen können. Einige digitale Angebote wie Datenbanken entwickeln diese Unterstützung weiter, an Recherchen und Sammlungen anderer anzuschließen (vgl. Lauer 2013, 105f.). Lauer stellt fest, dass die postulierte Zugänglichkeit für alle jedoch durch die in der Digitalisierung verstärkte Kommerzialisierung und Lizenzierung von Texten eingeschränkt werde (vgl. ebd., 113).

Viele Texte finden Sie digital in Onlinetextsammlungen oder als e-Book (vgl. Abbildung 1). Eine Lücke hierbei bilden jedoch Texte zwischen 1945 und etwa 1990, da sie noch nicht gemeinfrei sind, teilweise aber auch nicht gut genug verkäuflich, um jetzt noch als e-Book verlegt zu werden. Einige größere Bibliotheken wie beispielsweise die DNB stellen auch digitale Korpora für Untersuchungen zur Verfügung, die dann aber häufig nur vor Ort nutzbar sind; zudem gibt es einzelne Korpora über Onlineressourcen, beispielsweise beim → DTA. Möglicherweise sind manche der von Ihnen benötigten Texte auch (noch) gar nicht digital verfügbar. Wenn Sie sie trotzdem in Ihre Betrachtungen einbeziehen möchten, müssen Sie entweder eine → Digitalisierung durchführen oder beauftragen. Eine weitere Alternative wäre, beim Verlag anzufragen, ob dort eine digitale Textversion vorliegt und Sie für eine wissenschaftlichen Nutzung Zugriff darauf erhalten können. Sowohl bei selbst erstellten Digitalisaten als auch bei Onlinequellen sollten Sie auf gute Textqualität achten, da beispielsweise Kontaminierung („noise”) von nicht korrigierten OCR-Scans erhebliche Verfälschungen Ihrer Untersuchungsergebnisse bedeuten kann (vgl. Eder 2013). Einige Argumente, welche Texte Sie in Ihr Korpus aufnehmen, können sich folglich auf finanzielle oder zeitliche Ressourcen beziehen, die bei Texten, die digital nicht frei oder gar nicht verfügbar sind, eine Rolle spielen können. Woher Ihre Textdigitalisate stammen, ist ein wichtiger Aspekt der Dokumentation Ihres Vorgehens, weswegen Sie während der Recherche darauf achten sollten, die jeweiligen Textquellen zu notieren.

Enorme Mengen von Text wurden bereits digitalisiert und können nun auf neue Arten genutzt werden
Abb. 1: Die Digitalisierung von immer mehr Büchern ermöglicht Ihnen eine leichtere Zugänglichkeit von vielen Orten aus sowie verschiedene Formen der digitalen wissenschaftlichen Weiterverwendung.

Häufig wird als Hindernis der digitalen Korpusbildung das Urheberrecht gesehen (Hinweis: Die folgenden Erklärungen beziehen sich auf das Urheberrecht in Deutschland, Stand Januar 2020). Texte sind ab siebzig Jahren nach dem Tod der Urheber*innen gemeinfrei, sodass Sie neuere Werke nur eingeschränkt digitalisieren dürfen: In der Lehre können Sie bis zu 15% eines Werks vervielfältigen und innerhalb des Rahmens der Lehrveranstaltung weitergeben. In der Forschung dürfen Sie bis zu 75% eines Werks vervielfältigen, zudem können Sie es einem Forschungskreis zu 15% zugänglich machen. Beides gilt nur für längere Texte, kürzere von bis zu 25 Seiten können komplett verwendet werden. Diese Einschränkungen sind nicht gegeben, wenn Sie (und, in der Lehre, Ihre Studierenden) mit analogen Texten arbeiten. 2018 gab es in Form des Urheberrechts-Wissensgesellschafts-Gesetzes Anpassungen zugunsten wissenschaftlicher Nutzung: Für Text- und Data Mining ist es erlaubt, größere Teile des Textes zu vervielfältigen, um ihn dafür verwenden zu können. Problematisch ist jedoch noch immer die weitere Nutzbarmachung von erstellten Korpora, denn für Forschungs- und Lehrprojekte wird vorausgesetzt, dass Sie das Korpus nach Beendigung der Tätigkeit löschen oder bei einer Archivinstitution ablegen lassen, was die Wiederverwendung von erstellten Korpora durch andere erschwert (vgl. Bundesministerium für Bildung und Forschung 2019; DFG 2013). Weiterhin können Sie sich bei den Rechteinhaber*innen erkundigen, ob Sie die Texte auch über die genannten Regelungen hinaus nutzen dürfen. Die DFG (2013) empfiehlt allerdings, solche Anfragen möglichst früh durchzuführen, da schwer abzusehen ist, wie lang solche Prozesse dauern werden, und damit Sie potentielle Lizenzgebühren in Ihre Projektplanung einbeziehen können.

Schöch (2017, 223) erklärt, dass digitale Literaturwissenschaften vorwiegend mit Korpora im Sinne größerer Datensammlungen arbeiten als mit nur wenigen Einzeltexten. In dieser Hinsicht kann die Vorbereitung eines Korpus für eine digitale Weiterverarbeitung mehr Zeit in Anspruch nehmen, als wenn Sie zum Beispiel nur zwei Romane miteinander vergleichen würden: Schließlich wählen Sie dann mehr Texte aus (für weitere Informationen zur Zusammenstellung Ihres Korpus siehe Punkt 5), recherchieren sie, digitalisieren sie möglicherweise selbst und lassen sie ein Preprocessing durchlaufen. Andererseits eröffnen sich weitere Untersuchungsperspektiven, -gegenstände und -methoden, wenn Sie mit digitalisierten Texten arbeiten. Darunter fallen auch Techniken, die analog bereits gängig sind, in Ihrer digitalen Variante aber viele Vorteile haben, beispielsweise → manuelle Annotation oder das Durchsuchen Ihrer Notizen.

5. Technische Grundlagen

Grundsätzlich sind die Kriterien, nach denen ein linguistisches Korpus zusammengestellt wird, genauer ausdifferenziert als die für ein literaturwissenschaftliches Korpus. Da es sich aber bei beiden um Sprachkorpora handelt, schließt Schahparonjan, dass die in der Linguistik angewandten Maßstäbe auch hier sinnvoll genutzt werden können: Repräsentativität, Ausgewogenheit, Vergleichbarkeit und Größe. Ihr zufolge ist ein Korpus repräsentativ, wenn es stellvertretend für den gesamten Sprachbereich gelten kann, den man mit ihm untersucht, und ausgewogen, wenn es Subphänomene relational angemessen einbezieht (vgl. Schahparonjan 2012, 131f.), also beispielsweise verschiedene Genres so stark im Korpus vertreten sind, wie sie in einem untersuchten Zeitraum vorgekommen sind. Als Maßstab dafür, welche Texte, Gattungen und Autor*innen zu einer bestimmten Zeit als repräsentativ gesehen werden können, wird in vielen Studien geprüft, was dann bei Leser*innen und Kritiker*innen jeweils gerade populär war. Das Korpus ist vergleichbar, wenn es mit anderen Korpora mit einem ähnlichen Thema in Beziehung gesetzt werden kann, sich also beispielsweise zwei Korpora zu romantischen Erzählungen für ähnliche Fragestellungen verwenden lassen. Zur Größe gibt es keine generelle Faustregel, wie viele Texte und/oder Wörter ein Korpus fassen muss. Es braucht jedoch eine gewisse Größe, um statistische Aussagekraft zu haben und seltenere Merkmale überhaupt messen zu können (vgl. Schahparonjan 2012, 133). So zeigt beispielsweise Eder (2010), dass Korpora mit Einzeltexten, die jeweils weniger als 2500 Wörter umfassen, keine belastbaren Ergebnisse in → stilometrischen Projekten liefern, da diese vor allem auf statistischer Auswertung beruhen.

Je größer und diverser ein Korpus gestaltet ist, desto repräsentativer ist es tendenziell, zugleich funktioniert Stilometrie Rißler-Pipka zufolge am besten, wenn der Erscheinungszeitraum, die Gattung und der Umfang der Einzeltexte einheitlich ist (vgl. Rißler-Pipka 2018). Mit dieser Art der Korpuskonzeption umgeht sie das Problem, dass Texte verschiedener Gattungen in ihrem Vokabular teilweise unterschiedlich beschaffen sind und dass Wörter im Lauf der Zeit verschiedene Schreibweisen haben, weswegen sie bei Wortzählungen Daten verfälschen können. Letzteres lässt sich allerdings auch durch Normalisierungen oder Stoppwörter umgehen, die dokumentiert werden müssen (ein Beispiel hierfür findet sich bei Aichner (2015)). Manche Ressourcen bieten auch gesondert normalisierte Textdateien an. Modrow (2016, 177f.) wiederum entscheidet sich in ihrer Studie zur digitalen manuellen Annotation gegen ein repräsentatives Korpus und für ein kleineres, um ein komplexes Tagset anzuwenden, statt nur statistische Aussagen treffen zu können. Die DFG (2019) erklärt, dass Größe, Datenqualität und die Tiefe der Erschließung gegeneinander abgewogen werden müssen und in jedem Fall eine detaillierte Begründung zur Korpusbildung von zentraler Bedeutung ist, vor allem wenn es für weitere Forschung über das eigene Projekt hinaus nutzbar gemacht werden soll. Wie Sie Ihr Korpus letztlich konzipieren, hängt folglich stark davon ab, welche Methode(n) Sie darauf anwenden wollen: Während statistisch arbeitende und Machine Learning basierte Techniken bei größeren Korpora aussagekräftigere Ergebnisse erzielen, lassen sich manuell und nah am Text arbeitende Methoden besser mit kleineren Korpora umsetzen.

Gängige Textformate für viele digitale Tools sind das Reintextformat TXT oder XML. Insbesondere XML wird häufig empfohlen, da darin Text und Metadaten voneinander getrennt werden, die durch den TEI-XML-Standard für andere leichter interpretier- sowie weiterverwendbar sind, und weil es sich gut archivieren und in andere Formate, u. a. HTML, konvertieren lässt (vgl. Schöch 2017, 227; zur Umwandlung von Texten in XML sowie deren Annotation (vgl. Percillier 2017). Darüber hinaus sollten Sie die Texte in UTF-8 codieren, da darin auch Zeichen fremdsprachiger Texte oder Textanteile korrekt angezeigt werden, anstatt Sie in Fragezeichen, Kästchen oder Sonderzeichen umzuwandeln (vgl. Schahparonjan 2012, 140). Diese Prozesse können Sie häufig in gängigen Textverarbeitungsprogrammen mit Benutzeroberflächen umsetzen, sodass Sie sich zur Erstellung digitaler Korpora nicht unbedingt komplexes technisches Vorwissen aneignen müssen. Wenn Ihre Texte aus verschiedenen Quellen stammen, liegen Sie möglicherweise in verschiedenen Formaten und mit unterschiedlichen Metadaten vor. Idealerweise vereinheitlichen Sie Ihre Daten in diesem Fall (weitere Informationen hierzu bei Schöch 2017, 227f.).

Weitere sinnvolle Bearbeitungsmöglichkeiten Ihrer Daten liegen im Löschen oder Markieren von Zeilen, die nicht zum eigentlichen Text gehören, in der Anpassung von nicht-druckbaren Zeichen und Sonderzeichen sowie im Zusammenfügen von in der Silbentrennung aufgespaltenen Wörtern (vgl. Schahparonjan 2012, 140f.). Darüber hinaus gibt es Möglichkeiten zur Textverarbeitung und -auswertung, die vermehrt in der Linguistik verwendet werden, sich aber auch für einige literaturwissenschaftliche Anwendungsbereiche nutzen lassen, u. a. Lemmatisierung, der TreeTagger, das NLTK, Wordsmith, AntConc oder das LDA-Toolkit.

6. Nachweise und weiterführende Literatur

  • Aichner, Christof (2015): „Die Korrespondenz von Leo von Thun-Hohenstein: Eine Dokumentation“. In: thun. URL: https://thun-korrespondenz.acdh.oeaw.ac.at/pages/index.html [Zugriff: 7.1.2020].
  • Bundesministerium für Bildung und Forschung (2019): „Was ist in Lehre und Forschung gesetzlich erlaubt?“ In: Urheberrecht in der Wissensschaft. URL: https://www.bildung-forschung.digital/de/was-ist-in-lehre-und-forschung-gesetzlich-erlaubt-2652.html [Zugriff: 7.1.2020].
  • Deutsche Forschungsgemeinschaft (2013): Handreichung: Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora. URL: https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf [Zugriff: 9.1.2020].
  • Deutsche Forschungsgemeinschaft (2019): Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora. URL: https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf [Zugriff: 7.1.2020].
  • Eco, Umberto (1993): Wie man eine wissenschaftliche Abschlußarbeit schreibt. Doktor-, Diplom- und Magisterarbeit in den Geistes- und Sozialwissenschaften. Heidelberg: C. F. Müller.
  • Eder, Maciej (2010): „Does Size Matter? Authorship Attribution, Small Samples, Big Problem“. In: Digital Humanities 2010. Conference Abstracts. DOI: 10.1093/llc/fqt066.
  • Eder, Maciej (2013): „Mind your corpus: systematic errors in authorship attribution“. In: Literary and Linguistics Computing. 28 (4), 603–614. DOI: 10.1093/llc/fqt039.
  • Heidtmann, Frank, Eymar Fertig und Paul S. Ulrich (1979): Wie finde ich Literatur zur deutschen Literatur. Berlin: Berlin Verlag.
  • Hirschmann, Hagen (2019): Korpuslinguistik. Eine Einführung. Stuttgart: Metzler.
  • Ivanovic, Christine (2017): „Die Vernetzung des Textes: Im Möglichkeitsraum digitaler Literaturanalyse“. In: Zeitschrift für digitale Geisteswissenschaften. DOI: 10.17175/2016_010.
  • Kreuz, Christian D. (2018): Das Konzept „Schuld” im Ersten Weltkrieg und in der Weimarer Republik. Linguistische Untersuchungen zu einem brisanten Thema. Bremen: Hempen.
  • Lauer, Gerhard (2013): „Die digitale Vermessung der Kultur. Geisteswissenschaften als Digital Humanities“. In: Heinrich Geiselberger und Tobias Moorstedt (Hrsg.): Big Data. Das neue Versprechen der Allwissenheit. Berlin: Suhrkamp, 99–116.
  • Lautenschläger, Sina (2016): Geschlechtsspezifische Körper- und Rollenbilder. Berlin, Boston: de Gruyter.
  • Lemnitzer, Lothar und Heike Zinsmeister (2015): Korpuslinguistik. Eine Einführung. Tübingen: Narr.
  • Modrow, Lena (2016): Wie Songs erzählen. Eine computergestützte, intermediale Analyse der Narrativität. Frankfurt am Main: Peter Lang.
  • Moretti, Franco (2016): Distant Reading. Konstanz: Konstanz University Press.
  • Percillier, Michael (2017): „Creating and Analyzing Literary Corpora“. In: Shalin Hai-Jew (Hrsg.): Data Analytics in Digital Humanities. Springer, 91–118.
  • Rißler-Pipka, Nanette (2018): „Die Digitalisierung des goldenen Zeitalters - Editionsproblematik und stilometrische Autorschaftsattribution am Beispiel des Quijote“. In: Zeitschrift für digitale Geisteswissenschaften. 4 (3). DOI: 10.17175/2018_004.
  • Schahparonjan, Anna (2012): Stilistische Untersuchungen an den Werken von Lion Feuchtwanger und Thomas Mann. Eine korpuslinguistische Studie. Hamburg: Kovač.
  • Schöch, Christof (2017): „Aufbau von Datensammlungen“. In: Fotis Jannidis; Hubertus Kohle und Malte Rehbein (Hrsg.): Digital Humanities. Eine Einführung. Stuttgart: Metzler, 223–233.