Topic Modeling

1. Definition

Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Exploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (Topics) zur Abbildung häufiger gemeinsamer Vorkommnisse von Wörtern.

Topic Model zum Thema TheaterDie Methode des Topic Modeling bietet die Möglichkeit, Textsammlungen thematisch zu explorieren. Dabei geht man davon aus, dass eine Textsammlung aus unterschiedlichen ‚Themen‘ bzw. besser: ‚Topics‘ besteht, die in den einzelnen Dokumenten der Sammlung in unterschiedlicher Ausprägung vertreten sind. Unter einem ‚Topic‘ versteht man dabei eine Gruppe von Wörtern (wie zum Beispiel die Wörter „Theater“, „Schauspieler“ und „Stück“), die in einem Text ungewöhnlich – d. h. statistisch auffällig – oft gemeinsam vorkommen. Ein ‚Topic‘ ist also ein statistisches Phänomen und damit zwar eine Entsprechung, aber nicht exakt das Gleiche wie ein (inhaltlich definiertes) Thema.

2. Anwendungsbeispiel

Angenommen, Sie möchten den Inhalt einer größeren Textsammlung – wie beispielsweise das Œuvre Therese Hubers oder auch die gesamte Prosaliteratur des 18. und 19. Jahrhunderts – erforschen. Digitale Verfahren können Sie dabei mit Methoden unterstützen, die dem Distant Reading zugeordnet werden. Ohne jeden Text der Sammlung individuell zu lesen, wird es dadurch möglich, die Texte untereinander zu vergleichen. Abhängig von der Größe Ihrer Textsammlung können Sie selbst entscheiden, wie viele ‚Topics‘ erstellt werden und wie groß diese Topics sein sollen. Als Nutzer*in der Methode modellieren Sie die Topics so lange, bis sie Ihnen aussagekräftig genug erscheinen, um anschließend zu untersuchen, welche Topics in welchen Texten besonders oft vertreten sind – oder auch umgekehrt, welche Texte ein gegebenes Topic besonders stark ‚thematisieren‘.

3. Literaturwissenschaftliche Tradition

In seinem Beitrag zur Inhaltsanalyse im Handbuch Literaturwissenschaft konstatiert Anz (2007, 57): „Eine Beschäftigung vor allem mit Textinhalten setzt sich in der Literaturwissenschaft dem topischen Vorwurf oder Verdacht aus, die Formen von Texten zu vernachlässigen“. Die Betrachtung der Interdependenzen von Inhalt und Form bildet daher nicht selten den Kern von Analysen beispielsweise der Literarizität von Texten.

Bei der Erschließung eines zu erforschenden Textes ist jedoch häufig der erste Schritt, sich einen Überblick über die im Text behandelten Themen zu verschaffen, d. h. nach einem „Leitgedanken [zu suchen], nach dem sich [sein] Inhalt zusammenfassen läßt“ (Schulz 2003, 634), oder auch nach der „abstrakte[n] Grundkonstellation, die in Darstellung und Geschehen konkret ausgestaltet wird“ (ebd.). Durch den Vergleich von in der Literatur wiederkehrenden Themen wird es möglich, „sowohl Rückschlüsse auf den Vorgang der menschlichen Orientierung im Dasein als auch auf die in ihm zum Ausdruck kommenden geistesgeschichtlichen Umschichtungen einer Zeit“ (Daemmrich und Daemmrich 1995, XXV) zu ziehen.

Die den Topics etymologisch näheren literarischen Topoi bezeichnen seit Curtius (1948) solche literarischen Gemeinplätze, die aufgrund ihres hohen Alters „zwischen Altehrwürdigkeit und Abgegriffenheit“ (Müller 2004, 279) schwanken. Oft ist es auch die thematische Schwerpunktsetzung, die einen Vergleich unterschiedlicher Texte des gleichen Autors oder verschiedener Autoren initiiert. Die „Stoff- und Motivgeschichte“ bzw. die „Thematologie“ wird daher auch als „Teildisziplin der Komparatistik“ (Lubkoll 2004, 255) bezeichnet. Nicht zuletzt liegt jeder Literaturgeschichtsschreibung (a) eine große Menge an Texten und (b) die nachgewiesene Kenntnis der Inhalte dieser Texte zugrunde (vgl. Anz 2007, 55). Auch eher kulturwissenschaftlich ausgerichteten literaturwissenschaftlichen Arbeiten geht häufig eine Orientierung auf motiv- oder themengeschichtliche Zusammenhänge von literarischen und nicht-literarischen Texten voraus.

Als Literaturwissenschaftler*innen dient uns bei der Auswahl thematisch relevanter Texte für eine Fragestellung bislang häufig die eigene Forschungshistorie oder das angeeignete Fachwissen über mehr oder weniger kanonisierte Texte. Die Methode des Topic Modeling eignet sich zunächst gut, um große Textsammlungen zu explorieren, gleichzeitig bilden jedoch auch literaturwissenschaftliche Kenntnisse über zumindest eine Teilmenge der analysierten Texte bzw. die Art und Weise der Behandlung bestimmter stofflicher Phänomene durch eine Autorin wichtige Grundbedingungen, um die entstehenden Topics interpretieren zu können.

4. Diskussion

Gerade bei größeren Textsammlungen wie der Prosaliteratur des 19. Jahrhunderts oder auch umfangreichen Texten wie z. B. Prousts Recherche werden Sie als Literaturwissenschaftler*in häufig nicht die Kapazitäten haben, sämtliche Texte detailliert zu lesen bzw. zu analysieren. Zusätzlich ist es dem menschlichen Gehirn nicht möglich, Textmengen ab einer bestimmten Größe gleichzeitig zu überschauen und insgesamt miteinander zu vergleichen. Die Methode verspricht durch die Fokussierung auf die Thematik, sich den semantischen Strukturen der analysierten Texte zu nähern – wodurch sie sich von rein quantitativen DH-Methoden unterscheidet. Betont werden sollte dabei, dass die resultierenden Topics nicht selbst die Semantik der Texte abbilden, sondern dass textimmanente Bedeutungsstrukturen in ihnen abgelesen werden können. Literaturwissenschaftliches Fachwissen ist bei der Auswertung daher unumgänglich, weshalb auch die Topic-Modeling-Exploration eines mittelgroßen Korpus viele Vorteile bietet (vgl. Weitin und Herget 2016, 3f.).

Jannidis (2016, 27) beobachtet: „Schon früh ist den Fachwissenschaftlern, die mit Computerlinguisten und Informatikern an Topic-Modeling-Projekten arbeiten, aufgefallen, dass auch Worte, die aufgrund von bestimmten rhetorischen Strukturen auftauchen, als ‚Thema‘ zusammengefasst wurden“. Diese rhetorischen Strukturen gehen jedoch schnell verloren, wenn man beispielsweise ausschließlich Topics aus Substantiven bildet (wie Jockers (2013) es durchführt).

‚Topics‘ sollten zudem nicht mit literarischen ‚Themen‘ gleichgesetzt werden. Während Topics Häufigkeiten und Verteilungen ausschließlich auf der Wortoberfläche abbilden, können Themen auch implizit sein: Das virulente Thema der Homosexualität in Prousts Recherche wird als solches beispielsweise nie direkt adressiert, geschweige denn benannt. Topics sind daher für sich keine Themen, können jedoch als solche interpretiert werden, wodurch der Methode der Charakter einer textanalytischen Heuristik zugesprochen werden kann. Topics sind daher weniger ‚Themen‘ als vielmehr ein Indikator für den jeweils verarbeiteten literarischen Stoff: „Anders als Stoff bezeichnet Thema nicht das konkrete, an Figurenkonstellationen und Handlungszüge gebundene Material, das in einem Text verarbeitet wird, sondern die darin enthaltene Problemkonstellation: ‚Romeo und Julia‘ (Stoff) vs. ‚illegitime Liebesbeziehung‘ (Thema, aber auch Motiv)“ (Schulz 2003, 634). Diese Abgrenzung ziehen wir jedoch auch in der Literaturwissenschaft selbst nicht immer strikt: Daemmrich und Daemmrich (1995, XIII) sprechen von der „Tendenz, die Kategorie [Stoff] zu erweitern und sie anderen Begriffen wie Sujet, Topos, Motiv, Mythos und Thema anzugleichen“. Die dem Stoff implizit eingeschriebenen Themen müssen Sie im Zuge der literaturwissenschaftlichen Auslegung der erhaltenen Topics feststellen.

5. Technische Grundlagen

Der im Topic Modeling am häufigsten genutzte Algorithmus wurde von Blei, Ng und Jordan (2003) unter dem Namen Latent Dirichlet Allocation (LDA) entwickelt (vgl. Blei 2012) und liegt auch dem Tool Mallet zugrunde. Er basiert auf einer wiederholt zufälligen Auswahl an Textsegmenten, wobei innerhalb dieser Segmente jeweils die statistische Häufung von Wortgruppen erfasst wird. Der Algorithmus berechnet somit die Topics der Textsammlung, die Topic-Anteile in den Einzeltexten und welche Wörter zu den jeweiligen Topics gehören.

Als Nutzer*in können Sie die Menge und Größe der zu erstellenden Topics sowie die Anzahl der Iterationen bestimmen. Mallet können Sie beispielsweise in der Software R nutzen; Ihnen wird hier jedoch keine grafische Nutzeroberfläche geboten, sodass grundlegende Kenntnisse im Coding vonnöten sind, um die Texte vorzubereiten, dann das Topic Modeling selbst durchzuführen und schließlich die Ergebnisse auszuwerten und zu visualisieren. Besonders hilfreich ist hier die für die Bedarfe und Horizonte von Geisteswissenschaftler*innen zugeschnittene Einführung von Jockers (2014), die auch ein Kapitel zum Topic Modeling enthält. Für den Einstieg bietet sich die Arbeit mit dem → DARIAH Topics Explorer an, in dem Sie Topics mithilfe einer grafischen Nutzeroberfläche modellieren können.

Topic Modeling ist ein probabilistisches, unüberwachtes Verfahren, d. h. Sie können zwar die genannten Parameter bestimmen und die Ergebnisse analysieren, in den automatischen Prozess der Modellierung selbst haben Sie jedoch keinen direkten Einblick und die Textsegmentauswahl erfolgt zufällig. Da die Ergebnisse des Topic Modelings auf komplexen Wahrscheinlichkeitsberechnungen basieren, ist ein Topic Modeling – auch wenn Sie die wählbaren Parameter gleich einstellen – nicht eins zu eins reproduzierbar, wenn auch eine große Ähnlichkeit unter den entstehenden Topics zu erkennen ist. Außerdem macht das Verfahren Gebrauch von einer Stoppwortliste, die für gewöhnlich die in Texten am häufigsten verwendeten, für sich genommen jedoch selten einen eigenen semantischen Wert aufweisenden Wörter (MFW = most frequent words) enthält. Die Stoppwortliste erweitern Sie nach jedem vollständigen Durchlauf um diejenigen Wörter, die in den resultierenden Topics auftauchen, jedoch keinen Erkenntnismehrwert bringen.

Um die Ergebnisse zu verfeinern, können Sie im Zuge des Preprocessing der Texte außerdem mehrere Aktionen durchführen:

  1. Um eine getrennte Behandlung von (am Satzanfang) groß und (innerhalb des Satzes) klein geschriebenen Varianten desselben Wortes zu vermeiden, wandelt man in der Regel sämtliche Buchstaben in Kleinbuchstaben um.
  2. Eine Lemmatisierung bewirkt, dass Varianten eines Wortes auf ihre Grundform (Lemma) reduziert und folglich als gleiches Wort behandelt werden können.
  3. Ein part of speech-Tagging (POS-Tagging) ermöglicht Ihnen die getrennte Untersuchung von ausgewählten Wortgruppen. Einige Forscher betreiben Topic Modeling beispielsweise ausschließlich mit Substantiven (vgl. Jockers 2013).
  4. Eine Annotation der Named Entites ermöglicht es Ihnen, alle Eigennamen gebündelt aus dem Topic Modeling auszuschließen. Alternativ müssen Sie die in den Topics auftauchenden Eigennamen nach jedem Durchgang auf die Stoppwortliste setzen, wenn sie nicht in den Ergebnissen vertreten sein sollen – zur Problematik von Eigennamen im Topic Modeling (vgl. Jockers 2013). (Mehr zur → Named Entity Recognition (NER))

Sind Sie mit dem Ergebnis der entstehenden Topics in Umfang und Genauigkeit zufrieden, haben Sie unterschiedliche Möglichkeiten der Visualisierung (vgl. → Textvisualisierung): Topics werden zunächst als Wortliste herausgegeben, die sich in R aber beispielsweise auch als Wordclouds darstellen lassen. Um die eigene Textsammlung zu explorieren, bietet es sich an, für alle oder ausgewählte Topics Balkendiagramme erstellen zu lassen, die anzeigen, wie häufig das jeweilige Topic in den einzelnen Dokumenten der Textsammlung vorkommt (‚documents per topic‘). Interessieren Sie sich für bestimmte Texte der Sammlung, lässt sich ebenso anzeigen, wie häufig die einzelnen Topics in den jeweiligen Texten vorkommen (‚topics per document‘).

6. Nachweise

  • Thomas Anz (Hrsg.): (2007): „Inhaltsanalyse“. In: Handbuch Literaturwissenschaft, Bd. 2: Methoden und Theorien. Stuttgart, Weimar: Metzler, 55–69.
  • Blei, David M., Andrew Y. Ng und Michael I. Jordan (2003): „Latent Dirichlet Allocation“. In: Journal of Machine Learning Research. 3, 993–1022.
  • Blei, David (2012): „Probabilistic Topic Models“. In: Communications of the ACM. 55 (4), 77–84.
  • Curtius, Ernst Robert (1948): Europäische Literatur und lateinisches Mittelalter. Bern: Francke.
  • Daemmrich, Horst S. und Ingrid G. Daemmrich (1995): Themen und Motive in der Literatur. Ein Handbuch. Tübingen, Basel: Francke.
  • Jannidis, Fotis (2016): „Quantitative Analyse literarischer Texte am Beispiel des Topic Modeling“. In: Der Deutschunterricht. 68 (5), 24–35.
  • Jockers, Matthew (2013): „’Secret’ Recipe for Topic Modeling Themes“. In: Matthew L. Jockers. URL: http://www.matthewjockers.net/2013/04/12/secret-recipe-for-topic-modeling-themes/ [Zugriff: 24. November 2017].
  • Jockers, Matthew (2014): Text Analysis With R for Students of Literature. Cham (u.a.): Springer.
  • Lubkoll, Christine (2004): „Stoff- und Motivgeschichte/Thematologie“. In: Ansgar Nünning (Hrsg.): Grundbegriffe der Literaturtheorie. Stuttgart, Weimar: Metzler, 255–259.
  • Müller, Wolfgang G. (2004): „Topik/Toposforschung“. In: Ansgar Nünning (Hrsg.): Grundbegriffe der Literaturtheorie. Stuttgart, Weimar: Metzler, 278–280.
  • Schulz, Armin (2003): „Thema“. In: Reallexikon der deutschen Literaturwissenschaft. Neubearbeitung des Reallexikons der deutschen Literaturgeschichte, Berlin, New York: de Gruyter, 634-635.
  • Weitin, Thomas und Katharina Herget (2016): „Falkentopics“. In: LitLab Pamphlet #4. Text abrufbar unter: http://www.digitalhumanitiescooperation.de/wp-content/uploads/2017/06/p04_weitin_herget_de.pdf (Zugriff am 24.11.2017).