Gensim

Category:

Tools

3. Mai 2021

Mareike Schumacher

Mari E. Akazawa

Tags:

Distant Reading

Korpusanalyse

Exploration

Gensim Workflow — Der Workflow von Gensim am Beispiel des LDA-Algorithmus’ zum Topic Modeling: Vorab müssen alle Module und Packages installiert werden. Als erstes erfolgt die Definition des Korpuspfades & das Preprocessing. Nachdem das Korpus definiert und das Dictionary erstellt wurde, wird das Modell implementiert und Parametereinstellungen getroffen. Der Output ist beispielsweise eine Liste an Topicsets nach angegebener Topicanzahl.

Systemanforderungen: Läuft auf Linux, Windows, MacOS und allen anderen Plattformen, die Python > 3.6 und NumPy unterstützen.
Stand der Entwicklung: Wird seit 2008 entwickelt, letztes Release 01.April 2021 (Version 4.0.1.)
Herausgeber: Radim Řehůřek und Petr Sojka
Lizenz: GNU LGPL-Lizenz v2.1
Weblink: https://radimrehurek.com/gensim/
Im- und Export: Import von Plain Text; Export möglich und individuell im Code anpassbar (Ergebnis-Speicherung als JSON oder Speicherung von Visualisierungen möglich)
Sprachen: Vortrainierte Modelle für Englisch, Chinesisch, Deutsch, Französisch, Spanisch etc. vorhanden

1. Für welche Fragestellungen kann Gensim eingesetzt werden?

Gensim ist eine Open-Source-Bibliothek für Python und beinhaltet verschiedene Algorithmen, weshalb es für unterschiedliche Fragestellungen eingesetzt werden kann. Dabei ermöglichen es alle Algorithmen, automatisiert semantische Strukturen in den Textdaten zu entdecken. Gensim bietet sich insbesondere für die Verarbeitung großer Textsammlungen an.

Abhängig vom gewählten Modell, kann mit Topic-Modeling-Algorithmen beispielsweise das Auftreten bestimmter Topics über einen Textverlauf betrachtet werden. Außerdem können Zusammenhänge zwischen bestimmten Themen und Faktoren wie Geschlecht, Nationalität des Autors, dem Erscheinungsjahr der Werke oder der Gattung der Texte erkannt werden (vgl. Jockers und Mimmo 2013). Anhand von Textsammlungen eines Genres kann beispielsweise auch erörtert werden, ob verschiedene Autoren, Untergattungen und Zeiträume durch unterschiedliche Topic-Verteilungen charakterisiert sind (vgl. Schöch 2015). Mit Word2Vec hingegen können, auf Grundlage von Worteinbettungen, Figurenanalysen in großen Textsammlungen durchgeführt werden, welche wiederum Vergleiche zwischen Romanen oder Autoren erlauben (vgl. Grayson et al. 2016). Zudem kann auch die semantische Komplexität von beispielsweise Romanen durch die Berechnung von Distanzen zwischen Worteinbettungen ermittelt werden (vgl. van Cranenburgh et al. 2019).

2. Welche Funktionalitäten bietet Gensim und wie zuverlässig ist das Tool?

Funktionen:

Bereitstellung von bereits trainierten Modellen und diversen Korpora in verschiedenen Formaten
Unüberwachter Lernprozess, keine Annotationen notwendig
Verarbeitung von sehr großen Textsammlungen
Wortvektoren trainieren mit Word2Vec, FastText und Doc2Vec
Topic Modeling mit Latent Semantic Indexing (LsiModel)
Topic Modeling mit Latent Dirichlet Allocation (LDA)

Zuverlässigkeit: Die Ergebnisse werden je nach Größe der Daten und manuell vorgenommenen Voreinstellungen zügig generiert. Die Ausführung von Word2Vec benötigt, je nach Korpusgröße, allerdings relativ viel Arbeitsspeicher und kann gegebenenfalls einige Stunden in Anspruch nehmen. Ein Tool, welches Textdaten in ähnlicher Größenordnung verarbeiten kann, ist derzeit nicht verfügbar.

3. Ist Gensim für DH-Einsteiger*innen geeignet?

Checkliste	√ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft	–
Grafische Benutzeroberfläche	–
Intuitive Bedienbarkeit	–
Leichter Einstieg	–
Handbuch vorhanden	√
Handbuch aktuell	√
Tutorials vorhanden	√
Erklärung von Fachbegriffen	teilweise
Gibt es eine gute Nutzerbetreuung?	√

Gensim wurde entwickelt, um unstrukturierte digitale Textsammlungen im Plain-Text-Format durch unüberwachte, maschinelle Lernverfahren zu verarbeiten, ohne dass dafür → manuelle Annotationen durchgeführt werden müssen. Als eine Open-Source-Bibliothek für Python ist Gensim allerdings nur für Nutzer’*innen geeignet, die erste Programmierkenntnisse mit Python und generelles Codeverständnis mitbringen.

Ausführliche, englischsprachige Dokumentationen und Tutorials bieten, auf Grundlage bereits trainierter Modelle und vorverarbeiteter Korpora, die Möglichkeit sich mit Gensim vertraut zu machen. Das Trainieren von Modellen mit eigenen Textsammlungen erfordert allerdings auch Kenntnisse im Bereich der computationellen Vorverarbeitung von Korpora. Außerdem müssen Parametereinstellungen bei der Implementierung der Algorithmen individuell an die Forschungsfrage angepasst werden.

Bei Fragen oder Problemen gibt es zwar nicht die Möglichkeit direkt Kontakt mit einem Support-Team aufzunehmen, Sie können aber über das Google-Forum und GitHub Hilfe erhalten.

4. Wie etabliert ist Gensim in den (Literatur-)Wissenschaften?

Gensim etabliert sich zunehmend im Bereich der digitalen Literaturwissenschaften und ist z.B. in dem Digital-Humanities-Tools-Verzeichnis TAPoR eingetragen.

Da Gensim allerdings Grundkenntnisse in der Programmierung voraussetzt, ist es insbesondere in den digitalen Literaturwissenschaften für das Topic Modeling weniger etabliert als Tools wie DARIAH Topics Explorer. Trotzdem ermöglicht die Nutzung von Gensim die individuelle Anpassung von Parametern an die Forschungsfrage.

Die Generierung von Worteinbettungen durch Word2Vec wird in den letzten Jahren auch zunehmend in den digitalen Literaturwissenschaften eingesetzt und dient beispielsweise als Werkzeug zur Unterstützung von quantitativen Literaturanalysen im Bereich des Distant- und Close-Readings (vgl. z.B. Grayson et al. 2016). In der traditionellen, literaturwissenschaftlichen Forschung findet Gensim noch keine Anwendung.

5. Unterstützt Gensim kollaboratives Arbeiten?

Nein, mit Gensim kann nicht direkt kollaborativ gearbeitet werden.

Ein Gensim-Projekt und die dazugehörigen Ressourcen können allerdings auf JupyterHub mit anderen Forschenden geteilt werden, sodass zwar nicht direkt aber über einen Workaround kollaborativ gearbeitet werden kann.

6. Sind meine Daten bei Gensim sicher?

Ja, Gensim läuft auf dem eigenen Rechner. Alle Daten werden lokal verarbeitet, Texte müssen nirgendwo hochgeladen werden. Es werden keine personenbezogenen Daten erhoben.

7. Nachweise und weiterführende Literatur

GitHub: https://github.com/RaRe-Technologies/gensim
Gensim Startseite: https://radimrehurek.com/gensim/index.html
Gensim Tutorials & Dokumentation: https://radimrehurek.com/gensim/auto_examples/index.html
Gensim FAQ: https://github.com/RARE-Technologies/gensim/wiki/Recipes-&-FAQ
Gensim API Überblick: https://radimrehurek.com/gensim/apiref.html
Gensim auf TAPoR: http://tapor.ca/tools/1606
Grayson, Siobhán, Maria Mulvany, Karen Wade, Gerardine Meaney und Derek Greene (2016): Novel2Vec: Characterising 19th Century Fiction via Word Embeddings. URL: https://researchrepository.ucd.ie/handle/10197/8360[Zugriff: 22.4.2021].
Jockers, Matthew L. und David Mimno (o. J.): „Significant themes in 19th-century literature“. In: Poetics. 41 (6), 750–769. DOI: 10.1016/j.poetic.2013.08.005.
Schöch, Christof (2015): „Topic Modeling French Crime Fiction“. In: Digital Humanities 2015: Book of Abstracts, Sydney: UWS.
van Cranenburgh, Andreas, Karina van Dalen-Oskam und Joris van Zundert (2019): „Vector space explorations of literary language“. In: Lang Resources & Evaluation. 53, 625–650.DOI: 10.1007/s10579-018-09442-4.