CorpusExplorer
Der CorpusExplorer ist ein computerlinguistisches Tool zur Aufbereitung und Analyse von Korpora. Es kann zur explorativen Erforschung von Texten in digitaler Form genutzt werden und bietet eine Vielzahl an Auswertungsfunktionen.
Der CorpusExplorer ist ein computerlinguistisches Tool zur Aufbereitung und Analyse von Korpora. Es kann zur explorativen Erforschung von Texten in digitaler Form genutzt werden und bietet eine Vielzahl an Auswertungsfunktionen.
Mit dem DARIAH Topics Explorer kann Topic Modeling ohne Vorkenntnisse über eine grafische Nutzeroberfläche durchgeführt werden. Fragestellungen nach Themenfeldern in Textsammlungen, wie z. B. „Welche Themen kommen in Goethes Prosawerken gehäuft vor und wie verteilen sie sich über die einzelnen Texte?", können damit untersucht werden.
Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.
tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Das Tool steht in verschiedenen, teilweise kostenpflichtigen, Versionen zur Verfügung. Je nach Version ist das Tool daher cloudbasiert über ein Webinterface zu erreichen oder lokal verwendbar.
Voyant bündelt eine Vielzahl unterschiedlicher Tools, die sich für die digitale Textanalyse einzelner Texte oder ganzer Textsammlungen einsetzten lassen. Die Analyseergebnisse werden in facettenreichen Darstellungsformen visualisiert. Die übersichtlich gestaltete wie einfach bedienbare Benutzeroberfläche macht Voyant zu einem besonders einsteigerfreundlichen Tool.
● Anwendungsbezug: Genderverteilung in Romanen des 18. Jahrhunderts
● Methoden: Analyse, Visualisierung)
● Angewendetes Tool: CATMA
● Lernziele: quantitative Analyse von Text- und Annotationsdaten; Erstellen von Queries und Visualisierungen
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: leicht
● Anwendungsbezug: Gotthold Ephraim Lessings bürgerliches Trauerspiel Emilia Galotti
● Methodik: Distant Reading und Textvisualisierung
● Angewendetes Tool: Voyant
● Lernziele: Textauswahl und Nutzung elementarer Voyant-Funktionalitäten: Erstellen einer Stoppwortliste, Arbeit mit dem Voyant-Toolkit, Export der erstellten Visualisierungen und deren Interpretation
● Dauer der Lerneinheit: ca. 60 Minuten
● Schwierigkeitsgrad des Tools: einfach
● Thema der Stunde: Themen und Motive in Gedichten von der Klassik bis zur Gegenwart – ein digitaler Einstieg in die Analyse von Gedichten
● Klassenstufe: Sekundarstufe II, Literaturunterricht im Fach Deutsch
● Phasen: Einführung in die Methodik der quantitativen Textanalyse anhand einer Wordcloud zu Friedrich Schillers Ballade Die Bürgschaft (1798) und kritische Diskussion der Visualisierung; Einführung in die Arbeit mit dem Textanalysetool Voyant (Lehrvortrag und Präsentation eines Tutorials über Funktionen von Voyant); Organisation der Partnerarbeit; Präsentation und Diskussion der Ergebnisse im Plenum
● Einbettung der Stunde in die Unterrichtseinheit: Interpretation lyrischer Texte, Einstieg in Unterrichtseinheit zur Lyrikanalyse, Distant Reading mit repräsentativen Gedichten von der Klassik bis zur Gegenwart
● Sozialformen: Vortrag, Diskussion im Plenum, Partnerarbeit
● Dauer der Unterrichtseinheit: 90 Minuten
● Schwierigkeitsgrad des Tools: einfach
Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Exploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (Topics) zur Abbildung häufiger gemeinsamer Vorkommnisse von Wörtern.
● Anwendungsbezug: Hans Christian Andersens Märchen
● Methodik: Topic Modeling in Prosatexten eines Autors
● Angewendetes Tool: DARIAH Topics Explorer
● Lernziele: Zusammenstellung und thematische Exploration einer kleinen bis mittelgroßen Textsammlung, Installation des Tools, Auswertung/Interpretation der Ergebnisse
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: leicht bis mittel
● Thema der Sitzung: Themen und Topics bei Friedrich Schiller und Wilhelm Hauff
● Lernziele: Kenntnisse über die Methode des Topic Modeling, sicherer Umgang mit dem DARIAH Topics Explorer, kritische Bewertung der Methode, Autoren- und Epochenkenntnisse (Sturm und Drang, Weimarer Klassik, Romantik)
● Phasen: Einführende Begriffsdisskussion (Themen vs. Topics), Vorstellung und Diskussion der Methode, Demonstration der Toolfunktionen, Gruppenarbeit, Gruppenpräsentationen
● Sozialformen: Diskussion, Vortrag, Gruppenarbeit
● Medien/Materialien: Alle Lernenden müssen einen Laptop haben, auf dem der DARIAH Topics Explorer installiert ist; Lehrende benötigen einen Laptop und Beamer
● Dauer des Lehrmoduls: 2 x 90 Minuten
● Schwierigkeitsgrad des Tools: leicht bis mittel