Schlagwort: Distant Reading

Stanford Named Entity Recognizer - ein Tool zur automatischen Eigennamen-Erkennung

Named Entity Recognition (NER) ist ein Verfahren, mit dem klar benennbare Elemente (z.B. Namen von Personen oder Orten) in einem Text automatisch markiert werden können. Named Entity Recognition wurde im Rahmen der computerlinguistischen Methode des Natural Language Processing (NLP) entwickelt, bei der es darum geht, natürlichsprachliche Gesetzmäßigkeiten maschinenlesbar aufzubereiten.

Weiterlesen about Named Entity Recognition (NER)

Preprocessing mit NLTK

4. April 2022

Michael Vauth

Eckdaten der Lerneinheit

Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
Methodik: Korpusbildung und Preprocessing
Angewendetes Tool: NLTK
Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
Dauer der Lerneinheit: ca. 60 Minuten
Schwierigkeitsgrad des Tools: mittel

Weiterlesen about Preprocessing mit NLTK

Stilometrie

6. September 2018

In der digitalen Stilometrie werden Texte oder Textpassagen auf Grundlage statistischer Verteilungen (i. d. R. der häufigsten Wörter) stilistisch miteinander verglichen. So lässt sich beispielsweise die stilistische Entwicklung oder Differenzierung eines literarischen Textes, eines Œuvres, oder gar einer ganzen Epoche quantitativ nachvollziehen. Insbesondere werden stilometrische Methoden bei Autorschaftsattributionen, Genreklassifikationen, Epochendifferenzierungen oder auch in der forensischen Linguistik eingesetzt.

Weiterlesen about Stilometrie

Stilometrie mit Stylo

20. Mai 2019

Stilometrie mit Stylo GUI Bootstrap Consensus Tree Cluster Analysis Computational Stylistics Group R Rstudio

● Anwendungsbezug: 67 deutschsprachige Texte
● Methodik: Stilometrische Analyse
● Angewendetes Tool: Stylo
● Lernziele: Installation von R, RStudio und des Stylo-Packages, Anwendung unterschiedlicher stilometrischer Analysemethoden, Interpretation der Visualisierungen
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: mittel

Weiterlesen about Stilometrie mit Stylo

Textanalyse mit CATMA unterrichten

10. Februar 2020

Literaturanalyse mit CATMA: Transfer in den schulischen Bereich

• Thema der Sitzung: Digitale Analyse der Schuldproblematik und ihrer Darstellung in Bernhard Schlinks Roman Der Vorleser (1995)
• Klassenstufe: Sekundarstufe II
• Phasen: Brainstorming zum Thema Schuld, Einführung in die Arbeit mit dem Textanalysetool CATMA, Wortsuche via Analyze-Modul, Visualisierung der Suchergebnisse, textnahe Analyse des semantischen Umfelds, Präsentation und Diskussion der Arbeitsergebnisse
• Sozialform(en): Lehrvortrag, Teamarbeit und Vortrag
• Medien/Materialien: Der Vorleser in digitaler Form, stabile Internetverbindung, die Schüler*innen arbeiten in Zweierteams an einem PC (2:1), für die Einstiegsphase benötigen Sie einen mit dem Beamer verbundenen Laptop
• Dauer der Unterrichtseinheit: 90 Minuten
• Schwierigkeitsgrad des Tools: einfach/mittel

Weiterlesen about Textanalyse mit CATMA unterrichten

Textvisualisierung

5. Oktober 2018

Jan-Erik Stange

Die Textvisualisierung als Teilbereich der Informationsvisualisierung befasst sich mit der visuellen Repräsentation komplexer Textdaten und der Manipulierbarkeit dieser Repräsentation durch interaktive Softwareinterfaces (vgl. Card et al. 1999). Visuelle Darstellungen können neue Einsichten in Textdaten und deren innere Zusammenhänge liefern.
Textvisualisierungen unterstützen sowohl die Kommunikation von Forschungsergebnissen als auch die explorative Analysetätigkeit.

Weiterlesen about Textvisualisierung

Textvisualisierung mit Voyant

17. Juni 2019

Voyant-Tools: Facettenreiche Möglichkeiten der digitalen Textanalyse

● Anwendungsbezug: Gotthold Ephraim Lessings bürgerliches Trauerspiel Emilia Galotti
● Methodik: Distant Reading und Textvisualisierung
● Angewendetes Tool: Voyant
● Lernziele: Textauswahl und Nutzung elementarer Voyant-Funktionalitäten: Erstellen einer Stoppwortliste, Arbeit mit dem Voyant-Toolkit, Export der erstellten Visualisierungen und deren Interpretation
● Dauer der Lerneinheit: ca. 60 Minuten
● Schwierigkeitsgrad des Tools: einfach

Weiterlesen about Textvisualisierung mit Voyant

Textvisualisierung mit Voyant unterrichten

7. Oktober 2019

Lyrikanalyse mit Voyant im Schulunterricht

● Thema der Stunde: Themen und Motive in Gedichten von der Klassik bis zur Gegenwart – ein digitaler Einstieg in die Analyse von Gedichten
● Klassenstufe: Sekundarstufe II, Literaturunterricht im Fach Deutsch
● Phasen: Einführung in die Methodik der quantitativen Textanalyse anhand einer Wordcloud zu Friedrich Schillers Ballade Die Bürgschaft (1798) und kritische Diskussion der Visualisierung; Einführung in die Arbeit mit dem Textanalysetool Voyant (Lehrvortrag und Präsentation eines Tutorials über Funktionen von Voyant); Organisation der Partnerarbeit; Präsentation und Diskussion der Ergebnisse im Plenum
● Einbettung der Stunde in die Unterrichtseinheit: Interpretation lyrischer Texte, Einstieg in Unterrichtseinheit zur Lyrikanalyse, Distant Reading mit repräsentativen Gedichten von der Klassik bis zur Gegenwart
● Sozialformen: Vortrag, Diskussion im Plenum, Partnerarbeit
● Dauer der Unterrichtseinheit: 90 Minuten
● Schwierigkeitsgrad des Tools: einfach

Weiterlesen about Textvisualisierung mit Voyant unterrichten

Topic Modeling

15. Januar 2018

Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Exploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (Topics) zur Abbildung häufiger gemeinsamer Vorkommnisse von Wörtern.

Weiterlesen about Topic Modeling

Topic Modeling mit dem DARIAH Topics Explorer

21. Januar 2019

DARIAH Topics Explorer – Topic Modeling ohne Vorkenntnisse

● Anwendungsbezug: Hans Christian Andersens Märchen
● Methodik: Topic Modeling in Prosatexten eines Autors
● Angewendetes Tool: DARIAH Topics Explorer
● Lernziele: Zusammenstellung und thematische Exploration einer kleinen bis mittelgroßen Textsammlung, Installation des Tools, Auswertung/Interpretation der Ergebnisse
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: leicht bis mittel

Weiterlesen about Topic Modeling mit dem DARIAH Topics Explorer

Topic Modeling mit dem DARIAH Topics Explorer lehren

22. Juli 2019

Lehrmodul Topic Modeling mit dem DARIAH Topics Explorer lehren

● Thema der Sitzung: Themen und Topics bei Friedrich Schiller und Wilhelm Hauff
● Lernziele: Kenntnisse über die Methode des Topic Modeling, sicherer Umgang mit dem DARIAH Topics Explorer, kritische Bewertung der Methode, Autoren- und Epochenkenntnisse (Sturm und Drang, Weimarer Klassik, Romantik)
● Phasen: Einführende Begriffsdisskussion (Themen vs. Topics), Vorstellung und Diskussion der Methode, Demonstration der Toolfunktionen, Gruppenarbeit, Gruppenpräsentationen
● Sozialformen: Diskussion, Vortrag, Gruppenarbeit
● Medien/Materialien: Alle Lernenden müssen einen Laptop haben, auf dem der DARIAH Topics Explorer installiert ist; Lehrende benötigen einen Laptop und Beamer
● Dauer des Lehrmoduls: 2 x 90 Minuten
● Schwierigkeitsgrad des Tools: leicht bis mittel

Weiterlesen about Topic Modeling mit dem DARIAH Topics Explorer lehren

word2vec mit Gensim

20. April 2023

Mareike Schuhmacher

● Anwendungsbezug: Frauen- und Männerrollen in Goethes Erzähltexten und Dramen
● Methode: word2vec
● Angewendetes Tool: Gensim
● Lernziele: Trainieren eines word2vec-Modells, einfache Abfragen und Vektorarithmetik, erstellen von Visualisierungen zum gesamten Korpus und zu einzelnen semantischen Feldern
● Dauer der Lerneinheit: 60-90 Minuten
● Schwierigkeitsgrad des Tools: mittel

Weiterlesen about word2vec mit Gensim

Tools

DARIAH Topics Explorer

10. Dezember 2018

Mit dem DARIAH Topics Explorer kann Topic Modeling ohne Vorkenntnisse über eine grafische Nutzeroberfläche durchgeführt werden. Fragestellungen nach Themenfeldern in Textsammlungen, wie z. B. „Welche Themen kommen in Goethes Prosawerken gehäuft vor und wie verteilen sie sich über die einzelnen Texte?", können damit untersucht werden.

Weiterlesen about DARIAH Topics Explorer

Gensim

3. Mai 2021

Mari E. Akazawa

Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.

Weiterlesen about Gensim

Gephi

18. Februar 2019

In diesem Beitrag stellen wir das Netzwerkanalyse-Tool Gephi vor

Gephi dient zur Visualisierung von Netzwerken und kann darum besonders gut bei Fragestellungen nach netzwerkartigen Konstellationen und Strukturen eingesetzt werden.

Weiterlesen about Gephi

LIWC

12. August 2019

LIWC (Linguistic Inquiry and Word Count) ist ein Tool zur computergestützten quantitativen Textanalyse, das die Sentimentanalyse eigener Texte ermöglicht. Mittels lexikonbasierter Sentimentanalyse werden Texte statistisch ausgewertet: Das Tool bestimmt Worthäufigkeiten und berechnet u. a. die prozentuale Vorkommenshäufigkeit der Lexeme mit emotionaler und kognitiver Signalwirkung, indem es sie unterschiedlichen Kategorien zuordnet.

Weiterlesen about LIWC

Lyra

7. Juni 2021

Kristina Becker

Lyra ist eine interaktive Umgebung, die es ermöglicht, Visualisierungen von Daten individuell zu erstellen. Hierzu muss nicht programmiert werden, denn die Visualisierungen werden bequem per Drag-and-Drop (der Daten zu den gewünschten Positionen) erzeugt.

Weiterlesen about Lyra

Stanford Named Entity Recognizer

20. September 2018

Mit Stanford-NER können vor allem Fragen nach quantitativen Aspekten von Figurennamen, Orten und Organisationen bearbeitet werden, wie etwa: Wie viele Figuren werden in einem Text benannt, und welche Figuren werden am häufigsten erwähnt? Was für Orte kommen vor, und wie ist die Verteilung von Ortsnennungen? Oder zum Beispiel: In welchem Kontext werden Organisationen genannt?

Weiterlesen about Stanford Named Entity Recognizer

Voyant

26. November 2018