forTEXT-Feed

DHVLab

20. Juni 2022

Das DHVLab dient als virtuelle Lehr- und Forschungsinfrastruktur zur Kompetenzvermittlung von Methoden der Digital Humanities an Studierende der Kunst-, Geschichts- und Sprachwissenschaften. Auf der Startseite sind sämtliche Module (virtueller Desktop, Datenrepositorium, Dokumentations-/ Publikationsumgebung, Lehr-/ Lernumgebung) zu finden. Ziel ist die Vermittlung von allgemeinen IT-Kenntnissen, speziellen Kenntnissen in Informatik und Statistik sowie der Umgang mit großen digitalen Datensammlungen. Das DHVLab ist ein komplexes System mit mehreren Modulen, dessen Nutzung von den User*innen dynamisch angepasst werden kann.

Preprocessing mit NLTK

Eckdaten der Lerneinheit

  • Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
  • Methodik: Korpusbildung und Preprocessing
  • Angewendetes Tool: NLTK
  • Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
  • Dauer der Lerneinheit: ca. 60 Minuten
  • Schwierigkeitsgrad des Tools: mittel

1. Anwendungsbeispiel

CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

● Anwendungsbezug: Franz Kafkas Urteil
● Methodik: Digitale manuelle Annotation
● Angewendetes Tool: CATMA und GitHub sowie das Python-Package GitMA
● Lernziele: Laden eines Demo-Projektes aus CATMA, Überblick über Annotationen verschaffen, Annotationsdaten in Tabellen visualisieren, Goldstandard erstellen, IAA berechnen
● Dauer der Lerneinheit: ca. 3 Stunden
● Schwierigkeitsgrad des Tools: mittel

tagtog

10. Januar 2022

tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Das Tool steht in verschiedenen, teilweise kostenpflichtigen, Versionen zur Verfügung. Je nach Version ist das Tool daher cloudbasiert über ein Webinterface zu erreichen oder lokal verwendbar.

Lyra

7. Juni 2021

Lyra ist eine interaktive Umgebung, die es ermöglicht, Visualisierungen von Daten individuell zu erstellen. Hierzu muss nicht programmiert werden, denn die Visualisierungen werden bequem per Drag-and-Drop (der Daten zu den gewünschten Positionen) erzeugt.

Gensim

3. Mai 2021

Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.

INCEpTION

5. April 2021

INCEpTION ist ein im Browser laufendes Tool zur manuellen und automatischen Annotation von großen Textsammlungen. Ferner unterstützt es kollaboratives Arbeiten an Texten und bietet das automatische Berechnen einer Übereinstimmung zwischen Annotator*innen (inter-annotator agreement) an.

GROBID

8. März 2021
GROBID Thumbnail

GROBID ist ein Open Source Tools welches rohe TXT- und PDF-Dateien strukturieren und in TEI/XML umwandeln kann. Mit diesem Tool können bibliographische Informationen aus Texten extrahiert oder ganze Texte in TEI konvertiert werden.

CorpusExplorer

14. Dezember 2020

Der CorpusExplorer ist ein computerlinguistisches Tool zur Aufbereitung und Analyse von Korpora. Es kann zur explorativen Erforschung von Texten in digitaler Form genutzt werden und bietet eine Vielzahl an Auswertungsfunktionen.

Netzwerkanalyse mit Gephi

4. Dezember 2020
Lerneinheit: Netzwerkanalyse mit Gephi

● Anwendungsbezug: Figurenkonstellation in Emilia Galotti
● Methodik: Netzwerkanalyse
● Angewendetes Tool: Gephi
● Lernziele: Erstellen und Auswerten eines Figuren-Netzwerks: Anpassen des Netzwerks auf Datenebene und Individualisierung der Visualisierung, Download der Netzwerk-Grafiken
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: mittel

DraCor: Drama Corpora Project

3. Dezember 2020
DraCor: Drama Corpora Project

DraCor bietet für eine Vielzahl von deutschsprachigen, russischen, italienischen, schwedischen, altgriechischen, spanischen, tatarischen, elsässer, antik römischen oder auch für Shakespeare- und Caldéron-Dramen den zielgenauen Zugriff auf Volltexte und bestimmte Textuntermengen. Dies können beispielsweise gesprochene Texte pro Figur, Nebentexte, oder nur Texte weiblicher Figuren sein. Die Dramen sind außerdem mit verschiedenen Metadaten versehen und können per API in verschiedenen Formaten heruntergeladen werden.