forTEXT-Feed

Digitale Editionen

Digitale Editionen machen historische Dokumente für ein breites (wissenschaftliches) Publikum verfügbar und bilden damit die Basis für weitere Untersuchungen. Grundsätzlich können neben Textdokumenten auch kulturelle Artefakte in anderen medialen Formen wie audiovisuelle Medien oder bildnerische Objekte zum Gegenstand von Editionen werden. In der Literaturwissenschaft liegt der Fokus allerdings auf der Edition historischer Drucke und Handschriften. Sie werden in digitalen Editionen als digitale Faksimiles sowie als maschinenlesbare Transkripte repräsentiert und mit weiteren Informationen zu Überlieferung, relevanten Entitäten, Inhalten und/oder materiellen Besonderheiten angereichert. Die Bereitstellung erfolgt heutzutage zumeist über ein Online-Portal, wo die Dokumente im Open Access direkt rezipiert sowie (annotierte) Transkriptionen und Metadaten heruntergeladen werden können. Digitale Editionen sind nicht mit digitalen Repositorien zu verwechseln, die in der Regel nur einen maschinenlesbaren Text ohne Anbindung an die Überlieferung zur Verfügung stellen und nur wenig bis keine weiteren Informationen zum Text geben.
Editionen sind immer gleichzeitig Ergebnis wissenschaftlicher Arbeit und Basis für weitere Forschung. Um beide Perspektiven geht es im Folgenden.

DHVLab

20. Juni 2022

Das DHVLab dient als virtuelle Lehr- und Forschungsinfrastruktur zur Kompetenzvermittlung von Methoden der Digital Humanities an Studierende der Kunst-, Geschichts- und Sprachwissenschaften. Auf der Startseite sind sämtliche Module (virtueller Desktop, Datenrepositorium, Dokumentations-/ Publikationsumgebung, Lehr-/ Lernumgebung) zu finden. Ziel ist die Vermittlung von allgemeinen IT-Kenntnissen, speziellen Kenntnissen in Informatik und Statistik sowie der Umgang mit großen digitalen Datensammlungen. Das DHVLab ist ein komplexes System mit mehreren Modulen, dessen Nutzung von den User*innen dynamisch angepasst werden kann.

Preprocessing mit NLTK

Eckdaten der Lerneinheit

  • Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
  • Methodik: Korpusbildung und Preprocessing
  • Angewendetes Tool: NLTK
  • Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
  • Dauer der Lerneinheit: ca. 60 Minuten
  • Schwierigkeitsgrad des Tools: mittel

1. Anwendungsbeispiel

CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

● Anwendungsbezug: Franz Kafkas Urteil
● Methodik: Digitale manuelle Annotation
● Angewendetes Tool: CATMA und GitHub sowie das Python-Package GitMA
● Lernziele: Laden eines Demo-Projektes aus CATMA, Überblick über Annotationen verschaffen, Annotationsdaten in Tabellen visualisieren, Goldstandard erstellen, IAA berechnen
● Dauer der Lerneinheit: ca. 3 Stunden
● Schwierigkeitsgrad des Tools: mittel

tagtog

10. Januar 2022

tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Das Tool steht in verschiedenen, teilweise kostenpflichtigen, Versionen zur Verfügung. Je nach Version ist das Tool daher cloudbasiert über ein Webinterface zu erreichen oder lokal verwendbar.

Lyra

7. Juni 2021

Lyra ist eine interaktive Umgebung, die es ermöglicht, Visualisierungen von Daten individuell zu erstellen. Hierzu muss nicht programmiert werden, denn die Visualisierungen werden bequem per Drag-and-Drop (der Daten zu den gewünschten Positionen) erzeugt.

Gensim

3. Mai 2021

Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.

INCEpTION

5. April 2021

INCEpTION ist ein im Browser laufendes Tool zur manuellen und automatischen Annotation von großen Textsammlungen. Ferner unterstützt es kollaboratives Arbeiten an Texten und bietet das automatische Berechnen einer Übereinstimmung zwischen Annotator*innen (inter-annotator agreement) an.

GROBID

8. März 2021
GROBID Thumbnail

GROBID ist ein Open Source Tools welches rohe TXT- und PDF-Dateien strukturieren und in TEI/XML umwandeln kann. Mit diesem Tool können bibliographische Informationen aus Texten extrahiert oder ganze Texte in TEI konvertiert werden.

CorpusExplorer

14. Dezember 2020

Der CorpusExplorer ist ein computerlinguistisches Tool zur Aufbereitung und Analyse von Korpora. Es kann zur explorativen Erforschung von Texten in digitaler Form genutzt werden und bietet eine Vielzahl an Auswertungsfunktionen.

Netzwerkanalyse mit Gephi

4. Dezember 2020
Lerneinheit: Netzwerkanalyse mit Gephi

● Anwendungsbezug: Figurenkonstellation in Emilia Galotti
● Methodik: Netzwerkanalyse
● Angewendetes Tool: Gephi
● Lernziele: Erstellen und Auswerten eines Figuren-Netzwerks: Anpassen des Netzwerks auf Datenebene und Individualisierung der Visualisierung, Download der Netzwerk-Grafiken
● Dauer der Lerneinheit: ca. 90 Minuten
● Schwierigkeitsgrad des Tools: mittel