forTEXT-Feed

word2vec mit Gensim

20. April 2023

● Anwendungsbezug: Frauen- und Männerrollen in Goethes Erzähltexten und Dramen
● Methode: word2vec
● Angewendetes Tool: Gensim
● Lernziele: Trainieren eines word2vec-Modells, einfache Abfragen und Vektorarithmetik, erstellen von Visualisierungen zum gesamten Korpus und zu einzelnen semantischen Feldern
● Dauer der Lerneinheit: 60-90 Minuten
● Schwierigkeitsgrad des Tools: mittel 

word2vec

19. April 2023

word2vec ist eine computergestützte Methode, um Ähnlichkeiten zwischen Wörtern aufgrund ihrer kontextuellen Merkmale numerisch zu erfassen. Am häufigsten wird sie zur Analyse der semantischen Verbindungen zwischen Wörtern in einem Textkorpus eingesetzt. Dem Verfahren liegt eine Beobachtung über den Gebrauch von Wörtern in unserer Alltagssprache zugrunde: Semantisch ähnliche Wörter treten in ähnlichen Kontexten auf. Das Vorkommen eines Wortes kann demnach anhand seiner Kontexte (d.h. anhand seiner unmittelbaren Nachbarschaften in einem Satz) vorhergesagt werden, und umgekehrt.

Digitale Editionen

Digitale Editionen machen historische Dokumente für ein breites (wissenschaftliches) Publikum verfügbar und bilden damit die Basis für weitere Untersuchungen. Grundsätzlich können neben Textdokumenten auch kulturelle Artefakte in anderen medialen Formen wie audiovisuelle Medien oder bildnerische Objekte zum Gegenstand von Editionen werden. In der Literaturwissenschaft liegt der Fokus allerdings auf der Edition historischer Drucke und Handschriften. Sie werden in digitalen Editionen als digitale Faksimiles sowie als maschinenlesbare Transkripte repräsentiert und mit weiteren Informationen zu Überlieferung, relevanten Entitäten, Inhalten und/oder materiellen Besonderheiten angereichert. Die Bereitstellung erfolgt heutzutage zumeist über ein Online-Portal, wo die Dokumente im Open Access direkt rezipiert sowie (annotierte) Transkriptionen und Metadaten heruntergeladen werden können. Digitale Editionen sind nicht mit digitalen Repositorien zu verwechseln, die in der Regel nur einen maschinenlesbaren Text ohne Anbindung an die Überlieferung zur Verfügung stellen und nur wenig bis keine weiteren Informationen zum Text geben.
Editionen sind immer gleichzeitig Ergebnis wissenschaftlicher Arbeit und Basis für weitere Forschung. Um beide Perspektiven geht es im Folgenden.

DHVLab

20. Juni 2022

Das DHVLab dient als virtuelle Lehr- und Forschungsinfrastruktur zur Kompetenzvermittlung von Methoden der Digital Humanities an Studierende der Kunst-, Geschichts- und Sprachwissenschaften. Auf der Startseite sind sämtliche Module (virtueller Desktop, Datenrepositorium, Dokumentations-/ Publikationsumgebung, Lehr-/ Lernumgebung) zu finden. Ziel ist die Vermittlung von allgemeinen IT-Kenntnissen, speziellen Kenntnissen in Informatik und Statistik sowie der Umgang mit großen digitalen Datensammlungen. Das DHVLab ist ein komplexes System mit mehreren Modulen, dessen Nutzung von den User*innen dynamisch angepasst werden kann.

Preprocessing mit NLTK

Eckdaten der Lerneinheit

  • Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
  • Methodik: Korpusbildung und Preprocessing
  • Angewendetes Tool: NLTK
  • Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
  • Dauer der Lerneinheit: ca. 60 Minuten
  • Schwierigkeitsgrad des Tools: mittel

 

CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

● Anwendungsbezug: Franz Kafkas Urteil
● Methodik: Digitale manuelle Annotation
● Angewendetes Tool: CATMA und GitHub sowie das Python-Package GitMA
● Lernziele: Laden eines Demo-Projektes aus CATMA, Überblick über Annotationen verschaffen, Annotationsdaten in Tabellen visualisieren, Goldstandard erstellen, IAA berechnen
● Dauer der Lerneinheit: ca. 3 Stunden
● Schwierigkeitsgrad des Tools: mittel

tagtog

10. Januar 2022

tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Das Tool steht in verschiedenen, teilweise kostenpflichtigen, Versionen zur Verfügung. Je nach Version ist das Tool daher cloudbasiert über ein Webinterface zu erreichen oder lokal verwendbar.

Lyra

7. Juni 2021

Lyra ist eine interaktive Umgebung, die es ermöglicht, Visualisierungen von Daten individuell zu erstellen. Hierzu muss nicht programmiert werden, denn die Visualisierungen werden bequem per Drag-and-Drop (der Daten zu den gewünschten Positionen) erzeugt.

Gensim

3. Mai 2021

Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.

INCEpTION

5. April 2021

INCEpTION ist ein im Browser laufendes Tool zur manuellen und automatischen Annotation von großen Textsammlungen. Ferner unterstützt es kollaboratives Arbeiten an Texten und bietet das automatische Berechnen einer Übereinstimmung zwischen Annotator*innen (inter-annotator agreement) an.

GROBID

8. März 2021
GROBID Thumbnail

GROBID ist ein Open Source Tools welches rohe TXT- und PDF-Dateien strukturieren und in TEI/XML umwandeln kann. Mit diesem Tool können bibliographische Informationen aus Texten extrahiert oder ganze Texte in TEI konvertiert werden.

Entwicklung von Kategoriensystemen

Unter der Entwicklung von Kategoriensystemen ist die Erstellung einer terminologischen Ordnungssystematik zur Erfassung eines Gegenstandsbereichs zu verstehen. Ontologien, Taxonomien, Typologien und kontrollierte Vokabulare sind häufig verwendete Typen von Kategoriensystemen, die sich, abhängig vom Anwendungszweck und den beteiligten wissenschaftlichen Disziplinen, hinsichtlich ihrer Definitionen und Abgrenzungen voneinander unterscheiden. In textbasierten geisteswissenschaftlichen Disziplinen wie der Literaturwissenschaft können Kategoriensysteme z. B. der Klassifikation ganzer Werke oder der Kategorisierung einzelner Textphänomene dienen.