forTEXT-Feed

word2vec mit Gensim

20. April 2023

● Anwendungsbezug: Frauen- und Männerrollen in Goethes Erzähltexten und Dramen
● Methode: word2vec
● Angewendetes Tool: Gensim
● Lernziele: Trainieren eines word2vec-Modells, einfache Abfragen und Vektorarithmetik, erstellen von Visualisierungen zum gesamten Korpus und zu einzelnen semantischen Feldern
● Dauer der Lerneinheit: 60-90 Minuten
● Schwierigkeitsgrad des Tools: mittel

Weiterlesen about word2vec mit Gensim

word2vec

19. April 2023

Mareike Schumacher

word2vec ist eine computergestützte Methode, um Ähnlichkeiten zwischen Wörtern aufgrund ihrer kontextuellen Merkmale numerisch zu erfassen. Am häufigsten wird sie zur Analyse der semantischen Verbindungen zwischen Wörtern in einem Textkorpus eingesetzt. Dem Verfahren liegt eine Beobachtung über den Gebrauch von Wörtern in unserer Alltagssprache zugrunde: Semantisch ähnliche Wörter treten in ähnlichen Kontexten auf. Das Vorkommen eines Wortes kann demnach anhand seiner Kontexte (d.h. anhand seiner unmittelbaren Nachbarschaften in einem Satz) vorhergesagt werden, und umgekehrt.

Weiterlesen about word2vec

Digitale Editionen

4. Juli 2022

Sandra Bläß

Marie Flüh

Julia Nantke

Digitale Editionen machen historische Dokumente für ein breites (wissenschaftliches) Publikum verfügbar und bilden damit die Basis für weitere Untersuchungen. Grundsätzlich können neben Textdokumenten auch kulturelle Artefakte in anderen medialen Formen wie audiovisuelle Medien oder bildnerische Objekte zum Gegenstand von Editionen werden. In der Literaturwissenschaft liegt der Fokus allerdings auf der Edition historischer Drucke und Handschriften. Sie werden in digitalen Editionen als digitale Faksimiles sowie als maschinenlesbare Transkripte repräsentiert und mit weiteren Informationen zu Überlieferung, relevanten Entitäten, Inhalten und/oder materiellen Besonderheiten angereichert. Die Bereitstellung erfolgt heutzutage zumeist über ein Online-Portal, wo die Dokumente im Open Access direkt rezipiert sowie (annotierte) Transkriptionen und Metadaten heruntergeladen werden können. Digitale Editionen sind nicht mit digitalen Repositorien zu verwechseln, die in der Regel nur einen maschinenlesbaren Text ohne Anbindung an die Überlieferung zur Verfügung stellen und nur wenig bis keine weiteren Informationen zum Text geben.
Editionen sind immer gleichzeitig Ergebnis wissenschaftlicher Arbeit und Basis für weitere Forschung. Um beide Perspektiven geht es im Folgenden.

Weiterlesen about Digitale Editionen

DHVLab

20. Juni 2022

Mareike Schumacher

Kristina Becker

Das DHVLab dient als virtuelle Lehr- und Forschungsinfrastruktur zur Kompetenzvermittlung von Methoden der Digital Humanities an Studierende der Kunst-, Geschichts- und Sprachwissenschaften. Auf der Startseite sind sämtliche Module (virtueller Desktop, Datenrepositorium, Dokumentations-/ Publikationsumgebung, Lehr-/ Lernumgebung) zu finden. Ziel ist die Vermittlung von allgemeinen IT-Kenntnissen, speziellen Kenntnissen in Informatik und Statistik sowie der Umgang mit großen digitalen Datensammlungen. Das DHVLab ist ein komplexes System mit mehreren Modulen, dessen Nutzung von den User*innen dynamisch angepasst werden kann.

Weiterlesen about DHVLab

Preprocessing mit NLTK

4. April 2022

Mareike Schumacher

Michael Vauth

Eckdaten der Lerneinheit

Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
Methodik: Korpusbildung und Preprocessing
Angewendetes Tool: NLTK
Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
Dauer der Lerneinheit: ca. 60 Minuten
Schwierigkeitsgrad des Tools: mittel

Weiterlesen about Preprocessing mit NLTK

CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

7. März 2022

Mareike Schumacher

Michael Vauth

● Anwendungsbezug: Franz Kafkas Urteil
● Methodik: Digitale manuelle Annotation
● Angewendetes Tool: CATMA und GitHub sowie das Python-Package GitMA
● Lernziele: Laden eines Demo-Projektes aus CATMA, Überblick über Annotationen verschaffen, Annotationsdaten in Tabellen visualisieren, Goldstandard erstellen, IAA berechnen
● Dauer der Lerneinheit: ca. 3 Stunden
● Schwierigkeitsgrad des Tools: mittel

Weiterlesen about CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

tagtog

10. Januar 2022

Mareike Schumacher

Mari Akazawa

tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Das Tool steht in verschiedenen, teilweise kostenpflichtigen, Versionen zur Verfügung. Je nach Version ist das Tool daher cloudbasiert über ein Webinterface zu erreichen oder lokal verwendbar.

Weiterlesen about tagtog

Lyra

7. Juni 2021

Mareike Schumacher

Kristina Becker

Lyra ist eine interaktive Umgebung, die es ermöglicht, Visualisierungen von Daten individuell zu erstellen. Hierzu muss nicht programmiert werden, denn die Visualisierungen werden bequem per Drag-and-Drop (der Daten zu den gewünschten Positionen) erzeugt.

Weiterlesen about Lyra

Gensim

3. Mai 2021

Mareike Schumacher

Mari E. Akazawa

Gensim ist eine Open-Source-Bibliothek für Python, die verschiedene Algorithmen beinhaltet. Gensim kann für unterschiedliche Fragestellungen eingesetzt werden. Da alle Algorithmen ermöglichen, automatisiert semantische Strukturen in den Textdaten zu entdecken, bietet Gensim sich insbesondere für die Verarbeitung großer Textsammlungen an.

Weiterlesen about Gensim

INCEpTION

5. April 2021

Mareike Schumacher

Kristina Becker

INCEpTION ist ein im Browser laufendes Tool zur manuellen und automatischen Annotation von großen Textsammlungen. Ferner unterstützt es kollaboratives Arbeiten an Texten und bietet das automatische Berechnen einer Übereinstimmung zwischen Annotator*innen (inter-annotator agreement) an.

Weiterlesen about INCEpTION

GROBID

8. März 2021

Dominik Gerstorfer

GROBID ist ein Open Source Tools welches rohe TXT- und PDF-Dateien strukturieren und in TEI/XML umwandeln kann. Mit diesem Tool können bibliographische Informationen aus Texten extrahiert oder ganze Texte in TEI konvertiert werden.

Weiterlesen about GROBID

Entwicklung von Kategoriensystemen

11. Januar 2021

Janina Jacke

Dominik Gerstorfer

Unter der Entwicklung von Kategoriensystemen ist die Erstellung einer terminologischen Ordnungssystematik zur Erfassung eines Gegenstandsbereichs zu verstehen. Ontologien, Taxonomien, Typologien und kontrollierte Vokabulare sind häufig verwendete Typen von Kategoriensystemen, die sich, abhängig vom Anwendungszweck und den beteiligten wissenschaftlichen Disziplinen, hinsichtlich ihrer Definitionen und Abgrenzungen voneinander unterscheiden. In textbasierten geisteswissenschaftlichen Disziplinen wie der Literaturwissenschaft können Kategoriensysteme z. B. der Klassifikation ganzer Werke oder der Kategorisierung einzelner Textphänomene dienen.

Weiterlesen about Entwicklung von Kategoriensystemen

forTEXT-Feed

word2vec mit Gensim

word2vec

Digitale Editionen

DHVLab

Preprocessing mit NLTK

Eckdaten der Lerneinheit

CATMA-Annotationen auswerten, Gold Standard erstellen und Inter-Annotator-Agreement berechnen mit GitMA

tagtog

Lyra

Gensim

INCEpTION

GROBID

Entwicklung von Kategoriensystemen

Neuigkeiten

forTEXT Journal