Schlagwort: Preprocessing

Tools

GROBID

8. März 2021
GROBID Thumbnail

GROBID ist ein Open Source Tools welches rohe TXT- und PDF-Dateien strukturieren und in TEI/XML umwandeln kann. Mit diesem Tool können bibliographische Informationen aus Texten extrahiert oder ganze Texte in TEI konvertiert werden.

WebLicht

5. August 2019
WebLicht ist eine Toolsuite, mit der Texte für die digitale Analyse vorbereitet werden können.

WebLicht ist eine webbasierte Toolsuite, die von CLARIN-D bereitgestellt wird. Mit WebLicht können eine Reihe von Methoden zur Vorbereitung der digitalen Textanalyse durchgeführt werden. Die Tools können in vorbereiteten Pipelines genutzt (Easy Mode) oder frei kombiniert werden (Advanced Mode).

Routinen

Korpusbildung

13. Januar 2020
Die verschiedenen Texte

Ein digitales Korpus ist eine maschinenlesbare Sammlung von Texten, die die empirische Grundlage Ihrer Untersuchungen im Feld digitaler Literaturwissenschaft bildet. Folglich konzipieren Sie es meist bereits mit einem Ziel oder einer Fragestellung. Je nach Methode oder Disziplin variieren die Textanzahl und nötigen Vorbereitungen.

Named Entity Recognition mit dem Stanford Named Entity Recognizer

26. August 2019
Named Entity Recognition mit dem Stanford-NER-Tool

● Anwendungsbezug: Figuren in Goethes Wahlverwandtschaften (1809)
● Methodik: Named Entity Recognition (NER)
● Angewendetes Tool: Stanford Named Entity Recognizer
● Lernziele: Automatische Annotation von Figuren, Berechnung der Güte des Ergebnisses, Verbesserung der Erkennung durch Training eines eigenen NER-Modells
● Dauer der Lerneinheit: 120 Minuten
● Schwierigkeitsgrad des Tools: mittel bis schwierig

Preprocessing mit NLTK

Eckdaten der Lerneinheit

  • Anwendungsbezug: Textvorverarbeitung von Goethes “Die Leiden des jungen Werthers”
  • Methodik: Korpusbildung und Preprocessing
  • Angewendetes Tool: NLTK
  • Lernziele: Einzelne Schritte zur Textbereinigung, wie z.B. Löschen von Leerzeilen, Entfernen von Stoppwörtern oder Tokenisierung auswählen und durchführen können
  • Dauer der Lerneinheit: ca. 60 Minuten
  • Schwierigkeitsgrad des Tools: mittel