tagtog

Category:

Tools

10. Januar 2022

Mareike Schumacher

Mari Akazawa

Tags:

Annotation

Korpusanalyse

Automatische Annotation

tagtog-Tool — Workflow: Im Webinterface werden Daten durch das Hochladen von Textdateien in verschiedenen Formaten, der direkten Eingabe eines Textes oder durch die Angabe einer URL importiert. Diese können im nächsten Schritt umfangreich mit neu erstellten oder hochgeladenen Tagsets, die auch Dictionaries beinhalten können, annotiert werden. Im Anschluss können die annotierten Versionen in der kostenfreien Version in Form einer ZIP-Datei im JSON-Format oder als TSV-Datei exportiert werden.

Systemanforderungen: tagtog kostenfrei als cloudbasiertes Tool über einen Browser (z. B. Chrome, Firefox, Safari) oder über eine API genutzt werden. Kostenpflichtig kann tagtog auch lokal auf dem eigenen Server laufen. Die lokale Nutzung des Tools erfordert außerdem: Docker, Docker Compose, cURL und Commandline-Kenntnisse
Stand der Entwicklung: Version 3.2021-W47.3 (Stand Dezember 2021); seit 2017 stetig weiterentwickelt
Herausgeber: Dr. Juan Miguel Cejuela, Jorge Campos und weitere Entwickler*innen
Lizenz: Creative Commons: Attribution 4.0 International (CC BY 4.0) für öffentliche Projekte
Weblink: https://www.tagtog.com
Im- und Export: Import von Formaten wie TXT, HTML, Bio XML-Format, Markdown; Import von CSV, TSV und PDF nur in kostenpflichtiger Version möglich; Export im JSON-Format und als TSV
Sprachen: Sprachunabhängig (unterstützt Unicode)

1. Für welche Fragestellungen kann tagtog eingesetzt werden?

tagtog ist ein englischsprachiges Tool zur Annotation von Textdaten, das die Möglichkeit bietet, auf Grundlage manueller Annotationen, ein projektspezifisches Machine-Learning durchzuführen, einen bereits vorhandenen ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen ML-Classifier zur automatisierten Annotation zu nutzen. Neben der Annotation von Dokumenttentypen oder Entitäten mit eigenen Tagsets, berechnet das Tool beispielsweise automatisch den Annotationsfortschritt bei kollaborativen Arbeiten oder die quantitative Verteilung der genutzten Tags und erstellt daraufhin Visualisierungen, die ebenfalls zum Download bereitstehen.
So bietet sich tagtog, durch die Erstellung bzw. das Hochladen von Tagsets zu Named Entities oder Dokumenttypen und damit verknüpften Dictionaries, besonders dafür an, große Textmengen automatisch oder halbautomatisch zu annotieren, und kann somit für eine große Vielfalt an Forschungsansätzen genutzt werden. Eine mögliche Fragestellung wäre: “Wie ist das Verhältnis von Sprecher- zu Sprecherinnen-Text in deutschsprachigen Dramen des 18. - 20. Jahrhunderts?” oder “Welche realweltlichen Orte werden in Erzähltexten einer bestimmten Epoche erwähnt?”.

2. Welche Funktionalitäten bietet tagtog und wie zuverlässig ist das Tool?

Funktionen:

Erstellen oder Hochladen eigener Tagsets zur Annotation von NE oder Dokumenttypen
Manuelle und automatische (nicht kostenfrei) Annotation von ganzen Paragraphen und Tabellen etc.
Überlappende Annotationen
Verknüpfung von NE durch Relationen oder Dictionaries
Normalisierung von Tags
Trainieren oder Hochladen eigener ML-Algorithmen
Nutzung des tagtog-Machine-Learning-Algorithmus’ (nicht kostenfrei)
Kollaboratives Arbeiten mit automatischer Aufgabenverteilung
Berechnung und Visualisierung von Statistiken zu annotierten Daten und zum Annotationsfortschritt eines Projektes
Berechnung der Confidence Probability für alle Annotationen und Berechnung des IAA
Query-Abfragen im Projekt zur Suche nach Dokumenten, Annotationsfortschritten oder bestimmten Tags
Nutzung über eine API möglich

Zuverlässigkeit: tagtog wird kontinuierlich gepflegt und läuft zuverlässig.

**3. Ist tagtog für DH-Einsteiger*innen geeignet?**

Checkliste	√ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft	teilweise
Grafische Benutzeroberfläche	√
Intuitive Bedienbarkeit	√
Leichter Einstieg	√
Handbuch vorhanden	√
Handbuch aktuell	√
Tutorials vorhanden	√
Erklärung von Fachbegriffen	teilweise (im Handbuch)
Gibt es eine gute Nutzerbetreuung?	√

tagtog bietet, im Vergleich zu anderen Tools, eine große Menge an Funktionalitäten und somit auch viele verschiedene Einsatzmöglichkeiten. Das Benutzerinterface in der Webversion ist übersichtlich, intuitiv aufgebaut und somit auch für DH-Einsteiger*innen geeignet. Die interaktive Benutzeroberfläche ist in vier Bereiche (Einstellungen, Projektübersicht & Annotationsbereich, Übersicht aller Statistiken, Downloadbereich) aufgeteilt. Um einen umfassenden Überblick aller Funktionen zu erlangen und die Vorteile der Funktionen zum kollaborativen Arbeiten in Gänze ausschöpfen zu können, ist es allerdings ratsam, sich zuvor intensiv mit der Dokumentation des Tools zu beschäftigen. Diese steht wie das Tool nur auf Englisch zur Verfügung.
Die Nutzung des Tools auf dem eigenen Server ist für DH-Einsteiger*innen aufgrund der aufwändigen Installation des Tools nicht zu empfehlen.

4. Wie etabliert ist tagtog in den (Literatur-)Wissenschaften?

tagtog wurde ursprünglich als Text-Mining-Tool für den Bereich der Biomedizin entwickelt (vgl. Cejuela et al. 2014) und wird inzwischen in vielen weiteren wissenschaftlichen Disziplinen und auch im Finanz-, Gesundheits- und Rechtswesen eingesetzt (bspw. Goldberg et al. 2015).
In den Literaturwissenschaften ist es bislang noch nicht sehr etabliert, wurde aber beispielsweise schon zum Trainieren von NLP-Modellen für Analysen historischer, lateinamerikanische Dokumente eingesetzt (Murrieta-Flores et al. 2019). Die manuelle Annotation bietet die Möglichkeit traditionell-analoge Forschungsmethodik ins Digitale zu übertragen.

5. Unterstützt tagtog kollaboratives Arbeiten?

Ja, tagtog unterstützt kollaboratives Arbeiten. Das Tool ist darauf ausgelegt, kollaboratives Arbeiten zu erleichtern. Allen Teilnehmer*innen eines Projektes können verschiedene Rollen mit verschiedenen Berechtigungen zugewiesen werden. In einer Kopie vom Original, arbeiten die einzelnen Annotierenden an separaten Dokumenten, welche abschließend in einem Goldstandard zu einer Version zusammengesetzt werden können. Außerdem bietet tagtog die Möglichkeit, die zu annotierenden Dokumente zufällig auf die Annotierenden aufzuteilen. Durch die automatische Berechnung von Annotiationsfortschritten und der In-Text-Markierung von Annotationen nach Annotator*in, können die individuellen Annotationen besonders einfach miteinander abgeglichen werden. Außerdem berechnet tagtog bei kollaborativen Projekten automatisch das IAA und die Confidence Probability für jedes Dokument und jedes Projekt.

6. Sind meine Daten bei tagtog sicher?

Ja und Nein. In den kostenpflichtigen lokalen Versionen werden alle Daten auf dem eigenen Server/Rechner gespeichert. In den kostenpflichtigen Cloudversionen können die Projekte “privat” gehalten werden. In der kostenfreien Cloudversion hingegen sind alle Projekte einschließlich aller Annotationen für andere Nutzer*innen frei zugänglich.

Personenbezogene Daten:
Zur Registrierung ist lediglich eine gültige Mailadresse nötig. Diese wird vertraulich behandelt. Verhaltensdaten werder von Besucher*innen sowie Nutzer*innen der Webseite gesammelt. Diese werden zur Interaktion mit Drittparteien verwendet. Weitere Informationen: hhttps://docs.tagtog.com/projects.html#privacy

Urheberrechtlich geschützte Daten:
In der kostenfreien Cloudversion werden die Texte und Annotationen in die Cloud geladen und dort gespeichert. Somit sind die Daten von dort aus auch für andere Nutzer*innen einsehbar. Allerdings können die Textdaten nur in einem geschützten Login-Bereich verwaltet werden.

7. Nachweise und weiterführende Literatur

Cejuela, Juan Miguel, Peter McQuilton, Laura Ponting, Steven J. Marygold, Raymund Stefancsik, Gillian H. Millburn, Burkhard Rost und FlyeBase Consortium (2014): „tagtog: interactive and text-mining-assisted annotation of gene mentions in PLOS full-text articles“. In: Database. 2014 (bau033). DOI: 10.1093/database/bau033.
Goldberg, Tatyana, Shrikant Vinchurkar, Juan Miguel Cejuela, Lars Juhl Jensen und Burkhard Rost (2015): „Linked annotations: a middle ground for manual curation of biomedical databases and text corpora“. In: BMC Proceedings 9, Kashiwa, Japan. DOI: 10.1186/1753-6561-9-S5-A4.
Murrieta-Flores, Patricia, Raquel Liceras-Garrido, Katherine Bellamy, Mariana Favila-Vazquez, Jorge Campos, Juan Miguel Cejuela und Bruno Martins (2019): „Training NLP models for the analysis of 16th century Latin American historical documents:Tagtog and the Geographic Reports of New Spain“. In: Digital Humanities 2019. DOI: 10.6084/m9.figshare.11806185.v1.

Links: