CATMA

CATMA - das Tool für undogmatische Annotation von Texten
Der Workflow von CATMA: Import einer Textdatei zum Beispiel im TXT-, TEI oder PDF-Format, Annotation mit eigens angelegten Tagsets, Analyse und Visualisierung z. B. als Distribution Graph oder Double Tree der Text- und Annotationsdaten. Der Weg zurück aus den Visualisierungen zum Text ist ebenfalls möglich, sodass der Workflow zirkulär sein kann.

Systemanforderungen: webbasiertes Tool, über den Browser (z. B. Chrome, Firefox, Safari) nutzbar
Stand der Entwicklung: derzeit Version 5.0; seit 2008 stetig weiterentwickelt
Herausgeber: CATMA-Team der Universität Hamburg
Lizenz: kostenfrei zugänglich
Weblink: http://catma.de
Im- und Export: Importformate: DOC, PDF, XPDF, HTML, HTM, RTF, TXT, TEI, XML2, DOCX, ZIP; Downloadformate: XML2, UTF-8 Plaintext (für Primärtextdokumente), JSON (für CATMA-Annotationen)

1. Für welche Fragestellungen kann CATMA eingesetzt werden?

CATMA (kurz für Computer Assisted Text Markup and Analysis) ist ein im Browser laufendes Tool, das die → manuelle Annotation und Analyse von Texten digital unterstützt und dabei den traditionellen philologischen Workflow zum Vorbild hat. Taxonomiebasierte Textarbeit, die „top-down” und theorie- wie kategoriengeleitet verfährt, ist damit ebenso möglich wie die „bottom up” verfahrende und zirkuläre hermeneutische Forschung, die erst im Zuge der Exploration konkreter Texte ihre spezifischen Beschreibungsterme und -Kategorien entwirft und präzisiert. CATMA kann darum für eine große Vielfalt an Forschungsansätzen genutzt werden. Eine mögliche Fragestellung wäre: Wie wird das Motiv des Doppelgängers in E.T.A. Hoffmanns Die Elixiere des Teufels dargestellt und inwiefern lässt es sich der Thematik der Persönlichkeitsspaltung zuschreiben?

2. Welche Funktionalitäten bietet CATMA und wie zuverlässig ist das Tool?

Funktionen:

  • „undogmatische", d. h. dynamisch erweiterbare, nicht notwendig nach einem fix vorgegebenen Schema verfahrende, Annotation von Textdokumenten; Kernmerkmale sind dabei
    • freie Annotation nach individuell definierten Kategorien
    • Mehrfachannotation einzelner Wörter und Passagen
    • überlappende Annotation
    • widersprüchliche Annotation
  • Entwickeln eigener Annotationskategorien (Tags) und deren Systematisierung in Taxonomien (Tagsets)
  • kollaboratives Annotieren in Echtzeit
  • Analyse von Text- und Annotationsdaten für Einzeltexte und Textsammlungen
  • Natürlichsprachliche Entwicklung von Analyseabfragen (Queries) mit dem Query Builder
  • Visualisierung von Text- und Annotationsdaten für Einzeltexte und Textsammlungen
  • Halbautomatische Annotation von Wort- oder Phrasengruppen
  • Automatisches POS-Tagging deutschsprachiger Textsammlungen
  • Automatische Annotation von Zeitformen und Zeitausdrücken in deutschsprachigen Textsammlungen

Zuverlässigkeit: CATMA wird seit 2008 kontinuierlich weiterentwickelt. Das webbasierte Tool braucht nicht auf dem eigenen Rechner installiert zu werden, ist sehr performant und zuverlässig. Die Funktionen der automatischen Annotation können allerdings je nach Umfang der Korpora relativ viel Zeit in Anspruch nehmen.

3. Ist CATMA für DH-Einsteiger*innen geeignet?

Checkliste √ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft
Grafische Benutzeroberfläche
Intuitive Bedienbarkeit
Leichter Einstieg teilweise
Handbuch vorhanden
Handbuch aktuell teilweise
Tutorials vorhanden
Erklärung von Fachbegriffen
Gibt es eine gute Nutzerbetreuung?

CATMA wurde entwickelt, um geisteswissenschaftlich-hermeneutische Arbeitsweisen zu unterstützen. Die im Zentrum dieser Arbeitsweisen stehende manuelle Annotation ist daher auch in CATMA zentral und die entsprechenden Funktionen sehr intuitiv bedienbar. Der große Funktionsumfang des Tools macht es in der derzeitigen Version 5.0 teilweise unübersichtlich. Für die aktuell entwickelte Version 6 ist darum eine grundlegende Überarbeitung der Benutzeroberfläche geplant, die die meisten Funktionen des Tools intuitiv bedienbar macht und den Einstieg dadurch erheblich erleichtert. Auch das Handbuch (Manual) und Tutorials werden für Version 6 vollständig überarbeitet.

4. Wie etabliert ist CATMA in den (Literatur-)Wissenschaften?

CATMA ist ein in den digitalen Geisteswissenschaften gut etabliertes Tool. Bisher wurden über 6200 Korpora in CATMA hochgeladen, die von mehr als 9000 registrierten Nutzer*innen einzeln oder kollaborativ untersucht werden. 9270538 Annotationen wurden manuell oder automatisch mit Hilfe von CATMA erstellt. Neben Forscher*innen mit Schwerpunkt in den digitalen Geisteswissenschaften arbeiten auch traditioneller forschende Textwissenschaftler*innen aufgrund der Nähe zur nicht-digitalen Arbeitsweise mit CATMA.

5. Unterstützt CATMA kollaboratives Arbeiten?

Ja, mit CATMA können Texte simultan von unterschiedlichen Personen annotiert werden. Auch Annotationstaxonomien (Tagsets) und (annotierte) Textdokumente können direkt aus dem Tool heraus geteilt und kollaborativ genutzt werden.

6. Sind meine Daten bei CATMA sicher?

Ja. CATMA ist ein webbasiertes Tool, das auf Servern des Rechenzentrum der Universität Hamburg läuft. Textdaten sind nur in einem geschützten Login-Bereich einsehbar. Für den Login ist eine Registrierung mit einer gültigen Email-Adresse oder über ein Google-Konto notwendig. Die CATMA-Login-Daten werden ebenfalls auf Servern im Hamburger Rechenzentrum gespeichert und nicht an Dritte weitergegeben. Bei Verwendung des Google-Logins werden die CATMA-Daten nicht automatisch für Google verfügbar und CATMA kann ausschließlich auf die Login-Daten Ihres Google-Kontos zugreifen. Die Nutzung von CATMA ist darum aus urheberrechtlicher Perspektive unbedenklich.

7. Nachweise und weiterführende Literatur