Transkribus

Der Workflow von Transkribus: Laden Sie Ordner mit einseitigen oder mehrseitigen PDF-Dateien oder auch Bilddateien (JPEG, PNG, T
Der Workflow von Transkribus: Laden Sie Ordner mit einseitigen oder mehrseitigen PDF-Dateien oder auch Bilddateien (JPEG, PNG, TIFF, JP2) hoch, lassen Sie die Linien im Manuskript bestimmen und transkribieren Sie. Das Transkript kann z. B. als PDF, TEI-konformes XML, als DOCX, TXT etc. herunter geladen und weiter verwendet werden.

Systemanforderungen: Desktopbasiert; benötigt Internetverbindung für Serverzugriff; kann offline mit lokalen Daten verwendet werden; unterstützt alle Betriebssysteme; benötigt Java Runtime Environment
Stand der Entwicklung: Seit 2016, wird weiter entwickelt
Herausgeber: Universität Innsbruck
Lizenz: Kostenfrei, aber nicht Open Source
Weblink: https://transkribus.eu/Transkribus/ (eine verschlankte Webversion eignet sich bei Bedarf für kurzfristigere Transkriptionsaufgaben)
Im- und Export: Transkribus-Dokument, Excel-Datei, PDF, TEI-XML, DOCX, TXT; nur Import: JPEG, PNG, TIFF, JP2
Sprachen: Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Schwedisch, Polnisch, Dänisch etc. Für mehr Informationen: https://readcoop.eu/transkribus/public-models/

1. Für welche Fragestellungen kann Transkribus eingesetzt werden?

Das Kerngeschäft von Transkribus ist die → Digitalisierung von Handschriften, d. h. das manuelle Transkribieren und die automatisierte → Handschriftenerkennung (HTR). Zusätzlich wird auch eine optische Zeichenerkennung (OCR) für Druckschriften angeboten. Editionswissenschaftliche Projekte können in Transkribus ausgeführt werden, die Digitalisierung kann aber auch als Vorbereitung für eine Weiterverarbeitung der Texte mit anderen digitalen Tools dienen. Transkribus bietet grundsätzlich auch die Möglichkeit, die erstellten Transkripte nach selbst gewählten Kategorien zu annotieren und größere Textmengen nach diesen Kategorien zu durchsuchen.

2. Welche Funktionalitäten bietet Transkribus und wie zuverlässig ist das Tool?

Transkribus bietet eine Vielzahl von Funktionen, darunter:

  • Archivierung von Textsammlungen und zugehöriger Scans oder Transkriptionen; Anreicherung mit Metadaten
  • Automatische und manuelle Segmentierung des Textes
  • Tagsetzung, Kommentierung und Annotation
  • Transkription
  • Nutzung automatischer HTR-Funktionen für deutsch- und englischsprachige Texte
  • Training eines eigenen HTR-Modells für eine bestimmte Schrift
  • OCR (Funktionen von → Abbyy FineReader): Einlesen von lateinischer Schrift, Fraktur und Mischformen in verschiedenen Sprachen
  • Fehlerquotenmessung von HTR und OCR

Grundvoraussetzung für die Nutzung ist, dass hochwertige Scans verwendet werden. Für diesen Zweck hat Transkribus das ScanTent für perfekte Scan-Bedingungen und die Android-App DocScan (vgl. Kleber et al. 2017) für einen einfachen Upload der Dateien in Ihren Transkribusaccount entwickelt. Die Leistung wird damit zuverlässig und auch vergleichsweise schnell. Auch komplexere Layouts (wie bspw. Tabellen oder Texte mit mehreren Spalten) können vom HTR- und OCR-Programm häufig automatisch richtig erfasst werden. Die HTR bietet zudem die Möglichkeit einer manuellen Auszeichnung der Zeilen und ihrer Abfolge.

3. Ist Transkribus für DH-Einsteiger*innen geeignet?

Checkliste √ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft
Grafische Benutzeroberfläche
Intuitive Bedienbarkeit teilweise
Leichter Einstieg
Handbuch vorhanden
Handbuch aktuell teilweise
Tutorials vorhanden
Erklärung von Fachbegriffen teilweise
Gibt es eine gute Nutzerbetreuung?

Transkribus’ grafische Nutzeroberfläche (GUI) ist sehr komplex und ohne Einführung nur wenig intuitiv nutzbar. Über die vielen Funktionen können Sie sich im englischen oder deutschen Wiki einen Überblick verschaffen. Fachbegriffe werden dort größtenteils kurz erklärt, allerdings mit Ausnahmen wie z. B. der Unterschied zwischen line und baseline. Die vielen How-to Guides erklären als Text- oder Video-Tutorials einzelne Arbeitsabläufe Schritt für Schritt. Ein deutsches Benutzerhandbuch erklärt die Benutzeroberfläche zwar en detail, bezieht sich jedoch auf eine ältere Version und ist daher in einigen Punkten veraltet. Anfragen per Mail beantwortet das Transkribus-Team i. d. R. zügig und ausführlich.

4. Wie etabliert ist Transkribus in den (Literatur-)Wissenschaften?

Für Transkriptionsprojekte ist Transkribus europaweit die erste Anlaufstelle und viele Editionen werden mit Transkribus-Unterstützung erstellt. Laut Aussagen von Transkribus sind unter 55 zur Zeit aktiv laufenden Projekten 16 Editionsprojekte; 10 geplante Projekte haben noch nicht begonnen und weitere 6 haben Interesse bekundet (Stand Juli 2018).

5. Unterstützt Transkribus kollaboratives Arbeiten?

Ja. Textsammlungen (Collections) können mit anderen Nutzer*innen einzeln geteilt und dann gemeinsam transkribiert und annotiert werden. Nach dem Speichern der Transkriptionen und sonstiger Metadaten werden diese den anderen Nutzer*innen der jeweiligen Collection automatisch zugänglich gemacht. Gemeinsam können zudem Textsammlungen erweitert und Transkriptionsrichtlinien erstellt werden.

6. Sind meine Daten bei Transkribus sicher?

Ja. Beim Erstellen eines Accounts ist die Angabe Ihres Namens, der Mailadresse und eines Passwortes nötig. Bei der Registrierung wird zudem die IP-Adresse abgerufen und geschützt gespeichert. Auch Trainingsdaten werden erhoben, dies jedoch vor allem für die Verbesserung der HTR-Funktion und ohne dass ein Zugriff auf die Dokumente selbst stattfände. Dies geschieht, um die tooleigene HTR-Funktion stetig zu verbessern und zukünftig Handschriften digitalisieren zu können, ohne jeweils ein eigenes Training vorschalten zu müssen. Es ist kein Widerspruch möglich, die Daten werden jedoch wieder gelöscht, wenn Sie Ihren Account löschen.

Hochgeladene Texte werden auf einem Server der Universität Innsbruck gespeichert. Die Texte befinden sich in einem geschützten Login-Bereich und sind nur durch diejenigen Transkribus-Nutzer*innen einsehbar, denen Sie Zugriff geben. Alternativ können Sie offline mit lokalen Daten arbeiten.

7. Nachweise

  • Colutto, Sebastian, Günther Hackl, Philip Kahle und Günter Mühlberger (2017): Transkribus - A Service Platform for Transcription, Recognition and Retrieval of Historical Documents. Kyoto, Japan, 19–24. DOI: 10.1109/ICDAR.2017.307.
  • Kleber, Florian, Markus Diem, Fabian Hollaus und Stefan Fiel (2017): „Mass Digitization of Archival Documents using Mobile Phones“. In: Proceedings of the 4th International Workshop on Historical Document Imaging and Processing, 65–70. URL: https://dl.acm.org/citation.cfm?doid=3151509.3151526 [Zugriff: 17.9.2018].
  • Mühlberger, Günter und Tamara Terbul (2018): „Handschriftenerkennung für historische Schriften. Die Transkribus Plattform“. In: b.i.t. online. 21 (3), 218–222.

Weiterführende Links