GROBID

Category: 
8. März 2021

Der GROBID-Workflow: Im Webinterface werden Dateien ausgewählt, die strukturierten Daten können als TEI heruntergeladen werden.
Der GROBID-Workflow: Im Webinterface werden Dateien ausgewählt, die strukturierten Daten können als TEI heruntergeladen werden.

Systemanforderungen: Läuft auf Linux und Mac, benötigt JDK 8. 
Stand der Entwicklung: Wird seit 2008 entwickelt, letztes Release August 2020. 
Herausgeber: 0.6.1 
Lizenz: Patrice Lopez 
Weblink: https://github.com/kermitt2/grobid/releases/ 
Im- und Export: GROBID liest TXT- und PDF-Dateien und extrahiert strukturierte Daten als XML-TEI oder BibTeX.

1. Für welche Fragestellungen kann GROBID eingesetzt werden?

GROBID liest TXT- und PDF-Dateien und extrahiert strukturierte Daten als XML-TEI oder BibTeX. Das Tool dient primär der Vorverarbeitung von Texten, etwa im Prozess der → Korpusbildung.

2. Welche Funktionalitäten bietet GROBID und wie zuverlässig ist das Tool?

Funktion: GROBID kann eingesetzt werden um bibliographische Informationen aus Texten zu extrahieren, dabei kann zwischen den Informationen des Textes oder der darin enthaltenen Bibliographie gewählt werden. Des Weiteren kann der Volltext einer PDF- als strukturierte TEI-Datei ausgelesen werden.

Folgende Funktionen sind Verfügbar:

  • Header-Informationen eines Artikels (Titel, Autoren, Abstract, Keywords, etc.) extrahieren und parsen.
  • Bibliographische Daten extrahieren.
  • Zitate im Text erkennen und mit der Bibliographie verknüpfen
  • Einzelne bibliographische Angaben parsen.
  • Adressen und Institutszugehörigkeiten parsen.
  • Volltext einer PDF strukturieren und als TEI ausgeben.

GROBID bietet auch die Möglichkeit eigene Modelle zu trainieren und Module zu schreiben, so dass fortgeschrittene Nutzer*innen das Tool sehr flexibel anpassen können.

Zuverlässigkeit: GROBID setzt ML-Modelle ein, die F-Scores zwischen 0,76 und 0,89 erreichen, abhängig von der Qualität der Quelltexte und der eingesetzten Funktion. In der Regel müssen die extrahierten Daten noch manuell nachbearbeitet werden.

3. Ist GROBID für DH-Einsteiger*innen geeignet?

Checkliste √ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft -
Grafische Benutzeroberfläche teilweise
Intuitive Bedienbarkeit teilweise
Leichter Einstieg teilweise
Handbuch vorhanden
Handbuch aktuell
Tutorials vorhanden teilweise
Erklärung von Fachbegriffen -
Gibt es eine gute Nutzerbetreuung? teilweise

Eine direkte methodische Nähe zu den traditionellen Literaturwissenschaften ist nicht gegeben, da mit GROBID selbst keine Analysen möglich sind. GROBID ist vielmehr ein Hilfsprogramm, mit dem mühsame und arbeitsintensive Aufgaben automatisiert und erleichtert werden können.

Ein leichter Einstieg ist über das Webinterface möglich, welches für einfache Anwendungsfälle eine graphische Benutzeroberfläche bereitstellt. Der volle Funktionsumfang ist jedoch erst über die API zugänglich, hierfür ist es nötig auf der Kommandozeile mit cURL oder den GROBID-Client-Programmen entsprechende Anfragen zu stellen. Welche Optionen zur Verfügung stehen und wie auch größere Datenbestände automatisiert bearbeitet werden können, ist in der umfangreichen Dokumentation mit Beispielen beschrieben.

4. Wie etabliert ist GROBID in den (Literatur-)Wissenschaften?

GROBID ist in den Naturwissenschaften und den Digitalen Geisteswissenschaften etabliert und wird bereits stabil in privaten und öffentlichen Projekten eingesetzt, u.a. von ResearchGate, dem Internet Archive und dem CERN (Invenio).

5. Unterstützt GROBID kollaboratives Arbeiten?

Nein, mit GROBID kann nicht kollaborativ gearbeitet werden.

6. Sind meine Daten bei GROBID sicher?

Ja, GROBID läuft als Server auf dem eigenen Rechner, alle Daten werden lokal verarbeitet.

7. Nachweise und weiterführende Literatur