TextGrid Repository

Category: 
21. August 2018

1. Kurzbeschreibung

Das TextGrid Repository ist ein digitales Langzeitarchiv, das Ihnen die wichtigsten kanonisierten Texte aus der germanistischen Literaturwissenschaft von über 600 Autor*innen in zitierfähiger Qualität zur Verfügung stellt.

Abb. 1: Benutzeroberfläche des TextGrid Repositorys
Abb. 1: Benutzeroberfläche des TextGrid Repositorys

Steckbrief
  • https://textgridrep.org
  • Volltextsammlung: Texte von Anbeginn des Buchdruckes bis zu den ersten Jahrzehnten des 20. Jahrhunderts von mehr als 600 deutschsprachigen Autor*innen
  • Studienausgaben und Erstveröffentlichungen
  • Textsorten: Belletristik und Sachliteratur
  • Metadaten: Werktitel, Autor, Publikationsdatum, Ort
  • Verbundprojekt bestehend aus zehn institutionellen und universitären Partnern (u.a. Berlin-Brandenburgische Akademie der Wissenschaften [BBAW], DAASI International GmbH, Institut für Deutsche Sprache [IDS])
  • gefördert vom Bundesministerium für Bildung und Forschung (BMBF) von 2006 bis 2015
  • Teil von textgrid.de (und damit der Forschungsinfrastruktur DARIAH-DE), in dem das Repository mit einem downloadbaren Laboratorium und einer Nutzercommunity zusammengebracht wird
  • Zielgruppe: Fachwissenschaftler*innen, Entwickler*innen, Forschungsprojekte und -institutionen
  • Institutionen wie das Institut für Deutsche Sprache und die Staats- und Universitätsbibliothek Göttingen versprechen die Nachhaltigkeit
  • Downloadformate: XML/TEI (und wenige PDFs) sowie Bilder als JPEG (und wenige PNG und TIFF)

2. Anwendungsbeispiel

Sie wollen in einem Forschungsprojekt die Erzählungen Therese Hubers miteinander vergleichen. Im TextGrid Repository finden Sie schnell eine Textsammlung dieser Autorin, die auch nach Textsorte klassifiziert sind (hier „Erzählungen“). Ihnen werden sieben Erzählungen angeboten, die inklusive vergleichbarer Metadaten – als kombinierte XML-Datei oder auch einzeln – im standardisierten TEI-Datenformat heruntergeladen oder auch online visualisiert, analysiert oder annotiert werden können.

3. Diskussion

3.1 Kann ich das TextGrid Repository für wissenschaftliche Arbeiten nutzen?

Ja. Das TextGrid Repository garantiert die Textqualität folgendermaßen:

  • Aufbauend auf einer Analyse der Textdatenstruktur werden Daten in Ordnern nach Wörterbüchern und Enzyklopädien bzw. nach Gebieten (Geschichte, Literatur, Märchen, Musik, Naturwissenschaften, Philosophie etc.) organisiert und jeder Ordner enthält i. d. R. einen Unterordner pro Autor*in, der alle Werke des Autors/der Autorin in einer Datei vereinigt.
  • Textdaten werden durch Metadaten angereichert.
  • Werkinformationen werden manuell hinzugefügt (bisher für den Literaturordner).
  • Die Metadaten ermöglichen eine Filterung der Dateien nach Textsorte.

Zusätzlich sind weitere Qualitätskontrollen in der Planung, wie:

  • die Entwicklung eines User-Interfaces zur manuellen Korrektur der Metadaten,
  • die Fehleranalyse der TEI-Auszeichnung und Korrekturen,
  • die Optimierung der Datenstruktur hinsichtlich der TextGrid-Architektur, sowie
  • eine weitere Strukturerschließung der Texte und tiefergehende TEI-Auszeichnung.

Softwarefehler und Feature-Requests können Sie zudem an textgrid-support@gwdg.de melden.

3.2 Wie benutzerfreundlich ist die Arbeit mit TextGrid?

Die Nutzung des TextGrid Repositorys funktioniert auch für Erstnutzer*innen ziemlich intuitiv. Sie können das Repository entweder direkt via textgridrep.org ansteuern, oder zunächst auf die Hauptseite des Projektes textgrid.de gehen.

Startseite von TextGrid
Abb. 2: Startseite von TextGrid

Die drei wesentlichen Teile von TextGrid sind: Laboratory,Repository und Community. Die Menükategorien Registrierung und Download beziehen sich auf das TextGrid Laboratory – eine Software, die verschiedene Textanalysetools zur Verfügung stellt und neben dem Repository das andere wichtige Standbein von TextGrid ist.

Unter den Punkten Community, Support und Über TextGrid finden Sie beispielsweise Informationen über Projekte, die TextGrid nutzen, Möglichkeiten zur Unterstützung durch Online-Hilfen oder Tutorials und die Geschichte und Zielsetzungen von TextGrid. Einen umfangreichen Überblick über die einzelnen Gebiete des Langzeitarchivs (Literatur, Märchen, Geschichte, Philosophie) und eine Darstellung des Korpus für Literatur (Aufbereitung, Metadaten, Download) finden Sie unter „Die Digitale Bibliothek bei TextGrid“ (Kategorie Über TextGrid).

Die Leitlinien des Projektes Interoperabilität, Homogenität, Open Source und Offene Standards betonen den Nutzungsaspekt: Ein vollständiger wissenschaftlicher Arbeitsablauf inklusive des Austauschs von und über Tools und Texte soll innerhalb der Forschungsumgebung stattfinden können. Das TextGrid Laboratory bietet beispielsweise Software für die kollaborative Erstellung und Publikation digitaler Editionen auf XML/TEI-Basis an.Typische Abläufe bei der Arbeit im TextGrid Laboratory werden in den Tutorials (unter Support) demonstriert: Man findet eine verständliche Beschreibung der Software und lernt den Umgang mit den zentralen Analysewerkzeugen. Die Anzahl der Eulenikone zeigt dabei den Schwierigkeitsgrad des jeweiligen Tutorials an.

In der TextGrid-Community gibt es Informationen über stattfindende Nutzertreffen und Veranstaltungen – und auch die Präsentationen bereits in der Vergangenheit stattgefundener Veranstaltungen können Sie dort herunterladen. Schließlich bietet Ihnen die Mailingliste textgrid-user[at]gwdg.de die Möglichkeit, sich mit anderen Nutzer*innen von TextGrid auszutauschen.

4. Wie funktioniert die Textsuche im TextGrid Repository?

Auf der Startseite des TextGrid Repositorys können Sie im Suchfeld frei nach Texten suchen. Neben der Freitextsuche können Sie unter „Explore“ vordefinierte Suchen nach Autor*innen, Genres, Dateiformaten oder Projekten starten. Tipp: Um in der langen Autor*innenliste schnell die von Ihnen gesuchte Autorin zu finden, bietet es sich an, die Browsersuchfunktion zu nutzen.

Sollten Sie Erfahrung mit der Abfragesprache Lucene haben, können Sie diese im Freitextsuchfeld verwenden und kombinierte Abfragen direkt eingeben.

In der „Advanced Search“ (unter dem Freitextsuchfeld) können Sie beispielsweise nach mehreren Autor*innen gleichzeitig suchen. Mit dem „+“-Button rechts neben der dortigen Suche können Sie weitere Parameter bestimmen oder auch eine Parametersuche mit einer Wörtersuche innerhalb der Texte (unter „Fulltext“) kombinieren und Ihre Suche so verfeinern.

Eine Suche nach „‘Goethe’ or ‘Schiller’“ unter „Author“ und dem Genre „Drama“ liefert Ihnen z. B. eine Textsammlung mit 40 Dramen – 28 von Goethe, 12 von Schiller – die Sie entweder einzeln oder unter „Download all” (rechts oben) als kombinierte XML-Datei herunterladen können. Angemerkt sei hier jedoch, dass häufig auch Teile von Dramen (z. B. von Schillers Wallenstein oder Goethes Faust. Eine Tragödie) als einzelne Dateien aufgeführt werden und so die genannte Anzahl der gefundenen Dramen irreführend sein kann.

Empfehlung: Legen Sie sich innerhalb des Repositorys ein eigenes virtuelles Bücherregal an! Oberhalb des Downloadbuttons zu jedem einzelnen Text finden Sie hierfür den Button „Add to shelf“. Dies gibt Ihnen die Möglichkeit die Ergebnisse von mehreren Suchdurchläufen zu kombinieren und anschließend diese individuell zusammengestellte Textsammlung als kombinierte Datei herunterzuladen: als XML/TEI-Datei, als komprimierten ZIP-Ordner oder als E-Book.

Schließlich haben Sie die Möglichkeit, einzelne Texte visuell zu explorieren oder mit einem Tool von DARIAH zu annotieren. Klicken Sie hierzu auf den Titel eines Textes. Links neben dem nun dargestellten Text finden Sie die Kategorie „Werkzeug“ und von dort Verlinkungen zum Visualisierungstool → Voyant (in dem dann der jeweilige Text direkt, und ohne dass eine Anmeldung vonnöten wäre, visualisiert wird) und zum DARIAH-Portal zur Annotation, bei dem allerdings zunächst ein Nutzungsprofil erstellt werden muss.

Ebenfalls links vom Text erscheint zudem ein Inhaltsverzeichnis, das die Navigation im jeweiligen Dokument erleichtert.

5. Nachweise und weiterführende Literatur

  • Neuroth, Heike; Andrea Rapp und Sibylle Söring (Hrsg.) (2015): TextGrid: Von der Community - für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften. Glückstadt: Werner Hülsbusch.
  • Wegstein, Werner, Andrea Rapp und Fotis Jannidis (2015): „Textgrid – eine Geschichte“. In: Heike Neuroth; Andrea Rapp und Sibylle Söring (Hrsg.): TextGrid: Von der Community – für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften. Glückstadt: Hülsbusch, 23–35.