Textsammlungen

Um digital mit Texten arbeiten zu können, ist es unerlässlich, die Texte digitalisiert vorliegen zu haben. Da es sehr mühselig sein kann, die zu erforschenden Texte selbst zu scannen und unter Zuhilfenahme von Texterkennungsprogrammen zu digitalisieren (OCR), lohnt sich ein Blick in bereits existierende digitale Textkorpora. Häufig sind diese Textkorpora bereits mit reichlich Metadaten und Markup versehen.

Auf dieser Seite sammeln wir für Sie digitale Textsammlungen für deutschsprachige Literatur.

Bibliotheca Augustana

29. April 2019
Die Bibliotheca Augustana: Eine seit 20 Jahren bestehende digitale Textsammlung

Die Bibliotheca Augustana ist eine frei verfügbare Online-Volltextdatenbank, die v.a. Primärtexte verschiedener Fachgebiete versammelt. Vertreten sind beispielsweise: Allgemeine und vergleichende Sprach- und Literaturwissenschaft, Anglistik, Amerikanistik, Germanistik, Niederländische Philologie, Skandinavistik, Klassische Philologie, Romanistik und Slavistik. Neben ausgewählten deutschsprachigen Texten und Übersetzungen ins Deutsche werden Ihnen lateinische, griechische, englische, französische, italienische und spanische Texte zur Verfügung gestellt.

Deutsches Textarchiv (DTA)

24. Juli 2018
Deutsches Textarchiv Thumbnail

Das Kernkorpus des Deutschen Textarchivs (DTA) umfasst eine digitale Sammlung disziplin- und gattungsübergreifender, deutschsprachiger Druckwerke von 1600 bis 1900 und eignet sich als hochwertige Quelle für zitierfähige Primärtexte. Die Texte sind über das Internet frei zugänglich, über den Bestand durchsuchbar und stehen zum Download zur Verfügung.

DraCor: Drama Corpora Project

3. Dezember 2020
DraCor: Drama Corpora Project

DraCor bietet für eine Vielzahl von deutschsprachigen, russischen, italienischen, schwedischen, altgriechischen, spanischen, tatarischen, elsässer, antik römischen oder auch für Shakespeare- und Caldéron-Dramen den zielgenauen Zugriff auf Volltexte und bestimmte Textuntermengen. Dies können beispielsweise gesprochene Texte pro Figur, Nebentexte, oder nur Texte weiblicher Figuren sein. Die Dramen sind außerdem mit verschiedenen Metadaten versehen und können per API in verschiedenen Formaten heruntergeladen werden.

DROC: Deutsches Romankorpus

19. August 2019
DROC: Deutsches Romankorpus, NER, annotiert, direkte Rede, Koreferenzen

Das Deutsche Romankorpus (DROC) versammelt 90 annotierte Fragmente deutschsprachiger Romane (jeweils ca. 200 Sätze) vom 17. bis 20. Jahrhundert. Es enthält neben automatisch generiertem Markup zu Kapiteln, Segmenten, Dependenz- und Morphologieinformationen, Wortarten (POS), Sätzen und Absätzen auch über 50.000 manuell erstellte Annotationen zu benannten Entitäten, Koreferenzen, direkter Rede, sowie Sprechern und Adressaten dieser direkten Rede.

DWDS: Digitales Wörterbuch der Deutschen Sprache

1. Juli 2019
DWDS Digitales Wörterbuch der Deutschen Sprache

Das DWDS ist ein digitales Lexikon, das Ihnen die freie Suche nach Begriffen der deutschen Sprache und ihrer historischen und gegenwärtigen Bedeutung ermöglicht. Sie können bestimmen, in welchen der großen Textsammlungen (z. B. DWDS-Kernkorpora des 19., 20. oder 21. Jahrhunderts, Zeitungs-, Blog-, Webkorpora etc.) und welcher Textsorte (Belletristik, Wissenschaft, Gebrauchsliteratur oder Zeitungen) gesucht werden soll.

Germanistik im Netz

27. Mai 2019
Germanistik im Netz: Hilfreiche Ressource für Literaturwissenschaftler*innen

Germanistik im Netz (GiN) ist das Fachportal des seit Juli 2008 bestehenden Fachinformationsdienst (FID) Germanistik. Das Portal ermöglicht die wissenschaftliche Online-Recherche nach literatur- und sprachwissenschaftlicher Forschungsliteratur sowie nach Fachinformationen. Es fungiert als wichtiges Nachweisinstrument und zentraler Zugangspunkt zu einer Vielzahl relevanter Datenbanken, richtet sich an Studierende, Lehrende sowie Forschende und bildet die Schlüsselstelle für sämtliche Belange der philologischen Praxis (Publizieren, Partizipieren, Recherchieren, Forschen).

HathiTrust Digital Library

1. April 2019
Logo HathiTrust Digital Library

Die HathiTrust Digital Library ist ein Zusammenschluss diverser, vor allem US-amerikanischer, Forschungs- und Universitätsbibliotheken zu einer zentralen Online-Volltextdatenbank. Diese enthält digitalisierte Werke von 1500 bis in die Gegenwart inkl. verschiedener Metadaten und ermöglicht die Zusammenstellung eigener Textsammlungen und deren Verwaltung. Die Hälfte der über 17 Millionen Werke liegt in englischer Sprache vor, aber auch deutsche, französische, spanische, chinesische, russische und viele anderssprachige Werke sind aufzufinden.

Katharsis

2. September 2019
Katharsis: Ressource und Tool für quantitative Dramenanalyse und Sentimentanalyse.

Katharsis dient als Ressource und Werkzeug zugleich und ermöglicht die quantitative Dramenanalyse von 177 deutschsprachigen Dramen aus dem Zeitraum zwischen 1646 und 1838. So können beispielsweise sowohl Figureninventare als auch wiederkehrende Akt-Szene-Strukturen analysiert und visualisiert werden. Darüber hinaus ermöglicht Kathasis auch die Sentimentanalyse ausgewählter Werke Gotthold Ephraim Lessings.

KOLIMO: Korpus der literarischen Moderne

4. Februar 2019
KOLIMO Korpus der literarischen Moderne: DTA, Textgrid, Gutenberg

Das KOLIMO (Korpus der literarischen Moderne) versammelt deutschsprachige narrative, fiktionale Erzähltexte der literarischen Moderne aus den Textsammlungen Deutsches Textarchiv, TextGrid Repository und Gutenberg, vereinheitlicht die bestehenden Metadaten und fügt weitere hinzu, um epochenspezifische und aufgrund einheitlicher Daten verlässliche Abfrageergebnisse erhalten zu können.

Lyrikline

29. Juli 2019
Lyrikline listen to the poet Startseite

Lyrikline ist eine multimodale, mehrsprachige Plattform für Lyrik. Die Gedichte werden frei online zugänglich gemacht, mit einem Bild der Autor*innen kombiniert und können zudem von diesen vorgelesen angehört werden. Die übersichtlich gestaltete Webseite ermöglicht u. a. eine gezielte und schnelle Suche nach Kategorien, Autor*innen oder Gedichten und die automatische Auswahl eines Zufallsgedichts.

TextGrid Repository

21. August 2018
Screenshot der TextGrid-Website

Das TextGrid Repository ist ein digitales Langzeitarchiv, das Ihnen die wichtigsten kanonisierten Texte aus der germanistischen Literaturwissenschaft von über 600 Autor*innen in zitierfähiger Qualität zur Verfügung stellt. Den Grundstock bildet ein umfangreiches Korpus der Weltliteratur vom Beginn des Buchdrucks bis ins 20. Jahrhundert.