Um digital mit Texten arbeiten zu können, ist es unerlässlich, die Texte digitalisiert vorliegen zu haben. Da es sehr mühselig sein kann, die zu erforschenden Texte selbst zu scannen und unter Zuhilfenahme von Texterkennungsprogrammen zu digitalisieren (OCR), lohnt sich ein Blick in bereits existierende digitale Textkorpora. Häufig sind diese Textkorpora bereits mit reichlich Metadaten und Markup versehen.
Auf dieser Seite sammeln wir für Sie digitale Textsammlungen für deutschsprachige Literatur.
Bibliotheca Augustana
Die Bibliotheca Augustana ist eine frei verfügbare Online-Volltextdatenbank, die v.a. Primärtexte verschiedener Fachgebiete versammelt. Vertreten sind beispielsweise: Allgemeine und vergleichende Sprach- und Literaturwissenschaft, Anglistik, Amerikanistik, Germanistik, Niederländische Philologie, Skandinavistik, Klassische Philologie, Romanistik und Slavistik. Neben ausgewählten deutschsprachigen Texten und Übersetzungen ins Deutsche werden Ihnen lateinische, griechische, englische, französische, italienische und spanische Texte zur Verfügung gestellt.
Deutsches Textarchiv (DTA)
Das Kernkorpus des Deutschen Textarchivs (DTA) umfasst eine digitale Sammlung disziplin- und gattungsübergreifender, deutschsprachiger Druckwerke von 1600 bis 1900 und eignet sich als hochwertige Quelle für zitierfähige Primärtexte. Die Texte sind über das Internet frei zugänglich, über den Bestand durchsuchbar und stehen zum Download zur Verfügung.
DraCor: Drama Corpora Project
DraCor bietet für eine Vielzahl von deutschsprachigen, russischen, italienischen, schwedischen, altgriechischen, spanischen, tatarischen, elsässer, antik römischen oder auch für Shakespeare- und Caldéron-Dramen den zielgenauen Zugriff auf Volltexte und bestimmte Textuntermengen. Dies können beispielsweise gesprochene Texte pro Figur, Nebentexte, oder nur Texte weiblicher Figuren sein. Die Dramen sind außerdem mit verschiedenen Metadaten versehen und können per API in verschiedenen Formaten heruntergeladen werden.
DROC: Deutsches Romankorpus
Das Deutsche Romankorpus (DROC) versammelt 90 annotierte Fragmente deutschsprachiger Romane (jeweils ca. 200 Sätze) vom 17. bis 20. Jahrhundert. Es enthält neben automatisch generiertem Markup zu Kapiteln, Segmenten, Dependenz- und Morphologieinformationen, Wortarten (POS), Sätzen und Absätzen auch über 50.000 manuell erstellte Annotationen zu benannten Entitäten, Koreferenzen, direkter Rede, sowie Sprechern und Adressaten dieser direkten Rede.
DWDS: Digitales Wörterbuch der Deutschen Sprache
Das DWDS ist ein digitales Lexikon, das Ihnen die freie Suche nach Begriffen der deutschen Sprache und ihrer historischen und gegenwärtigen Bedeutung ermöglicht. Sie können bestimmen, in welchen der großen Textsammlungen (z. B. DWDS-Kernkorpora des 19., 20. oder 21. Jahrhunderts, Zeitungs-, Blog-, Webkorpora etc.) und welcher Textsorte (Belletristik, Wissenschaft, Gebrauchsliteratur oder Zeitungen) gesucht werden soll.
Germanistik im Netz
Germanistik im Netz (GiN) ist das Fachportal des seit Juli 2008 bestehenden Fachinformationsdienst (FID) Germanistik. Das Portal ermöglicht die wissenschaftliche Online-Recherche nach literatur- und sprachwissenschaftlicher Forschungsliteratur sowie nach Fachinformationen. Es fungiert als wichtiges Nachweisinstrument und zentraler Zugangspunkt zu einer Vielzahl relevanter Datenbanken, richtet sich an Studierende, Lehrende sowie Forschende und bildet die Schlüsselstelle für sämtliche Belange der philologischen Praxis (Publizieren, Partizipieren, Recherchieren, Forschen).
HathiTrust Digital Library
Die HathiTrust Digital Library ist ein Zusammenschluss diverser, vor allem US-amerikanischer, Forschungs- und Universitätsbibliotheken zu einer zentralen Online-Volltextdatenbank. Diese enthält digitalisierte Werke von 1500 bis in die Gegenwart inkl. verschiedener Metadaten und ermöglicht die Zusammenstellung eigener Textsammlungen und deren Verwaltung. Die Hälfte der über 17 Millionen Werke liegt in englischer Sprache vor, aber auch deutsche, französische, spanische, chinesische, russische und viele anderssprachige Werke sind aufzufinden.
Katharsis
Katharsis dient als Ressource und Werkzeug zugleich und ermöglicht die quantitative Dramenanalyse von 177 deutschsprachigen Dramen aus dem Zeitraum zwischen 1646 und 1838. So können beispielsweise sowohl Figureninventare als auch wiederkehrende Akt-Szene-Strukturen analysiert und visualisiert werden. Darüber hinaus ermöglicht Kathasis auch die Sentimentanalyse ausgewählter Werke Gotthold Ephraim Lessings.
KOLIMO: Korpus der literarischen Moderne
Das KOLIMO (Korpus der literarischen Moderne) versammelt deutschsprachige narrative, fiktionale Erzähltexte der literarischen Moderne aus den Textsammlungen Deutsches Textarchiv, TextGrid Repository und Gutenberg, vereinheitlicht die bestehenden Metadaten und fügt weitere hinzu, um epochenspezifische und aufgrund einheitlicher Daten verlässliche Abfrageergebnisse erhalten zu können.
Lyrikline
Lyrikline ist eine multimodale, mehrsprachige Plattform für Lyrik. Die Gedichte werden frei online zugänglich gemacht, mit einem Bild der Autor*innen kombiniert und können zudem von diesen vorgelesen angehört werden. Die übersichtlich gestaltete Webseite ermöglicht u. a. eine gezielte und schnelle Suche nach Kategorien, Autor*innen oder Gedichten und die automatische Auswahl eines Zufallsgedichts.
TextGrid Repository
Das TextGrid Repository ist ein digitales Langzeitarchiv, das Ihnen die wichtigsten kanonisierten Texte aus der germanistischen Literaturwissenschaft von über 600 Autor*innen in zitierfähiger Qualität zur Verfügung stellt. Den Grundstock bildet ein umfangreiches Korpus der Weltliteratur vom Beginn des Buchdrucks bis ins 20. Jahrhundert.