CorpusExplorer

CorpusExplorer-Tool
Workflow: Upload von Textdaten in reiner oder vorannotierter Form, Aufbereitung des Korpus und Durchführen von Abfragen, Download der aufbereiteten Daten.

Systemanforderungen: CorpusExplorer ist eine Desktopapplikation für Windows. Technich versierte Nutzer*innen können auf Mac oder Linux eine Konsolen-Version verwenden.
Stand der Entwicklung: Die jetzige Version des CorpusExplorer wurde 2013 herausgebracht und kontinuierlich weiter entwickelt.
Herausgeber: Jan Oliver Rüdiger
Lizenz: kostenfrei
Weblink: www.corpusexplorer.de
Im- und Export: Der CorpusExplorer unterstützt über 100 unterschiedliche Datei- und Textformate für Im- und Export, darunter gängige Formate wie CSV oder XML
Sprachen: Sprachunabhängig (unterstützt UTF-8)

1. Für welche Fragestellungen kann der CorpusExplorer eingesetzt werden?

Der CorpusExplorer eignet sich vor allem für explorative Zugänge zu großen Textkorpora. Diese können automatisch in Teilkorpora unterteilt und so immer wieder neu betrachtet werden. Verwendung bestimmter Wortarten oder häufig in ähnlichen Zusammenhängen auftretende Wörter können mit Hilfe automatischer Routinen untersucht werden. Durch die Verknüpfung mit literaturwissenschaftlich relevanten Ressourcen wie → DTA, → TextGrid und → DraCor können bereits mit literaturwissenschaftlich relevanten Annotationen ausgezeichnete Texte automatisch importiert und vergleichend betrachtet werden. So wäre es z.B. möglich, folgende Fragestellung zu verfolgen: Wie ist das Verhältnis von Sprecher- zu Sprecherinnen-Text in 500 deutschsprachigen Dramen des 18. - 20. Jahrhunderts?

2. Welche Funktionalitäten bietet der CorpusExplorer und wie zuverlässig ist das Tool?

Funktion: 

  • Auswertung kleiner und großer Textsammlungen
  • Automatisierte Text-/Metadatenextraktion, Bereinigung und Annotieren von Korpora
  • Bereits über 50 zum Teil experimentelle Auswertungen und Visualisierungen, u. a. Frequenzanalyse, Kookkurrenzen, Heatmaps oder Geovisualisierung
  • Analyse unterschiedlichster Quellen (z. B. Transkripte, Tweets, Dramen oder Romane)
  • Die Abfrageroutinen zielen auf Reproduzierbarkeit der Datenaufbereitung
  • Export der Analyseergebnisse und Korpora in verschiedene offene Formate
  • Einbindung in andere Programmiersprachen wie Python, R, C# oder Java durch Konsolen-Schnittstelle möglich.

Zuverlässigkeit: CorpusExplorer wird kontinuierlich weiterentwickelt, kann auf dem eigenen Rechner installiert werden und läuft zuverlässig.

3. Ist der CorpusExplorer für DH-Einsteiger*innen geeignet?

Checkliste √ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft
Grafische Benutzeroberfläche
Intuitive Bedienbarkeit teilweise
Leichter Einstieg teilweise
Handbuch vorhanden
Handbuch aktuell
Tutorials vorhanden
Erklärung von Fachbegriffen teilweise
Gibt es eine gute Nutzerbetreuung?

Die grafische Benutzeroberfläche ermöglicht eine weitgehend intuitive Bedienung, die Vielzahl der angebotenen Features, die nur zum Teil selbsterklärend sind, erschwert aber den Einstieg für weniger technikaffine Nutzer*innen. Die relevanten Funktionen lassen sich ohne technisches Vorwissen nicht sofort gewinnbringend ausführen. Allerdings werden ein aktualisiertes Handbuch sowie hilfreiche Tutorials bereitgestellt, um den Einstieg zu erleichtern und verschiedene Funktionen des Tools aufzuzeigen. Ein E-Mail-Support zur Unterstützung sowie Klärung von Fragen und Problemen steht zur Verfügung.

4. Wie etabliert ist der CorpusExplorer in den (Literatur-)Wissenschaften?

Der CorpusExplorer wird bereits in einigen, überwiegend korpuslinguistischen, Studien zitiert. Auch für Diskursanalysen wird das Tool verwendet. In den (digitalen) Literaturwissenschaften ist der CorpusExplorer noch wenig etabliert.

5. Unterstützt der CorpusExplorer kollaboratives Arbeiten?

Nein, der CorpusExplorer hat keine Funktionalitäten, die kollaborativ genutzt werden können.

6. Sind meine Daten beim CorpusExplorer sicher?

Ja. Für die Nutzung des CorpusExplorers ist keine Angabe persönlicher Daten notwendig. Die verarbeiteten Textdaten bleiben auf dem eigenen PC. Seit einem Update im Jahr 2019 fragt der CorpusExplorer, ob die auf einer eigenen OpenSource basierte Infrastruktur zur Telemetrieerhebung genutzt werden darf. Stimmen Nutzende dem zu, werden anonymisierte Ereignisse wie Programmfehler oder genutzte Funktionen erhoben. Daten werden nicht an Dritte übermittelt. Wird der Nutzung der Telemetrie widersprochen, werden keinerlei Daten erhoben oder übermittelt. Die Nutzung des CorpusExplorers ist also unter datenschutzrechtlichen und auch unter urheberrechtlichen Gesichtspunkten unproblematisch.

7. Nachweise und weiterführende Literatur

  • Rüdiger, Jan Oliver (2018): CorpusExplorer. Version 2.0. Universität Kassel - Universität Siegen. Online verfügbar unter http://corpusexplorer.de.