Stanford Named Entity Recognizer

Der Workflow des Stanford-NER: Textdatei im TXT-Format und sprachspezifische Classifier im ZIP-Format über die grafische Nutzero
Der Workflow des Stanford-NER: Textdatei im TXT-Format und sprachspezifische Classifier im ZIP-Format über die grafische Nutzeroberfläche laden, dann die NER durchführen und die Ergebnisse direkt im Tool anschauen oder als TXT-Datei mit HTML-Tags herunterladen.

Systemanforderungen: Läuft auf Windows und Mac, benötigt aktuelle Java-Version 
Stand der Entwicklung: Seit der Erstveröffentlichung 2006 laufend aktualisiert und für weitere Sprachen angepasst 
Herausgeber: Stanford Natural Languages Processing Group
Lizenz: Open Source Tool, das kostenfrei genutzt werden kann 
Weblink: https://nlp.stanford.edu/software/CRF-NER.html#About 
Im- und Export: Import einzelner Texte als TXT-Datei, Export als TXT-Datei mit HTML-Tags
Sprachen: Deutsch, Englisch, Spanisch, Chinesisch, Italienisch, Ungarisch

1. Für welche Fragestellungen kann Stanford-NER eingesetzt werden?

Mit Stanford-NER können vor allem Fragen nach quantitativen Aspekten von Figurennamen, Orten und Organisationen bearbeitet werden (vgl. → Named Entity Recognition (NER)). Dazu gehören Fragen wie: Wie viele Figuren werden in einem Text benannt? Welche Figuren werden am häufigsten erwähnt? Wie ist die Verteilung von Ortsnennungen im Text? Welche Orte werden erwähnt? In welchem Kontext werden Organisationen genannt?

2. Welche Funktionalitäten bietet Stanford-NER und wie zuverlässig ist das Tool?

Funktion: Eigennamenerkennung in Texten zahlreicher Sprachen.

Zuverlässigkeit: Die höchste Zuverlässigkeit wird in Sachtexten erreicht. Hier liegt die Erkennungsquote für deutschsprachige Texte bei rund 70% F-Score (mehr zur Methode der Named Entity Recognition und ihren Qualitätskriterien finden Sie hier). Auf der Stanford-NER-Homepage wird darauf hingewiesen, dass das deutsche Modell von 2018 erheblich besser ist, es werden aber keine genauen Zahlen genannt. Damit erreicht der Stanford-NER eine vergleichsweise hohe Zuverlässigkeit. Bei der Anwendung auf literarische Texte wird eine weit geringere Zuverlässigkeit erreicht. Diese kann allerdings durch die Anpassbarkeit des Tools erhöht werden.

3. Ist Stanford-NER für DH-Einsteiger*innen geeignet?

Checkliste √ / teilweise / –
Methodische Nähe zur traditionellen Literaturwissenschaft
Grafische Benutzeroberfläche
Intuitive Bedienbarkeit
Leichter Einstieg
Handbuch vorhanden
Handbuch aktuell
Tutorials vorhanden teilweise
Erklärung von Fachbegriffen
Gibt es eine gute Nutzerbetreuung? teilweise

Das Stanford-NER-Tool ist in seiner Grundfunktionalität sehr einsteigerfreundlich. Bisher wurde das Tool hauptsächlich in der Computerlinguistik eingesetzt. Um das Tool für die Literaturwissenschaft anzupassen, sind einige technische Grundkenntnisse vonnöten. Die Nutzerbetreuung findet hauptsächlich in der recht aktiven NLP-Community statt und kann je nach Frage in Schnelligkeit und Qualität der Antwort variieren.

4. Wie etabliert ist Stanford-NER in den (Literatur-)Wissenschaften?

Stanford-NER ist ein sehr gängiges computerlinguistisches Tool, das Gegenstand in zahlreichen Publikationen ist. In der Literaturwissenschaft ist es noch nicht etabliert, da eine Domänenadaption hier gerade erst beginnt.

5. Unterstützt Stanford-NER kollaboratives Arbeiten?

Stanford-NER ist ein Java-basiertes Desktop-Tool, das ohne weitere Installation offline über den eigenen PC ausgeführt wird. Kollaboratives Arbeiten wird dadurch nicht unterstützt.

6. Sind meine Daten beim Stanford-NER sicher?

Ja. Da es sich um ein desktopbasiertes Tool handelt, ist keine Anmeldung und/oder Angabe personenbezogener Daten für die Nutzung notwendig. Texte werden auf dem eigenen Rechner analysiert und Ergebnisse werden lokal gespeichert. Durch die Nutzung des Stanford-NER ergeben sich also keine datenschutz- oder urheberrechtlich bedenklichen Situationen.

7. Nachweise und weiterführende Literatur