1. Definition
Named Entity Recognition (NER) ist ein Verfahren, mit dem klar benennbare Elemente (z.B. Namen von Personen oder Orten) in einem Text automatisch markiert werden können. Named Entity Recognition wurde im Rahmen der computerlinguistischen Methode des Natural Language Processing (NLP) entwickelt, bei der es darum geht, natürlichsprachliche Gesetzmäßigkeiten maschinenlesbar aufzubereiten.
2. Anwendungsbeispiel
Wollen Sie beispielsweise untersuchen, wie häufig Frauenfiguren in norddeutschen Kriminalromanen des 20. Jahrhunderts vorkommen, so können Sie Ihre Untersuchung mit Named Entity Recognition beginnen. In einer Textsammlung von 100 Kriminalromanen werden alle Figuren mit einem NER-Tool automatisch markiert und dann manuell nach weiblichen und männlichen Figuren differenziert. Es wird sichtbar, dass Frauenfiguren in Ihrem gesamten Textkorpus nur 15% aller Figurennennungen ausmachen.
Mit diesem Befund gehen Sie weiter und teilen Ihr Korpus in zeitliche Einheiten auf. Nun fällt Ihnen auf, dass Frauenfiguren zu Beginn des 20. Jahrhunderts nur 5% der Namensnennungen in norddeutschen Kriminalromanen ausmachen, während es zum Ende des 20. Jahrhunderts schon 40% sind. Sie spalten nun Ihr Korpus nach Autoren und Autorinnen auf und stellen fest, dass Autoren Frauenfiguren viel häufiger erwähnen als Autorinnen. Schließlich untersuchen Sie auch noch, ob es sich bei den benannten Figuren um Ermittler*innen, Verdächtige, Opfer, Hacker*innen usw. handelt.
3. Literaturwissenschaftliche Tradition
Mit Named Entity Recognition werden meistens drei Parameter gleichzeitig erfasst:
- Personen,
- Orte und
- Organisationen.
In der Literaturwissenschaft wurden vor allem Personen (im Sinne von Figuren) und Orte bereits auf unterschiedliche Weise analysiert und sind bis heute wichtige Aspekte literaturwissenschaftlicher Forschung. Im Forschungsgebiet des „Organizational Storytelling”, welches der Literaturwissenschaft und insbesondere der Erzähltheorie nahe steht, werden auch Organisationen in Narrativen untersucht. Im Folgenden werden die drei typischen Aspekte der Named Entity Recognition und ihre literaturwissenschaftliche Bedeutung einzeln betrachtet.
Personen: Schon seit Aristoteles werden Figuren als Elemente von Erzählungen verstanden und analysiert (vgl. Eder 2013, 40f.). Dabei kann der Fokus auf der Funktion einzelner Figuren (vgl. ebd., 41), dem Gesamtgefüge von Figurenkomplexen (vgl. ebd., 43) oder der psychologischen Ausgestaltung einzelner oder mehrerer Figuren liegen (vgl. ebd., 47ff.). Eine Besonderheit des literaturwissenschaftlichen Verständnisses von Figuren gegenüber einer linguistischen Definition von Person als named entity ist, dass neben der Nennung von Eigennamen auch allgemeines Weltwissen, Typisierungen und kulturelle Codes dazu beitragen, eine Figur auszugestalten (vgl. Jannidis 2012, 2). Für die Named Entity Recognition ist dabei von besonderer Bedeutung, dass neben Eigennamen auch andere Referenzen auf eine Figur verweisen können (vgl. ebd., 3). Trotzdem bleibt aber stets ein Eigenname zentral für die Erkennung von Figuren (vgl. Jannidis 2004, 109). Dies entspricht einem (post)strukturalistischen Verständnis von Figur (vgl. ebd., 104).
Auch in der literarischen Onomastik (vgl. Lamping 1983, 9), ist die Typologisierung und Bedeutungsanalyse von Namen in literarischen Texten vorherrschend (vgl. Stiegler 1994, 14). Hier wurden sowohl einzelne Werke (z.B. Krappmann 2012) als auch Gruppen literarischer Werke (z.B. Trauner 2012) und Korpora (z.B. Brütting 2013) auf Eigennamen untersucht. Darüber hinaus gab es bereits in den 1980er Jahren den Versuch, computergestützte Verfahren in dieses Forschungsfeld zu integrieren (vgl. Dalen-Oskam 2016, 345). Diese frühe Verknüpfung von Digital Humanities mit einem spezifischen literaturwissenschaftlichen Forschungsgebiet gibt einen Hinweis darauf, wie naheliegend eine solche Verbindung ist.
Raum: Die erzähltheoretische Forschung zur Thematik des Raumes folgt zwei Traditionslinien. Entweder wird der Raumbegriff primär im eigentlichen Wortsinne definiert oder hauptsächlich metaphorisch gebraucht (vgl. Ryan 2012, 2). Die buchstäbliche Verwendung des Raumbegriffs ähnelt dem linguistischen Verständnis von Orten, das der Named Entity Recognition zu Grunde liegt. Im Rahmen dieser Forschungstradition wurde Raum sowohl als Phänomen der Textoberfläche (vgl. Fludernik 2008, 51ff.) als auch der Tiefendimension betrachtet, welchem unterschiedliche Funktionen zuzuordnen sind. Dazu gehören die räumliche Rahmung von Ereignissen, die Ausgestaltung des Settings und die Gestaltung ganzer narrativer Welten (vgl. Ryan 2012, 6–10).
Für die Literaturgeografie oder -kartografie sind literarische Orte und Räume ebenfalls zentral (vgl. Piatti 2008). In diesem Forschungsfeld werden geografische Karten genutzt, um fiktive Räume zu visualisieren und zu analysieren. Orte und Räume werden hier als lokalisierbare Einheiten bzw. als räumliche Objekte (vgl. Reuschel et al. 2012, 149) verstanden – eine Auffassung, die ebenfalls eine Ähnlichkeit mit dem linguistischen Ortsbegriff in der Named Entity Recognition aufweist.
Organisationen: Die dritte Kategorie, die in der Named Entity Recognition häufig mit berücksichtigt wird, ist weit weniger eindeutig als die beiden zuvor betrachteten. Sogar die Benennung variiert je nach Tool und manchmal sogar auch nach Modellen, die mit einem Tool verwendet werden. Es ist also denkbar, dass unterschiedliche literaturwissenschaftlich bedeutsame Motive zu dieser Kategorie gerechnet werden. Da z.B. Schulen und/oder Universitäten als Institutionen der Bildung als klar benennbare Einheiten interpretiert werden können, kann die Betrachtung dieser „Organisationen” analog zu Verfahren der NER gedacht werden (Beispielbetrachtungen dieser Thematik u.a. in Röser 1975; Mix 1995; Mikota 2014; Pauldrach 2016).
Im erzähltheoretisch geprägten Forschungszweig zum „Corporate Storytelling” stehen Unternehmen und ihre narrative Außendarstellung sowie zugehörige Gegennarrative im Fokus des Interesses (vgl. Hansen et al. 2013). In diesem Feld werden unter anderem handlungspraktische Methoden narrativer Kommunikation entwickelt (vgl. Thier 2004, Chlopczyk 2017). Obwohl der Forschungsgegenstand hier fast deckungsgleich mit dem ist, was in der Named Entity Recognition erkannt wird, gibt es allerdings bisher nur wenige methodische Überschneidungen.
Indem literaturwissenschaftliche Konzepte so aufbereitet wurden, dass sie maschinenlesbar sind (vgl. Jannidis et al. 2015; Viehhauser 2017), konnte die Methode bereits in Ansätzen auf literarische Texte angewandt werden (Domänenadaption). Da aber noch nicht alle Parameter in einem solchen Verfahren für die Literaturwissenschaft aufbereitet wurden, kann an dieser Stelle noch Grundlagenforschung betrieben werden.
4. Diskussion
NER-Tools erreichen bei der automatischen Extraktion von Informationseinheiten (named entities) aus Sachtexten eine hohe Verlässlichkeit, weshalb NER in der Linguistik bereits als gelöstes Problem betrachtet wurde (vgl. Cunningham 2005, 668). Die erzielten Erfolgsquoten bei der Erkennung von Personen, Orten und Organisationen variieren in unterschiedlichen Sprachen allerdings stark. Vorhandene NER-Tools wurden zumeist mit großen Korpora bestehend aus journalistischen Texten trainiert (das Training von NER Tools wird in Abschnitt 5 genauer beschrieben). Es gibt mehrere sprachenspezifische NER-Modelle, die mit diesen Tools verwendet werden können. Diese Modelle haben durchschnittliche Erfolgsquoten (F-Scores) von 68% in deutschen Texten und 89% in englischen Texten (vgl. Faruqui und Padó 2010, 1). Wie Jannidis et al. (2015) am Beispiel von Figuren zeigten, erkennt das Modell für die deutsche Sprache von Faruqui und Padó in literarischen Texten nur knapp 20% aller Vorkommnisse von Figuren im Text („Recall-Quote” genannt) im Vergleich zu 88% erkannten Personen in journalistischen Texten. Ein Grund hierfür kann darin gesehen werden, dass in literarischen Texten Figuren seltener mit ihren Eigennamen und häufiger mit indirekten Verweisen oder Umschreibungen aufgerufen werden. Eine Nutzung von NER-Tools ohne vorhergehende Domänenadaption ist also problematisch.
Der Einsatz von NER bedeutet eine enorme Zeitersparnis gegenüber der manuellen Annotation von named entities in Texten. Damit ermöglicht NER vor allem die Betrachtung großer Textmengen, d. h. ganzer Romane und Korpora. NER sollte aber stets in dem Bewusstsein der eingeschränkten Zuverlässigkeit der Methode eingesetzt werden. Sogar wenn durch die Domänenadaption für Figuren in (deutschen) literarischen Texten eine Trefferquote von rund 85% erreicht werden konnte (vgl. Jannidis et al. 2015), bedeutet dies, dass rund 15% der relevanten named entities nicht gefunden wurden. Vor allem bei Analysen von Einzeltexten kann diese Fehlerquote durchaus so gewichtig sein, dass die qualitative Interpretation, die anhand des Datenmaterials geleistet werden soll, fehlgeleitet wird.
Der Einsatz von NER in der Literaturwissenschaft eignet sich besonders für Distant-Reading-Ansätze. Während im Close-Reading-Verfahren zumeist einzelne Texte oder eine kleine Anzahl von Texten exemplarisch analysiert werden, werden beim Distant Reading größere Korpora in den Fokus gerückt. Moretti beschreibt, wie die Literaturwissenschaft mittels Close Reading bisher vielleicht 1% der Weltliteratur tatsächlich in Betracht gezogen hat. Die restlichen 99%, die er als „the great unread" bezeichnet, kommen in der Literaturwissenschaft bisher eher selten vor (vgl. Moretti 2013, 63–70). Digitale Methoden machen es möglich, sich diesem „great unread" zuzuwenden. Statt wie beim Close Reading herausragende Einzeltexte zu studieren, wird Literatur beim Distant Reading eher relational betrachtet. Auf einer solchen Basis wird auch der Einsatz digitaler NER-Tools bedeutsam. Denn mit der zunehmenden Distanz von einzelnen Texten und dem Fokus auf Relationen zwischen bestimmten quantitativen Aspekten in unterschiedlichen Texten relativiert sich auch die oben hervorgehobene Fehlerquote. In solchen Analysen ist es nicht mehr entscheidend, an welcher Stelle welche Figur in welchem Kontext genannt wird. Stattdessen werden eher Muster fokussiert, die in Gruppen von Texten oder sogar in einem großen Korpus auftreten.
Abschließend bleibt noch festzuhalten, dass auch in Distant-Reading-Verfahren ein bewusster Umgang mit der Fehleranfälligkeit von NER gepflegt wird. Statt davon auszugehen, dass sich Fehlerquoten durch die Vergrößerung von Korpora nivellieren, werden diese eher in Kauf genommen, um überhaupt Analysen großer Textmengen durchführen zu können. Es werden hier erste Annäherungen an das „great unread" gewagt, um dadurch haltbare Aussagen über Nationalliteraturen, Weltliteratur oder Literatur als solche treffen zu können.
5. Technische Grundlagen
Im ersten Schritt der Named Entity Recognition geht es zunächst darum, dem Computer zu vermitteln, wie die Worte erkannt werden können, die als named entity gekennzeichnet werden sollen. Dazu werden eine Reihe von Merkmalen definiert, die vom Tool statistisch ausgewertet werden (technisch: Festlegen der features) und so eine möglichst präzise Erkennung möglich machen sollen. Zum Beispiel können Wortlisten berücksichtigt werden, die alle Figurennamen, Orte und Organisationen verzeichnen, die vorkommen könnten. Zusätzlich können Wortarten nicht nur der named entity selbst sondern auch der vorangehenden und nachgestellten Worte einbezogen werden. Weitere features können sein:
- häufig vorher genannte Wörter (sowie z.B. bei Orten das Wort „in"),
- Darstellungsformat (bei Daten so etwas wie Zahl Monat Jahr),
- Groß- und Kleinschreibung,
- Position im Satz
- usw.
Mit Hilfe dieser im Tool vordefinierten features kann ein als machine learning bezeichneter Prozess durchgeführt werden. Der Lernprozess des NER-Tools (auch „Training” genannt) besteht darin, dass diese features mit einem manuell annotierten Text abgeglichen werden; dem sogenannten Trainingskorpus. Ergebnis dieses Abgleichs ist das NER-Modell. Die Anzahl der features, die ein Tool berücksichtigt, kann variieren. Nur die Kombination verschiedener features führt zu guten Ergebnissen bei der automatischen Erkennung, da named entities in unterschiedlichen Zusammenhängen unterschiedliche Bedeutungen tragen können. So wäre z.B. „Paris" mit vorangestelltem „in" wahrscheinlich eine Referenz auf die Stadt, mit nachgestelltem Verb wahrscheinlich eine Person. Ausnahmen können durch den Abgleich mit dem manuell annotierten Text ebenfalls mit einbezogen werden. Wenn im Trainingskorpus z.B. in Sätzen wie „Paris hat schöne Museen” Paris als Ort ausgezeichnet wurde, obwohl ein Verb dahinter steht, so kann das Tool erkennen, dass das Wort „hat” direkt hinter einer named entity darauf hindeuten kann, dass es sich um einen Ort handelt. Letztendlich errechnet das Tool anhand der feature-Kombinationen und der Trainingsdaten, welche Bedeutung in welchem Zusammenhang wahrscheinlicher ist.
NER kann z.B. mit Hilfe des → Stanford Named Entity Recognizers oder der virtuellen Arbeitsumgebung → WebLicht über eine grafische Nutzeroberfläche durchgeführt werden, die auch mit geringen technischen Kenntnissen bedienbar sind. In diesen Tools werden NER-Modelle genutzt, die zumeist mittels Korpora aus Sachtexten trainiert wurden. Um das Tool mit Beispieldaten einer anderen Domäne wie z.B. der Literatur neu zu trainieren oder die vordefinierten features zu ergänzen, ist es nötig, über die Commandline des Computers eine Reihe von Befehlen in der Programmiersprache des jeweiligen Tools einzugeben. Die erforderlichen Befehle finden sich allerdings oft in der Dokumentation der Tools, sind dort erklärt und können per copy/paste eingefügt werden. Profunde Kenntnisse einer oder mehrerer Programmiersprache(n) sind also auch hierfür nicht nötig. Es ist aber durchaus hilfreich, die Sprache des Codes zumindest lesen und verstehen zu können.
6. Nachweise
- Brütting, Richard (2013): Namen und ihre Geheimnisse in Erzählwerken der Moderne. Hamburg: Baar.
- Cunningham, H (2005): „Information extraction, automatic“. In: Keith Brown (Hrsg.): Encyclopedia of Language and Linguistics. Oxford: Elsevier, 665–677.
- Chlopczyk, Jaques (2017): Beyond Storytelling. Narrative Ansätze und die Arbeit mit Geschichten in Organisationen. Berlin: Springer Gabler.
- Dalen-Oskam, Karina (2016): „Corpus-based Approaches to Names in Literature“. In: Carole Hoigh (Hrsg.): The Oxford Handbook of Names and Naming. Oxford: Oxford University Press.
- Eder, Jens (2013): Die Figur im Film. Grundlagen der Figurenanalyse. Marburg: Schüren.
- Faruqui, Manaal und Sebastian Padó (2010): „Training and Evaluating a German Named Entity Recognizer with Semantic Generalization“. In: Proceedings of Konvens 2010, Saarbrücken. URL: https://nlpado.de/~sebastian/pub/papers/konvens10_faruqui.pdf [Zugriff: 4.5.2018].
- Fludernik, Monika (2008): Erzähltheorie. Eine Einführung. Darmstadt: Wissenschaftliche Buchgesellschaft.
- Hansen, Per Krogh, Brigitte Narlyk und Marianne Wolff Lundholt (2013): „Corporate Storytelling“. In: Peter Hühn; Jan Christoph Meister; John Pier und Wolf Schmid (Hrsg.): the living handbook of narratology. Hamburg: Hamburg University. URL: http://www.lhn.uni-hamburg.de/article/corporate-storytelling [Zugriff: 8.5.2018].
- Jannidis, Fotis (2004): Figur und Person. Beitrag zu einer historischen Narratologie. Berlin: de Gruyter.
- Jannidis, Fotis (2012): „Character“. In: Peter Hühn; Jan Christoph Meister; John Pier und Wolf Schmid (Hrsg.): the living handbook of narratology. Hamburg: Hamburg University. URL: http://www.lhn.uni-hamburg.de/article/character [Zugriff: 8.5.2018].
- Jannidis, Fotis, Markus Krug, Frank Puppe, Isabella Reger, Martin Toepfer und Lukas Weimer (2015): „Automatische Erkennung von Figuren in deutschsprachigen Romanen“. In: DHd 2015. Von Daten zu Erkenntnissen. Book of Abstracts, URL: http://gams.uni-graz.at/o:dhd2015.abstracts-vortraege [Zugriff: 4.5.2018].
- Krappmann, Tamara (2012): Die Namen in Uwe Johnsons „Jahrestagen". Göttingen: V & R Unipress.
- Lamping, Dieter (1983): Der Name in der Erzählung. Zur Poetik des Personennamens. Bonn: Bouvier.
- Mikota, Jana (2014): „Lehrer als Täter - Schüler als Opfer, oder doch umgekehrt? Schule in der Gegenwartsliteratur“. In: Der Deutschunterricht. 1, 70–78.
- Mix, York-Gothart (1995): Die Schulen der Nation. Bildungskritik in der Literatur der Moderne. Stuttgart: Metzler.
- Moretti, Franco (2013): Distant Reading. London, New York: Verso.
- Piatti, Barbara (2008): Die Geografie der Literatur. Schauplätze, Handlungsräume, Raumphantasien. Göttingen: Wallstein.
- Pauldrach, Matthias (2016): „‚Nicht für das Leben, sondern für die Schule lernen wir!‘ Eine Reflexion der Beziehung von Schule und Leben anhand von Wes Andersons Spielfilm Rushmore“. In: Schule in Literatur und Film. Zeitschrift für den Deutschunterricht in Wissenschaft und Schule. 1, 20–29.
- Reuschel, Ann Kathrin, Barbara Piatti und Lorenz Hurni (2012): „Modelling Uncertain Geodata for the Literary Atlas of Europe“. In: Karel Kritz; William Cartwright und Michaela Kinberger (Hrsg.): Understanding Different Geographies. Berlin, Heidelberg: Springer, 135–157.
- Röser, Dietmar (1975): Das Bild der höheren Schule in der neueren deutschen Literatur. Köln: Dissertationsdruck Hansen.
- Ryan, Marie-Laure (2012): „Space“. In: Peter Hühn; Jan Christoph Meister; John Pier und Wolf Schmid (Hrsg.): the living handbook of narratology. Hamburg: Hamburg University. URL: http://www.lhn.uni-hamburg.de/node/55.html [Zugriff: 8.5.2018].
- Stiegler, Bernd (1994): Die Aufgabe des Namens. Untersuchung zur Funktion der Eigennamen in der Literatur des zwanzigsten Jahrhunderts. München: Fink.
- Thier, Karin (2004): Die Entdeckung des Narrativen für Organisationen. Entwicklung einer effizienten Story-Telling-Methode. Hamburg: Kovač.
- Trauner, Karl (2012): Die Namenwelt in den Kinder- und Hausmärchen der Brüder Grimm. Szentendre: Tillinger.
- Viehhauser-Mery, Gabriel und Florian Barth (2017): „Towards a Digital Narratology of Space“. In: Digital Humanities 2017. Conference Abstracts, Montréal, Canada. URL: https://dh2017.adho.org/abstracts/DH2017-abstracts.pdf [Zugriff: 3.5.2018].