Andrew U. Frank

Digitale Literaturwissenschaft - eine Außensicht aus der Perspektive des Informatikers

A critical view of literary studies in the humanities from an information science perspective (pdf)

2016-12-01

Einleitung

Die Informationstechnologie verändert die Produktion von Literatur, die Form der entstehenden Literatur und das Lesen; ebenfalls beeinflusst Informationstechnologie die Arbeitsweisen der Literaturwissenschaft. Nicht nur, dass literarische Texte elektronisch erfasst, übertragen und bearbeitet werden und dass literaturwissenschaftliche Arbeiten mit dem Computer statt von Hand oder mit der Schreibmaschine geschrieben werden, sondern besonders weil die Informationstechnologie das Potential hat neue Arbeitsweisen und neue Erkenntnismethoden in die Literaturwissenschaft einzuführen.

Es scheint, dass die Anwendung der Informationstechnologie sowohl

als auch

Gegenstand einer digitalen Literaturwissenschaft

Viele literaturwissenschaftliche Arbeiten beschäftigen sich mit einem literarischen Text oder einer unscharf bezeichneten Textmenge (z.B. „Der Europäische Roman des 19. Jahrhunderts"). Mittels Informationstechnologie werden digitale literarische Korpora zusammengestellt. Texte, die nach bestimmten Kriterien ausgewählt sind, werden in einer algorithmisch verarbeitbaren Form aufbereitet und als Korpus bereitgestellt(Biber and Breiteneder 2012). Der Aufwand größere Korpora zu schaffen ist beträchtlich, verteilt sich aber durch die mehrfache Verwendung durch verschiedene Wissenschaftler und für unterschiedliche Forschungsarbeiten. Der Urheberschutz und unterschiedliche Interpretationen des Verhältnisses von Urheberrecht und Freiheit der Wissenschaft zueinander, schränken manchmal den Zugang erheblich ein (Lessig 1999). Aufbereitete Texte sind oft bereits nach einem bestimmten Standard (z.B. TEI (Jannidis 2009) „ausgezeichnet", das heißt, dass auch Seiteneinteilung, Lesarten oder Differenzen zwischen Ausgaben etc. kodiert sind.

Liegt einer literaturwissenschaftlichen Arbeit ein Textkorpus zugrunde, so wird zumindest der algorithmisch bestimmte Teil der Arbeit wiederholbar. Andere Forscher können im Prinzip nachprüfen, ob sie mit dem gleichen Korpus und den gleichen Methoden gleiche Ergebnisse erhalten; wesentlicher ist aber die Möglichkeit, zu prüfen, wie sich die Ergebnisse verändern, wenn der Korpus erweitert, eingeschränkt oder ein ganz anderer Korpus mit den gleichen Methoden evaluiert wird. Literaturwissenschaftliche Forschungsergebnisse sind dann schärfer umrissen, auf bestimmte Sammlungen von literarischen Werke bezogen und mit anderen Ergebnissen vergleichbar. Die Interpretation der algorithmisch gewonnenen Ergebnisse bleibt, wie bisher, dem Wissenschaftler vorbehalten.

Die Verwendung von Korpora bringt auch einen methodischen Gewinn: es ist, mit Bezug auf einen fixierten Korpus möglich, Aussagen der Form „in diesem Korpus gibt es keinen Fall, dass ..." oder „in diesem Korpus ist immer der Fall, dass .." zu machen. Solche kategorischen Urteile waren bisher nur in Bezug auf kleine, überblickbare Textmengen möglich - mit der Festlegung eines Korpus und der algorithmischen Untersuchung der darin enthaltenen Texte sind sie auch bezüglich großer Textsammlungen möglich.

Methodik einer digitalen Literaturwissenschaft

Die Interpretation eines literarischen Textes entsteht beim Lesen durch die Verbindung der Zeichen im Text mit dem Wissen des Lesers. Ähnlich wie der Gegenstand für die digitale Untersuchung als Korpus festgelegt wird, muss das Wissen, das die Interpretation erlaubt, beschrieben werden. Zu diesem Wissen gehört die Kenntnis der verwendeten Sprache, aber auch Allgemeinwissen und schließlich Spezialwissen, die für das vertiefte Verständnis notwendig sind. Eine digitale Literaturanalyse muss nicht nur den Gegenstand der Untersuchung, d.h. den Korpus der untersuchten Texte, sondern auch das für die Analyse verwendete Wissen und die verwendeten logischen Regeln bezeichnen.

Eine digitale Analyse eines natürlich-sprachlichen Textes zerfällt in verschiedene Phasen; in einem ersten Schritt erfolgt meist die Verarbeitung der Sprach mit den Mitteln der Computerlinguistik (z.B. Stanford CoreNLPhttps://stanfordnlp.github.io/CoreNLP/

, für verschiedene Sprachen verfügbar (Manning et al. 2014); der Text wird dabei in Wörter aufgelöst, diese auf Wortstämme reduziert und die grammatischen Konstruktionen analysiert, Referenzen und Verweise im Text kodiert und Eigennamen erkannt. Das dabei eingesetzte Wissen kann vereinfachend aber nachvollziehbar mit dem Verweis auf das verwendete Programm (bzw. auf das Programm und dem für das Training verwendete Korpus) erfolgen.

Je nach Fragestellung kann die Verbindung des Textes mit anderem Wissen anschließen; beispielsweise eine Analyse des Raumbezuges durch Verbindung von Ortsbezeichnungen mit geographischem Wissen oder der Beziehungen der Personen durch Verbindung mit historischem Wissen oder Bibel- und Mythologiekenntnisse. Es kann mit Werkzeugen der Computerlinguistik auch nach anderssprachigen Einschüben gesucht und diese analysiert werden; digitale Methoden können solche Hinweise systematisch und für mehr Sprachen als ein einzelner Leser beherrschen kann, sichtbar machenBeispielsweise sind in Gedichten Celans zumindest russische (rot), französische (neige) und japanische (i-i-e) Wörter auffindbar.

.

Die Untersuchung der Handlungen nach narratologischen Schemata wie von Propp initiiert (Propp, Meletinskij, and Wendt 1972), und zu computational narratologyhttp://www.lhn.uni-hamburg.de

zu entwickeln, benötigt Generalisierungen, die Linguisten in taxonomisch organisierten Wortlisten bereitstellen (wordnet [http://wordnet.princeton.edu/]

(Fellbaum 1998) u.ä).

Entscheidend ist, dass das bei einer algorithmischen Interpretation angewandte Wissen und die verwendeten logischen Schlussregeln nachvollziehbar beschrieben werden. Praktisch kann das Wissen durch die Angabe der bei der Analyse eingesetzten Werkzeuge beschrieben werden, also z.B. die verschiedenen Analysen die Datenbanken (z.B. dbpedia[http://dbpedia.org/]

Die technische Verarbeitung wird erleichtert, wenn die Verarbeitung in Schritte unterteilt wird und die Ein- und Ausgaben in standardisierten Formaten erfolgen. Für die sprachliche Analyse werden Treebanks (mit leicht unterschiedlichen Kodierungen) verwendet, wobei auch bereits sprachunabhängige Lösungen vorgeschlagen wurdenVanderwende, Menezes, and Quirk (2015), die für die Komparatistik wahrscheinlich besonders fruchtbar sindIvanovic and Frank (2016). Das für die literaturwissenschaftliche Analyse heranzuziehende Sachwissen ist zu einem großen Teil im Semantic Web Hitzler et al. (2008) bereits in in RDF Form(Manola et al. 2004) vorhanden; es könnte nützlich sein, Korpora ebenfalls in RDF Form zu kodieren um die Verbindung mit dem Semantic Web zu vereinfachen(Ivanovic and Frank 2015b).

Coda

Durch eine konsequente Beschreibung von Gegenstand - als Korpus der maschinellen Verarbeitung zugänglich - und dem darauf bezogenen Sachwissen - in Form von Programmen und Semantic Web - , das für die Analyse verwendet wird, ist es möglich, Interpretationen algorithmisch zu überprüfen und zu objektivieren.

Die digitale Form von Texten (und ähnlichen Materialien) erlaubt den Einsatz von algorithmischen Verarbeitungen; dies verändert Literaturwissenschaft insofern, als Hypothesen überprüfbar werden. Nötig dazu ist die Beschreibung des Gegenstandes in Form der im Korpus eingeschlossenen Texte und ein Modell des Lesens und des dabei eingebrachten Sachwissens. Es kann dann entschieden werden, ob eine Interpretation eines Textes mit dem angegebenen Wissen möglich ist, welche Interpretationen aus einem limitierten Wissen resultieren (z.B. fehlende Fremdsprachkenntnisse), oder welches Sachwissen notwendig für eine bestimmte Interpretation ist.

Eine „automatische" Interpretation liegt zwar in weiter Ferne, aber der Wissenschaftler könnte, durch eine automatische Produktion aller möglicher Assoziationen (taxonomisches und Faktenwissen) und deren Gruppierung auf vielleicht sonst übersehene Hypothesen zur Interpretation hingewiesen werden, die dann kritisch beurteilt werden müssen.

Literatur

Banarescu, L., C. Bonial, M S. Cai, Georgescu, K. Griffitt, U. Hermjakob, K. Knight, P. Koehn, M. Palmer, and N. Schneider. 2013. “Abstract Meaning Representation for Sembanking.” In Proc. Linguistic Annotation Workshop.
Berners-Lee, Tim, James Hendler, and Ora Lassila. 2001. “The Semantic Web.” Scientific American 284 (5): 28–37.
Biber, Hanno, and Evelyn Breiteneder. 2012. “Fivehundredmillionandone Tokens. Loading the AAC Container with Text Resources for Text Studies.” In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey, May 23-25, 2012, 1067–70. http://www.lrec-conf.org/proceedings/lrec2012/summaries/857.html.
Fellbaum, Christiane. 1998. WordNet. Wiley Online Library.
Hitzler, Pascal, Markus Krötzsch, Sebastian Rudolph, and York Sure. 2008. “Semantic Web.” Berlin, Heidelberg.
Ivanovic, Christine, and Andrew U Frank. 2015a. “Corpus-Based Research in Computational Comparative Literature.” In Proceedings of the Workshop on Corpus-Based Research in the Humanities (CRH). Warsaw, Poland, edited by Francesco Mambrini, Marco Passarotti, and Caroline Sporleder, 69–78.
———. 2015b. “Viennavigator: Digitale Formalisierung Literarischer Topographien Am Beispiel Des Gesamtwerks von Ilse Aichinger.” In Nach Wien! Sehnsucht, Distanzierung, Suche. Literarische Darstellungen Wiens Aus Komparatistischer Perspektive, edited by Norbert Bachleitner and Christine Ivanovic. Vol. 17. Series: Wechselwirkungen. Peter Lang, Frankfurt a.M.
———. 2016. “Korpusanalyse in Der Computergestützten Komparatistik.” In Digital Humanities Deutsch (DHd).
Jannidis, Fotis. 2009. TEI in a Crystal Ball.” Literary and Linguistic Computing 24 (3): 253–65.
Lessig, Lawrence. 1999. Code and Other Laws of Cyberspace. Basic Books.
Manning, Christopher D, Mihai Surdeanu, John Bauer, Jenny Rose Finkel, Steven Bethard, and David McClosky. 2014. “The Stanford CoreNLP Natural Language Processing Toolkit.” In ACL (System Demonstrations), 55–60.
Manola, Frank, Eric Miller, Brian McBride, et al. 2004. RDF Primer.” W3C Recommendation 10 (1-107): 6.
McGuinness, D. L., F. Van Harmelen, et al. 2004. OWL Web Ontology Language Overview.” W3C Recommendation 10 (2004-03): 10.
Propp, Vladimir Jakovlevič, EM Meletinskij, and Christel Wendt. 1972. Morphologie Des märchens. Carl Hanser Verlag.
Vanderwende, Lucy, Arul Menezes, and Chris Quirk. 2015. “An AMR Parser for English, French, German, Spanish and Japanese and a New AMR-Annotated Corpus.” In Proceedings of NAACL-HLT, 26–30.
Produced with SGG from Blog/Humanities/DigitaleLiteraturWirssenschaft.html (public, publish) with master7tufte.dtpl.
SSG and w3.css