TY - THES A1 - Zolotarenko, Olha T1 - Visualization approaches for coherence relations T1 - Visualisierungsansätze zur Kohärenzrelationen N2 - Die hier vorliegende Arbeit stellt einen Versuch dar, den Visualisierungsansätzen in dem Feld der annotierten Diskursrelationen nahezukommen und durch Vergleich verschiedener Programmierwerkzeuge eine anforderungsnahe Lösung zu finden. Als Gegenstand der Forschung wurden Kohärenzrelationen ausgewählt, welche eine Reihe an Eigenschaften aufweisen, die für viele Visualisierungsmethoden herausfordernd sein können. Die Arbeit stellt fünf verschiedene Visualisierungsmöglichkeiten sowohl von der Anwendungs- als auch von der Entwicklungsperspektive vor. Die zunächst getesteten einfachen HTML-Ansätze sowie das Softwarepaket displaCy zeigen das unzureichende Niveau für die Visualisierungszwecke dieser Arbeit. Die alternative Implementierung mit D3 würde die Voraussetzungen zwar optimal erfüllen, sprengt aber deutlich den Rahmen des Projektes. Die gewählte Hauptmethode wurde als Single-Web-Anwendung konzipiert und verwendet das Annotationstool brat, welches die meisten definierten Voraussetzungen für die Repräsentation der Kohärenzrelationen erfüllt. Die Anwendung stellt die im Text annotierten Kohärenzrelationen graphisch dar und bietet eine Filterfunktion für verschiedene Relationstypen an. N2 - This thesis aims to investigate the visualization approaches in the field of annotated discourse relations and to find a solution that meets the requirements best by comparing different programming tools. The subject of this research are coherence relations, which have several properties that can be challenging for many visualization methods. The thesis presents five different visualization options from both the application and the development perspective. The initially tested simple HTML approaches as well as the software package displaCy show the insufficient level for the visualization purposes of this work. The alternative implementation with D3 would optimally meet the requirements but goes beyond the scope of the project. The main method chosen in this thesis was implemented as a single web application and uses the brat annotation tool, which fulfills most of the defined requirements for the representation of the coherence relations. The application graphically displays the coherence relations annotated in the text and offers a filter function for different relation types. KW - visualization KW - discourse parsing KW - computational linguistics KW - brat KW - web application KW - coherence relations KW - brat KW - Kohärenzrelationen KW - Computerlinguistik KW - Diskursparsing KW - Visualisierung KW - Web-Anwendung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-516997 ER - TY - THES A1 - Peldszus, Andreas T1 - Automatic recognition of argumentation structure in short monological texts N2 - The aim of this thesis is to develop approaches to automatically recognise the structure of argumentation in short monological texts. This amounts to identifying the central claim of the text, supporting premises, possible objections, and counter-objections to these objections, and connecting them correspondingly to a structure that adequately describes the argumentation presented in the text. The first step towards such an automatic analysis of the structure of argumentation is to know how to represent it. We systematically review the literature on theories of discourse, as well as on theories of the structure of argumentation against a set of requirements and desiderata, and identify the theory of J. B. Freeman (1991, 2011) as a suitable candidate to represent argumentation structure. Based on this, a scheme is derived that is able to represent complex argumentative structures and can cope with various segmentation issues typically occurring in authentic text. In order to empirically test our scheme for reliability of annotation, we conduct several annotation experiments, the most important of which assesses the agreement in reconstructing argumentation structure. The results show that expert annotators produce very reliable annotations, while the results of non-expert annotators highly depend on their training in and commitment to the task. We then introduce the 'microtext' corpus, a collection of short argumentative texts. We report on the creation, translation, and annotation of it and provide a variety of statistics. It is the first parallel corpus (with a German and English version) annotated with argumentation structure, and -- thanks to the work of our colleagues -- also the first annotated according to multiple theories of (global) discourse structure. The corpus is then used to develop and evaluate approaches to automatically predict argumentation structures in a series of six studies: The first two of them focus on learning local models for different aspects of argumentation structure. In the third study, we develop the main approach proposed in this thesis for predicting globally optimal argumentation structures: the 'evidence graph' model. This model is then systematically compared to other approaches in the fourth study, and achieves state-of-the-art results on the microtext corpus. The remaining two studies aim to demonstrate the versatility and elegance of the proposed approach by predicting argumentation structures of different granularity from text, and finally by using it to translate rhetorical structure representations into argumentation structures. N2 - Ziel dieser Arbeit ist die Entwicklung von Methoden zur automatischen Erkennung der Argumentationsstruktur in kurzen, monologischen Texten. Dies umfasst einerseits, die zentrale These des Textes, stützende Prämissen, mögliche Einwände und Widersprüche gegen diese zu identifizieren. Andererseits gilt es, diese Elemente in einer Gesamtstruktur zu verbinden, die die im Text vorgebrachte Argumentation angemessen beschreibt. Hierzu muss zuerst eine geeignete Darstellung der Argumentationsstruktur gefunden werden. Anhand einer Reihe von Anforderungen wird die Literatur zu Theorien der Diskurs- sowie der Argumentationsstruktur systematisch ausgewertet. Die Theorie von J. B. Freeman (1991, 2011) erweist sich hierbei als geeigneter Kandidat zur Repräsentation von Argumentationsstruktur. Darauf aufbauend wird ein Annotationsschema abgeleitet, welches auch komplexe Strukturen klar darstellen und mit verschiedenen, für authentischen Text typischen Segmentierungsproblemen umgehen kann. Um das Schema hinsichtlich der Zuverlässigkeit der Annotation empirisch zu testen, werden mehrere Annotationsexperimente durchgeführt, von denen das wichtigste die Übereinstimmung bei der Rekonstruktion der Argumentationsstruktur erfasst. Die Ergebnisse zeigen, dass Fachexperten sehr verlässlich annotieren, während die Ergebnisse von Nicht-Experten in hohem Maße vom Training und ihrem Engagement für die Aufgabe abhängen. Schließlich wird das "microtext"-Korpus vorgestellt, eine Sammlung kurzer argumentativer Texte. Die Erstellung, Übersetzung und Annotation wird beschrieben, die Strukturen statistisch ausgewertet. Es handelt sich um das erste mit Argumentationsstrukturen annotierte Parallelkorpus (in Deutsch und Englisch) und -- dank der Arbeit unserer Kollegen -- auch um das erste, das mit verschiedenartigen Diskursstrukturen annotiert wurde. In einer Reihe von sechs Studien werden dann Methoden zur automatischen Erkennung von Argumentationsstrukturen entwickelt und am Korpus erprobt: Die ersten beiden konzentrieren sich auf das Lernen lokaler Modelle für einzelne Aspekte der Argumentationsstruktur. In der dritten Studie wird der in dieser Dissertation vorgeschlagene Ansatz entwickelt: das "Evidenzgraph"-Modell, mit dem global optimale Argumentationsstrukturen erkannt werden können. Dieses wird dann in der vierten Studie systematisch mit anderen Ansätzen verglichen und erzielt beste Ergebnisse auf dem microtext-Korpus. Die verbleibenden zwei Studien zielen darauf ab, die Vielseitigkeit und Eleganz des Ansatzes zu demonstrieren, z.B. bei der Ableitung von Argumentationsstrukturen unterschiedlicher Granularität oder bei der Übersetzung rhetorischer Strukturen in Argumentationsstrukturen. T2 - Automatische Erkennung der Argumentationsstruktur in kurzen monologischen Texten KW - argumentation KW - argumentation structure KW - discourse structure KW - argument mining KW - argumentation mining KW - argumentation structure parsing KW - discourse parsing KW - annotation Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-421441 ER - TY - THES A1 - Bourgonje, Peter T1 - Shallow discourse parsing for German T1 - Shallow Discourse Parsing für Deutsch N2 - While the last few decades have seen impressive improvements in several areas in Natural Language Processing, asking a computer to make sense of the discourse of utterances in a text remains challenging. There are several different theories that aim to describe and analyse the coherent structure that a well-written text inhibits. These theories have varying degrees of applicability and feasibility for practical use. Presumably the most data-driven of these theories is the paradigm that comes with the Penn Discourse TreeBank, a corpus annotated for discourse relations containing over 1 million words. Any language other than English however, can be considered a low-resource language when it comes to discourse processing. This dissertation is about shallow discourse parsing (discourse parsing following the paradigm of the Penn Discourse TreeBank) for German. The limited availability of annotated data for German means the potential of modern, deep-learning based methods relying on such data is also limited. This dissertation explores to what extent machine-learning and more recent deep-learning based methods can be combined with traditional, linguistic feature engineering to improve performance for the discourse parsing task. A pivotal role is played by connective lexicons that exhaustively list the discourse connectives of a particular language along with some of their core properties. To facilitate training and evaluation of the methods proposed in this dissertation, an existing corpus (the Potsdam Commentary Corpus) has been extended and additional data has been annotated from scratch. The approach to end-to-end shallow discourse parsing for German adopts a pipeline architecture and either presents the first results or improves over state-of-the-art for German for the individual sub-tasks of the discourse parsing task, which are, in processing order, connective identification, argument extraction and sense classification. The end-to-end shallow discourse parser for German that has been developed for the purpose of this dissertation is open-source and available online. In the course of writing this dissertation, work has been carried out on several connective lexicons in different languages. Due to their central role and demonstrated usefulness for the methods proposed in this dissertation, strategies are discussed for creating or further developing such lexicons for a particular language, as well as suggestions on how to further increase their usefulness for shallow discourse parsing. N2 - Obwohl in den letzten Jahrzehnten beeindruckende Verbesserungen in verschiedenen Bereichen der natürlichen Sprachverarbeitung erzielt wurden, bleibt es für einen Computer eine Herausforderung, den Diskurs und Kontext von einem Text zu verstehen. Es gibt mehrere Theorien, die versuchen, die Struktur zu beschreiben und zu analysieren, die einem gut geschriebenen Text zugrunde liegt. Diese Theorien haben einen unterschiedlichen Grad an Anwendbarkeit und Machbarkeit für den praktischen Einsatz. Die vermutlich datengetriebenste dieser Theorien ist das Paradigma, das mit der Penn Discourse TreeBank einhergeht, einem für Diskursrelationen annotierten Korpus mit über 1 Million Wörtern. Jede andere Sprache als Englisch kann jedoch als ressourcenarme Sprache betrachtet werden, wenn es um die Diskursverarbeitung geht. In dieser Dissertation geht es uam "Shallow Discourse Parsing" (Diskursparsing nach dem Paradigma der Penn Discourse TreeBank) für Deutsch. Die begrenzte Verfügbarkeit von annotierten Daten für Deutsch bedeutet auch, dass das Potenzial moderner, Deep-Learning-basierter Methoden, die auf solchen Daten aufbauen, begrenzt ist. In dieser Dissertation wird untersucht, inwieweit maschinelles Lernen und Deep-Learning-basierte Methoden mit traditionellem, linguistischem Feature-Engineering kombiniert werden können, um die Leistung bei der Diskurs-Parsing-Aufgabe zu verbessern. Eine zentrale Rolle spielen dabei Lexika, die die Diskurskonnektive einer bestimmten Sprache mit einigen ihrer Kerneigenschaften vollständig auflisten. Um das Training und die Evaluierung der in dieser Dissertation vorgeschlagenen Methoden zu ermöglichen, wurde ein bestehender Korpus (der Potsdamer Kommentarkorpus) erweitert und zusätzliche Daten von Grund auf annotiert. Der Ansatz für "end-to-end" Diskurs-Parsing für Deutsch verwendet eine Pipeline-Architektur und präsentiert entweder die ersten Ergebnisse oder verbessert den Stand der Technik für Deutsch für die einzelnen Teilaufgaben der Diskurs-Parsing-Aufgabe, die in der Verarbeitungsreihenfolge Konnektoridentifikation, Argumentextraktion und Relationen-klassifikation sind. Der für diese Dissertation entwickelte Diskursparser für Deutsch ist Open-Source und online verfügbar. Im Zuge der Erstellung dieser Dissertation wurden mehrere Lexika mit Konnektoren für verschiedenen Sprachen bearbeitet. Aufgrund ihrer zentralen Rolle und nachgewiesenen Nützlichkeit für die in dieser Arbeit vorgeschlagenen Methoden werden Strategien zur Erstellung oder Weiterentwicklung solcher Lexika für eine bestimmte Sprache sowie Vorschläge zur weiteren Steigerung ihrer Nützlichkeit für das "Shallow Discourse Parsing" diskutiert. KW - discourse parsing KW - connectives KW - data annotation KW - NLP pipelines KW - text structure KW - Shallow Discourse Parsing KW - end-to-end discourse parsing KW - Diskurs-parsing KW - Konnektoren KW - Daten-annotation KW - Textstruktur KW - end-to-end diskurs-parsing Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-506632 ER -