TY - THES A1 - Peldszus, Andreas T1 - Automatic recognition of argumentation structure in short monological texts N2 - The aim of this thesis is to develop approaches to automatically recognise the structure of argumentation in short monological texts. This amounts to identifying the central claim of the text, supporting premises, possible objections, and counter-objections to these objections, and connecting them correspondingly to a structure that adequately describes the argumentation presented in the text. The first step towards such an automatic analysis of the structure of argumentation is to know how to represent it. We systematically review the literature on theories of discourse, as well as on theories of the structure of argumentation against a set of requirements and desiderata, and identify the theory of J. B. Freeman (1991, 2011) as a suitable candidate to represent argumentation structure. Based on this, a scheme is derived that is able to represent complex argumentative structures and can cope with various segmentation issues typically occurring in authentic text. In order to empirically test our scheme for reliability of annotation, we conduct several annotation experiments, the most important of which assesses the agreement in reconstructing argumentation structure. The results show that expert annotators produce very reliable annotations, while the results of non-expert annotators highly depend on their training in and commitment to the task. We then introduce the 'microtext' corpus, a collection of short argumentative texts. We report on the creation, translation, and annotation of it and provide a variety of statistics. It is the first parallel corpus (with a German and English version) annotated with argumentation structure, and -- thanks to the work of our colleagues -- also the first annotated according to multiple theories of (global) discourse structure. The corpus is then used to develop and evaluate approaches to automatically predict argumentation structures in a series of six studies: The first two of them focus on learning local models for different aspects of argumentation structure. In the third study, we develop the main approach proposed in this thesis for predicting globally optimal argumentation structures: the 'evidence graph' model. This model is then systematically compared to other approaches in the fourth study, and achieves state-of-the-art results on the microtext corpus. The remaining two studies aim to demonstrate the versatility and elegance of the proposed approach by predicting argumentation structures of different granularity from text, and finally by using it to translate rhetorical structure representations into argumentation structures. N2 - Ziel dieser Arbeit ist die Entwicklung von Methoden zur automatischen Erkennung der Argumentationsstruktur in kurzen, monologischen Texten. Dies umfasst einerseits, die zentrale These des Textes, stützende Prämissen, mögliche Einwände und Widersprüche gegen diese zu identifizieren. Andererseits gilt es, diese Elemente in einer Gesamtstruktur zu verbinden, die die im Text vorgebrachte Argumentation angemessen beschreibt. Hierzu muss zuerst eine geeignete Darstellung der Argumentationsstruktur gefunden werden. Anhand einer Reihe von Anforderungen wird die Literatur zu Theorien der Diskurs- sowie der Argumentationsstruktur systematisch ausgewertet. Die Theorie von J. B. Freeman (1991, 2011) erweist sich hierbei als geeigneter Kandidat zur Repräsentation von Argumentationsstruktur. Darauf aufbauend wird ein Annotationsschema abgeleitet, welches auch komplexe Strukturen klar darstellen und mit verschiedenen, für authentischen Text typischen Segmentierungsproblemen umgehen kann. Um das Schema hinsichtlich der Zuverlässigkeit der Annotation empirisch zu testen, werden mehrere Annotationsexperimente durchgeführt, von denen das wichtigste die Übereinstimmung bei der Rekonstruktion der Argumentationsstruktur erfasst. Die Ergebnisse zeigen, dass Fachexperten sehr verlässlich annotieren, während die Ergebnisse von Nicht-Experten in hohem Maße vom Training und ihrem Engagement für die Aufgabe abhängen. Schließlich wird das "microtext"-Korpus vorgestellt, eine Sammlung kurzer argumentativer Texte. Die Erstellung, Übersetzung und Annotation wird beschrieben, die Strukturen statistisch ausgewertet. Es handelt sich um das erste mit Argumentationsstrukturen annotierte Parallelkorpus (in Deutsch und Englisch) und -- dank der Arbeit unserer Kollegen -- auch um das erste, das mit verschiedenartigen Diskursstrukturen annotiert wurde. In einer Reihe von sechs Studien werden dann Methoden zur automatischen Erkennung von Argumentationsstrukturen entwickelt und am Korpus erprobt: Die ersten beiden konzentrieren sich auf das Lernen lokaler Modelle für einzelne Aspekte der Argumentationsstruktur. In der dritten Studie wird der in dieser Dissertation vorgeschlagene Ansatz entwickelt: das "Evidenzgraph"-Modell, mit dem global optimale Argumentationsstrukturen erkannt werden können. Dieses wird dann in der vierten Studie systematisch mit anderen Ansätzen verglichen und erzielt beste Ergebnisse auf dem microtext-Korpus. Die verbleibenden zwei Studien zielen darauf ab, die Vielseitigkeit und Eleganz des Ansatzes zu demonstrieren, z.B. bei der Ableitung von Argumentationsstrukturen unterschiedlicher Granularität oder bei der Übersetzung rhetorischer Strukturen in Argumentationsstrukturen. T2 - Automatische Erkennung der Argumentationsstruktur in kurzen monologischen Texten KW - argumentation KW - argumentation structure KW - discourse structure KW - argument mining KW - argumentation mining KW - argumentation structure parsing KW - discourse parsing KW - annotation Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-421441 ER - TY - THES A1 - Grishina, Yulia T1 - Assessing the applicability of annotation projection methods for coreference relations T1 - Analyse der Qualität von Annotationsprojektionsmethoden für Koreferenzrelationen N2 - The main goal of this thesis is to explore the feasibility of using cross-lingual annotation projection as a method of alleviating the task of manual coreference annotation. To reach our goal, we build a first trilingual parallel coreference corpus that encompasses multiple genres. For the annotation of the corpus, we develop common coreference annotation guidelines that are applicable to three languages (English, German, Russian) and include a novel domain-independent typology of bridging relations as well as state-of-the-art near-identity categories. Thereafter, we design and perform several annotation projection experiments. In the first experiment, we implement a direct projection method with only one source language. Our results indicate that, already in a knowledge-lean scenario, our projection approach is superior to the most closely related work of Postolache et al. (2006). Since the quality of the resulting annotations is to a high degree dependent on the word alignment, we demonstrate how using limited syntactic information helps to further improve mention extraction on the target side. As a next step, in our second experiment, we show how exploiting two source languages helps to improve the quality of target annotations for both language pairs by concatenating annotations projected from two source languages. Finally, we assess the projection quality in a fully automatic scenario (using automatically produced source annotations), and propose a pilot experiment on manual projection of bridging pairs. For each of the experiments, we carry out an in-depth error analysis, and we conclude that noisy word alignments, translation divergences and morphological and syntactic differences between languages are responsible for projection errors. We systematically compare and evaluate our projection methods, and we investigate the errors both qualitatively and quantitatively in order to identify problematic cases. Finally, we discuss the applicability of our method to coreference annotations and propose several avenues of future research. N2 - Ziel dieser Dissertation ist, die Durchführbarkeit von crosslingualer Annotationsprojektion als Methode zur Erleichterung der manuellen Koreferenzannotation zu erproben. Um dieses Ziel zu erreichen, wird das erste dreisprachige parallele Koreferenzkorpus gebaut, das mehrere Textsorten umfasst. Für die Korpusannotation werden gemeinsame Annotationsrichtlinien entwickelt, die auf drei Sprachen anwendbar sind (Englisch, Deutsch, Russisch) und eine neue domänenunabhängige Typologie von indirekten Wiederaufnahmen und sogenannten Near-Identity-Kategorien enthalten. Danach werden mehrere Projektionsexperimente entworfen und durchgeführt. Im ersten Experiment wird eine direkte Projektionsmethode mit nur einer Ausgangs\-sprache implementiert. Die Ergebnisse zeigen, dass bereits in einem wissensarmen Szenario der vorgeschlagene Projektionsansatz die Resultate der verwandten Arbeit von Postolache et al. (2006) übertrifft. Da die Qualität der resultierenden Annotationen in hohem Maße von der Wortalignierung abhängig ist, zeigen wir, wie die Verwendung begrenzter syntaktischer Informationen weiterhilft, die Extraktion von referierenden Ausdrücken auf der Zielseite zu verbessern. Im nächsten Schritt, dem zweiten Experiment, demonstrieren wir, wie die Nutzung von zwei Ausgangssprachen zur weiteren Verbesserung der Qualität der Zielannotationen für beide Sprachpaare beiträgt, indem die Annotationen aus zwei Quellsprachen kombiniert werden. Schließlich wird die Projektionsqualität noch in einem vollautomatischen Szenario ausgewertet (mit automatisch erstellten Quellannotationen), und ein Pilotversuch zur manuellen Projektion von Paaren indirekter Wiederaufnahmen vorgestellt. Für jedes Experiment wird eine detaillierte Fehleranalyse durchgeführt. Daraus schließen wir, dass fehlerhafte Wortalignierungen, Übersetzungsdivergenzen und morphologische sowie syntaktische Unterschiede zwischen den Sprachen für die Projektionsfehler verantwortlich sind. Hierzu werden die Projektionsmethoden systematisch verglichen und ausgewertet, und die Fehler sowohl qualitativ als auch quantitativ untersucht, um problematische Fälle zu identifizieren. Zum Schluss wird die Anwendbarkeit unserer Methode für Koreferenzannotationen diskutiert, und es werden Ansatzpunkte für weitere Forschung vorgeschlagen. KW - annotation KW - annotation projection KW - bridging KW - near-identity KW - coreference resolution KW - multilingual coreference KW - coreference corpus KW - Annotation KW - Annotationsprojektion KW - Koreferenz KW - indirekte Wiederaufnahmen KW - Near-identity KW - Koreferenzauflösung KW - multilinguale Koreferenz KW - Koreferenzkorpus Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-425378 ER -