TY - GEN A1 - Lago, Sol A1 - Namyst, Anna A1 - Jäger, Lena Ann A1 - Lau, Ellen T1 - Antecedent access mechanisms in pronoun processing BT - evidence from the N400 T2 - Postprints der Universität Potsdam Humanwissenschaftliche Reihe N2 - Previous cross-modal priming studies showed that lexical decisions to words after a pronoun were facilitated when these words were semantically related to the pronoun’s antecedent. These studies suggested that semantic priming effectively measured antecedent retrieval during coreference. We examined whether these effects extended to implicit reading comprehension using the N400 response. The results of three experiments did not yield strong evidence of semantic facilitation due to coreference. Further, the comparison with two additional experiments showed that N400 facilitation effects were reduced in sentences (vs. word pair paradigms) and were modulated by the case morphology of the prime word. We propose that priming effects in cross-modal experiments may have resulted from task-related strategies. More generally, the impact of sentence context and morphological information on priming effects suggests that they may depend on the extent to which the upcoming input is predicted, rather than automatic spreading activation between semantically related words. T3 - Zweitveröffentlichungen der Universität Potsdam : Humanwissenschaftliche Reihe - 568 KW - coreference KW - semantic priming KW - event-related potentials KW - sentence comprehension KW - N400 Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-433237 SN - 1866-8364 IS - 568 SP - 641 EP - 661 ER - TY - JOUR A1 - Lago, Sol A1 - Sloggett, Shayne A1 - Schlüter, Zoe A1 - Chow, Wing Yee A1 - Williams, Alexander A1 - Lau, Ellen A1 - Phillips, Colin T1 - Coreference and Antecedent Representation Across Languages JF - Journal of experimental psychology : Learning, memory, and cognition KW - coreference KW - German KW - English KW - sentence comprehension KW - eye-tracking Y1 - 2017 U6 - https://doi.org/10.1037/xlm0000343 SN - 0278-7393 SN - 1939-1285 VL - 43 SP - 795 EP - 817 PB - American Psychological Association CY - Washington ER - TY - THES A1 - Ritz, Julia T1 - Discourse-givenness of noun phrases : theoretical and computational models T1 - Diskursgegebenheit von Nominalphrasen : theoretische und komputationelle Modelle N2 - This thesis gives formal definitions of discourse-givenness, coreference and reference, and reports on experiments with computational models of discourse-givenness of noun phrases for English and German. Definitions are based on Bach's (1987) work on reference, Kibble and van Deemter's (2000) work on coreference, and Kamp and Reyle's Discourse Representation Theory (1993). For the experiments, the following corpora with coreference annotation were used: MUC-7, OntoNotes and ARRAU for Englisch, and TueBa-D/Z for German. As for classification algorithms, they cover J48 decision trees, the rule based learner Ripper, and linear support vector machines. New features are suggested, representing the noun phrase's specificity as well as its context, which lead to a significant improvement of classification quality. N2 - Die vorliegende Arbeit gibt formale Definitionen der Konzepte Diskursgegebenheit, Koreferenz und Referenz. Zudem wird über Experimente berichtet, Nominalphrasen im Deutschen und Englischen hinsichtlich ihrer Diskursgegebenheit zu klassifizieren. Die Definitionen basieren auf Arbeiten von Bach (1987) zu Referenz, Kibble und van Deemter (2000) zu Koreferenz und der Diskursrepräsentationstheorie (Kamp und Reyle, 1993). In den Experimenten wurden die koreferenzannotierten Korpora MUC-7, OntoNotes und ARRAU (Englisch) und TüBa-D/Z (Deutsch) verwendet. Sie umfassen die Klassifikationsalgorithmen J48 (Entscheidungsbäume), Ripper (regelbasiertes Lernen) und lineare Support Vector Machines. Mehrere neue Klassifikationsmerkmale werden vorgeschlagen, die die Spezifizität der Nominalphrase messen, sowie ihren Kontext abbilden. Mit Hilfe dieser Merkmale kann eine signifikante Verbesserung der Klassifikation erreicht werden. KW - Diskursgegebenheit KW - Klassifikator KW - Koreferenz KW - Kontext KW - tf-idf KW - discourse-givenness KW - classifier KW - coreference KW - context KW - tf-idf Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-70818 ER - TY - THES A1 - Aktas, Berfin T1 - Variation in coreference patterns BT - analyses across language modes and genres N2 - This thesis explores the variation in coreference patterns across language modes (i.e., spoken and written) and text genres. The significance of research on variation in language use has been emphasized in a number of linguistic studies. For instance, Biber and Conrad [2009] state that “register/genre variation is a fundamental aspect of human language” and “Given the ubiquity of register/genre variation, an understanding of how linguistic features are used in patterned ways across text varieties is of central importance for both the description of particular languages and the development of cross-linguistic theories of language use.”[p.23] We examine the variation across genres with the primary goal of contributing to the body of knowledge on the description of language use in English. On the computational side, we believe that incorporating linguistic knowledge into learning-based systems can boost the performance of automatic natural language processing systems, particularly for non-standard texts. Therefore, in addition to their descriptive value, the linguistic findings we provide in this study may prove to be helpful for improving the performance of automatic coreference resolution, which is essential for a good text understanding and beneficial for several downstream NLP applications, including machine translation and text summarization. In particular, we study a genre of texts that is formed of conversational interactions on the well-known social media platform Twitter. Two factors motivate us: First, Twitter conversations are realized in written form but resemble spoken communication [Scheffler, 2017], and therefore they form an atypical genre for the written mode. Second, while Twitter texts are a complicated genre for automatic coreference resolution, due to their widespread use in the digital sphere, at the same time they are highly relevant for applications that seek to extract information or sentiments from users’ messages. Thus, we are interested in discovering more about the linguistic and computational aspects of coreference in Twitter conversations. We first created a corpus of such conversations for this purpose and annotated it for coreference. We are interested in not only the coreference patterns but the overall discourse behavior of Twitter conversations. To address this, in addition to the coreference relations, we also annotated the coherence relations on the corpus we compiled. The corpus is available online in a newly developed form that allows for separating the tweets from their annotations. This study consists of three empirical analyses where we independently apply corpus-based, psycholinguistic and computational approaches for the investigation of variation in coreference patterns in a complementary manner. (1) We first make a descriptive analysis of variation across genres through a corpus-based study. We investigate the linguistic aspects of nominal coreference in Twitter conversations and we determine how this genre relates to other text genres in spoken and written modes. In addition to the variation across genres, studying the differences in spoken-written modes is also in focus of linguistic research since from Woolbert [1922]. (2) In order to investigate whether the language mode alone has any effect on coreference patterns, we carry out a crowdsourced experiment and analyze the patterns in the same genre for both spoken and written modes. (3) Finally, we explore the potentials of domain adaptation of automatic coreference resolution (ACR) for the conversational Twitter data. In order to answer the question of how the genre of Twitter conversations relates to other genres in spoken and written modes with respect to coreference patterns, we employ a state-of-the-art neural ACR model [Lee et al., 2018] to examine whether ACR on Twitter conversations will benefit from mode-based separation in out-of-domain training data. N2 - In dieser Dissertation wird die Variation von Koreferenzmustern in verschiedenen Sprachmodi (d. h., gesprochen und geschrieben) und Textgenres untersucht. Die Relevanz der Erforschung von Variation im Sprachgebrauch wurde in einer ganzen Reihe von linguistischen Studien betont. Zum Beispiel stellen Biber und Conrad [2009] fest: "register/genre variation is a fundamental aspect of human language" und "Given the ubiquity of register/genre variation, an understanding of how linguistic features are used in patterned ways across text varieties is of central importance for both the description of particular languages and the development of cross-linguistic theories of language use."[S.23] Wir untersuchen die Variation zwischen Genres mit dem primären Ziel, einen Beitrag zum Wissensstand zur Beschreibung des Sprachgebrauchs im Englischen zu leisten. Auf der technischen Seite glauben wir, dass das Einbeziehen von linguistischem Wissen in machine learning Ansätzen die Leistung von sprachverarbeitenden Systemen verbessern kann, insbesondere für Texte in nicht-Standard Varietäten. Neben ihrem sprachbeschreibenden Wert können die linguistischen Erkenntnisse, die wir in dieser Studie liefern, sich also als nützlich für die Verbesserung von Systemen für automatische Koreferenzauflösung erweisen; diese ist für ein tiefgreifendes Textverständnis unerlässlich, und potenziell hilfreich für verschiedene nachgelagerte NLP-Applikationen wie etwa die maschinelle Übersetzung und die Textzusammenfassung. Insbesondere untersuchen wir ein Textgenre, das aus Konversationsinteraktionen auf der bekannten Social-Media-Plattform Twitter gebildet wird. Zwei Faktoren motivieren uns dazu: Erstens werden Twitter-Konversationen in schriftlicher Form realisiert, ähneln dabei aber der gesprochenen Kommunikation [Scheffler, 2017] und bilden daher ein für den schriftlichen Modus untypisches Genre. Zweitens sind Twitter-Texte zwar ein kompliziertes Genre für die automatische Auflösung von Koreferenzen, aufgrund ihrer weiten Verbreitung in der digitalen Sphäre sind sie aber für Applikationen, die Informationen oder Stimmungen aus den Nachrichten der Nutzer extrahieren wollen, höchst relevant. Daher sind wir daran interessiert, mehr über die linguistischen und komputationellen Aspekte der Koreferenz in Twitter-Konversationen herauszufinden. Zu diesem Zweck haben wir zunächst ein Korpus solcher Unterhaltungen erstellt und es hinsichtlich der Koreferenzbeziehungen annotiert. Wir interessieren uns dabei aber nicht nur für die Koreferenzmuster, sondern auch allgemein für diskursstrukturelle Eigenschaften von Twitter-Konversationen. Daher haben wir zusätzlich zu den Koreferenzrelationen auch die semantisch/pragmatischen Kohärenzrelationen in dem von uns erstellten Korpus annotiert. Das Korpus ist online in einer neu entwickelten Form verfügbar, die es erlaubt, die Tweets von ihren Annotationen getrennt zu repräsentieren. Diese Studie besteht aus drei empirischen Analysen, in denen wir unabhängig voneinander korpusbasierte, psycholinguistische und computerlinguistische Ansätze zur komplementären Untersuchung der Variation von Koreferenzmustern anwenden. (1) Zunächst führen wir eine deskriptive Analyse der Variation zwischen den Genres anhand einer korpusbasierten Studie durch. Wir untersuchen linguistische Aspekte der nominalen Koreferenz in Twitter-Konversationen und stellen fest, wie sich dieses Genre zu anderen Textgenres im gesprochenen und schriftlichen Modus verhält. Neben der Variation zwischen Genres steht auch die Untersuchung der Unterschiede zwischen mündlichen und schriftlichen Formen im Fokus der linguistischen Forschung beginnend mit Woolbert [1922]. (2) Um zu untersuchen, ob der Sprachmodus auch allein einen Einfluss auf die Koreferenzmuster ausübt, führen wir ein Crowdsourcing-Experiment durch und analysieren die Muster, die sich innerhalb desselben Genres für den gesprochenen und den geschriebenen Modus ergeben. (3) Schließlich untersuchen wir Möglichkeiten der Domain-Anpassung der automatischen Koreferenzauflösung für die Twitter-Konversationsdaten. Um die Frage zu beantworten, wie sich das Genre der Twitter-Konversationen zu anderen Genres im gesprochenen und geschriebenen Modus im Hinblick auf die Koreferenzmuster verhält, verwenden wir ein neuronales Koreferenzresolutionsmodell auf dem aktuellen Stand der Technik [Lee et al., 2018], um zu untersuchen, ob die Resolution auf Twitter-Konversationen von einer modusbasierten Trennung der Trainingsdaten aus externen Domänen profitiert. KW - coreference KW - variation KW - spoken KW - written KW - genre KW - Koreferenzmustern KW - Variation KW - gesprochen KW - geschrieben KW - Textgenre Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-596086 ER -