Investigating and improving background context consistency in neural conversation models

Galetzka, Fabian

doi:10.25932/publishup-58463

Treffer 29 von 97

Zurück zur Trefferliste

Investigating and improving background context consistency in neural conversation models

Fabian Galetzka

Neural conversation models aim to predict appropriate contributions to a (given) conversation by using neural networks trained on dialogue data. A specific strand focuses on non-goal driven dialogues, first proposed by Ritter et al. (2011): They investigated the task of transforming an utterance into an appropriate reply. Then, this strand evolved into dialogue system approaches using long dialogue histories and additional background context. Contributing meaningful and appropriate to a conversation is a complex task, and therefore research in this area has been very diverse: Serban et al. (2016), for example, looked into utilizing variable length dialogue histories, Zhang et al. (2018) added additional context to the dialogue history, Wolf et al. (2019) proposed a model based on pre-trained Self-Attention neural networks (Vasvani et al., 2017), and Dinan et al. (2021) investigated safety issues of these approaches. This trend can be seen as a transformation from trying to somehow carry on a conversation to generating appropriateNeural conversation models aim to predict appropriate contributions to a (given) conversation by using neural networks trained on dialogue data. A specific strand focuses on non-goal driven dialogues, first proposed by Ritter et al. (2011): They investigated the task of transforming an utterance into an appropriate reply. Then, this strand evolved into dialogue system approaches using long dialogue histories and additional background context. Contributing meaningful and appropriate to a conversation is a complex task, and therefore research in this area has been very diverse: Serban et al. (2016), for example, looked into utilizing variable length dialogue histories, Zhang et al. (2018) added additional context to the dialogue history, Wolf et al. (2019) proposed a model based on pre-trained Self-Attention neural networks (Vasvani et al., 2017), and Dinan et al. (2021) investigated safety issues of these approaches. This trend can be seen as a transformation from trying to somehow carry on a conversation to generating appropriate replies in a controlled and reliable way. In this thesis, we first elaborate the meaning of appropriateness in the context of neural conversation models by drawing inspiration from the Cooperative Principle (Grice, 1975). We first define what an appropriate contribution has to be by operationalizing these maxims as demands on conversation models: being fluent, informative, consistent towards given context, coherent and following a social norm. Then, we identify different targets (or intervention points) to achieve the conversational appropriateness by investigating recent research in that field. In this thesis, we investigate the aspect of consistency towards context in greater detail, being one aspect of our interpretation of appropriateness. During the research, we developed a new context-based dialogue dataset (KOMODIS) that combines factual and opinionated context to dialogues. The KOMODIS dataset is publicly available and we use the data in this thesis to gather new insights in context-augmented dialogue generation. We further introduced a new way of encoding context within Self-Attention based neural networks. For that, we elaborate the issue of space complexity from knowledge graphs, and propose a concise encoding strategy for structured context inspired from graph neural networks (Gilmer et al., 2017) to reduce the space complexity of the additional context. We discuss limitations of context-augmentation for neural conversation models, explore the characteristics of knowledge graphs, and explain how we create and augment knowledge graphs for our experiments. Lastly, we analyzed the potential of reinforcement and transfer learning to improve context-consistency for neural conversation models. We find that current reward functions need to be more precise to enable the potential of reinforcement learning, and that sequential transfer learning can improve the subjective quality of generated dialogues.…
Neuronale Konversationsmodelle versuchen einen angemessenen Beitrag zu einer (gegebenen) Konversation zu erzeugen, indem neuronale Netze auf Dialogdaten trainiert werden. Ein spezieller Forschungszweig beschäftigt sich mit den nicht-zielgeführten Dialogen, erstmals vorgestellt von Ritter et al. (2011): Das Team untersuchte die Aufgabe der Transformation einer Äußerung in eine angemessene Antwort. Im Laufe der Zeit hat dieser Zweig Dialogsystem-Ansätze hervorgebracht, die lange Konversationen und zusätzlichen Kontext verarbeiten können. Einen sinnvollen und angemessenen Beitrag zu einem Gespräch zu leisten, ist eine komplexe Aufgabe, und daher war die Forschung auf diesem Gebiet sehr vielfältig: Serban et al. (2016) untersuchten beispielsweise die Verwendung von Dialogverläufen variabler Länge, Zhang et al. (2018) fügten der Dialoggeschichte zusätzlichen Kontext hinzu, Wolf et al. (2019) schlugen ein Modell vor, das auf vortrainierten neuronalen Self-Attention Schichten basiert (Vasvani et al., 2017), und Dinan et al. (2021)Neuronale Konversationsmodelle versuchen einen angemessenen Beitrag zu einer (gegebenen) Konversation zu erzeugen, indem neuronale Netze auf Dialogdaten trainiert werden. Ein spezieller Forschungszweig beschäftigt sich mit den nicht-zielgeführten Dialogen, erstmals vorgestellt von Ritter et al. (2011): Das Team untersuchte die Aufgabe der Transformation einer Äußerung in eine angemessene Antwort. Im Laufe der Zeit hat dieser Zweig Dialogsystem-Ansätze hervorgebracht, die lange Konversationen und zusätzlichen Kontext verarbeiten können. Einen sinnvollen und angemessenen Beitrag zu einem Gespräch zu leisten, ist eine komplexe Aufgabe, und daher war die Forschung auf diesem Gebiet sehr vielfältig: Serban et al. (2016) untersuchten beispielsweise die Verwendung von Dialogverläufen variabler Länge, Zhang et al. (2018) fügten der Dialoggeschichte zusätzlichen Kontext hinzu, Wolf et al. (2019) schlugen ein Modell vor, das auf vortrainierten neuronalen Self-Attention Schichten basiert (Vasvani et al., 2017), und Dinan et al. (2021) untersuchten Ansätze zur Kontrolle von unangebrachten Inhalten, wie zum Beispiel Beleidigungen. Dieser Trend kann als Transformation gesehen werden, der vom Versuch, ein Gespräch irgendwie fortzuführen, hin zum kontrollierten und zuverlässigen Generieren angemessener Antworten reicht. In dieser Arbeit untersuchen wir den Aspekt der Kontextkonsistenz genauer, der ein Aspekt unserer Interpretation von einem angemessenen Konversationsbeitrag ist. Während der Untersuchungen haben wir einen neuen kontextbasierten Dialogdatensatz (KOMODIS) entwickelt, der sachlichen und meinungsbezogenen Kontext zu Dialogen kombiniert. Der KOMODIS Datensatz ist öffentlich verfügbar, und wir verwenden die Daten in dieser Arbeit, um neue Einblicke in die kontextunterstützte Dialoggenerierung zu gewinnen. Wir haben außerdem eine neue Methode zur Eingabe von Kontext auf Self-Attention basierenden neuronalen Netzen entwickelt. Dazu erörtern wir zunächst das Problem der begrenzten Eingabelänge für Sequenzen aus Wissensgraphen in solche Modelle, und schlagen eine effiziente Codierungsstrategie für strukturierten Kontext vor, die von Graph Neural Networks inspiriert ist (Gilmer et al., 2017), um die Komplexität des zusätzlichen Kontexts zu reduzieren. Wir diskutieren die Grenzen der Kontexterweiterung für neuronale Konversationsmodelle, untersuchen die Eigenschaften von Wissensgraphen und erklären, wie wir Wissensgraphen für unsere Experimente erstellen und erweitern können. Schließlich haben wir das Potenzial von Reinforcement Learning und Transfer Learning analysiert, um die Kontextkonsistenz für neuronale Konversationsmodelle zu verbessern. Wir stellen fest, dass aktuelle Reward Funktionen präziser sein müssen, um das Potenzial von Reinforcement Learning zu nutzen, und dass Sequential Transfer Learning die subjektive Qualität der generierten Dialoge verbessern kann.…

Metadaten
Verfasserangaben:	Fabian Galetzka ORCiD
URN:	urn:nbn:de:kobv:517-opus4-584637
DOI:	https://doi.org/10.25932/publishup-58463
Gutachter*in(nen):	David Schlangen ORCiD GND, Verena Rieser ORCiD GND
Betreuer*in(nen):	David Schlangen
Publikationstyp:	Dissertation
Sprache:	Englisch
Erscheinungsjahr:	2022
Veröffentlichende Institution:	Universität Potsdam
Titel verleihende Institution:	Universität Potsdam
Datum der Abschlussprüfung:	03.03.2023
Datum der Freischaltung:	22.03.2023
Freies Schlagwort / Tag:	Deep Learning; Dialog; Dialog KI; GPT; Kontextkonsistenz; Konversation; Wissensgraph; neuronale Konversationsmodelle context consistency; conversation; conversational ai; deep learning; dialogue; gpt; knowledge graphs; neural conversation models
Seitenanzahl:	viii, 173
RVK - Regensburger Verbundklassifikation:	ER 900, ER 990, ST 300, ST 301, ST 306
Organisationseinheiten:	Humanwissenschaftliche Fakultät / Strukturbereich Kognitionswissenschaften / Department Linguistik
DDC-Klassifikation:	4 Sprache / 41 Linguistik / 410 Linguistik
Lizenz (Deutsch):	CC-BY - Namensnennung 4.0 International

Investigating and improving background context consistency in neural conversation models

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste