The search result changed since you submitted your search request. Documents might be displayed in a different sort order.
  • search hit 45 of 88
Back to Result List

Variational inference for composite Gaussian process models

Variationelle Inferenz für zusammengesetzte Gauß-Prozess Modelle

  • Most machine learning methods provide only point estimates when being queried to predict on new data. This is problematic when the data is corrupted by noise, e.g. from imperfect measurements, or when the queried data point is very different to the data that the machine learning model has been trained with. Probabilistic modelling in machine learning naturally equips predictions with corresponding uncertainty estimates which allows a practitioner to incorporate information about measurement noise into the modelling process and to know when not to trust the predictions. A well-understood, flexible probabilistic framework is provided by Gaussian processes that are ideal as building blocks of probabilistic models. They lend themself naturally to the problem of regression, i.e., being given a set of inputs and corresponding observations and then predicting likely observations for new unseen inputs, and can also be adapted to many more machine learning tasks. However, exactly inferring the optimal parameters of such a Gaussian processMost machine learning methods provide only point estimates when being queried to predict on new data. This is problematic when the data is corrupted by noise, e.g. from imperfect measurements, or when the queried data point is very different to the data that the machine learning model has been trained with. Probabilistic modelling in machine learning naturally equips predictions with corresponding uncertainty estimates which allows a practitioner to incorporate information about measurement noise into the modelling process and to know when not to trust the predictions. A well-understood, flexible probabilistic framework is provided by Gaussian processes that are ideal as building blocks of probabilistic models. They lend themself naturally to the problem of regression, i.e., being given a set of inputs and corresponding observations and then predicting likely observations for new unseen inputs, and can also be adapted to many more machine learning tasks. However, exactly inferring the optimal parameters of such a Gaussian process model (in a computationally tractable manner) is only possible for regression tasks in small data regimes. Otherwise, approximate inference methods are needed, the most prominent of which is variational inference. In this dissertation we study models that are composed of Gaussian processes embedded in other models in order to make those more flexible and/or probabilistic. The first example are deep Gaussian processes which can be thought of as a small network of Gaussian processes and which can be employed for flexible regression. The second model class that we study are Gaussian process state-space models. These can be used for time-series modelling, i.e., the task of being given a stream of data ordered by time and then predicting future observations. For both model classes the state-of-the-art approaches offer a trade-off between expressive models and computational properties (e.g. speed or convergence properties) and mostly employ variational inference. Our goal is to improve inference in both models by first getting a deep understanding of the existing methods and then, based on this, to design better inference methods. We achieve this by either exploring the existing trade-offs or by providing general improvements applicable to multiple methods. We first provide an extensive background, introducing Gaussian processes and their sparse (approximate and efficient) variants. We continue with a description of the models under consideration in this thesis, deep Gaussian processes and Gaussian process state-space models, including detailed derivations and a theoretical comparison of existing methods. Then we start analysing deep Gaussian processes more closely: Trading off the properties (good optimisation versus expressivity) of state-of-the-art methods in this field, we propose a new variational inference based approach. We then demonstrate experimentally that our new algorithm leads to better calibrated uncertainty estimates than existing methods. Next, we turn our attention to Gaussian process state-space models, where we closely analyse the theoretical properties of existing methods.The understanding gained in this process leads us to propose a new inference scheme for general Gaussian process state-space models that incorporates effects on multiple time scales. This method is more efficient than previous approaches for long timeseries and outperforms its comparison partners on data sets in which effects on multiple time scales (fast and slowly varying dynamics) are present. Finally, we propose a new inference approach for Gaussian process state-space models that trades off the properties of state-of-the-art methods in this field. By combining variational inference with another approximate inference method, the Laplace approximation, we design an efficient algorithm that outperforms its comparison partners since it achieves better calibrated uncertainties.show moreshow less
  • Bei Vorhersagen auf bisher ungesehenen Datenpunkten liefern die meisten maschinellen Lernmethoden lediglich Punktprognosen. Dies kann problematisch sein, wenn die Daten durch Rauschen verfälscht sind, z. B. durch unvollkommene Messungen, oder wenn der abgefragte Datenpunkt sich stark von den Daten unterscheidet, mit denen das maschinelle Lernmodell trainiert wurde. Mithilfe probabilistischer Modellierung (einem Teilgebiet des maschinellen Lernens) werden die Vorhersagen der Methoden auf natürliche Weise durch Unsicherheiten ergänzt. Dies erlaubt es, Informationen über Messunsicherheiten in den Modellierungsprozess mit einfließen zu lassen, sowie abzuschätzen, bei welchen Vorhersagen dem Modell vertraut werden kann. Grundlage vieler probabilistischer Modelle bilden Gaußprozesse, die gründlich erforscht und äußerst flexibel sind und daher häufig als Bausteine für größere Modelle dienen. Für Regressionsprobleme, was heißt, von einem Datensatz bestehend aus Eingangsgrößen und zugehörigen Messungen auf wahrscheinliche Messwerte für bisherBei Vorhersagen auf bisher ungesehenen Datenpunkten liefern die meisten maschinellen Lernmethoden lediglich Punktprognosen. Dies kann problematisch sein, wenn die Daten durch Rauschen verfälscht sind, z. B. durch unvollkommene Messungen, oder wenn der abgefragte Datenpunkt sich stark von den Daten unterscheidet, mit denen das maschinelle Lernmodell trainiert wurde. Mithilfe probabilistischer Modellierung (einem Teilgebiet des maschinellen Lernens) werden die Vorhersagen der Methoden auf natürliche Weise durch Unsicherheiten ergänzt. Dies erlaubt es, Informationen über Messunsicherheiten in den Modellierungsprozess mit einfließen zu lassen, sowie abzuschätzen, bei welchen Vorhersagen dem Modell vertraut werden kann. Grundlage vieler probabilistischer Modelle bilden Gaußprozesse, die gründlich erforscht und äußerst flexibel sind und daher häufig als Bausteine für größere Modelle dienen. Für Regressionsprobleme, was heißt, von einem Datensatz bestehend aus Eingangsgrößen und zugehörigen Messungen auf wahrscheinliche Messwerte für bisher ungesehene Eingangsgrößen zu schließen, sind Gaußprozesse hervorragend geeignet. Zusätzlich können sie an viele weitere Aufgabenstellungen des maschinellen Lernens angepasst werden. Die Bestimmung der optimalen Parameter eines solchen Gaußprozessmodells (in einer annehmbaren Zeit) ist jedoch nur für Regression auf kleinen Datensätzen möglich. In allen anderen Fällen muss auf approximative Inferenzmethoden zurückgegriffen werden, wobei variationelle Inferenz die bekannteste ist. In dieser Dissertation untersuchen wir Modelle, die Gaußprozesse eingebettet in andere Modelle enthalten, um Letztere flexibler und/oder probabilistisch zu machen. Das erste Beispiel hierbei sind tiefe Gaußprozesse, die man sich als kleines Netzwerk von Gaußprozessen vorstellen kann und die für flexible Regression eingesetzt werden können. Die zweite Modellklasse, die wir genauer analysieren ist die der Gaußprozess-Zustandsraummodelle. Diese können zur Zeitreihenmodellierung verwendet werden, das heißt, um zukünftige Datenpunkte auf Basis eines nach der Zeit geordneten Eingangsdatensatzes vorherzusagen. Für beide genannten Modellklassen bieten die modernsten Ansatze einen Kompromiss zwischen expressiven Modellen und wunschenswerten rechentechnischen Eigenschaften (z. B. Geschwindigkeit oder Konvergenzeigenschaften). Desweiteren wird für die meisten Methoden variationelle Inferenz verwendet. Unser Ziel ist es, die Inferenz für beide Modellklassen zu verbessern, indem wir zunächst ein tieferes Verständnis der bestehenden Ansätze erlangen und darauf aufbauend bessere Inferenzverfahren entwickeln. Indem wir die bestehenden Kompromisse der heutigen Methoden genauer untersuchen, oder dadurch, dass wir generelle Verbesserungen anbieten, die sich auf mehrere Modelle anwenden lassen, erreichen wir dieses Ziel. Wir beginnen die Thesis mit einer umfassender Einführung, die den notwendigen technischen Hintergrund zu Gaußprozessen sowie spärlichen (approximativen und effizienten) Gaußprozessen enthält. Anschließend werden die in dieser Thesis behandelten Modellklassen, tiefe Gaußprozesse und Gaußprozess-Zustandsraummodelle, eingeführt, einschließlich detaillierter Herleitungen und eines theoretischen Vergleichs existierender Methoden. Darauf aufbauend untersuchen wir zuerst tiefe Gaußprozesse genauer und entwickeln dann eine neue Inferenzmethode. Diese basiert darauf, die wünschenswerten Eigenschaften (gute Optimierungseigenschaften gegenüber Expressivität) der modernsten Ansätze gegeneinander abzuwägen. Anschließend zeigen wir experimentell, dass unser neuer Algorithmus zu besser kalibrierten Unsicherheitsabschätzungen als bei bestehenden Methoden führt. Als Nächstes wenden wir uns Gaußprozess-Zustandsraummodelle zu, wo wir zuerst die theoretischen Eigenschaften existierender Ansätze genau analysieren. Wir nutzen das dabei gewonnene Verständnis, um ein neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle einzuführen, welches Effekte auf verschiedenen Zeitskalen berücksichtigt. Für lange Zeitreihen ist diese Methode effizienter als bisherige Ansätze. Darüber hinaus übertrifft sie ihre Vergleichspartner auf Datensätzen, bei denen Effekte auf mehreren Zeitskalen (sich schnell und langsam verändernde Signale) auftreten. Zuletzt schlagen wir ein weiteres neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle vor, das die Eigenschaften der aktuellsten Methoden auf diesem Gebiet gegeneinander abwägt. Indem wir variationelle Inferenz mit einem weiteren approximativen Inferenzverfahren, der Laplace- Approximation, kombinieren, entwerfen wir einen effizienten Algorithmus der seine Vergleichspartner dadurch übertrifft, dass er besser kalibrierte Unsicherheitsvorhersagen erzielt.show moreshow less

Download full text files

  • SHA-512:7c9a237b3910b72d10f17d3889d3a51654d7066767152773f3d5de20b534eb3bf067a2c6bc34794154edcdd76a0149fa77cbcec9a255431c300e54cc0f015a7c

Export metadata

Additional Services

Search Google Scholar Statistics
Metadaten
Author details:Jakob LindingerORCiDGND
URN:urn:nbn:de:kobv:517-opus4-604441
DOI:https://doi.org/10.25932/publishup-60444
Reviewer(s):Marc DeisenrothORCiDGND, Ralf Herbrich
Supervisor(s):Christoph Lippert
Publication type:Doctoral Thesis
Language:English
Publication year:2023
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2023/07/17
Release date:2023/08/15
Tag:Gauß-Prozess Zustandsraummodelle; Gauß-Prozesse; probabilistisches maschinelles Lernen; tiefe Gauß-Prozesse; variationelle Inferenz
Gaussian process state-space models; Gaussian processes; deep Gaussian processes; probabilistic machine learning; variational inference
Number of pages:xi, 122
RVK - Regensburg classification:ST 301, SK 840
Organizational units:Digital Engineering Fakultät / Hasso-Plattner-Institut für Digital Engineering GmbH
DDC classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
6 Technik, Medizin, angewandte Wissenschaften / 62 Ingenieurwissenschaften / 620 Ingenieurwissenschaften und zugeordnete Tätigkeiten
License (German):License LogoCC-BY - Namensnennung 4.0 International
Accept ✔
This website uses technically necessary session cookies. By continuing to use the website, you agree to this. You can find our privacy policy here.