• search hit 40 of 1103
Back to Result List

Improving prediction accuracy using dynamic information

  • Accurately solving classification problems nowadays is likely to be the most relevant machine learning task. Binary classification separating two classes only is algorithmically simpler but has fewer potential applications as many real-world problems are multi-class. On the reverse, separating only a subset of classes simplifies the classification task. Even though existing multi-class machine learning algorithms are very flexible regarding the number of classes, they assume that the target set Y is fixed and cannot be restricted once the training is finished. On the other hand, existing state-of-the-art production environments are becoming increasingly interconnected with the advance of Industry 4.0 and related technologies such that additional information can simplify the respective classification problems. In light of this, the main aim of this thesis is to introduce dynamic classification that generalizes multi-class classification such that the target class set can be restricted arbitrarily to a non-empty class subset M of Y atAccurately solving classification problems nowadays is likely to be the most relevant machine learning task. Binary classification separating two classes only is algorithmically simpler but has fewer potential applications as many real-world problems are multi-class. On the reverse, separating only a subset of classes simplifies the classification task. Even though existing multi-class machine learning algorithms are very flexible regarding the number of classes, they assume that the target set Y is fixed and cannot be restricted once the training is finished. On the other hand, existing state-of-the-art production environments are becoming increasingly interconnected with the advance of Industry 4.0 and related technologies such that additional information can simplify the respective classification problems. In light of this, the main aim of this thesis is to introduce dynamic classification that generalizes multi-class classification such that the target class set can be restricted arbitrarily to a non-empty class subset M of Y at any time between two consecutive predictions. This task is solved by a combination of two algorithmic approaches. First, classifier calibration, which transforms predictions into posterior probability estimates that are intended to be well calibrated. The analysis provided focuses on monotonic calibration and in particular corrects wrong statements that appeared in the literature. It also reveals that bin-based evaluation metrics, which became popular in recent years, are unjustified and should not be used at all. Next, the validity of Platt scaling, which is the most relevant parametric calibration approach, is analyzed in depth. In particular, its optimality for classifier predictions distributed according to four different families of probability distributions as well its equivalence with Beta calibration up to a sigmoidal preprocessing are proven. For non-monotonic calibration, extended variants on kernel density estimation and the ensemble method EKDE are introduced. Finally, the calibration techniques are evaluated using a simulation study with complete information as well as on a selection of 46 real-world data sets. Building on this, classifier calibration is applied as part of decomposition-based classification that aims to reduce multi-class problems to simpler (usually binary) prediction tasks. For the involved fusing step performed at prediction time, a new approach based on evidence theory is presented that uses classifier calibration to model mass functions. This allows the analysis of decomposition-based classification against a strictly formal background and to prove closed-form equations for the overall combinations. Furthermore, the same formalism leads to a consistent integration of dynamic class information, yielding a theoretically justified and computationally tractable dynamic classification model. The insights gained from this modeling are combined with pairwise coupling, which is one of the most relevant reduction-based classification approaches, such that all individual predictions are combined with a weight. This not only generalizes existing works on pairwise coupling but also enables the integration of dynamic class information. Lastly, a thorough empirical study is performed that compares all newly introduced approaches to existing state-of-the-art techniques. For this, evaluation metrics for dynamic classification are introduced that depend on corresponding sampling strategies. Thereafter, these are applied during a three-part evaluation. First, support vector machines and random forests are applied on 26 data sets from the UCI Machine Learning Repository. Second, two state-of-the-art deep neural networks are evaluated on five benchmark data sets from a relatively recent reference work. Here, computationally feasible strategies to apply the presented algorithms in combination with large-scale models are particularly relevant because a naive application is computationally intractable. Finally, reference data from a real-world process allowing the inclusion of dynamic class information are collected and evaluated. The results show that in combination with support vector machines and random forests, pairwise coupling approaches yield the best results, while in combination with deep neural networks, differences between the different approaches are mostly small to negligible. Most importantly, all results empirically confirm that dynamic classification succeeds in improving the respective prediction accuracies. Therefore, it is crucial to pass dynamic class information in respective applications, which requires an appropriate digital infrastructure.show moreshow less
  • Klassifikationsprobleme akkurat zu lösen ist heutzutage wahrscheinlich die relevanteste Machine-Learning-Aufgabe. Binäre Klassifikation zur Unterscheidung von nur zwei Klassen ist algorithmisch einfacher, hat aber weniger potenzielle Anwendungen, da in der Praxis oft Mehrklassenprobleme auftreten. Demgegenüber vereinfacht die Unterscheidung nur innerhalb einer Untermenge von Klassen die Problemstellung. Obwohl viele existierende Machine-Learning-Algorithmen sehr flexibel mit Blick auf die Anzahl der Klassen sind, setzen sie voraus, dass die Zielmenge Y fest ist und nicht mehr eingeschränkt werden kann, sobald das Training abgeschlossen ist. Allerdings sind moderne Produktionsumgebungen mit dem Voranschreiten von Industrie 4.0 und entsprechenden Technologien zunehmend digital verbunden, sodass zusätzliche Informationen die entsprechenden Klassifikationsprobleme vereinfachen können. Vor diesem Hintergrund ist das Hauptziel dieser Arbeit, dynamische Klassifikation als Verallgemeinerung von Mehrklassen-Klassifikation einzuführen, bei derKlassifikationsprobleme akkurat zu lösen ist heutzutage wahrscheinlich die relevanteste Machine-Learning-Aufgabe. Binäre Klassifikation zur Unterscheidung von nur zwei Klassen ist algorithmisch einfacher, hat aber weniger potenzielle Anwendungen, da in der Praxis oft Mehrklassenprobleme auftreten. Demgegenüber vereinfacht die Unterscheidung nur innerhalb einer Untermenge von Klassen die Problemstellung. Obwohl viele existierende Machine-Learning-Algorithmen sehr flexibel mit Blick auf die Anzahl der Klassen sind, setzen sie voraus, dass die Zielmenge Y fest ist und nicht mehr eingeschränkt werden kann, sobald das Training abgeschlossen ist. Allerdings sind moderne Produktionsumgebungen mit dem Voranschreiten von Industrie 4.0 und entsprechenden Technologien zunehmend digital verbunden, sodass zusätzliche Informationen die entsprechenden Klassifikationsprobleme vereinfachen können. Vor diesem Hintergrund ist das Hauptziel dieser Arbeit, dynamische Klassifikation als Verallgemeinerung von Mehrklassen-Klassifikation einzuführen, bei der die Zielmenge jederzeit zwischen zwei aufeinanderfolgenden Vorhersagen zu einer beliebigen, nicht leeren Teilmenge eingeschränkt werden kann. Diese Aufgabe wird durch die Kombination von zwei algorithmischen Ansätzen gelöst. Zunächst wird Klassifikator-Kalibrierung eingesetzt, mittels der Vorhersagen in Schätzungen der A-Posteriori-Wahrscheinlichkeiten transformiert werden, die gut kalibriert sein sollen. Die durchgeführte Analyse zielt auf monotone Kalibrierung ab und korrigiert insbesondere Falschaussagen, die in Referenzarbeiten veröffentlicht wurden. Außerdem zeigt sie, dass Bin-basierte Fehlermaße, die in den letzten Jahren populär geworden sind, ungerechtfertigt sind und nicht verwendet werden sollten. Weiterhin wird die Validität von Platt Scaling, dem relevantesten, parametrischen Kalibrierungsverfahren, genau analysiert. Insbesondere wird seine Optimalität für Klassifikatorvorhersagen, die gemäß vier Familien von Verteilungsfunktionen verteilt sind, sowie die Äquivalenz zu Beta-Kalibrierung bis auf eine sigmoidale Vorverarbeitung gezeigt. Für nicht monotone Kalibrierung werden erweiterte Varianten der Kerndichteschätzung und die Ensemblemethode EKDE eingeführt. Schließlich werden die Kalibrierungsverfahren im Rahmen einer Simulationsstudie mit vollständiger Information sowie auf 46 Referenzdatensätzen ausgewertet. Hierauf aufbauend wird Klassifikator-Kalibrierung als Teil von reduktionsbasierter Klassifikation eingesetzt, die zum Ziel hat, Mehrklassenprobleme auf einfachere (üblicherweise binäre) Entscheidungsprobleme zu reduzieren. Für den zugehörigen, während der Vorhersage notwendigen Fusionsschritt wird ein neuer, auf Evidenztheorie basierender Ansatz eingeführt, der Klassifikator-Kalibrierung zur Modellierung von Massefunktionen nutzt. Dies ermöglicht die Analyse von reduktionsbasierter Klassifikation in einem formalen Kontext sowie geschlossene Ausdrücke für die entsprechenden Gesamtkombinationen zu beweisen. Zusätzlich führt derselbe Formalismus zu einer konsistenten Integration von dynamischen Klasseninformationen, sodass sich ein theoretisch fundiertes und effizient zu berechnendes, dynamisches Klassifikationsmodell ergibt. Die hierbei gewonnenen Einsichten werden mit Pairwise Coupling, einem der relevantesten Verfahren für reduktionsbasierte Klassifikation, verbunden, wobei alle individuellen Vorhersagen mit einer Gewichtung kombiniert werden. Dies verallgemeinert nicht nur existierende Ansätze für Pairwise Coupling, sondern führt darüber hinaus auch zu einer Integration von dynamischen Klasseninformationen. Abschließend wird eine umfangreiche empirische Studie durchgeführt, die alle neu eingeführten Verfahren mit denen aus dem Stand der Forschung vergleicht. Hierfür werden Bewertungsfunktionen für dynamische Klassifikation eingeführt, die auf Sampling-Strategien basieren. Anschließend werden diese im Rahmen einer dreiteiligen Studie angewendet. Zunächst werden Support Vector Machines und Random Forests auf 26 Referenzdatensätzen aus dem UCI Machine Learning Repository angewendet. Im zweiten Teil werden zwei moderne, tiefe neuronale Netze auf fünf Referenzdatensätzen aus einer relativ aktuellen Referenzarbeit ausgewertet. Hierbei sind insbesondere Strategien relevant, die die Anwendung der eingeführten Verfahren in Verbindung mit großen Modellen ermöglicht, da eine naive Vorgehensweise nicht durchführbar ist. Schließlich wird ein Referenzdatensatz aus einem Produktionsprozess gewonnen, der die Integration von dynamischen Klasseninformationen ermöglicht, und ausgewertet. Die Ergebnisse zeigen, dass Pairwise-Coupling-Verfahren in Verbindung mit Support Vector Machines und Random Forests die besten Ergebnisse liefern, während in Verbindung mit tiefen neuronalen Netzen die Unterschiede zwischen den Verfahren oft klein bis vernachlässigbar sind. Am wichtigsten ist, dass alle Ergebnisse zeigen, dass dynamische Klassifikation die entsprechenden Erkennungsgenauigkeiten verbessert. Daher ist es entscheidend, dynamische Klasseninformationen in den entsprechenden Anwendungen zur Verfügung zu stellen, was eine entsprechende digitale Infrastruktur erfordert.show moreshow less

Download full text files

  • SHA-512:9723d444a6929be1d68a331bc2535e42ea5f2ee5a364b8c51a6cbd70a646fea4a08b191a0751e0d9519cb5a99e7586cee6d2746df4f32fb81a542ee7aa9f1df5

Export metadata

Metadaten
Author details:Björn BökenORCiDGND
URN:urn:nbn:de:kobv:517-opus4-585125
DOI:https://doi.org/10.25932/publishup-58512
Reviewer(s):Norbert GronauORCiDGND, Hanna Katharina TheuerORCiDGND, Hanno GottschalkORCiDGND
Supervisor(s):Norbert Gronau
Publication type:Doctoral Thesis
Language:English
Publication year:2022
Publishing institution:Universität Potsdam
Granting institution:Universität Potsdam
Date of final exam:2023/02/13
Release date:2023/04/25
Tag:Deep Learning; Dempster-Shafer-Theorie; Evidenztheorie; Klassifikator-Kalibrierung; Mehrklassen-Klassifikation; dynamische Klassifikation
Deep Learning; Dempster–Shafer theory; classifier calibration; dynamic classification; evidence theory; multi-class classification
Number of pages:xii, 160
RVK - Regensburg classification:ST 301, AN 93400
Organizational units:Mathematisch-Naturwissenschaftliche Fakultät / Institut für Informatik und Computational Science
Wirtschafts- und Sozialwissenschaftliche Fakultät / Wirtschaftswissenschaften
DDC classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
MSC classification:68-XX COMPUTER SCIENCE (For papers involving machine computations and programs in a specific mathematical area, see Section {04 in that areag 68-00 General reference works (handbooks, dictionaries, bibliographies, etc.)
License (German):License LogoKeine öffentliche Lizenz: Unter Urheberrechtsschutz
Accept ✔
This website uses technically necessary session cookies. By continuing to use the website, you agree to this. You can find our privacy policy here.