TY - BOOK A1 - Strohe, Hans Gerhard T1 - Time series analysis BT - textbook for students of economics and business administration ; [part 2] KW - Zeitreihenanalyse KW - Stationärer Prozess KW - Spektraldichte KW - Autokorrelation KW - Time Series Analysis KW - Stationary Stochastic Processes KW - ARMA Processes KW - Autocorrelation KW - Spectral Density KW - ARIMA Models KW - ARCH KW - GARCH Y1 - 2004 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-6601 ER - TY - THES A1 - Rätsch, Gunnar T1 - Robust boosting via convex optimization N2 - In dieser Arbeit werden statistische Lernprobleme betrachtet. Lernmaschinen extrahieren Informationen aus einer gegebenen Menge von Trainingsmustern, so daß sie in der Lage sind, Eigenschaften von bisher ungesehenen Mustern - z.B. eine Klassenzugehörigkeit - vorherzusagen. Wir betrachten den Fall, bei dem die resultierende Klassifikations- oder Regressionsregel aus einfachen Regeln - den Basishypothesen - zusammengesetzt ist. Die sogenannten Boosting Algorithmen erzeugen iterativ eine gewichtete Summe von Basishypothesen, die gut auf ungesehenen Mustern vorhersagen. Die Arbeit behandelt folgende Sachverhalte: o Die zur Analyse von Boosting-Methoden geeignete Statistische Lerntheorie. Wir studieren lerntheoretische Garantien zur Abschätzung der Vorhersagequalität auf ungesehenen Mustern. Kürzlich haben sich sogenannte Klassifikationstechniken mit großem Margin als ein praktisches Ergebnis dieser Theorie herausgestellt - insbesondere Boosting und Support-Vektor-Maschinen. Ein großer Margin impliziert eine hohe Vorhersagequalität der Entscheidungsregel. Deshalb wird analysiert, wie groß der Margin bei Boosting ist und ein verbesserter Algorithmus vorgeschlagen, der effizient Regeln mit maximalem Margin erzeugt. o Was ist der Zusammenhang von Boosting und Techniken der konvexen Optimierung? Um die Eigenschaften der entstehenden Klassifikations- oder Regressionsregeln zu analysieren, ist es sehr wichtig zu verstehen, ob und unter welchen Bedingungen iterative Algorithmen wie Boosting konvergieren. Wir zeigen, daß solche Algorithmen benutzt werden koennen, um sehr große Optimierungsprobleme mit Nebenbedingungen zu lösen, deren Lösung sich gut charakterisieren laesst. Dazu werden Verbindungen zum Wissenschaftsgebiet der konvexen Optimierung aufgezeigt und ausgenutzt, um Konvergenzgarantien für eine große Familie von Boosting-ähnlichen Algorithmen zu geben. o Kann man Boosting robust gegenüber Meßfehlern und Ausreissern in den Daten machen? Ein Problem bisheriger Boosting-Methoden ist die relativ hohe Sensitivität gegenüber Messungenauigkeiten und Meßfehlern in der Trainingsdatenmenge. Um dieses Problem zu beheben, wird die sogenannte 'Soft-Margin' Idee, die beim Support-Vector Lernen schon benutzt wird, auf Boosting übertragen. Das führt zu theoretisch gut motivierten, regularisierten Algorithmen, die ein hohes Maß an Robustheit aufweisen. o Wie kann man die Anwendbarkeit von Boosting auf Regressionsprobleme erweitern? Boosting-Methoden wurden ursprünglich für Klassifikationsprobleme entwickelt. Um die Anwendbarkeit auf Regressionsprobleme zu erweitern, werden die vorherigen Konvergenzresultate benutzt und neue Boosting-ähnliche Algorithmen zur Regression entwickelt. Wir zeigen, daß diese Algorithmen gute theoretische und praktische Eigenschaften haben. o Ist Boosting praktisch anwendbar? Die dargestellten theoretischen Ergebnisse werden begleitet von Simulationsergebnissen, entweder, um bestimmte Eigenschaften von Algorithmen zu illustrieren, oder um zu zeigen, daß sie in der Praxis tatsächlich gut funktionieren und direkt einsetzbar sind. Die praktische Relevanz der entwickelten Methoden wird in der Analyse chaotischer Zeitreihen und durch industrielle Anwendungen wie ein Stromverbrauch-Überwachungssystem und bei der Entwicklung neuer Medikamente illustriert. N2 - In this work we consider statistical learning problems. A learning machine aims to extract information from a set of training examples such that it is able to predict the associated label on unseen examples. We consider the case where the resulting classification or regression rule is a combination of simple rules - also called base hypotheses. The so-called boosting algorithms iteratively find a weighted linear combination of base hypotheses that predict well on unseen data. We address the following issues: o The statistical learning theory framework for analyzing boosting methods. We study learning theoretic guarantees on the prediction performance on unseen examples. Recently, large margin classification techniques emerged as a practical result of the theory of generalization, in particular Boosting and Support Vector Machines. A large margin implies a good generalization performance. Hence, we analyze how large the margins in boosting are and find an improved algorithm that is able to generate the maximum margin solution. o How can boosting methods be related to mathematical optimization techniques? To analyze the properties of the resulting classification or regression rule, it is of high importance to understand whether and under which conditions boosting converges. We show that boosting can be used to solve large scale constrained optimization problems, whose solutions are well characterizable. To show this, we relate boosting methods to methods known from mathematical optimization, and derive convergence guarantees for a quite general family of boosting algorithms. o How to make Boosting noise robust? One of the problems of current boosting techniques is that they are sensitive to noise in the training sample. In order to make boosting robust, we transfer the soft margin idea from support vector learning to boosting. We develop theoretically motivated regularized algorithms that exhibit a high noise robustness. o How to adapt boosting to regression problems? Boosting methods are originally designed for classification problems. To extend the boosting idea to regression problems, we use the previous convergence results and relations to semi-infinite programming to design boosting-like algorithms for regression problems. We show that these leveraging algorithms have desirable theoretical and practical properties. o Can boosting techniques be useful in practice? The presented theoretical results are guided by simulation results either to illustrate properties of the proposed algorithms or to show that they work well in practice. We report on successful applications in a non-intrusive power monitoring system, chaotic time series analysis and a drug discovery process. --- Anmerkung: Der Autor ist Träger des von der Mathematisch-Naturwissenschaftlichen Fakultät der Universität Potsdam vergebenen Michelson-Preises für die beste Promotion des Jahres 2001/2002. KW - Boosting KW - Klassifikation mit großem Margin KW - Support-Vector Lernen KW - Regression KW - Regularisierung KW - Mathematische Optimierung KW - Stromverbrauchüberwachung KW - Boosting KW - Large Margin Classification KW - Support Vectors KW - Regression KW - Regularization KW - Mathematical Optimization KW - Power Monitoring KW - Time Series Analysis Y1 - 2001 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-0000399 ER - TY - THES A1 - Donner, Reik Volker T1 - Advanced methods for analysing and modelling multivariate palaeoclimatic time series T1 - Moderne Verfahren zur Analyse und Modellierung multivariater paläoklimatischer Zeitreihen N2 - The separation of natural and anthropogenically caused climatic changes is an important task of contemporary climate research. For this purpose, a detailed knowledge of the natural variability of the climate during warm stages is a necessary prerequisite. Beside model simulations and historical documents, this knowledge is mostly derived from analyses of so-called climatic proxy data like tree rings or sediment as well as ice cores. In order to be able to appropriately interpret such sources of palaeoclimatic information, suitable approaches of statistical modelling as well as methods of time series analysis are necessary, which are applicable to short, noisy, and non-stationary uni- and multivariate data sets. Correlations between different climatic proxy data within one or more climatological archives contain significant information about the climatic change on longer time scales. Based on an appropriate statistical decomposition of such multivariate time series, one may estimate dimensions in terms of the number of significant, linear independent components of the considered data set. In the presented work, a corresponding approach is introduced, critically discussed, and extended with respect to the analysis of palaeoclimatic time series. Temporal variations of the resulting measures allow to derive information about climatic changes. For an example of trace element abundances and grain-size distributions obtained near the Cape Roberts (Eastern Antarctica), it is shown that the variability of the dimensions of the investigated data sets clearly correlates with the Oligocene/Miocene transition about 24 million years before present as well as regional deglaciation events. Grain-size distributions in sediments give information about the predominance of different transportation as well as deposition mechanisms. Finite mixture models may be used to approximate the corresponding distribution functions appropriately. In order to give a complete description of the statistical uncertainty of the parameter estimates in such models, the concept of asymptotic uncertainty distributions is introduced. The relationship with the mutual component overlap as well as with the information missing due to grouping and truncation of the measured data is discussed for a particular geological example. An analysis of a sequence of grain-size distributions obtained in Lake Baikal reveals that there are certain problems accompanying the application of finite mixture models, which cause an extended climatological interpretation of the results to fail. As an appropriate alternative, a linear principal component analysis is used to decompose the data set into suitable fractions whose temporal variability correlates well with the variations of the average solar insolation on millenial to multi-millenial time scales. The abundance of coarse-grained material is obviously related to the annual snow cover, whereas a significant fraction of fine-grained sediments is likely transported from the Taklamakan desert via dust storms in the spring season. N2 - Die Separation natürlicher und anthropogen verursachter Klimaänderungen ist eine bedeutende Aufgabe der heutigen Klimaforschung. Hierzu ist eine detaillierte Kenntnis der natürlichen Klimavariabilität während Warmzeiten unerlässlich. Neben Modellsimulationen und historischen Aufzeichnungen spielt hierfür die Analyse von sogenannten Klima-Stellvertreterdaten eine besondere Rolle, die anhand von Archiven wie Baumringen oder Sediment- und Eisbohrkernen erhoben werden. Um solche Quellen paläoklimatischer Informationen vernünftig interpretieren zu können, werden geeignete statistische Modellierungsansätze sowie Methoden der Zeitreihenanalyse benötigt, die insbesondere auf kurze, verrauschte und instationäre uni- und multivariate Datensätze anwendbar sind. Korrelationen zwischen verschiedenen Stellvertreterdaten eines oder mehrerer klimatologischer Archive enthalten wesentliche Informationen über den Klimawandel auf großen Zeitskalen. Auf der Basis einer geeigneten Zerlegung solcher multivariater Zeitreihen lassen sich Dimensionen schätzen als die Zahl der signifikanten, linear unabhängigen Komponenten des Datensatzes. Ein entsprechender Ansatz wird in der vorliegenden Arbeit vorgestellt, kritisch diskutiert und im Hinblick auf die Analyse von paläoklimatischen Zeitreihen weiterentwickelt. Zeitliche Variationen der entsprechenden Maße erlauben Rückschlüsse auf klimatische Veränderungen. Am Beispiel von Elementhäufigkeiten und Korngrößenverteilungen des Cape-Roberts-Gebietes in der Ostantarktis wird gezeigt, dass die Variabilität der Dimension der untersuchten Datensätze klar mit dem Übergang vom Oligozän zum Miozän vor etwa 24 Millionen Jahren sowie regionalen Abschmelzereignissen korreliert. Korngrößenverteilungen in Sedimenten erlauben Rückschlüsse auf die Dominanz verschiedenen Transport- und Ablagerungsmechanismen. Mit Hilfe von Finite-Mixture-Modellen lassen sich gemessene Verteilungsfunktionen geeignet approximieren. Um die statistische Unsicherheit der Parameterschätzung in solchen Modellen umfassend zu beschreiben, wird das Konzept der asymptotischen Unsicherheitsverteilungen eingeführt. Der Zusammenhang mit dem Überlapp der einzelnen Komponenten und aufgrund des Abschneidens und Binnens der gemessenen Daten verloren gehenden Informationen wird anhand eines geologischen Beispiels diskutiert. Die Analyse einer Sequenz von Korngrößenverteilungen aus dem Baikalsee zeigt, dass bei der Anwendung von Finite-Mixture-Modellen bestimmte Probleme auftreten, die eine umfassende klimatische Interpretation der Ergebnisse verhindern. Stattdessen wird eine lineare Hauptkomponentenanalyse verwendet, um den Datensatz in geeignete Fraktionen zu zerlegen, deren zeitliche Variabilität stark mit den Schwankungen der mittleren Sonneneinstrahlung auf der Zeitskala von Jahrtausenden bis Jahrzehntausenden korreliert. Die Häufigkeit von grobkörnigem Material hängt offenbar mit der jährlichen Schneebedeckung zusammen, während feinkörniges Material möglicherweise zu einem bestimmten Anteil durch Frühjahrsstürme aus der Taklamakan-Wüste herantransportiert wird. KW - Zeitreihenanalyse KW - Paläoklimatologie KW - Multivariate Statistik KW - Korngrößenverteilungen KW - Time Series Analysis KW - Palaeoclimatology KW - Multivariate Statistics KW - Grain-size distributions Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-12560 ER -