TY - THES A1 - Bach, Christoph T1 - Improving statistical seismicity models T1 - Weiterentwicklung statistischer Seismizitätsmodelle N2 - Several mechanisms are proposed to be part of the earthquake triggering process, including static stress interactions and dynamic stress transfer. Significant differences of these mechanisms are particularly expected in the spatial distribution of aftershocks. However, testing the different hypotheses is challenging because it requires the consideration of the large uncertainties involved in stress calculations as well as the appropriate consideration of secondary aftershock triggering which is related to stress changes induced by smaller pre- and aftershocks. In order to evaluate the forecast capability of different mechanisms, I take the effect of smaller--magnitude earthquakes into account by using the epidemic type aftershock sequence (ETAS) model where the spatial probability distribution of direct aftershocks, if available, is correlated to alternative source information and mechanisms. Surface shaking, rupture geometry, and slip distributions are tested. As an approximation of the shaking level, ShakeMaps are used which are available in near real-time after a mainshock and thus could be used for first-order forecasts of the spatial aftershock distribution. Alternatively, the use of empirical decay laws related to minimum fault distance is tested and Coulomb stress change calculations based on published and random slip models. For comparison, the likelihood values of the different model combinations are analyzed in the case of several well-known aftershock sequences (1992 Landers, 1999 Hector Mine, 2004 Parkfield). The tests show that the fault geometry is the most valuable information for improving aftershock forecasts. Furthermore, they reveal that static stress maps can additionally improve the forecasts of off--fault aftershock locations, while the integration of ground shaking data could not upgrade the results significantly. In the second part of this work, I focused on a procedure to test the information content of inverted slip models. This allows to quantify the information gain if this kind of data is included in aftershock forecasts. For this purpose, the ETAS model based on static stress changes, which is introduced in part one, is applied. The forecast ability of the models is systematically tested for several earthquake sequences and compared to models using random slip distributions. The influence of subfault resolution and segment strike and dip is tested. Some of the tested slip models perform very good, in that cases almost no random slip models are found to perform better. Contrastingly, for some of the published slip models, almost all random slip models perform better than the published slip model. Choosing a different subfault resolution hardly influences the result, as long the general slip pattern is still reproducible. Whereas different strike and dip values strongly influence the results depending on the standard deviation chosen, which is applied in the process of randomly selecting the strike and dip values. N2 - Verschiedene Mechanismen werden für das Triggern von Erdbeben verantwortlich gemacht, darunter statische Spannungsänderungen und dynamischer Spannungstransfer. Deutliche Unterschiede zwischen diesen Mechanismen werden insbesondere in der räumlichen Nachbebenverteilung erwartet. Es ist allerdings schwierig diese Hypothesen zu überprüfen, da die großen Unsicherheiten der Spannungsberechnungen berücksichtigt werden müssen, ebenso wie das durch lokale sekundäre Spannungsänderungen hervorgerufene initiieren von sekundären Nachbeben. Um die Vorhersagekraft verschiedener Mechanismen zu beurteilen habe ich die Effekte von Erdbeben kleiner Magnitude durch Benutzen des "epidemic type aftershock sequence" (ETAS) Modells berücksichtigt. Dabei habe ich die Verteilung direkter Nachbeben, wenn verfügbar, mit alternativen Herdinformationen korreliert. Bodenbewegung, Bruchgeometrie und Slipmodelle werden getestet. Als Aproximation der Bodenbewegung werden ShakeMaps benutzt. Diese sind nach großen Erdbeben nahezu in Echtzeit verfügbar und können daher für vorläufige Vorhersagen der räumlichen Nachbebenverteilung benutzt werden. Alternativ können empirische Beziehungen als Funktion der minimalen Distanz zur Herdfläche benutzt werden oder Coulomb Spannungsänderungen basierend auf publizierten oder zufälligen Slipmodellen. Zum Vergleich werden die Likelihood Werte der Hybridmodelle im Falle mehrerer bekannter Nachbebensequenzen analysiert (1992 Landers, 1999 Hector Mine, 2004 Parkfield). Die Tests zeigen, dass die Herdgeometrie die wichtigste Zusatzinformation zur Verbesserung der Nachbebenvorhersage ist. Des Weiteren können statische Spannungsänderungen besonders die Vorhersage von Nachbeben in größerer Entfernung zur Bruchfläche verbessern, wohingegen die Einbeziehung von Bodenbewegungskarten die Ergebnisse nicht wesentlich verbessern konnte. Im zweiten Teil meiner Arbeit führe ich ein neues Verfahren zur Untersuchung des Informationsgehaltes von invertierten Slipmodellen ein. Dies ermöglicht die Quantifizierung des Informationsgewinns, der durch Einbeziehung dieser Daten in Nachbebenvorhersagen entsteht. Hierbei wird das im ersten Teil eingeführte erweiterte ETAS Modell benutzt, welches statische Spannungsänderung zur Vorhersage der räumlichen Nachbebenverteilung benutzt. Die Vorhersagekraft der Modelle wird systematisch anhand mehrerer Erdbebensequenzen untersucht und mit Modellen basierend auf zufälligen Slipverteilungen verglichen. Der Einfluss der Veränderung der Auflösung der Slipmodelle, sowie Streich- und Fallwinkel der Herdsegmente wird untersucht. Einige der betrachteten Slipmodelle korrelieren sehr gut, in diesen Fällen werden kaum zufällige Slipmodelle gefunden, welche die Nachbebenverteilung besser erklären. Dahingegen korrelieren bei einigen Beispielen nahezu alle zufälligen Slipmodelle besser als das publizierte Modell. Das Verändern der Auflösung der Bewegungsmodelle hat kaum Einfluss auf die Ergebnisse, solange die allgemeinen Slipmuster noch reproduzierbar sind, d.h. ein bis zwei größere Slipmaxima pro Segment. Dahingegen beeinflusst eine zufallsbasierte Änderung der Streich- und Fallwinkel der Segmente die Resultate stark, je nachdem welche Standardabweichung gewählt wurde. KW - Nachbeben KW - ETAS KW - Vorhersage KW - aftershock KW - ETAS KW - forecast Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-70591 ER - TY - THES A1 - Haider, Peter T1 - Prediction with Mixture Models T1 - Vorhersage mit Mischmodellen N2 - Learning a model for the relationship between the attributes and the annotated labels of data examples serves two purposes. Firstly, it enables the prediction of the label for examples without annotation. Secondly, the parameters of the model can provide useful insights into the structure of the data. If the data has an inherent partitioned structure, it is natural to mirror this structure in the model. Such mixture models predict by combining the individual predictions generated by the mixture components which correspond to the partitions in the data. Often the partitioned structure is latent, and has to be inferred when learning the mixture model. Directly evaluating the accuracy of the inferred partition structure is, in many cases, impossible because the ground truth cannot be obtained for comparison. However it can be assessed indirectly by measuring the prediction accuracy of the mixture model that arises from it. This thesis addresses the interplay between the improvement of predictive accuracy by uncovering latent cluster structure in data, and further addresses the validation of the estimated structure by measuring the accuracy of the resulting predictive model. In the application of filtering unsolicited emails, the emails in the training set are latently clustered into advertisement campaigns. Uncovering this latent structure allows filtering of future emails with very low false positive rates. In order to model the cluster structure, a Bayesian clustering model for dependent binary features is developed in this thesis. Knowing the clustering of emails into campaigns can also aid in uncovering which emails have been sent on behalf of the same network of captured hosts, so-called botnets. This association of emails to networks is another layer of latent clustering. Uncovering this latent structure allows service providers to further increase the accuracy of email filtering and to effectively defend against distributed denial-of-service attacks. To this end, a discriminative clustering model is derived in this thesis that is based on the graph of observed emails. The partitionings inferred using this model are evaluated through their capacity to predict the campaigns of new emails. Furthermore, when classifying the content of emails, statistical information about the sending server can be valuable. Learning a model that is able to make use of it requires training data that includes server statistics. In order to also use training data where the server statistics are missing, a model that is a mixture over potentially all substitutions thereof is developed. Another application is to predict the navigation behavior of the users of a website. Here, there is no a priori partitioning of the users into clusters, but to understand different usage scenarios and design different layouts for them, imposing a partitioning is necessary. The presented approach simultaneously optimizes the discriminative as well as the predictive power of the clusters. Each model is evaluated on real-world data and compared to baseline methods. The results show that explicitly modeling the assumptions about the latent cluster structure leads to improved predictions compared to the baselines. It is beneficial to incorporate a small number of hyperparameters that can be tuned to yield the best predictions in cases where the prediction accuracy can not be optimized directly. N2 - Das Lernen eines Modells für den Zusammenhang zwischen den Eingabeattributen und annotierten Zielattributen von Dateninstanzen dient zwei Zwecken. Einerseits ermöglicht es die Vorhersage des Zielattributs für Instanzen ohne Annotation. Andererseits können die Parameter des Modells nützliche Einsichten in die Struktur der Daten liefern. Wenn die Daten eine inhärente Partitionsstruktur besitzen, ist es natürlich, diese Struktur im Modell widerzuspiegeln. Solche Mischmodelle generieren Vorhersagen, indem sie die individuellen Vorhersagen der Mischkomponenten, welche mit den Partitionen der Daten korrespondieren, kombinieren. Oft ist die Partitionsstruktur latent und muss beim Lernen des Mischmodells mitinferiert werden. Eine direkte Evaluierung der Genauigkeit der inferierten Partitionsstruktur ist in vielen Fällen unmöglich, weil keine wahren Referenzdaten zum Vergleich herangezogen werden können. Jedoch kann man sie indirekt einschätzen, indem man die Vorhersagegenauigkeit des darauf basierenden Mischmodells misst. Diese Arbeit beschäftigt sich mit dem Zusammenspiel zwischen der Verbesserung der Vorhersagegenauigkeit durch das Aufdecken latenter Partitionierungen in Daten, und der Bewertung der geschätzen Struktur durch das Messen der Genauigkeit des resultierenden Vorhersagemodells. Bei der Anwendung des Filterns unerwünschter E-Mails sind die E-Mails in der Trainingsmende latent in Werbekampagnen partitioniert. Das Aufdecken dieser latenten Struktur erlaubt das Filtern zukünftiger E-Mails mit sehr niedrigen Falsch-Positiv-Raten. In dieser Arbeit wird ein Bayes'sches Partitionierunsmodell entwickelt, um diese Partitionierungsstruktur zu modellieren. Das Wissen über die Partitionierung von E-Mails in Kampagnen hilft auch dabei herauszufinden, welche E-Mails auf Veranlassen des selben Netzes von infiltrierten Rechnern, sogenannten Botnetzen, verschickt wurden. Dies ist eine weitere Schicht latenter Partitionierung. Diese latente Struktur aufzudecken erlaubt es, die Genauigkeit von E-Mail-Filtern zu erhöhen und sich effektiv gegen verteilte Denial-of-Service-Angriffe zu verteidigen. Zu diesem Zweck wird in dieser Arbeit ein diskriminatives Partitionierungsmodell hergeleitet, welches auf dem Graphen der beobachteten E-Mails basiert. Die mit diesem Modell inferierten Partitionierungen werden via ihrer Leistungsfähigkeit bei der Vorhersage der Kampagnen neuer E-Mails evaluiert. Weiterhin kann bei der Klassifikation des Inhalts einer E-Mail statistische Information über den sendenden Server wertvoll sein. Ein Modell zu lernen das diese Informationen nutzen kann erfordert Trainingsdaten, die Serverstatistiken enthalten. Um zusätzlich Trainingsdaten benutzen zu können, bei denen die Serverstatistiken fehlen, wird ein Modell entwickelt, das eine Mischung über potentiell alle Einsetzungen davon ist. Eine weitere Anwendung ist die Vorhersage des Navigationsverhaltens von Benutzern einer Webseite. Hier gibt es nicht a priori eine Partitionierung der Benutzer. Jedoch ist es notwendig, eine Partitionierung zu erzeugen, um verschiedene Nutzungsszenarien zu verstehen und verschiedene Layouts dafür zu entwerfen. Der vorgestellte Ansatz optimiert gleichzeitig die Fähigkeiten des Modells, sowohl die beste Partition zu bestimmen als auch mittels dieser Partition Vorhersagen über das Verhalten zu generieren. Jedes Modell wird auf realen Daten evaluiert und mit Referenzmethoden verglichen. Die Ergebnisse zeigen, dass das explizite Modellieren der Annahmen über die latente Partitionierungsstruktur zu verbesserten Vorhersagen führt. In den Fällen bei denen die Vorhersagegenauigkeit nicht direkt optimiert werden kann, erweist sich die Hinzunahme einer kleinen Anzahl von übergeordneten, direkt einstellbaren Parametern als nützlich. KW - maschinelles Lernen KW - Vorhersage KW - Clusteranalyse KW - Mischmodelle KW - machine learning KW - prediction KW - clustering KW - mixture models Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-69617 ER -