TY - THES A1 - Koç, Gamze T1 - A comprehensive analysis of severe flood events in Turkey T1 - Eine ausführliche Analyse schwerer Flutereignisse in der Türkei BT - event documentation, triggering mechanisms and impact modelling BT - Ereignisdokumentation, Auslösemechanismen und Auswirkungsmodellierung N2 - Over the past decades, natural hazards, many of which are aggravated by climate change and reveal an increasing trend in frequency and intensity, have caused significant human and economic losses and pose a considerable obstacle to sustainable development. Hence, dedicated action toward disaster risk reduction is needed to understand the underlying drivers and create efficient risk mitigation plans. Such action is requested by the Sendai Framework for Disaster Risk Reduction 2015-2030 (SFDRR), a global agreement launched in 2015 that establishes stating priorities for action, e.g. an improved understanding of disaster risk. Turkey is one of the SFDRR contracting countries and has been severely affected by many natural hazards, in particular earthquakes and floods. However, disproportionately little is known about flood hazards and risks in Turkey. Therefore, this thesis aims to carry out a comprehensive analysis of flood hazards for the first time in Turkey from triggering drivers to impacts. It is intended to contribute to a better understanding of flood risks, improvements of flood risk mitigation and the facilitated monitoring of progress and achievements while implementing the SFDRR. In order to investigate the occurrence and severity of flooding in comparison to other natural hazards in Turkey and provide an overview of the temporal and spatial distribution of flood losses, the Turkey Disaster Database (TABB) was examined for the years 1960-2014. The TABB database was reviewed through comparison with the Emergency Events Database (EM-DAT), the Dartmouth Flood Observatory database, the scientific literature and news archives. In addition, data on the most severe flood events between 1960 and 2014 were retrieved. These served as a basis for analyzing triggering mechanisms (i.e. atmospheric circulation and precipitation amounts) and aggravating pathways (i.e. topographic features, catchment size, land use types and soil properties). For this, a new approach was developed and the events were classified using hierarchical cluster analyses to identify the main influencing factor per event and provide additional information about the dominant flood pathways for severe floods. The main idea of the study was to start with the event impacts based on a bottom-up approach and identify the causes that created damaging events, instead of applying a model chain with long-term series as input and searching for potentially impacting events as model outcomes. However, within the frequency analysis of the flood-triggering circulation pattern types, it was discovered that events in terms of heavy precipitation were not included in the list of most severe floods, i.e. their impacts were not recorded in national and international loss databases but were mentioned in news archives and reported by the Turkish State Meteorological Service. This finding challenges bottom-up modelling approaches and underlines the urgent need for consistent event and loss documentation. Therefore, as a next step, the aim was to enhance the flood loss documentation by calibrating, validating and applying the United Nations Office for Disaster Risk Reduction (UNDRR) loss estimation method for the recent severe flood events (2015-2020). This provided, a consistent flood loss estimation model for Turkey, allowing governments to estimate losses as quickly as possible after events, e.g. to better coordinate financial aid. This thesis reveals that, after earthquakes, floods have the second most destructive effects in Turkey in terms of human and economic impacts, with over 800 fatalities and US$ 885.7 million in economic losses between 1960 and 2020, and that more attention should be paid on the national scale. The clustering results of the dominant flood-producing mechanisms (e.g. circulation pattern types, extreme rainfall, sudden snowmelt) present crucial information regarding the source and pathway identification, which can be used as base information for hazard identification in the preliminary risk assessment process. The implementation of the UNDRR loss estimation model shows that the model with country-specific parameters, calibrated damage ratios and sufficient event documentation (i.e. physically damaged units) can be recommended in order to provide first estimates of the magnitude of direct economic losses, even shortly after events have occurred, since it performed well when estimates were compared to documented losses. The presented results can contribute to improving the national disaster loss database in Turkey and thus enable a better monitoring of the national progress and achievements with regard to the targets stated by the SFDRR. In addition, the outcomes can be used to better characterize and classify flood events. Information on the main underlying factors and aggravating flood pathways further supports the selection of suitable risk reduction policies. All input variables used in this thesis were obtained from publicly available data. The results are openly accessible and can be used for further research. As an overall conclusion, it can be stated that consistent loss data collection and better event documentation should gain more attention for a reliable monitoring of the implementation of the SFDRR. Better event documentation should be established according to a globally accepted standard for disaster classification and loss estimation in Turkey. Ultimately, this enables stakeholders to create better risk mitigation actions based on clear hazard definitions, flood event classification and consistent loss estimations. N2 - In den letzten Jahrzehnten verursachten Naturgefahren hohe humanitäre und wirtschaftliche Verluste, wobei viele dieser Ereignisse durch den Klimawandel verstärkt werden und einen zunehmenden Trend in Häufigkeit und Schwere aufweisen. Daher sind gezielte Verfahren zur Reduzierung von Katastrophenrisiken erforderlich, um zugrundeliegende Treiber zu verstehen und effektive Risikominderungspläne zu erstellen. Solche Verfahren werden durch das Sendai-Rahmenwerk für Katastrophenvorsorge 2015-2030 (SFDRR) eingefordert. Das SFDRR ist, ein internationales Rahmenwerk, das 2015 verabschiedet wurde und prioritäre Maßnahmen festlegt, z.B. eine Verbesserung der Wissensgrundlagen zum Katastrophenrisiko. Die Türkei ist eines der SFDRR-Vertragsländer und wurde in der Vergangenheit von vielen Naturgefahren, insbesondere Erdbeben und Überschwemmungen schwer getroffen. Über die Hochwassergefahren und -risiken in der Türkei ist jedoch vergleichsweise wenig bekannt. In dieser Arbeit wird daher zum ersten Mal eine umfassende Analyse der Hochwassergefahren in der Türkei durchgeführt, von den auslösenden Ursachen bis hin zu den Auswirkungen. Ziel ist es, das Verständnis über Hochwasserrisiken zu verbessern, Studien zur Minderung des Hochwasserrisikos anzuregen und das Monitoring der Fortschritte und Zielerreichung bei der Umsetzung des SFDRR zu erleichtern. Um das Auftreten und die Stärke von Überschwemmungen im Vergleich zu anderen Naturgefahren in der Türkei zu untersuchen und einen Überblick über die raumzeitliche Verteilung von Hochwasserschäden, wurde die Turkey Disaster Database (TABB) für den Zeitraum 1960 bis 2014 ausgewertet. Die TABB Datenbank wurde durch Vergleiche mit der Emergency Events Datenbank (EM-DAT), der Dartmouth Flood Observatory Datenbank, wissenschaftlicher Literatur und Nachrichtenarchive überprüft. Zudem wurden die stärksten Überschwemmungen zwischen 1960 und 2014 identifiziert. Diese bildeten die Basis für eine Analyse der Auslösemechanismen (bspw. atmosphärische Zirkulationsmuster und Niederschlagsmengen) und verstärkende Wirkungspfade (z.B. topographische Eigenschaften, Größe der Einzugsgebiete, Landnutzung und Bodeneigenschaften). Dafür wurde ein neues Verfahren entwickelt, und die Ereignisse wurden mithilfe von hierarchischen Clusteranalysen klassifiziert, um die Haupteinflussfaktoren pro Ereignis zu identifizieren und zusätzliche Informationen über die dominanten Wirkungspfade bei schweren Überschwemmungen bereitzustellen. Die grundlegende Idee dieser Arbeit bestand darin, bei den Ereignisauswirkungen als Bottom-up-Ansatz zu beginnen und die Ursachen für Schadensereignisse zu identifizieren, anstatt eine Modellkette mit Langzeitreihen als Eingabe anzuwenden und darin nach potenziellen Schadensereignissen zu suchen. Bei der Häufigkeitsanalyse von hochwasserauslösenden Zirkulationsmustern wurde jedoch festgestellt, dass einige schwer Niederschlagsereignisse nicht in der Liste der schwersten Hochwasserereignisse waren, d.h., ihre Auswirkungen waren nicht in nationalen und internationalen Schadensdatenbanken dokumentiert, wurden jedoch in Nachrichtenarchiven erwähnt und vom türkischen staatlichen Wetterdienst gemeldet. Dieses Erkenntnis stellt den Bottom-up-Modelansatz in Frage und unterstreicht die Dringlichkeit einer konsistenten Ereignis- und Schadensdokumentation. Daher wurde im nächsten Schritt gezielt das Schadenmodell der Vereinten Nationen für Katastrophenvorsorge (UNDRR) für kürzlich aufgetretene starke Flutereignisse (2015-2020) angepasst, validiert und angewendet. Damit wurde ein konsistentes Hochwasserschadenmodell für die Türkei bereitgestellt, das es den Behörden ermöglicht, Verluste so schnell wie möglich nach Ereignissen abzuschätzen, zum Beispiel um eine bessere Koordination von finanziellen Hilfen zu gewährleisten. Diese Arbeit zeigt, dass Überschwemmungen mit mehr als 800 Todesfällen und 885,7 Millionen US Dollar wirtschaftlichen Schaden zwischen 1960 und 2020 nach Erdbeben den zweit höchsten zerstörerischen Effekt in der Türkei in Bezug auf humanitäre und wirtschaftliche Auswirkungen haben. Daher sollte dieses Thema mehr Aufmerksamkeit auf nationaler Ebene erhalten. Die Cluster-Ergebnisse der dominanten hochwasser-auslösenden Mechanismen (z.B. Zirkulationsmuster, Starkniederschlag, plötzliche Schneeschmelze) erhalten wichtige Informationen zur Quell- und Pfad-Identifikation, welche als Basisinformation für Gefahren-identifikation in der vorläufigen Risikoeinschätzung dienen kann. Die Implementierung des UNDRR-Schadenmodells zeigt, dass das Modell mit länderspezifischen Parametern, kalibrierten Schadensgraden und ausreichender Ereignisdokumentation (d.h. physischer geschädigte Einheiten) empfohlen werden kann, um erste Schätzungen zur Höhe der direkten wirtschaftlichen Schäden bereitzustellen -- auch unmittelbar nach Eintreten von Ereignissen, da die Modellschätzungen im Vergleich mit dokumentierten Verlusten gut übereinstimmten. Die präsentierten Ergebnisse können dazu beitragen, die nationale Schadensdatenbank der Türkei zu verbessern, und somit ein besseres Monitoring der nationalen Fortschritte und Erfolge im Hinblick auf die Ziele des SFDRR ermöglichen. Zusätzlich können die Ergebnisse für eine bessere Charakterisierung und Klassifizierung von Hochwasserereignissen verwendet werden. Informationen zu den zugrundeliegenden Einflussfaktoren und verstärkenden Wirkungspfaden unterstützen die Auswahl geeigneter Risikomanagementstrategien. Alle Eingabevariablen dieser Arbeit wurden aus öffentlich verfügbaren Daten bezogen. Die Ergebnisse sind zugänglich und können für die weitere Forschung verwendet werden. Insgesamt konnte festgestellt werden, dass die konsistente Erfassung von Schadensdaten und eine bessere Ereignisdokumentation mehr Beachtung finden muss, um die Implementierung des SFDRR verlässlich zu überwachen. Bessere Ereignisdokumentationen sollten nach einem weltweit anerkannten Standard für Gefahrenklassifizierung und Schadensabschätzung in der Türkei etabliert werden. Letztendlich ermöglicht dies den Verantwortlichen auf Basis von eindeutigen Gefahrendefinitionen, Hochwasser-Ereignisklassifizierungen und konsistenten Schadenschätzungen bessere Maßnahmen zur Risikominderung zu erarbeiten. KW - Flood hazards KW - Turkey KW - Triggering mechanisms KW - Cluster analysis KW - Hochwassergefahren KW - Türkei KW - Auslösemechanismen KW - Clusteranalyse KW - Impact modelling KW - Schadenmodell Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517853 ER - TY - THES A1 - Haider, Peter T1 - Prediction with Mixture Models T1 - Vorhersage mit Mischmodellen N2 - Learning a model for the relationship between the attributes and the annotated labels of data examples serves two purposes. Firstly, it enables the prediction of the label for examples without annotation. Secondly, the parameters of the model can provide useful insights into the structure of the data. If the data has an inherent partitioned structure, it is natural to mirror this structure in the model. Such mixture models predict by combining the individual predictions generated by the mixture components which correspond to the partitions in the data. Often the partitioned structure is latent, and has to be inferred when learning the mixture model. Directly evaluating the accuracy of the inferred partition structure is, in many cases, impossible because the ground truth cannot be obtained for comparison. However it can be assessed indirectly by measuring the prediction accuracy of the mixture model that arises from it. This thesis addresses the interplay between the improvement of predictive accuracy by uncovering latent cluster structure in data, and further addresses the validation of the estimated structure by measuring the accuracy of the resulting predictive model. In the application of filtering unsolicited emails, the emails in the training set are latently clustered into advertisement campaigns. Uncovering this latent structure allows filtering of future emails with very low false positive rates. In order to model the cluster structure, a Bayesian clustering model for dependent binary features is developed in this thesis. Knowing the clustering of emails into campaigns can also aid in uncovering which emails have been sent on behalf of the same network of captured hosts, so-called botnets. This association of emails to networks is another layer of latent clustering. Uncovering this latent structure allows service providers to further increase the accuracy of email filtering and to effectively defend against distributed denial-of-service attacks. To this end, a discriminative clustering model is derived in this thesis that is based on the graph of observed emails. The partitionings inferred using this model are evaluated through their capacity to predict the campaigns of new emails. Furthermore, when classifying the content of emails, statistical information about the sending server can be valuable. Learning a model that is able to make use of it requires training data that includes server statistics. In order to also use training data where the server statistics are missing, a model that is a mixture over potentially all substitutions thereof is developed. Another application is to predict the navigation behavior of the users of a website. Here, there is no a priori partitioning of the users into clusters, but to understand different usage scenarios and design different layouts for them, imposing a partitioning is necessary. The presented approach simultaneously optimizes the discriminative as well as the predictive power of the clusters. Each model is evaluated on real-world data and compared to baseline methods. The results show that explicitly modeling the assumptions about the latent cluster structure leads to improved predictions compared to the baselines. It is beneficial to incorporate a small number of hyperparameters that can be tuned to yield the best predictions in cases where the prediction accuracy can not be optimized directly. N2 - Das Lernen eines Modells für den Zusammenhang zwischen den Eingabeattributen und annotierten Zielattributen von Dateninstanzen dient zwei Zwecken. Einerseits ermöglicht es die Vorhersage des Zielattributs für Instanzen ohne Annotation. Andererseits können die Parameter des Modells nützliche Einsichten in die Struktur der Daten liefern. Wenn die Daten eine inhärente Partitionsstruktur besitzen, ist es natürlich, diese Struktur im Modell widerzuspiegeln. Solche Mischmodelle generieren Vorhersagen, indem sie die individuellen Vorhersagen der Mischkomponenten, welche mit den Partitionen der Daten korrespondieren, kombinieren. Oft ist die Partitionsstruktur latent und muss beim Lernen des Mischmodells mitinferiert werden. Eine direkte Evaluierung der Genauigkeit der inferierten Partitionsstruktur ist in vielen Fällen unmöglich, weil keine wahren Referenzdaten zum Vergleich herangezogen werden können. Jedoch kann man sie indirekt einschätzen, indem man die Vorhersagegenauigkeit des darauf basierenden Mischmodells misst. Diese Arbeit beschäftigt sich mit dem Zusammenspiel zwischen der Verbesserung der Vorhersagegenauigkeit durch das Aufdecken latenter Partitionierungen in Daten, und der Bewertung der geschätzen Struktur durch das Messen der Genauigkeit des resultierenden Vorhersagemodells. Bei der Anwendung des Filterns unerwünschter E-Mails sind die E-Mails in der Trainingsmende latent in Werbekampagnen partitioniert. Das Aufdecken dieser latenten Struktur erlaubt das Filtern zukünftiger E-Mails mit sehr niedrigen Falsch-Positiv-Raten. In dieser Arbeit wird ein Bayes'sches Partitionierunsmodell entwickelt, um diese Partitionierungsstruktur zu modellieren. Das Wissen über die Partitionierung von E-Mails in Kampagnen hilft auch dabei herauszufinden, welche E-Mails auf Veranlassen des selben Netzes von infiltrierten Rechnern, sogenannten Botnetzen, verschickt wurden. Dies ist eine weitere Schicht latenter Partitionierung. Diese latente Struktur aufzudecken erlaubt es, die Genauigkeit von E-Mail-Filtern zu erhöhen und sich effektiv gegen verteilte Denial-of-Service-Angriffe zu verteidigen. Zu diesem Zweck wird in dieser Arbeit ein diskriminatives Partitionierungsmodell hergeleitet, welches auf dem Graphen der beobachteten E-Mails basiert. Die mit diesem Modell inferierten Partitionierungen werden via ihrer Leistungsfähigkeit bei der Vorhersage der Kampagnen neuer E-Mails evaluiert. Weiterhin kann bei der Klassifikation des Inhalts einer E-Mail statistische Information über den sendenden Server wertvoll sein. Ein Modell zu lernen das diese Informationen nutzen kann erfordert Trainingsdaten, die Serverstatistiken enthalten. Um zusätzlich Trainingsdaten benutzen zu können, bei denen die Serverstatistiken fehlen, wird ein Modell entwickelt, das eine Mischung über potentiell alle Einsetzungen davon ist. Eine weitere Anwendung ist die Vorhersage des Navigationsverhaltens von Benutzern einer Webseite. Hier gibt es nicht a priori eine Partitionierung der Benutzer. Jedoch ist es notwendig, eine Partitionierung zu erzeugen, um verschiedene Nutzungsszenarien zu verstehen und verschiedene Layouts dafür zu entwerfen. Der vorgestellte Ansatz optimiert gleichzeitig die Fähigkeiten des Modells, sowohl die beste Partition zu bestimmen als auch mittels dieser Partition Vorhersagen über das Verhalten zu generieren. Jedes Modell wird auf realen Daten evaluiert und mit Referenzmethoden verglichen. Die Ergebnisse zeigen, dass das explizite Modellieren der Annahmen über die latente Partitionierungsstruktur zu verbesserten Vorhersagen führt. In den Fällen bei denen die Vorhersagegenauigkeit nicht direkt optimiert werden kann, erweist sich die Hinzunahme einer kleinen Anzahl von übergeordneten, direkt einstellbaren Parametern als nützlich. KW - maschinelles Lernen KW - Vorhersage KW - Clusteranalyse KW - Mischmodelle KW - machine learning KW - prediction KW - clustering KW - mixture models Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-69617 ER -