@techreport{Nastansky2022,
  type      = {Working Paper},
  author    = {Nastansky, Andreas},
  title     = {Gruppierung von Daten},
  series = {Statistische Diskussionsbeitr{\"a}ge},
  journal   = {Statistische Diskussionsbeitr{\"a}ge},
  number    = {55},
  doi       = {10.25932/publishup-57272},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-572722},
  pages     = {26},
  year      = {2022},
  abstract  = {Dieser Beitrag beinhaltet einen Vergleich zwischen den Methoden der Topologischen Datenanalyse (TDA) und statistischen Clusterverfahren bei der Gruppierung von Daten. Es werden Gemeinsamkeiten und Unterschiede bei der Bildung der Cluster und Zuordnung der statistischen Einheiten identifiziert. Hierzu werden zwei empirische Datens{\"a}tze aus der Biologie und Medizin herangezogen. Zusammengefasst haben sich die Verfahren der TDA als ein praktikables Werkzeug bei der Gruppierung von Objekten erwiesen. Vor allem mit dem Mapper-Algorithmus konnten ad{\"a}quate Cluster erkannt werden. Beim Iris Flower-Datensatz hat die TDA {\"a}hnliche Ergebnisse wie die Clusteranalyse erzielt. Der Heart Disease-Datensatz war schwieriger zu behandeln. Die genutzten clusteranalytischen Verfahren waren nicht geeignet, die beiden Gruppen von Patienten korrekt zu identifizieren. Im Vergleich zu den Standardverfahren der Clusteranalyse zeigte sich eine leichte {\"U}berlegenheit der topologischen Verfahren.},
  language  = {de}
}
@phdthesis{Koc2021,
  author    = {Ko{\c{c}}, Gamze},
  title     = {A comprehensive analysis of severe flood events in Turkey},
  doi       = {10.25932/publishup-51785},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-517853},
  school      = {Universit{\"a}t Potsdam},
  pages     = {209},
  year      = {2021},
  abstract  = {Over the past decades, natural hazards, many of which are aggravated by climate change and reveal an increasing trend in frequency and intensity, have caused significant human and economic losses and pose a considerable obstacle to sustainable development. Hence, dedicated action toward disaster risk reduction is needed to understand the underlying drivers and create efficient risk mitigation plans. Such action is requested by the Sendai Framework for Disaster Risk Reduction 2015-2030 (SFDRR), a global agreement launched in 2015 that establishes stating priorities for action, e.g. an improved understanding of disaster risk. Turkey is one of the SFDRR contracting countries and has been severely affected by many natural hazards, in particular earthquakes and floods. However, disproportionately little is known about flood hazards and risks in Turkey. Therefore, this thesis aims to carry out a comprehensive analysis of flood hazards for the first time in Turkey from triggering drivers to impacts. It is intended to contribute to a better understanding of flood risks, improvements of flood risk mitigation and the facilitated monitoring of progress and achievements while implementing the SFDRR. In order to investigate the occurrence and severity of flooding in comparison to other natural hazards in Turkey and provide an overview of the temporal and spatial distribution of flood losses, the Turkey Disaster Database (TABB) was examined for the years 1960-2014. The TABB database was reviewed through comparison with the Emergency Events Database (EM-DAT), the Dartmouth Flood Observatory database, the scientific literature and news archives. In addition, data on the most severe flood events between 1960 and 2014 were retrieved. These served as a basis for analyzing triggering mechanisms (i.e. atmospheric circulation and precipitation amounts) and aggravating pathways (i.e. topographic features, catchment size, land use types and soil properties). For this, a new approach was developed and the events were classified using hierarchical cluster analyses to identify the main influencing factor per event and provide additional information about the dominant flood pathways for severe floods. The main idea of the study was to start with the event impacts based on a bottom-up approach and identify the causes that created damaging events, instead of applying a model chain with long-term series as input and searching for potentially impacting events as model outcomes. However, within the frequency analysis of the flood-triggering circulation pattern types, it was discovered that events in terms of heavy precipitation were not included in the list of most severe floods, i.e. their impacts were not recorded in national and international loss databases but were mentioned in news archives and reported by the Turkish State Meteorological Service. This finding challenges bottom-up modelling approaches and underlines the urgent need for consistent event and loss documentation. Therefore, as a next step, the aim was to enhance the flood loss documentation by calibrating, validating and applying the United Nations Office for Disaster Risk Reduction (UNDRR) loss estimation method for the recent severe flood events (2015-2020). This provided, a consistent flood loss estimation model for Turkey, allowing governments to estimate losses as quickly as possible after events, e.g. to better coordinate financial aid. This thesis reveals that, after earthquakes, floods have the second most destructive effects in Turkey in terms of human and economic impacts, with over 800 fatalities and US\$ 885.7 million in economic losses between 1960 and 2020, and that more attention should be paid on the national scale. The clustering results of the dominant flood-producing mechanisms (e.g. circulation pattern types, extreme rainfall, sudden snowmelt) present crucial information regarding the source and pathway identification, which can be used as base information for hazard identification in the preliminary risk assessment process. The implementation of the UNDRR loss estimation model shows that the model with country-specific parameters, calibrated damage ratios and sufficient event documentation (i.e. physically damaged units) can be recommended in order to provide first estimates of the magnitude of direct economic losses, even shortly after events have occurred, since it performed well when estimates were compared to documented losses. The presented results can contribute to improving the national disaster loss database in Turkey and thus enable a better monitoring of the national progress and achievements with regard to the targets stated by the SFDRR. In addition, the outcomes can be used to better characterize and classify flood events. Information on the main underlying factors and aggravating flood pathways further supports the selection of suitable risk reduction policies. All input variables used in this thesis were obtained from publicly available data. The results are openly accessible and can be used for further research. As an overall conclusion, it can be stated that consistent loss data collection and better event documentation should gain more attention for a reliable monitoring of the implementation of the SFDRR. Better event documentation should be established according to a globally accepted standard for disaster classification and loss estimation in Turkey. Ultimately, this enables stakeholders to create better risk mitigation actions based on clear hazard definitions, flood event classification and consistent loss estimations.},
  language  = {en}
}
@phdthesis{Haider2013,
  author    = {Haider, Peter},
  title     = {Prediction with Mixture Models},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-69617},
  school      = {Universit{\"a}t Potsdam},
  year      = {2013},
  abstract  = {Learning a model for the relationship between the attributes and the annotated labels of data examples serves two purposes. Firstly, it enables the prediction of the label for examples without annotation. Secondly, the parameters of the model can provide useful insights into the structure of the data. If the data has an inherent partitioned structure, it is natural to mirror this structure in the model. Such mixture models predict by combining the individual predictions generated by the mixture components which correspond to the partitions in the data. Often the partitioned structure is latent, and has to be inferred when learning the mixture model. Directly evaluating the accuracy of the inferred partition structure is, in many cases, impossible because the ground truth cannot be obtained for comparison. However it can be assessed indirectly by measuring the prediction accuracy of the mixture model that arises from it. This thesis addresses the interplay between the improvement of predictive accuracy by uncovering latent cluster structure in data, and further addresses the validation of the estimated structure by measuring the accuracy of the resulting predictive model. In the application of filtering unsolicited emails, the emails in the training set are latently clustered into advertisement campaigns. Uncovering this latent structure allows filtering of future emails with very low false positive rates. In order to model the cluster structure, a Bayesian clustering model for dependent binary features is developed in this thesis. Knowing the clustering of emails into campaigns can also aid in uncovering which emails have been sent on behalf of the same network of captured hosts, so-called botnets. This association of emails to networks is another layer of latent clustering. Uncovering this latent structure allows service providers to further increase the accuracy of email filtering and to effectively defend against distributed denial-of-service attacks. To this end, a discriminative clustering model is derived in this thesis that is based on the graph of observed emails. The partitionings inferred using this model are evaluated through their capacity to predict the campaigns of new emails. Furthermore, when classifying the content of emails, statistical information about the sending server can be valuable. Learning a model that is able to make use of it requires training data that includes server statistics. In order to also use training data where the server statistics are missing, a model that is a mixture over potentially all substitutions thereof is developed. Another application is to predict the navigation behavior of the users of a website. Here, there is no a priori partitioning of the users into clusters, but to understand different usage scenarios and design different layouts for them, imposing a partitioning is necessary. The presented approach simultaneously optimizes the discriminative as well as the predictive power of the clusters. Each model is evaluated on real-world data and compared to baseline methods. The results show that explicitly modeling the assumptions about the latent cluster structure leads to improved predictions compared to the baselines. It is beneficial to incorporate a small number of hyperparameters that can be tuned to yield the best predictions in cases where the prediction accuracy can not be optimized directly.},
  language  = {en}
}
@misc{Williges2008,
  type      = {Master Thesis},
  author    = {Williges, Esther S. G.},
  title     = {Steuerverwaltung in Polen : eine europ{\"a}ische Verwaltung? [vollst{\"a}ndige Fassung]},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-33877},
  school      = {Universit{\"a}t Potsdam},
  year      = {2008},
  abstract  = {Die Arbeit geht der Frage nach, ob man die Steuerverwaltung in Polen als europ{\"a}ische Verwaltung bezeichnen kann. Es werden drei Aspekte vertiefend untersucht: 1.Verortung der polnischen Steuerverwaltung in der OECD und ausgew{\"a}hlten Nicht-OECD-L{\"a}ndern mittels einer Clusteranalyse auf Grundlage verschiedener Daten zum Aufbau, Aufgabenprofil und zur Performanz unter gleichzeitiger Beachtung der m{\"o}glichen Abzeichnung eines europ{\"a}ischen Steuerverwaltungsraums; 2.Verbreitung des CAF in den Steuerverwaltungen der MOE-8, insbesondere in Polen, als vom EUPAN unterst{\"u}tztes Qualit{\"a}tsmanagementsystem, das geeignet erscheint, die Entstehung eines gemeinsamen europ{\"a}ischen Qualit{\"a}tsverst{\"a}ndnisses zu f{\"o}rdern; 3.Wahrnehmung der polnischen Steuerverwaltung durch deutsche Finanzbeamte erhoben mit Hilfe eines semantischen Differentials. Die Clusteranalyse ergibt keinen Hinweis auf einen einheitlichen europ{\"a}ischen Steuerverwaltungsraum in Abgrenzung von den {\"u}brigen einbezogenen Staaten. Polen f{\"a}llt nicht als Ausreißer auf und weist {\"A}hnlichkeiten zu anderen europ{\"a}ischen L{\"a}ndern auf. In Steuerverwaltungen l{\"a}sst sich das CAF so gut wie gar nicht finden. Polen bildet in der Hinsicht eine Ausnahme. Allerdings befindet sich die polnische Steuerverwaltung auf einem europ{\"a}ischen Weg, den andere Sektoren der Verwaltung (auch in MOE-8) bereits vielfach beschritten haben. Aus der Untersuchung des Images der polnischen Steuerverwaltung bei deutschen Finanzbeamten geht die Abwesenheit starker negativer Stereotype hervor. Die Einsch{\"a}tzungen sind sehr zur{\"u}ckhaltend in der N{\"a}he des Mittelwertes zwischen den beiden Polen des semantischen Differentials. Das vorl{\"a}ufige Ergebnis lautet: Die Steuerverwaltung in Polen ist eine europ{\"a}ische Verwaltung.},
  language  = {de}
}
@misc{Schorsch2008,
  type      = {Master Thesis},
  author    = {Schorsch, Andrea},
  title     = {Statistische Eigenschaften von Clusterverfahren},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-29026},
  school      = {Universit{\"a}t Potsdam},
  year      = {2008},
  abstract  = {Die vorliegende Diplomarbeit besch{\"a}ftigt sich mit zwei Aspekten der statistischen Eigenschaften von Clusterverfahren. Zum einen geht die Arbeit auf die Frage der Existenz von unterschiedlichen Clusteranalysemethoden zur Strukturfindung und deren unterschiedlichen Vorgehensweisen ein. Die Methode des Abstandes zwischen Mannigfaltigkeiten und die K-means Methode liefern ausgehend von gleichen Daten unterschiedliche Endclusterungen. Der zweite Teil dieser Arbeit besch{\"a}ftigt sich n{\"a}her mit den asymptotischen Eigenschaften des K-means Verfahrens. Hierbei ist die Menge der optimalen Clusterzentren konsistent. Bei Vergr{\"o}ßerung des Stichprobenumfangs gegen Unendlich konvergiert diese in Wahrscheinlichkeit gegen die Menge der Clusterzentren, die das Varianzkriterium minimiert. Ebenfalls konvergiert die Menge der optimalen Clusterzentren f{\"u}r n gegen Unendlich gegen eine Normalverteilung. Es hat sich dabei ergeben, dass die einzelnen Clusterzentren voneinander abh{\"a}ngen.},
  language  = {de}
}
@phdthesis{Barsch2003,
  author    = {Barsch, Andreas},
  title     = {Zum Einfluss von Witterung und Klima auf den Landschaftszustand und die Landschaftsentwicklung im Uvs-Nuur-Becken (NW-Mongolei)},
  url       = {http://nbn-resolving.de/urn:nbn:de:kobv:517-0001184},
  school      = {Universit{\"a}t Potsdam},
  year      = {2003},
  abstract  = {Im Landschaftszustand und in der Landschaftsentwicklung kommen funktionale Beziehungen zwischen dem naturbedingten Energie-, Wasser- und Stoffhaushalt einerseits und den Auswirkungen der Landnutzung andererseits zum Ausdruck. Gegenw{\"a}rtig ver{\"a}ndert der globale Anstieg der bodennahen Temperaturen vielerorts den landschaftlichen Energie-, Wasser- und Stoffhaushalt, wobei besonders in Trockengebieten zu erwarten ist, dass dieser Trend in Verbindung mit einer unangepassten Landnutzung das Regenerationsverm{\"o}gen der Vegetation einschr{\"a}nkt und zur Zerst{\"o}rung der Bodendecke f{\"u}hrt. F{\"u}r die Mongolei und f{\"u}r benachbarte Gebiete Asiens sind in Szenarien zur globalen Erw{\"a}rmung hohe Werte des Temperaturanstiegs prognostiziert worden. Eine globale Einsch{\"a}tzung der anthropogen induzierten Bodendegradation hat diese Region als stark oder extrem stark betroffen eingestuft. Vor diesem Hintergrund wurde im Uvs-Nuur-Becken, das im Nordwesten der Mongolei und damit in einer der trockensten Regionen des Landes gelegen ist, untersucht, wie sich der globale Temperaturanstieg auf der lokalen und regionalen Ebene widerspiegelt und wie der Landschaftshaushalt dabei ver{\"a}ndert wird. Die Auswirkungen des sommerlichen Witterungsverlaufes auf den Landschaftszustand sind 1997 bis 1999 an einem Transsekt erfasst worden, das sich zwischen dem Kharkhiraa-Gebirge am Westrand des Beckens und dem See Uvs Nuur im Beckeninneren von den Polsterfluren und Matten der alpinen Stufe {\"u}ber die Gebirgswaldsteppe, die Trockensteppe bis zur Halbw{\"u}ste erstreckt. An neun Messpunkten wurden witterungsklimatische Daten in Verbindung mit Merkmalen der Vegetation, des Bodens und der Bodenfeuchte aufgenommen. Die im Sommer 1998 gewonnenen Messwerte wurden mit Hilfe einer Clusteranalyse geb{\"u}ndelt und verdichtet. Auf dieser Grundlage konnten landschaftliche Zustandsformen inhaltlich gekennzeichnet, zeitlich eingeordnet und durch Zeit-Verhaltens-Modelle (Stacks) abgebildet werden. Aus den Zeit-Verhaltens-Modellen wird ersichtlich, dass man Zustandsformen, in denen die Hitze und die Trockenheit des Sommers 1998 besonders stark zum Ausdruck kommen, an allen Messpunkten beobachten kann, nimmt man die Station auf dem fast 3.000 m hohen Gipfel des Khukh Uul sowie die grundwasserbeeinflusste Station in unmittelbarer Seen{\"a}he aus. In ihrer extremen Form sind Trockenperioden jedoch nur im Beckeninneren und am Fuß der Randgebirge, also in der Halbw{\"u}ste, in der Trockensteppe und in der Wiesensteppe aufgetreten. Im Bergwald sowie im Bereich der alpinen Matten und Polsterfluren fehlen sie. Am st{\"a}rksten sind die grundwasserfreien Bereiche der Halbw{\"u}ste von der Hitze und Niederschlagsarmut des Sommers 1998 betroffen. An vier F{\"u}nfteln der Tage des Beobachtungszeitraumes herrscht an diesem Messpunkt extreme Trockenheit. Es f{\"a}llt entweder gar kein Niederschlag oder nur so wenig, dass der seit dem Fr{\"u}hjahr ersch{\"o}pfte Bodenwasservorrat nicht aufgef{\"u}llt wird. Das Verh{\"a}ltnis zwischen Niederschlag und potenzieller Verdunstung liegt hier bei 1:12. In der Halbw{\"u}ste zeichnet sich eine fortschreitende Desertifikation ab, zumal hier eine nichtangepasste Weidenutzung dominiert, in der Ziegen eine immer gr{\"o}ßere Rolle spielen. Dies gilt insbesondere f{\"u}r Bereiche in Siedlungsn{\"a}he. {\"O}rtlich ist auch der Bestand der Trockensteppe gef{\"a}hrdet, die sich an die Halbw{\"u}ste zum Beckenrand hin anschließt. Hier ist nicht nur die Viehdichte am h{\"o}chsten, sondern hier werden auch die meisten unbefestigten Fahrwege wild angelegt und die Bodendecke damit zerst{\"o}rt. Dies kann im Endeffekt zu einem {\"U}bergreifen von Prozessen der Desertifikation f{\"u}hren. Aus methodischer Sicht zeigt sich, dass die Kennzeichnung landschaftlicher Zustandsformen durch Zeit-Verhaltens-Modelle die Ermittlung der Auswirkungen von Witterung und Klima auf den Landschaftszustand erleichtert, da sie deren Aussage konzentriert. Zur Interpretation der Ergebnisse ist jedoch ein R{\"u}ckgriff auf die beschreibende Darstellung der Messwerte notwendig. Die im westlichen Uvs-Nuur-Becken und seinen Randgebirgen angewandte Verfahrensweise erm{\"o}glicht es, globale Aussagen zur globalen Erw{\"a}rmung der Kontinente regional oder lokal zu {\"u}berpr{\"u}fen und zu untersetzen."},
  language  = {de}
}