TY  - RPRT
A1  - Nastansky, Andreas
T1  - Gruppierung von Daten
BT  - Topologische Verfahren vs. Clusteranalyse
T2  - Statistische Diskussionsbeiträge
N2  - Dieser Beitrag beinhaltet einen Vergleich zwischen den Methoden der Topologischen Datenanalyse (TDA) und statistischen Clusterverfahren bei der Gruppierung von Daten. Es werden Gemeinsamkeiten und Unterschiede bei der Bildung der Cluster und Zuordnung der statistischen Einheiten identifiziert. Hierzu werden zwei empirische Datensätze aus der Biologie und Medizin herangezogen.
Zusammengefasst haben sich die Verfahren der TDA als ein praktikables Werkzeug bei der Gruppierung von Objekten erwiesen. Vor allem mit dem Mapper-Algorithmus konnten adäquate Cluster erkannt werden. Beim Iris Flower-Datensatz hat die TDA ähnliche Ergebnisse wie die  Clusteranalyse erzielt. Der Heart Disease-Datensatz war schwieriger zu behandeln. Die genutzten clusteranalytischen Verfahren waren nicht geeignet, die beiden Gruppen von Patienten korrekt zu identifizieren. Im Vergleich zu den Standardverfahren der Clusteranalyse zeigte sich eine leichte Überlegenheit der topologischen Verfahren.
N2  - This paper includes a comparison between Topological Data Analysis (TDA) methods and statistical clustering methods in grouping data. Similarities and differences in the formation of clusters and assignment of statistical units are identified. Two empirical data sets from biology and medicine are used for this purpose.
In summary, the procedures of TDA have proven to be a viable tool in grouping objects. Especially with the mapper algorithm adequate clusters could be detected. For the Iris Flower-dataset, TDA produced similar results to cluster analysis. The Heart Disease-dataset was more difficult to deal with. The used cluster analytic techniques are not capable of correctly identifying the two groups of patients. Compared with the standard cluster analysis methods, the topological procedures showed a slight superiority.
T3  - Statistische Diskussionsbeiträge - 55 
KW  - Clusteranalyse
KW  - Mapper
KW  - Persistente Homologie
KW  - Topologische Datenanalyse
Y1  - 2023
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-572722
IS  - 55
ER  - 
TY  - THES
A1  - Koç, Gamze
T1  - A comprehensive analysis of severe flood events in Turkey
T1  - Eine ausführliche Analyse schwerer Flutereignisse in der Türkei
BT  - event documentation, triggering mechanisms and impact modelling
BT  - Ereignisdokumentation, Auslösemechanismen und Auswirkungsmodellierung
N2  - Over the past decades, natural hazards, many of which are aggravated by climate change and reveal an increasing trend in frequency and intensity, have caused significant human and economic losses and pose a considerable obstacle to sustainable development. Hence, dedicated action toward disaster risk reduction is needed to understand the underlying drivers and create efficient risk mitigation plans. Such action is requested by the Sendai Framework for Disaster Risk Reduction 2015-2030 (SFDRR), a global agreement launched in 2015 that establishes stating priorities for action, e.g. an improved understanding of disaster risk. Turkey is one of the SFDRR contracting countries and has been severely affected by many natural hazards, in particular earthquakes and floods. However, disproportionately little is known about flood hazards and risks in Turkey. Therefore, this thesis aims to carry out a comprehensive analysis of flood hazards for the first time in Turkey from triggering drivers to impacts. It is intended to contribute to a better understanding of flood risks, improvements of flood risk mitigation and the facilitated monitoring of progress and achievements while implementing the SFDRR.
In order to investigate the occurrence and severity of flooding in comparison to other natural hazards in Turkey and provide an overview of the temporal and spatial distribution of flood losses, the Turkey Disaster Database (TABB) was examined for the years 1960-2014. The TABB database was reviewed through comparison with the Emergency Events Database (EM-DAT), the Dartmouth Flood Observatory database, the scientific literature and news archives. In addition, data on the most severe flood events between 1960 and 2014 were retrieved. These served as a basis for analyzing triggering mechanisms (i.e. atmospheric circulation and precipitation amounts) and aggravating pathways (i.e. topographic features, catchment size, land use types and soil properties). For this, a new approach was developed and the events were classified using hierarchical cluster analyses to identify the main influencing factor per event and provide additional information about the dominant flood pathways for severe floods. The main idea of the study was to start with the event impacts based on a bottom-up approach and identify the causes that created damaging events, instead of applying a model chain with long-term series as input and searching for potentially impacting events as model outcomes.  However, within the frequency analysis of the flood-triggering circulation pattern types, it was discovered that events in terms of heavy precipitation were not included in the list of most severe floods, i.e. their impacts were not recorded in national and international loss databases but were mentioned in news archives and reported by the Turkish State Meteorological Service. This finding challenges bottom-up modelling approaches and underlines the urgent need for consistent event and loss documentation. Therefore, as a next step, the aim was to enhance the flood loss documentation by calibrating, validating and applying the United Nations Office for Disaster Risk Reduction (UNDRR) loss estimation method for the recent severe flood events (2015-2020). This provided, a consistent flood loss estimation model for Turkey, allowing governments to estimate losses as quickly as possible after events, e.g. to better coordinate financial aid.
This thesis reveals that, after earthquakes, floods have the second most destructive effects in Turkey in terms of human and economic impacts, with over 800 fatalities and US$ 885.7 million in economic losses between 1960 and 2020, and that more attention should be paid on the national scale. The clustering results of the dominant flood-producing mechanisms (e.g. circulation pattern types, extreme rainfall, sudden snowmelt) present crucial information regarding the source and pathway identification, which can be used as base information for hazard identification in the preliminary risk assessment process. The implementation of the UNDRR loss estimation model shows that the model with country-specific parameters, calibrated damage ratios and sufficient event documentation (i.e. physically damaged units) can be recommended in order to provide first estimates of the magnitude of direct economic losses, even shortly after events have occurred, since it performed well when estimates were compared to documented losses.
The presented results can contribute to improving the national disaster loss database in Turkey and thus enable a better monitoring of the national progress and achievements with regard to the targets stated by the SFDRR. In addition, the outcomes can be used to better characterize and classify flood events. Information on the main underlying factors and aggravating flood pathways further supports the selection of suitable risk reduction policies.
All input variables used in this thesis were obtained from publicly available data. The results are openly accessible and can be used for further research.
As an overall conclusion, it can be stated that consistent loss data collection and better event documentation should gain more attention for a reliable monitoring of the implementation of the SFDRR. Better event documentation should be established according to a globally accepted standard for disaster classification and loss estimation in Turkey. Ultimately, this enables stakeholders to create better risk mitigation actions based on clear hazard definitions, flood event classification and consistent loss estimations.
N2  - In den letzten Jahrzehnten verursachten Naturgefahren hohe humanitäre und wirtschaftliche Verluste, wobei viele dieser Ereignisse durch den Klimawandel verstärkt werden und einen zunehmenden Trend in Häufigkeit und Schwere aufweisen. Daher sind gezielte Verfahren zur Reduzierung von Katastrophenrisiken erforderlich, um zugrundeliegende Treiber zu verstehen und effektive Risikominderungspläne zu erstellen. Solche Verfahren werden durch das Sendai-Rahmenwerk für Katastrophenvorsorge 2015-2030 (SFDRR) eingefordert. Das SFDRR ist, ein internationales Rahmenwerk, das 2015 verabschiedet wurde und prioritäre Maßnahmen festlegt, z.B. eine Verbesserung der Wissensgrundlagen zum Katastrophenrisiko. Die Türkei ist eines der SFDRR-Vertragsländer und wurde in der Vergangenheit von vielen Naturgefahren, insbesondere Erdbeben und Überschwemmungen schwer getroffen. Über die Hochwassergefahren und -risiken in der Türkei ist jedoch vergleichsweise wenig bekannt. In dieser Arbeit wird daher zum ersten Mal eine umfassende Analyse der Hochwassergefahren in der Türkei durchgeführt, von den auslösenden Ursachen bis hin zu den Auswirkungen. Ziel ist es, das Verständnis über Hochwasserrisiken zu verbessern, Studien zur Minderung des Hochwasserrisikos anzuregen und das Monitoring der Fortschritte und Zielerreichung bei der Umsetzung des SFDRR zu erleichtern.
Um das Auftreten und die Stärke von Überschwemmungen im Vergleich zu anderen Naturgefahren in der Türkei zu untersuchen und einen Überblick über die raumzeitliche Verteilung von Hochwasserschäden, wurde die Turkey Disaster Database (TABB) für den Zeitraum 1960 bis 2014 ausgewertet. Die TABB Datenbank  wurde durch Vergleiche mit der Emergency Events Datenbank (EM-DAT), der Dartmouth Flood Observatory Datenbank, wissenschaftlicher Literatur und Nachrichtenarchive überprüft. Zudem wurden die stärksten Überschwemmungen zwischen 1960 und 2014 identifiziert. Diese bildeten die Basis für eine Analyse der Auslösemechanismen (bspw. atmosphärische Zirkulationsmuster und Niederschlagsmengen) und verstärkende Wirkungspfade (z.B. topographische Eigenschaften, Größe der Einzugsgebiete, Landnutzung und Bodeneigenschaften). Dafür wurde ein neues Verfahren entwickelt, und die Ereignisse wurden mithilfe von hierarchischen Clusteranalysen klassifiziert, um die Haupteinflussfaktoren pro Ereignis zu identifizieren und zusätzliche Informationen über die dominanten Wirkungspfade bei schweren Überschwemmungen bereitzustellen. Die grundlegende Idee dieser Arbeit bestand darin, bei den Ereignisauswirkungen als Bottom-up-Ansatz zu beginnen und die Ursachen für Schadensereignisse zu identifizieren, anstatt eine Modellkette mit Langzeitreihen als Eingabe anzuwenden und darin nach potenziellen Schadensereignissen zu suchen. Bei der Häufigkeitsanalyse von hochwasserauslösenden Zirkulationsmustern wurde jedoch festgestellt, dass einige schwer Niederschlagsereignisse nicht in der Liste der schwersten Hochwasserereignisse waren, d.h., ihre Auswirkungen waren nicht in nationalen und internationalen Schadensdatenbanken dokumentiert, wurden jedoch in Nachrichtenarchiven erwähnt und vom türkischen staatlichen Wetterdienst gemeldet. Dieses Erkenntnis stellt den Bottom-up-Modelansatz in Frage und unterstreicht die Dringlichkeit einer konsistenten Ereignis- und Schadensdokumentation. Daher wurde im nächsten Schritt gezielt das Schadenmodell der Vereinten Nationen für Katastrophenvorsorge (UNDRR) für kürzlich aufgetretene starke Flutereignisse (2015-2020) angepasst, validiert und angewendet. Damit wurde ein konsistentes Hochwasserschadenmodell für die Türkei bereitgestellt, das es den Behörden ermöglicht, Verluste so schnell wie möglich nach Ereignissen abzuschätzen, zum Beispiel um eine bessere Koordination von finanziellen Hilfen zu gewährleisten.
Diese Arbeit zeigt, dass Überschwemmungen mit mehr als 800 Todesfällen und 885,7 Millionen US Dollar wirtschaftlichen Schaden zwischen 1960 und 2020 nach Erdbeben den zweit höchsten zerstörerischen Effekt in der Türkei in Bezug auf humanitäre und wirtschaftliche Auswirkungen haben. Daher sollte dieses Thema mehr Aufmerksamkeit auf nationaler Ebene erhalten. Die Cluster-Ergebnisse der dominanten hochwasser-auslösenden Mechanismen (z.B. Zirkulationsmuster, Starkniederschlag, plötzliche Schneeschmelze) erhalten wichtige Informationen zur Quell- und Pfad-Identifikation, welche als Basisinformation für Gefahren-identifikation in der vorläufigen Risikoeinschätzung dienen kann.
Die Implementierung des UNDRR-Schadenmodells zeigt, dass das Modell mit länderspezifischen Parametern, kalibrierten Schadensgraden und ausreichender Ereignisdokumentation (d.h. physischer geschädigte Einheiten) empfohlen werden kann, um erste Schätzungen zur Höhe der direkten wirtschaftlichen Schäden bereitzustellen -- auch unmittelbar nach Eintreten von Ereignissen, da die Modellschätzungen im Vergleich mit dokumentierten Verlusten gut übereinstimmten. Die präsentierten Ergebnisse können dazu beitragen, die nationale Schadensdatenbank der Türkei zu verbessern, und somit ein besseres Monitoring der nationalen Fortschritte und Erfolge im Hinblick auf die Ziele des SFDRR ermöglichen. Zusätzlich können die Ergebnisse für eine bessere Charakterisierung und Klassifizierung von Hochwasserereignissen verwendet werden. Informationen zu den zugrundeliegenden Einflussfaktoren und verstärkenden Wirkungspfaden unterstützen die Auswahl geeigneter Risikomanagementstrategien.
Alle Eingabevariablen dieser Arbeit wurden aus öffentlich verfügbaren Daten bezogen. Die Ergebnisse sind zugänglich und können für die weitere Forschung verwendet werden.
Insgesamt konnte festgestellt werden, dass die konsistente Erfassung von Schadensdaten und eine bessere Ereignisdokumentation mehr Beachtung finden muss, um die Implementierung des SFDRR verlässlich zu überwachen. Bessere Ereignisdokumentationen sollten nach einem weltweit anerkannten Standard für Gefahrenklassifizierung und Schadensabschätzung in der Türkei etabliert werden. Letztendlich ermöglicht dies den Verantwortlichen auf Basis von eindeutigen Gefahrendefinitionen, Hochwasser-Ereignisklassifizierungen und konsistenten Schadenschätzungen bessere Maßnahmen zur Risikominderung zu erarbeiten.
KW  - Flood hazards
KW  - Turkey
KW  - Triggering mechanisms
KW  - Cluster analysis
KW  - Hochwassergefahren
KW  - Türkei
KW  - Auslösemechanismen
KW  - Clusteranalyse
KW  - Impact modelling
KW  - Schadenmodell
Y1  - 2021
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517853
ER  - 
TY  - THES
A1  - Haider, Peter
T1  - Prediction with Mixture Models
T1  - Vorhersage mit Mischmodellen
N2  - Learning a model for the relationship between the attributes and the annotated labels of data examples serves two purposes. Firstly, it enables the prediction of the label for examples without annotation. Secondly, the parameters of the model can provide useful insights into the structure of the data. If the data has an inherent partitioned structure, it is natural to mirror this structure in the model. Such mixture models predict by combining the individual predictions generated by the mixture components which correspond to the partitions in the data. Often the partitioned structure is latent, and has to be inferred when learning the mixture model. Directly evaluating the accuracy of the inferred partition structure is, in many cases, impossible because the ground truth cannot be obtained for comparison. However it can be assessed indirectly by measuring the prediction accuracy of the mixture model that arises from it. This thesis addresses the interplay between the improvement of predictive accuracy by uncovering latent cluster structure in data, and further addresses the validation of the estimated structure by measuring the accuracy of the resulting predictive model. In the application of filtering unsolicited emails, the emails in the training set are latently clustered into advertisement campaigns. Uncovering this latent structure allows filtering of future emails with very low false positive rates. In order to model the cluster structure, a Bayesian clustering model for dependent binary features is developed in this thesis. Knowing the clustering of emails into campaigns can also aid in uncovering which emails have been sent on behalf of the same network of captured hosts, so-called botnets. This association of emails to networks is another layer of latent clustering. Uncovering this latent structure allows service providers to further increase the accuracy of email filtering and to effectively defend against distributed denial-of-service attacks. To this end, a discriminative clustering model is derived in this thesis that is based on the graph of observed emails. The partitionings inferred using this model are evaluated through their capacity to predict the campaigns of new emails. Furthermore, when classifying the content of emails, statistical information about the sending server can be valuable. Learning a model that is able to make use of it requires training data that includes server statistics. In order to also use training data where the server statistics are missing, a model that is a mixture over potentially all substitutions thereof is developed. Another application is to predict the navigation behavior of the users of a website. Here, there is no a priori partitioning of the users into clusters, but to understand different usage scenarios and design different layouts for them, imposing a partitioning is necessary. The presented approach simultaneously optimizes the discriminative as well as the predictive power of the clusters. Each model is evaluated on real-world data and compared to baseline methods. The results show that explicitly modeling the assumptions about the latent cluster structure leads to improved predictions compared to the baselines. It is beneficial to incorporate a small number of hyperparameters that can be tuned to yield the best predictions in cases where the prediction accuracy can not be optimized directly.
N2  - Das Lernen eines Modells für den Zusammenhang zwischen den Eingabeattributen und annotierten Zielattributen von Dateninstanzen dient zwei Zwecken. Einerseits ermöglicht es die Vorhersage des Zielattributs für Instanzen ohne Annotation. Andererseits können die Parameter des Modells nützliche Einsichten in die Struktur der Daten liefern. Wenn die Daten eine inhärente Partitionsstruktur besitzen, ist es natürlich, diese Struktur im Modell widerzuspiegeln. Solche Mischmodelle generieren Vorhersagen, indem sie die individuellen Vorhersagen der Mischkomponenten, welche mit den Partitionen der Daten korrespondieren, kombinieren. Oft ist die Partitionsstruktur latent und muss beim Lernen des Mischmodells mitinferiert werden. Eine direkte Evaluierung der Genauigkeit der inferierten Partitionsstruktur ist in vielen Fällen unmöglich, weil keine wahren Referenzdaten zum Vergleich herangezogen werden können. Jedoch kann man sie indirekt einschätzen, indem man die Vorhersagegenauigkeit des darauf basierenden Mischmodells misst. Diese Arbeit beschäftigt sich mit dem Zusammenspiel zwischen der Verbesserung der Vorhersagegenauigkeit durch das Aufdecken latenter Partitionierungen in Daten, und der Bewertung der geschätzen Struktur durch das Messen der Genauigkeit des resultierenden Vorhersagemodells. Bei der Anwendung des Filterns unerwünschter E-Mails sind die E-Mails in der Trainingsmende latent in Werbekampagnen partitioniert. Das Aufdecken dieser latenten Struktur erlaubt das Filtern zukünftiger E-Mails mit sehr niedrigen Falsch-Positiv-Raten. In dieser Arbeit wird ein Bayes'sches Partitionierunsmodell entwickelt, um diese Partitionierungsstruktur zu modellieren. Das Wissen über die Partitionierung von E-Mails in Kampagnen hilft auch dabei herauszufinden, welche E-Mails auf Veranlassen des selben Netzes von infiltrierten Rechnern, sogenannten Botnetzen, verschickt wurden. Dies ist eine weitere Schicht latenter Partitionierung. Diese latente Struktur aufzudecken erlaubt es, die Genauigkeit von E-Mail-Filtern zu erhöhen und sich effektiv gegen verteilte Denial-of-Service-Angriffe zu verteidigen. Zu diesem Zweck wird in dieser Arbeit ein diskriminatives Partitionierungsmodell hergeleitet, welches auf dem Graphen der beobachteten E-Mails basiert. Die mit diesem Modell inferierten Partitionierungen werden via ihrer Leistungsfähigkeit bei der Vorhersage der Kampagnen neuer E-Mails evaluiert. Weiterhin kann bei der Klassifikation des Inhalts einer E-Mail statistische Information über den sendenden Server wertvoll sein. Ein Modell zu lernen das diese Informationen nutzen kann erfordert Trainingsdaten, die Serverstatistiken enthalten. Um zusätzlich Trainingsdaten benutzen zu können, bei denen die Serverstatistiken fehlen, wird ein Modell entwickelt, das eine Mischung über potentiell alle Einsetzungen davon ist. Eine weitere Anwendung ist die Vorhersage des Navigationsverhaltens von Benutzern einer Webseite. Hier gibt es nicht a priori eine Partitionierung der Benutzer. Jedoch ist es notwendig, eine Partitionierung zu erzeugen, um verschiedene Nutzungsszenarien zu verstehen und verschiedene Layouts dafür zu entwerfen. Der vorgestellte Ansatz optimiert gleichzeitig die Fähigkeiten des Modells, sowohl die beste Partition zu bestimmen als auch mittels dieser Partition Vorhersagen über das Verhalten zu generieren. Jedes Modell wird auf realen Daten evaluiert und mit Referenzmethoden verglichen. Die Ergebnisse zeigen, dass das explizite Modellieren der Annahmen über die latente Partitionierungsstruktur zu verbesserten Vorhersagen führt. In den Fällen bei denen die Vorhersagegenauigkeit nicht direkt optimiert werden kann, erweist sich die Hinzunahme einer kleinen Anzahl von übergeordneten, direkt einstellbaren Parametern als nützlich.
KW  - maschinelles Lernen
KW  - Vorhersage
KW  - Clusteranalyse
KW  - Mischmodelle
KW  - machine learning
KW  - prediction
KW  - clustering
KW  - mixture models
Y1  - 2013
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-69617
ER  - 
TY  - THES
A1  - Williges, Esther S. G.
T1  - Steuerverwaltung in Polen : eine europäische Verwaltung? [vollständige Fassung]
T1  - Tax administration in Poland : a European administration?
N2  - Die Arbeit geht der Frage nach, ob man die Steuerverwaltung in Polen als europäische Verwaltung bezeichnen kann. Es werden drei Aspekte vertiefend untersucht: 1.Verortung der polnischen Steuerverwaltung in der OECD und ausgewählten Nicht-OECD-Ländern mittels einer Clusteranalyse auf Grundlage verschiedener Daten zum Aufbau, Aufgabenprofil und zur Performanz unter gleichzeitiger Beachtung der möglichen Abzeichnung eines europäischen Steuerverwaltungsraums; 2.Verbreitung des CAF in den Steuerverwaltungen der MOE-8, insbesondere in Polen, als vom EUPAN unterstütztes Qualitätsmanagementsystem, das geeignet erscheint, die Entstehung eines gemeinsamen europäischen Qualitätsverständnisses zu fördern; 3.Wahrnehmung der polnischen Steuerverwaltung durch deutsche Finanzbeamte erhoben mit Hilfe eines semantischen Differentials. Die Clusteranalyse ergibt keinen Hinweis auf einen einheitlichen europäischen Steuerverwaltungsraum in Abgrenzung von den übrigen einbezogenen Staaten. Polen fällt nicht als Ausreißer auf und weist Ähnlichkeiten zu anderen europäischen Ländern auf. In Steuerverwaltungen lässt sich das CAF so gut wie gar nicht finden. Polen bildet in der Hinsicht eine Ausnahme. Allerdings befindet sich die polnische Steuerverwaltung auf einem europäischen Weg, den andere Sektoren der Verwaltung (auch in MOE-8) bereits vielfach beschritten haben. Aus der Untersuchung des Images der polnischen Steuerverwaltung bei deutschen Finanzbeamten geht die Abwesenheit starker negativer Stereotype hervor. Die Einschätzungen sind sehr zurückhaltend in der Nähe des Mittelwertes zwischen den beiden Polen des semantischen Differentials. Das vorläufige Ergebnis lautet: Die Steuerverwaltung in Polen ist eine europäische Verwaltung.
N2  - This thesis discusses the question, if the Polish tax administration can be called a European administration. Three aspects are analysed: 1.Placement of the Polish tax administration among OECD and selected non-OECD countries by means of a cluster analysis based on various data concerning structure, tasks and performance with special attention to the emergence of a European administrative space of tax administrations; 2.Spread of the CAF among the tax administrations of CEE-8, especially in Poland, as quality management system supported by the EUPAN, that seems suitable to enhance the emergence of a common European unterstanding of quality; 3.Perception of the Polish tax administration by German tax collectors gathered with a semantic differential. The cluster analysis does not hint at a uniform European administrative space of tax administrations separated from the other included countries. Poland does not stand out as an outlier and shows similarities to other European countries. Hardly can the CAF be found in tax administrations. Poland is an exception. But the Polish tax administration is on a European path, which the other sectors of administration (also in CEE-8) have already followed in many cases. The absence of strong negative stereotypes among German tax collectors is a result of the analysis of the image of the Polish tax administration. The assessment is diffident near the mean value between the two poles of the semantic differential. The preliminary result is: The Polish tax administration is a European administration.
KW  - Polen
KW  - Steuerverwaltung
KW  - Europäisierung
KW  - Clusteranalyse
KW  - Polaritätsprofil
KW  - Poland
KW  - tax administration
KW  - Europeanization
KW  - cluster analysis
KW  - semantic differential
Y1  - 2008
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-33877
ER  - 
TY  - THES
A1  - Schorsch, Andrea
T1  - Statistische Eigenschaften von Clusterverfahren
T1  - Statistical properties of cluster procedures
N2  - Die vorliegende Diplomarbeit beschäftigt sich mit zwei Aspekten der statistischen Eigenschaften von Clusterverfahren. Zum einen geht die Arbeit auf die Frage der Existenz von unterschiedlichen Clusteranalysemethoden zur Strukturfindung und deren unterschiedlichen Vorgehensweisen ein. Die Methode des Abstandes zwischen Mannigfaltigkeiten und die K-means Methode liefern ausgehend von gleichen Daten unterschiedliche Endclusterungen. Der zweite Teil dieser Arbeit beschäftigt sich näher mit den asymptotischen Eigenschaften des K-means Verfahrens. Hierbei ist die Menge der optimalen Clusterzentren konsistent. Bei Vergrößerung des Stichprobenumfangs gegen Unendlich konvergiert diese in Wahrscheinlichkeit gegen die Menge der Clusterzentren, die das Varianzkriterium minimiert. Ebenfalls konvergiert die Menge der optimalen Clusterzentren für n gegen Unendlich gegen eine Normalverteilung. Es hat sich dabei ergeben, dass die einzelnen Clusterzentren voneinander abhängen.
N2  - The following thesis describes two different views onto the statistical characterics of clustering procedures. At first it adresses the questions whether different clustering methods exist to ascertain the structure of clusters and in what ays the strategies of these methods differ from each other. The method of distance between the manifolds as well as the k-means method provide different final clusters based on equal initial data. The second part of the thesis concentrates on asymptotic properties of the k-means procedure. Here the amount of optimal clustering centres is consistent. If the size of the sample range is enlarged towards infinity, it also converges in probability towards the amount of clustering centres which minimized the whithin cluster sum of squares. Likewise the amount of optimal clustering centres converges for infinity towards the normal distribution. The main result shows that the individual clustering centres are dependent on each other.
KW  - Clusteranalyse
KW  - K-Means Verfahren
KW  - asymptotische Normalverteilung
KW  - cluster analysis
KW  - k-means clustering
KW  - asymptotical normal distribution
Y1  - 2008
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-29026
ER  - 
TY  - THES
A1  - Barsch, Andreas
T1  - Zum Einfluss von Witterung und Klima auf den Landschaftszustand und die Landschaftsentwicklung im Uvs-Nuur-Becken (NW-Mongolei)
N2  - Im Landschaftszustand und in der Landschaftsentwicklung kommen funktionale Beziehungen zwischen dem naturbedingten Energie-, Wasser- und Stoffhaushalt einerseits und den Auswirkungen der Landnutzung andererseits zum Ausdruck. Gegenwärtig verändert der globale Anstieg der bodennahen Temperaturen vielerorts den landschaftlichen Energie-, Wasser- und Stoffhaushalt, wobei besonders in Trockengebieten zu erwarten ist, dass dieser Trend in Verbindung mit einer unangepassten Landnutzung das Regenerationsvermögen der Vegetation einschränkt und zur Zerstörung der Bodendecke führt.  Für die Mongolei und für benachbarte Gebiete Asiens sind in Szenarien zur globalen Erwärmung hohe Werte des Temperaturanstiegs prognostiziert worden. Eine globale Einschätzung der anthropogen induzierten Bodendegradation hat diese Region als stark oder extrem stark betroffen eingestuft. Vor diesem Hintergrund wurde im Uvs-Nuur-Becken, das im Nordwesten der Mongolei und damit in einer der trockensten Regionen des Landes gelegen ist, untersucht, wie sich der globale Temperaturanstieg auf der lokalen und regionalen Ebene widerspiegelt und wie der Landschaftshaushalt dabei verändert wird.  Die Auswirkungen des sommerlichen Witterungsverlaufes auf den Landschaftszustand sind 1997 bis 1999 an einem Transsekt erfasst worden, das sich zwischen dem Kharkhiraa-Gebirge am Westrand des Beckens und dem See Uvs Nuur im Beckeninneren von den Polsterfluren und Matten der alpinen Stufe über die Gebirgswaldsteppe, die Trockensteppe bis zur Halbwüste erstreckt. An neun Messpunkten wurden witterungsklimatische Daten in Verbindung mit Merkmalen der Vegetation, des Bodens und der Bodenfeuchte aufgenommen. Die im Sommer 1998 gewonnenen Messwerte wurden mit Hilfe einer Clusteranalyse gebündelt und verdichtet. Auf dieser Grundlage konnten landschaftliche Zustandsformen inhaltlich gekennzeichnet, zeitlich eingeordnet und durch Zeit-Verhaltens-Modelle (Stacks) abgebildet werden. Aus den Zeit-Verhaltens-Modellen wird ersichtlich, dass man Zustandsformen, in denen die Hitze und die Trockenheit des Sommers 1998 besonders stark zum Ausdruck kommen, an allen Messpunkten beobachten kann, nimmt man die Station auf dem fast 3.000 m hohen Gipfel des Khukh Uul sowie die grundwasserbeeinflusste Station in unmittelbarer Seenähe aus. In ihrer extremen Form sind Trockenperioden jedoch nur im Beckeninneren und am Fuß der Randgebirge, also in der Halbwüste, in der Trockensteppe und in der Wiesensteppe aufgetreten. Im Bergwald sowie im Bereich der alpinen Matten und Polsterfluren fehlen sie.  Am stärksten sind die grundwasserfreien Bereiche der Halbwüste von der Hitze und Niederschlagsarmut des Sommers 1998 betroffen. An vier Fünfteln der Tage des Beobachtungszeitraumes herrscht an diesem Messpunkt extreme Trockenheit. Es fällt entweder gar kein Niederschlag oder nur so wenig, dass der seit dem Frühjahr erschöpfte Bodenwasservorrat nicht aufgefüllt wird. Das Verhältnis zwischen Niederschlag und potenzieller Verdunstung liegt hier bei 1:12.  In der Halbwüste zeichnet sich eine fortschreitende Desertifikation ab, zumal hier eine nichtangepasste Weidenutzung dominiert, in der Ziegen eine immer größere Rolle spielen. Dies gilt insbesondere für Bereiche in Siedlungsnähe. Örtlich ist auch der Bestand der Trockensteppe gefährdet, die sich an die Halbwüste zum Beckenrand hin anschließt. Hier ist nicht nur die Viehdichte am höchsten, sondern hier werden auch die meisten unbefestigten Fahrwege wild angelegt und die Bodendecke damit zerstört. Dies kann im Endeffekt zu einem Übergreifen von Prozessen der Desertifikation führen.  Aus methodischer Sicht zeigt sich, dass die Kennzeichnung landschaftlicher Zustandsformen durch Zeit-Verhaltens-Modelle die Ermittlung der Auswirkungen von Witterung und Klima auf den Landschaftszustand erleichtert, da sie deren Aussage konzentriert. Zur Interpretation der Ergebnisse ist jedoch ein Rückgriff auf die beschreibende Darstellung der Messwerte notwendig. Die im westlichen Uvs-Nuur-Becken und seinen Randgebirgen angewandte Verfahrensweise ermöglicht es, globale Aussagen zur globalen Erwärmung der Kontinente regional oder lokal zu überprüfen und zu untersetzen."
N2  - Landscape condition and landscape development express the functional relations between energy balance, water balance and material balance on the one hand and on the other hand they reflect the effects of land use. At present the global increase of near-surface air temperature changes the energy balance, water balance and material balance in many places. Especially in arid regions this trend and an inappropriate land use restrict the regeneration ability of vegetation and lead to the degradation of soil cover.  Different scenarios for global warming prognosticate high values of increasing air temperature in Mongolia and its adjacent regions in Asia. A global estimation of anthropogenicly induced soil degradation classifies this region as strongly or extremely strong affected. Against this background a research was carried out in the Uvs Nuur Basin, placed in the northwest of Mongolia and therefore in one of the most arid regions of this country. The object of investigation was the reflection of the global increase of air temperature on a local and regional level and the resulting changes of landscape balance.  From 1997 to 1999 the effects of changes in summer weather on the landscape condition were measured on a transect from the Kharkhiraa mountains at the western margin of the basin up to the lake Uvs at the centre of the basin. The transect included alpine mat, mountain steppe, dry steppe and semi desert. Climatic data was collected at 9 transect stations, in addition with characteristics of vegetation, soil and soil moisture. The data of summer 1998 was bundled and consolidated with a cluster analysis. On this basis forms of landscape condition could be evaluated in content, arranged chronologically and characterised by time performance models (stacks).  The time performance models prove that forms of landscape condition marking the heat and the drought of summer 1998 can be found at every station of the transect except of the one on the summit of Khukh Uul at almost 3.000 m above sea level and another groundwater-influenced station at the bank of lake Uvs. However, extremely dry periods occur only from the centre of the basin up to the foothills, thus in the semi desert, the dry steppe and the short grass steppe. They do not occur in the mountain forest and in the alpine mat.  Areas in the semi desert are most affected by drought and lack of precipitation during the summer 1998. Four fifths of the days in the measurement period are extremely droughty days. Either there is no precipitation at all or it is insufficient to fill up the soil water storage exhausted since spring-time. The relation of precipitation and potential evaporation averages out here at 1:12.  A progressive desertification becomes apparent in the semi desert, particularly determined by an inappropriate land use in conjunction with an increasing goat-rearing in the area around the settlements. Partially this trend even affects the dry steppe in adjacency to the semi desert toward the margin of the basin. These areas are characterised not only by the highest stocking rate but also by the largest number of unofficial dirt roads thus leading to the denudation of the soil cover and finally to the spreading of desertification processes.  From the methodical point of view it is obvious that the characterisation by time performance models facilitates the determination of weather and climate influence on landscape condition by summarising their information. However, the interpretation of the results has to be accomplished by a describing analysis of the measured data. The procedure applied in the western Uvs Nuur Basin and its adjacent mountains provides the opportunity to examine and substantiate the reports on global warming at regional or local level.
KW  - Mongolei; Uvs-Nuur-Becken
KW  - Witterung
KW  - Klima
KW  - Landschaftshaushalt
KW  - Energie-
KW  - Wasser- und Stoffhaushalt
KW  - multivariate Statistik
KW  - Clusteranalyse
KW  - landsch
KW  - Mongolia
KW  - Uvs Nuur Basin
KW  - weather
KW  - climate
KW  - landscape balance
KW  - energy balance
KW  - water balance
KW  - material balance
KW  - multivariate statistics
KW  - cluster analy
Y1  - 2003
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-0001184
ER  -