TY - BOOK A1 - Bauckmann, Jana A1 - Leser, Ulf A1 - Naumann, Felix T1 - Efficient and exact computation of inclusion dependencies for data integration N2 - Data obtained from foreign data sources often come with only superficial structural information, such as relation names and attribute names. Other types of metadata that are important for effective integration and meaningful querying of such data sets are missing. In particular, relationships among attributes, such as foreign keys, are crucial metadata for understanding the structure of an unknown database. The discovery of such relationships is difficult, because in principle for each pair of attributes in the database each pair of data values must be compared. A precondition for a foreign key is an inclusion dependency (IND) between the key and the foreign key attributes. We present with Spider an algorithm that efficiently finds all INDs in a given relational database. It leverages the sorting facilities of DBMS but performs the actual comparisons outside of the database to save computation. Spider analyzes very large databases up to an order of magnitude faster than previous approaches. We also evaluate in detail the effectiveness of several heuristics to reduce the number of necessary comparisons. Furthermore, we generalize Spider to find composite INDs covering multiple attributes, and partial INDs, which are true INDs for all but a certain number of values. This last type is particularly relevant when integrating dirty data as is often the case in the life sciences domain - our driving motivation. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 34 KW - Metadatenentdeckung KW - Metadatenqualität KW - Schemaentdeckung KW - Datenanalyse KW - Datenintegration KW - metadata discovery KW - metadata quality KW - schema discovery KW - data profiling KW - data integration Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-41396 SN - 978-3-86956-048-9 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Donges, Jonathan T1 - Complex networks in the climate system N2 - Complex network theory provides an elegant and powerful framework to statistically investigate the topology of local and long range dynamical interrelationships, i.e., teleconnections, in the climate system. Employing a refined methodology relying on linear and nonlinear measures of time series analysis, the intricate correlation structure within a multivariate climatological data set is cast into network form. Within this graph theoretical framework, vertices are identified with grid points taken from the data set representing a region on the the Earth's surface, and edges correspond to strong statistical interrelationships between the dynamics on pairs of grid points. The resulting climate networks are neither perfectly regular nor completely random, but display the intriguing and nontrivial characteristics of complexity commonly found in real world networks such as the internet, citation and acquaintance networks, food webs and cortical networks in the mammalian brain. Among other interesting properties, climate networks exhibit the "small-world" effect and possess a broad degree distribution with dominating super-nodes as well as a pronounced community structure. We have performed an extensive and detailed graph theoretical analysis of climate networks on the global topological scale focussing on the flow and centrality measure betweenness which is locally defined at each vertex, but includes global topological information by relying on the distribution of shortest paths between all pairs of vertices in the network. The betweenness centrality field reveals a rich internal structure in complex climate networks constructed from reanalysis and atmosphere-ocean coupled general circulation model (AOGCM) surface air temperature data. Our novel approach uncovers an elaborately woven meta-network of highly localized channels of strong dynamical information flow, that we relate to global surface ocean currents and dub the backbone of the climate network in analogy to the homonymous data highways of the internet. This finding points to a major role of the oceanic surface circulation in coupling and stabilizing the global temperature field in the long term mean (140 years for the model run and 60 years for reanalysis data). Carefully comparing the backbone structures detected in climate networks constructed using linear Pearson correlation and nonlinear mutual information, we argue that the high sensitivity of betweenness with respect to small changes in network structure may allow to detect the footprints of strongly nonlinear physical interactions in the climate system. The results presented in this thesis are thoroughly founded and substantiated using a hierarchy of statistical significance tests on the level of time series and networks, i.e., by tests based on time series surrogates as well as network surrogates. This is particularly relevant when working with real world data. Specifically, we developed new types of network surrogates to include the additional constraints imposed by the spatial embedding of vertices in a climate network. Our methodology is of potential interest for a broad audience within the physics community and various applied fields, because it is universal in the sense of being valid for any spatially extended dynamical system. It can help to understand the localized flow of dynamical information in any such system by combining multivariate time series analysis, a complex network approach and the information flow measure betweenness centrality. Possible fields of application include fluid dynamics (turbulence), plasma physics and biological physics (population models, neural networks, cell models). Furthermore, the climate network approach is equally relevant for experimental data as well as model simulations and hence introduces a novel perspective on model evaluation and data driven model building. Our work is timely in the context of the current debate on climate change within the scientific community, since it allows to assess from a new perspective the regional vulnerability and stability of the climate system while relying on global and not only on regional knowledge. The methodology developed in this thesis hence has the potential to substantially contribute to the understanding of the local effect of extreme events and tipping points in the earth system within a holistic global framework. N2 - Die Theorie komplexer Netzwerke bietet einen eleganten Rahmen zur statistischen Untersuchung der Topologie lokaler und langreichweitiger dynamischer Zusammenhänge (Telekonnektionen) im Klimasystem. Unter Verwendung einer verfeinerten, auf linearen und nichtlinearen Korrelationsmaßen der Zeitreihenanalyse beruhenden Netzwerkkonstruktionsmethode, bilden wir die komplexe Korrelationsstruktur eines multivariaten klimatologischen Datensatzes auf ein Netzwerk ab. Dabei identifizieren wir die Knoten des Netzwerkes mit den Gitterpunkten des zugrundeliegenden Datensatzes, während wir Paare von besonders stark korrelierten Knoten als Kanten auffassen. Die resultierenden Klimanetzwerke zeigen weder die perfekte Regularität eines Kristallgitters, noch eine vollkommen zufällige Topologie. Vielmehr weisen sie faszinierende und nichttriviale Eigenschaften auf, die charakteristisch für natürlich gewachsene Netzwerke wie z.B. das Internet, Zitations- und Bekanntschaftsnetzwerke, Nahrungsnetze und kortikale Netzwerke im Säugetiergehirn sind. Besonders erwähnenswert ist, dass in Klimanetzwerken das Kleine-Welt-Phänomen auftritt. Desweiteren besitzen sie eine breite Gradverteilung, werden von Superknoten mit sehr vielen Nachbarn dominiert, und bilden schließlich regional wohldefinierte Untergruppen von intern dicht vernetzten Knoten aus. Im Rahmen dieser Arbeit wurde eine detaillierte, graphentheoretische Analyse von Klimanetzwerken auf der globalen topologischen Skala durchgeführt, wobei wir uns auf das Netzwerkfluss- und Zentralitätsmaß Betweenness konzentrierten. Betweenness ist zwar lokal an jedem Knoten definiert, enthält aber trotzdem Informationen über die globale Netzwerktopologie. Dies beruht darauf, dass die Verteilung kürzester Pfade zwischen allen möglichen Paaren von Knoten in die Berechnung des Maßes eingeht. Das Betweennessfeld zeigt reichhaltige und zuvor verborgene Strukturen in aus Reanalyse- und Modelldaten der erdoberflächennahen Lufttemperatur gewonnenen Klimanetzen. Das durch unseren neuartigen Ansatz enthüllte Metanetzwerk, bestehend aus hochlokalisierten Kanälen stark gebündelten Informationsflusses, bringen wir mit der Oberflächenzirkulation des Weltozeans in Verbindung. In Analogie mit den gleichnamigen Datenautobahnen des Internets nennen wir dieses Metanetzwerk den Backbone des Klimanetzwerks. Unsere Ergebnisse deuten insgesamt darauf hin, dass Meeresoberflächenströmungen einen wichtigen Beitrag zur Kopplung und Stabilisierung des globalen Oberflächenlufttemperaturfeldes leisten. Wir zeigen weiterhin, dass die hohe Sensitivität des Betweennessmaßes hinsichtlich kleiner Änderungen der Netzwerktopologie die Detektion stark nichtlinearer physikalischer Wechselwirkungen im Klimasystem ermöglichen könnte. Die in dieser Arbeit vorgestellten Ergebnisse wurden mithilfe statistischer Signifikanztests auf der Zeitreihen- und Netzwerkebene gründlich auf ihre Robustheit geprüft. In Anbetracht fehlerbehafteter Daten und komplexer statistischer Zusammenhänge zwischen verschiedenen Netzwerkmaßen ist diese Vorgehensweise besonders wichtig. Weiterhin ist die Entwicklung neuer, allgemein anwendbarer Surrogate für räumlich eingebettete Netzwerke hervorzuheben, die die Berücksichtigung spezieller Klimanetzwerkeigenschaften wie z.B. der Wahrscheinlichkeitsverteilung der Kantenlängen erlauben. Unsere Methode ist universell, weil sie zum Verständnis des lokalisierten Informationsflusses in allen räumlich ausgedehnten, dynamischen Systemen beitragen kann. Deshalb ist sie innerhalb der Physik und anderer angewandter Wissenschaften von potentiell breitem Interesse. Mögliche Anwendungen könnten sich z.B. in der Fluiddynamik (Turbulenz), der Plasmaphysik und der Biophysik (Populationsmodelle, neuronale Netzwerke und Zellmodelle) finden. Darüber hinaus ist der Netzwerkansatz für experimentelle Daten sowie Modellsimulationen gültig, und eröffnet folglich neue Perspektiven für Modellevaluation und datengetriebene Modellierung. Im Rahmen der aktuellen Klimawandeldebatte stellen Klimanetzwerke einen neuartigen Satz von Analysemethoden zur Verfügung, der die Evaluation der lokalen Vulnerabilität und Stabilität des Klimasystems unter Berücksichtigung globaler Randbedingungen ermöglicht. Die in dieser Arbeit entwickelten und untersuchten Methoden könnten folglich in der Zukunft, innerhalb eines holistisch-globalen Ansatzes, zum Verständnis der lokalen Auswirkungen von Extremereignissen und Kipppunkten im Erdsystem beitragen. KW - Komplexe Netzwerke KW - Klimanetzwerke KW - Datenanalyse KW - Graphentheorie KW - Klimadaten KW - Complex networks KW - climate networks KW - data analysis KW - graph theory KW - climate data Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-49775 ER - TY - THES A1 - Giuri, Chiara T1 - VERITAS Dark Matter search in dwarf spheroidal galaxies: an extended analysis T1 - VERITAS-Suche nach dunkler Materie in sphäroidischen Zwerggalaxien: eine erweiterte Analyse” N2 - In the last century, several astronomical measurements have supported that a significant percentage (about 22%) of the total mass of the Universe, on galactic and extragalactic scales, is composed of a mysterious ”dark” matter (DM). DM does not interact with the electromagnetic force; in other words it does not reflect, absorb or emit light. It is possible that DM particles are weakly interacting massive particles (WIMPs) that can annihilate (or decay) into Standard Model (SM) particles, and modern very- high-energy (VHE; > 100 GeV) instruments such as imaging atmospheric Cherenkov telescopes (IACTs) can play an important role in constraining the main properties of such DM particles, by detecting these products. One of the most privileged targets where to look for DM signal are dwarf spheroidal galaxies (dSphs), as they are expected to be high DM-dominated objects with a clean, gas-free environment. Some dSphs could be considered as extended sources, considering the angular resolution of IACTs; their angu- lar resolution is adequate to detect extended emission from dSphs. For this reason, we performed an extended-source analysis, by taking into account in the unbinned maximum likelihood estimation both the energy and the angular extension dependency of observed events. The goal was to set more constrained upper limits on the velocity-averaged cross-section annihilation of WIMPs with VERITAS data. VERITAS is an array of four IACTs, able to detect γ-ray photons ranging between 100 GeV and 30 TeV. The results of this extended analysis were compared against the traditional spectral analysis. We found that a 2D analysis may lead to more constrained results, depending on the DM mass, channel, and source. Moreover, in this thesis, the results of a multi-instrument project are presented too. Its goal was to combine already published 20 dSphs data from five different experiments, such as Fermi-LAT, MAGIC, H.E.S.S., VERITAS and HAWC, in order to set upper limits on the WIMP annihilation cross-section in the widest mass range ever reported. N2 - Im letzten Jahrhundert haben verschiedene mehrere astronomische Messungen gezeigt, dass ein erheblicher Prozentsatz (etwa 22 %) der Gesamtmasse des Universums auf galaktischer und extragalaktischer Ebene aus einer geheimnisvollen ”dunklen” Materie (DM) besteht. DM interagiert nicht mit der elektromagnetischen Kraft und reflektiert, absorbiert oder emittiert daher kein Licht. Es ist möglich, dass es sich bei DM-Teilchen um schwach wechselwirkende massive Teilchen (engl. weakly interacting massive particles, WIMPs) handelt, die in Teilchen des Standardmodells (SM) annihilieren (oder zerfallen) können. Indem sie diese Produkte nachweisen, können moderne Detektoren für sehr hoch energetische (engl. very-high-energy, VHE; 100 GeV) Gammastrahlung, wie zum Beispiel bildgebende atmosphärische Cherenkov-Teleskope (engl. imaging atmospheric Cherenkov telescopes, IACTs), eine wichtige Rolle bei der Bestimmung der Haupteigenschaften solcher DM-Teilchen spielen. Eines der am besten geeignetsten Ziele für die Suche nach DM-Signalen sind sphäroidische Zwerggalaxien (engl. dwarf spheroidal galaxies, dSphs), da diese stark DM-dominierte Objekte mit einer gasfreien Umgebung sind. Die Winkelauflösung von IACTs ist ausreichend, um ausgedehnte Emission von dSphs zu entdecken. Aus diesem Grund haben wir eine Analyse dieser Quellen durchgeführt, indem wir in der unbinned Maximum-Likelihood-Schätzung sowohl die Energie als auch die Abhängigkeit der Winkelausdehnung der beobachteten Gammastrahlung berücksichtigt haben. Das Ziel war es, mit Hilfe der VERITAS-Daten genauere Obergrenzen für den geschwindigkeitsgemittelten Annihilationsquerschnitt von WIMPs zu bestimmen. VERITAS ist eine Anordnung von vier IACTs, die Gammastrahlen im Bereich von 100 GeV bis 30 TeV detektieren können. Die Ergebnisse dieser erweiterten Analyse wurden mit der traditionellen Spektralanalyse verglichen. Es zeigte sich, dass je nach DM-Masse, Kanal und Quelle eine 2D-Analyse zu aussagekräftigeren Ergebnissen führen kann. Darüber hinaus werden in dieser Arbeit auch die Ergebnisse eines Multi-Instrumenten-Projekts vorgestellt. Das Ziel war es, die bereits veröffentlichte 20 dSphs-Datensätze von Fermi-LAT, MAGIC, H.E.S.S., VERITAS und HAWC zu kombinieren, um obere Grenzwerte für den WIMP-Annihilationsquerschnitt im breitesten jemals veröffentlichten Massenbereich zu bestimmen. KW - Dark Matter KW - data analysis KW - Cherenkov telescopes KW - dwarf spheroidal galaxies KW - Dunkle Materie KW - Datenanalyse KW - Cherenkov-Teleskope KW - sphäroidische Zwerggalaxien Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-575869 ER -