TY  - THES
A1  - Scheffler, Thomas
T1  - Privacy enforcement with data owner-defined policies
T1  - Schutz privater Daten durch besitzer-definierte Richtlinien
N2  - This thesis proposes a privacy protection framework for the controlled distribution and use of personal private data. The framework is based on the idea that privacy policies can be set directly by the data owner and can be automatically enforced against the data user. Data privacy continues to be a very important topic, as our dependency on electronic communication maintains its current growth, and private data is shared between multiple devices, users and locations. The growing amount and the ubiquitous availability of personal private data increases the likelihood of data misuse. Early privacy protection techniques, such as anonymous email and payment systems have focused on data avoidance and anonymous use of services. They did not take into account that data sharing cannot be avoided when people participate in electronic communication scenarios that involve social interactions. This leads to a situation where data is shared widely and uncontrollably and in most cases the data owner has no control over further distribution and use of personal private data. Previous efforts to integrate privacy awareness into data processing workflows have focused on the extension of existing access control frameworks with privacy aware functions or have analysed specific individual problems such as the expressiveness of policy languages. So far, very few implementations of integrated privacy protection mechanisms exist and can be studied to prove their effectiveness for privacy protection. Second level issues that stem from practical application of the implemented mechanisms, such as usability, life-time data management and changes in trustworthiness have received very little attention so far, mainly because they require actual implementations to be studied. Most existing privacy protection schemes silently assume that it is the privilege of the data user to define the contract under which personal private data is released. Such an approach simplifies policy management and policy enforcement for the data user, but leaves the data owner with a binary decision to submit or withhold his or her personal data based on the provided policy. We wanted to empower the data owner to express his or her privacy preferences through privacy policies that follow the so-called Owner-Retained Access Control (ORAC) model. ORAC has been proposed by McCollum, et al. as an alternate access control mechanism that leaves the authority over access decisions by the originator of the data. The data owner is given control over the release policy for his or her personal data, and he or she can set permissions or restrictions according to individually perceived trust values. Such a policy needs to be expressed in a coherent way and must allow the deterministic policy evaluation by different entities. The privacy policy also needs to be communicated from the data owner to the data user, so that it can be enforced. Data and policy are stored together as a Protected Data Object that follows the Sticky Policy paradigm as defined by Mont, et al. and others. We developed a unique policy combination approach that takes usability aspects for the creation and maintenance of policies into consideration. Our privacy policy consists of three parts: A Default Policy provides basic privacy protection if no specific rules have been entered by the data owner. An Owner Policy part allows the customisation of the default policy by the data owner. And a so-called Safety Policy guarantees that the data owner cannot specify disadvantageous policies, which, for example, exclude him or her from further access to the private data. The combined evaluation of these three policy-parts yields the necessary access decision. The automatic enforcement of privacy policies in our protection framework is supported by a reference monitor implementation. We started our work with the development of a client-side protection mechanism that allows the enforcement of data-use restrictions after private data has been released to the data user. The client-side enforcement component for data-use policies is based on a modified Java Security Framework. Privacy policies are translated into corresponding Java permissions that can be automatically enforced by the Java Security Manager. When we later extended our work to implement server-side protection mechanisms, we found several drawbacks for the privacy enforcement through the Java Security Framework. We solved this problem by extending our reference monitor design to use Aspect-Oriented Programming (AOP) and the Java Reflection API to intercept data accesses in existing applications and provide a way to enforce data owner-defined privacy policies for business applications.
N2  - Im Rahmen der Dissertation wurde ein Framework für die Durchsetzung von Richtlinien zum Schutz privater Daten geschaffen, welches darauf setzt, dass diese Richtlinien oder Policies direkt von den Eigentümern der Daten erstellt werden und automatisiert durchsetzbar sind. Der Schutz privater Daten ist ein sehr wichtiges Thema im Bereich der elektronischen Kommunikation, welches durch die fortschreitende Gerätevernetzung und die Verfügbarkeit und Nutzung privater Daten in Onlinediensten noch an Bedeutung gewinnt. In der Vergangenheit wurden verschiedene Techniken für den Schutz privater Daten entwickelt: so genannte Privacy Enhancing Technologies. Viele dieser Technologien arbeiten nach dem Prinzip der Datensparsamkeit und der Anonymisierung und stehen damit der modernen Netznutzung in Sozialen Medien entgegen. Das führt zu der Situation, dass private Daten umfassend verteilt und genutzt werden, ohne dass der Datenbesitzer gezielte Kontrolle über die Verteilung und Nutzung seiner privaten Daten ausüben kann. Existierende richtlinienbasiert Datenschutztechniken gehen in der Regel davon aus, dass der Nutzer und nicht der Eigentümer der Daten die Richtlinien für den Umgang mit privaten Daten vorgibt. Dieser Ansatz vereinfacht das Management und die Durchsetzung der Zugriffsbeschränkungen für den Datennutzer, lässt dem Datenbesitzer aber nur die Alternative den Richtlinien des Datennutzers zuzustimmen, oder keine Daten weiterzugeben. Es war daher unser Ansatz die Interessen des Datenbesitzers durch die Möglichkeit der Formulierung eigener Richtlinien zu stärken. Das dabei verwendete Modell zur Zugriffskontrolle wird auch als Owner-Retained Access Control (ORAC) bezeichnet und wurde 1990 von McCollum u.a. formuliert. Das Grundprinzip dieses Modells besteht darin, dass die Autorität über Zugriffsentscheidungen stets beim Urheber der Daten verbleibt. Aus diesem Ansatz ergeben sich zwei Herausforderungen. Zum einen muss der Besitzer der Daten, der Data Owner, in die Lage versetzt werden, aussagekräftige und korrekte Richtlinien für den Umgang mit seinen Daten formulieren zu können. Da es sich dabei um normale Computernutzer handelt, muss davon ausgegangen werden, dass diese Personen auch Fehler bei der Richtlinienerstellung machen. Wir haben dieses Problem dadurch gelöst, dass wir die Datenschutzrichtlinien in drei separate Bereiche mit unterschiedlicher Priorität aufteilen. Der Bereich mit der niedrigsten Priorität definiert grundlegende Schutzeigenschaften. Der Dateneigentümer kann diese Eigenschaften durch eigene Regeln mittlerer Priorität überschrieben. Darüber hinaus sorgt ein Bereich mit Sicherheitsrichtlinien hoher Priorität dafür, dass bestimmte Zugriffsrechte immer gewahrt bleiben. Die zweite Herausforderung besteht in der gezielten Kommunikation der Richtlinien und deren Durchsetzung gegenüber dem Datennutzer (auch als Data User bezeichnet). Um die Richtlinien dem Datennutzer bekannt zu machen, verwenden wir so genannte Sticky Policies. Das bedeutet, dass wir die Richtlinien über eine geeignete Kodierung an die zu schützenden Daten anhängen, so dass jederzeit darauf Bezug genommen werden kann und auch bei der Verteilung der Daten die Datenschutzanforderungen der Besitzer erhalten bleiben. Für die Durchsetzung der Richtlinien auf dem System des Datennutzers haben wir zwei verschiedene Ansätze entwickelt. Wir haben einen so genannten Reference Monitor entwickelt, welcher jeglichen Zugriff auf die privaten Daten kontrolliert und anhand der in der Sticky Policy gespeicherten Regeln entscheidet, ob der Datennutzer den Zugriff auf diese Daten erhält oder nicht. Dieser Reference Monitor wurde zum einen als Client-seitigen Lösung implementiert, die auf dem Sicherheitskonzept der Programmiersprache Java aufsetzt. Zum anderen wurde auch eine Lösung für Server entwickelt, welche mit Hilfe der Aspekt-orientierten Programmierung den Zugriff auf bestimmte Methoden eines Programms kontrollieren kann. In dem Client-seitigen Referenzmonitor werden Privacy Policies in Java Permissions übersetzt und automatisiert durch den Java Security Manager gegenüber beliebigen Applikationen durchgesetzt. Da dieser Ansatz beim Zugriff auf Daten mit anderer Privacy Policy den Neustart der Applikation erfordert, wurde für den Server-seitigen Referenzmonitor ein anderer Ansatz gewählt. Mit Hilfe der Java Reflection API und Methoden der Aspektorientierten Programmierung gelang es Datenzugriffe in existierenden Applikationen abzufangen und erst nach Prüfung der Datenschutzrichtlinie den Zugriff zuzulassen oder zu verbieten. Beide Lösungen wurden auf ihre Leistungsfähigkeit getestet und stellen eine Erweiterung der bisher bekannten Techniken zum Schutz privater Daten dar.
KW  - Datenschutz
KW  - Java Security Framework
KW  - Aspektorientierte Programmierung
KW  - Policy Sprachen
KW  - Owner-Retained Access Control (ORAC)
KW  - Data Privacy
KW  - Java Security Framework
KW  - Aspect-Oriented Programming
KW  - Policy Languages
KW  - Owner-Retained Access Control (ORAC)
Y1  - 2013
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-67939
ER  - 
TY  - THES
A1  - Podlesny, Nikolai Jannik
T1  - Quasi-identifier discovery to prevent privacy violating inferences in large high dimensional datasets
T1  - Erkennung von Quasi-Identifikatoren zum Schutz der Privatsphäre vor Rückschlüssen in hochdimensionalen Datensätzen
N2  - Personal data privacy is considered to be a fundamental right. It forms a part of our highest ethical standards and is anchored in legislation and various best practices from the technical perspective. Yet, protecting against personal data exposure is a challenging problem from the perspective of generating privacy-preserving datasets to support machine learning and data mining operations. The issue is further compounded by the fact that devices such as consumer wearables and sensors track user behaviours on such a fine-grained level, thereby accelerating the formation of multi-attribute and large-scale high-dimensional datasets. 

In recent years, increasing news coverage regarding de-anonymisation incidents, including but not limited to the telecommunication, transportation, financial transaction, and healthcare sectors, have resulted in the exposure of sensitive private information.  These incidents indicate that releasing privacy-preserving datasets requires serious consideration from the pre-processing perspective. A critical problem that appears in this regard is the time complexity issue in applying syntactic anonymisation methods, such as k-anonymity, l-diversity, or t-closeness to generating privacy-preserving data. Previous studies have shown that this problem is NP-hard.

This thesis focuses on large high-dimensional datasets as an example of a special case of data that is characteristically challenging to anonymise using syntactic methods. In essence, large high-dimensional data contains a proportionately large number of attributes in proportion to the population of attribute values. Applying standard syntactic data anonymisation approaches to generating privacy-preserving data based on such methods results in high information-loss, thereby rendering the data useless for analytics operations or in low privacy due to inferences based on the data when information loss is minimised. 

We postulate that this problem can be resolved effectively by searching for and eliminating all the quasi-identifiers present in a high-dimensional dataset. Essentially, we quantify the privacy-preserving data sharing problem as the Find-QID problem. 
Further, we show that despite the complex nature of absolute privacy, the discovery of QID can be achieved reliably for large datasets. The risk of private data exposure through inferences can be circumvented, and both can be practicably achieved without the need for high-performance computers. 

For this purpose, we present, implement, and empirically assess both mathematical and engineering optimisation methods for a deterministic discovery of privacy-violating inferences. This includes a greedy search scheme by efficiently queuing QID candidates based on their tuple characteristics, projecting QIDs on Bayesian inferences, and countering Bayesian network’s state-space-explosion with an aggregation strategy taken from multigrid context and vectorised GPU acceleration.  Part of this work showcases magnitudes of processing acceleration, particularly in high dimensions. We even achieve near real-time runtime for currently impractical applications. At the same time, we demonstrate how such contributions could be abused to de-anonymise Kristine A. and Cameron R. in a public Twitter dataset addressing the US Presidential Election 2020. 

Finally, this work contributes, implements, and evaluates an extended and generalised version of the novel syntactic anonymisation methodology, attribute compartmentation. Attribute compartmentation promises sanitised datasets without remaining quasi-identifiers while minimising information loss. To prove its functionality in the real world, we partner with digital health experts to conduct a medical use case study. As part of the experiments, we illustrate that attribute compartmentation is suitable for everyday use and, as a positive side effect, even circumvents a common domain issue of base rate neglect.
N2  - Der personenbezogene Datenschutz gilt als Grundrecht in der Europäischen Union. Dieser Schutz ist nicht nur Teil unserer höchsten ethischen Standards, sondern auch in diversen Gesetzgebungen, verschiedenen bewährten Praktiken und den höchsten Gerichtsentscheidungen verankert. In der jüngeren Vergangenheit gab es zunehmend mehr Zwischenfälle, bei dem der Datenschutz von Individuellen nicht gewahrt werden konnte. Berichterstattung zu diesen Ereignissen schließen ein, sind aber nicht beschränkt auf die Sektoren der Telekommunikation, Transport, Finanztransaktionen und Gesundheitswesen.

Nach diesen Vorfällen ist die Freigabe datenschutzrechtlicher Datensätze mit Problemen behaftet. Eines dieser Probleme ist die zeitliche Komplexitätsbeschränkung syntaktischer Anonymisierungsmethoden, durch die ihre Erforschung weitgehend zum Erliegen kam. Ansätze wie k-anonymity, l-diversity oder t-closeness haben sich in Ihrer Rechenzeit als sehr komplex und zeitaufwändig erwiesen. Auch Methoden der differenziellen Privatsphäre ("differential privacy") als probabilistische Anonymisierungstechnik weisen essentielle Einschränkungen für den Schutz von personenbezogenen Daten auf. 

Die Kombination von mehreren, unscheinbaren Datenpunkten können Quasi-Identifikatoren bilden, welche wiederum Angreifern in Kombination mit Hilfsdaten Schlussforderungen ermöglichen um private Informationen abzuleiten. Solche beobachteten Muster entfalten ihr volles Potenzial in dünn besiedelten, hochdimensionalen Daten, da ihre große Informationsvielfalt eine extreme Vielfalt von Schlussfolgerungen fördert. Die Suche nach und Beseitigung von Schlussfolgerung-Faktoren, die als Quasi-Identifikatoren (QID) fungieren, sind für das Problem des datenschutzschonenden Datenaustauschs von wesentlicher Bedeutung. Technologische Verbesserungen wie tragbare Fitnessgeräte für Verbraucher und Sensoren, die das Alltagsverhalten verfolgen, beschleunigen die Existenz von Datensätzen mit vielen Attributen und großen Datenmengen. Diese zusätzlichen Datenquellen bieten ein enormes Versprechen, erschweren aber gleichzeitig die Anonymisierungsbemühungen aufgrund der zunehmenden Komplexität. 

Als Teil dieser Arbeit wird das Finden von Quasi-Identifikatoren als "Find-QID"-Problem formalisiert, mathematische und technische Optimierungsmethoden vorgestellt, implementiert und experimentell verglichen. Ferner werden Charakteristika von Quasi-Identifikatoren erforscht, neue Entdeckungsmethoden vorgestellt und experimentell abgewogen und ebenfalls neue Anonymisierungsverfahren entworfen um die Existenz selbiger Quasi-Identifikatoren nachhaltig auszuschließen. In Summe wird aufgezeigt, wie diese Neuerungen sogar eine nahezu Echtzeit-Laufzeit für derzeit un-praktizierbare Anwendungen ermöglicht. Gleichzeitig wir aufgezeigt, wie selbige Beiträge zweckentfremdet werden können, um beispielhaft Kristine A. und Cameron R. in einem öffentlichen Datensatz zur US-Präsidentschaftswahl 2020 wiederzufinden.
KW  - data privacy
KW  - quasi-identifier discovery
KW  - de-anonymisation
KW  - mpmUCC
KW  - Datenschutz
KW  - Deanonymisierung
KW  - Erkennung von Quasi-Identifikatoren
KW  - mpmUCC
Y1  - 2023
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-587843
ER  - 
TY  - THES
A1  - Köhler, Wolfgang
T1  - Challenges of efficient and compliant data processing
T1  - Herausforderungen einer effizienten und gesetzeskonformen Datenverarbeitung
BT  - assuring legal access to data
BT  - Sicherstellung des rechtmäßigen Zugangs zu Daten
N2  - Die fortschreitende Digitalisierung verändert die Gesellschaft und hat weitreichende Auswirkungen auf Menschen und Unternehmen. Grundlegend für diese Veränderungen sind die neuen technologischen Möglichkeiten, Daten in immer größerem Umfang und für vielfältige neue Zwecke zu verarbeiten. Von besonderer Bedeutung ist dabei die Verfügbarkeit großer und qualitativ hochwertiger Datensätze, insbesondere auf Basis personenbezogener Daten. Sie werden entweder zur Verbesserung der Produktivität, Qualität und Individualität von Produkten und Dienstleistungen oder gar zur Entwicklung neuartiger Dienstleistungen verwendet. Heute wird das Nutzerverhalten, trotz weltweit steigender gesetzlicher Anforderungen an den Schutz personenbezogener Daten, aktiver und umfassender verfolgt als je zuvor. Dies wirft vermehrt ethische, moralische und gesellschaftliche Fragen auf, die nicht zuletzt durch populäre Fälle des Datenmissbrauchs in den Vordergrund der politischen Debatte gerückt sind. Angesichts dieses Diskurses und der gesetzlichen Anforderungen muss heutiges Datenmanagement drei Bedingungen erfüllen: Erstens die Legalität bzw. Gesetzeskonformität der Nutzung, zweitens die ethische Legitimität. Drittens sollte die Datennutzung aus betriebswirtschaftlicher Sicht wertschöpfend sein. Im Rahmen dieser Bedingungen verfolgt die vorliegende kumulative Dissertation vier Forschungsziele mit dem Fokus, ein besseres Verständnis (1) der Herausforderungen bei der Umsetzung von Gesetzen zum Schutz von Privatsphäre, (2) der Faktoren, die die Bereitschaft der Kunden zur Weitergabe persönlicher Daten beeinflussen, (3) der Rolle des Datenschutzes für das digitale Unternehmertum und (4) der interdisziplinären wissenschaftlichen Bedeutung, deren Entwicklung und Zusammenhänge zu erlangen.
N2  - Advancing digitalization is changing society and has far-reaching effects on people and companies. Fundamental to these changes are the new technological possibilities for processing data on an ever-increasing scale and for various purposes. The availability of large and high-quality data sets, especially those based on personal data, is crucial. They are used either to improve the productivity, quality, and individuality of products and services or to develop new types of services. Today, user behavior is tracked more actively and comprehensively than ever despite increasing legal requirements for protecting personal data worldwide. That increasingly raises ethical, moral, and social questions, which have moved to the forefront of the political debate, not least due to popular cases of data misuse. Given this discourse and the legal requirements, today's data management must fulfill three conditions: Legality or legal conformity of use and ethical legitimacy. Thirdly, the use of data should add value from a business perspective. Within the framework of these conditions, this cumulative dissertation pursues four research objectives with a focus on gaining a better understanding of
(1) the challenges of implementing privacy laws,
(2) the factors that influence customers' willingness to share personal data,
(3) the role of data protection for digital entrepreneurship, and
(4) the interdisciplinary scientific significance, its development, and its interrelationships.
KW  - General Data Protection Regulation (GDPR)
KW  - data privacy
KW  - privacy management
KW  - Datenschutz-Grundverordnung (DSGVO)
KW  - Datenschutz
KW  - Datenschutzmanagement
KW  - Datenmonetarisierung
KW  - digitale Produktentwicklung
KW  - data monetization
KW  - digital product development
Y1  - 2024
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-627843
ER  -