Personal Big Data : a privacy-centred selective cloud computing approach to progressive user modelling on mobile devices

Meier, Sebastian

The search result changed since you submitted your search request. Documents might be displayed in a different sort order.

search hit 6 of 762

Back to Result List

Personal Big Data

Sebastian Meier

Many users of cloud-based services are concerned about questions of data privacy. At the same time, they want to benefit from smart data-driven services, which require insight into a person’s individual behaviour. The modus operandi of user modelling is that data is sent to a remote server where the model is constructed and merged with other users’ data. This thesis proposes selective cloud computing, an alternative approach, in which the user model is constructed on the client-side and only an abstracted generalised version of the model is shared with the remote services. In order to demonstrate the applicability of this approach, the thesis builds an exemplary client-side user modelling technique. As this thesis is carried out in the area of Geoinformatics and spatio-temporal data is particularly sensitive, the application domain for this experiment is the analysis and prediction of a user’s spatio-temporal behaviour. The user modelling technique is grounded in an innovative conceptual model, which builds upon spatial networkMany users of cloud-based services are concerned about questions of data privacy. At the same time, they want to benefit from smart data-driven services, which require insight into a person’s individual behaviour. The modus operandi of user modelling is that data is sent to a remote server where the model is constructed and merged with other users’ data. This thesis proposes selective cloud computing, an alternative approach, in which the user model is constructed on the client-side and only an abstracted generalised version of the model is shared with the remote services. In order to demonstrate the applicability of this approach, the thesis builds an exemplary client-side user modelling technique. As this thesis is carried out in the area of Geoinformatics and spatio-temporal data is particularly sensitive, the application domain for this experiment is the analysis and prediction of a user’s spatio-temporal behaviour. The user modelling technique is grounded in an innovative conceptual model, which builds upon spatial network theory combined with time-geography. The spatio-temporal constraints of time-geography are applied to the network structure in order to create individual spatio-temporal action spaces. This concept is translated into a novel algorithmic user modelling approach which is solely driven by the user’s own spatio-temporal trajectory data that is generated by the user’s smartphone. While modern smartphones offer a rich variety of sensory data, this thesis only makes use of spatio-temporal trajectory data, enriched by activity classification, as the input and foundation for the algorithmic model. The algorithmic model consists of three basal components: locations (vertices), trips (edges), and clusters (neighbourhoods). After preprocessing the incoming trajectory data in order to identify locations, user feedback is used to train an artificial neural network to learn temporal patterns for certain location types (e.g. work, home, bus stop, etc.). This Artificial Neural Network (ANN) is used to automatically detect future location types by their spatio-temporal patterns. The same is done in order to predict the duration of stay at a certain location. Experiments revealed that neural nets were the most successful statistical and machine learning tool to detect those patterns. The location type identification algorithm reached an accuracy of 87.69%, the duration prediction on binned data was less successful and deviated by an average of 0.69 bins. A challenge for the location type classification, as well as for the subsequent components, was the imbalance of trips and connections as well as the low accuracy of the trajectory data. The imbalance is grounded in the fact that most users exhibit strong habitual patterns (e.g. home > work), while other patterns are rather rare by comparison. The accuracy problem derives from the energy-saving location sampling mode, which creates less accurate results. Those locations are then used to build a network that represents the user’s spatio-temporal behaviour. An initial untrained ANN to predict movement on the network only reached 46% average accuracy. Only lowering the number of included edges, focusing on more common trips, increased the performance. In order to further improve the algorithm, the spatial trajectories were introduced into the predictions. To overcome the accuracy problem, trips between locations were clustered into so-called spatial corridors, which were intersected with the user’s current trajectory. The resulting intersected trips were ranked through a k-nearest-neighbour algorithm. This increased the performance to 56%. In a final step, a combination of a network and spatial clustering algorithm was built in order to create clusters, therein reducing the variety of possible trips. By only predicting the destination cluster instead of the exact location, it is possible to increase the performance to 75% including all classes. A final set of components shows in two exemplary ways how to deduce additional inferences from the underlying spatio-temporal data. The first example presents a novel concept for predicting the ‘potential memorisation index’ for a certain location. The index is based on a cognitive model which derives the index from the user’s activity data in that area. The second example embeds each location in its urban fabric and thereby enriches its cluster’s metadata by further describing the temporal-semantic activity in an area (e.g. going to restaurants at noon). The success of the client-side classification and prediction approach, despite the challenges of inaccurate and imbalanced data, supports the claimed benefits of the client-side modelling concept. Since modern data-driven services at some point do need to receive user data, the thesis’ computational model concludes with a concept for applying generalisation to semantic, temporal, and spatial data before sharing it with the remote service in order to comply with the overall goal to improve data privacy. In this context, the potentials of ensemble training (in regards to ANNs) are discussed in order to highlight the potential of only sharing the trained ANN instead of the raw input data. While the results of our evaluation support the assets of the proposed framework, there are two important downsides of our approach compared to server-side modelling. First, both of these server-side advantages are rooted in the server’s access to multiple users’ data. This allows a remote service to predict spatio-in the user-specific data, which represents the second downside. While minor classes will likely be minor classes in a bigger dataset as well, for each class, there will still be more variety than in the user-specific dataset. The author emphasises that the approach presented in this work holds the potential to change the privacy paradigm in modern data-driven services. Finding combinations of client- and server-side modelling could prove a promising new path for data-driven innovation. Beyond the technological perspective, throughout the thesis the author also offers a critical view on the data- and technology-driven development of this work. By introducing the client-side modelling with user-specific artificial neural networks, users generate their own algorithm. Those user-specific algorithms are influenced less by generalised biases or developers’ prejudices. Therefore, the user develops a more diverse and individual perspective through his or her user model. This concept picks up the idea of critical cartography, which questions the status quo of how space is perceived and represented.…
Die Nutzung von modernen digitalen Diensten und Cloud-Services geht häufig einher mit einer Besorgtheit um die Sicherheit der eigenen Privatsphäre. Gleichzeitig zeigt sich, dass die Nutzung eben dieser Dienste nicht rückläufig ist. Dieses Phänomen wird in der Wissenschaft auch als Privacy-Paradox bezeichnet (Barnes, 2006). Viele digitale Dienste bauen einen Großteil ihrer Funktionalitäten auf NutzerInnendaten auf. Der Modus Operandi bei diesen Diensten ist bisher, die Daten der NutzerInnen an einen Server zu schicken, wo diese verarbeitet, analysiert und gespeichert werden. Die vorliegende Doktorarbeit schlägt ein alternatives Konzept vor: Selective Cloud Computing. Kern dieses Konzeptes ist die Verlagerung der NutzerInnen-Modellierung auf die privaten Endgeräte, wodurch für weitere Services nur ein abstrahiertes Daten- und NutzerInnenmodel mit den externen Diensten geteilt wird. Um dieses Konzept auf seine Machbarkeit und Performanz zu überprüfen wird im Rahmen dieser Arbeit ein beispielhafter Prozess für dieDie Nutzung von modernen digitalen Diensten und Cloud-Services geht häufig einher mit einer Besorgtheit um die Sicherheit der eigenen Privatsphäre. Gleichzeitig zeigt sich, dass die Nutzung eben dieser Dienste nicht rückläufig ist. Dieses Phänomen wird in der Wissenschaft auch als Privacy-Paradox bezeichnet (Barnes, 2006). Viele digitale Dienste bauen einen Großteil ihrer Funktionalitäten auf NutzerInnendaten auf. Der Modus Operandi bei diesen Diensten ist bisher, die Daten der NutzerInnen an einen Server zu schicken, wo diese verarbeitet, analysiert und gespeichert werden. Die vorliegende Doktorarbeit schlägt ein alternatives Konzept vor: Selective Cloud Computing. Kern dieses Konzeptes ist die Verlagerung der NutzerInnen-Modellierung auf die privaten Endgeräte, wodurch für weitere Services nur ein abstrahiertes Daten- und NutzerInnenmodel mit den externen Diensten geteilt wird. Um dieses Konzept auf seine Machbarkeit und Performanz zu überprüfen wird im Rahmen dieser Arbeit ein beispielhafter Prozess für die nutzerInnenseitige Modellierung von raumzeitlichen Informationen entwickelt. Da raumzeitliche Informationen mit zu den sensibelsten persönlichen Daten gehören, bietet die Verortung der vorliegende Arbeit im Bereich der Geoinformatik für das Anwendungsfeld der NutzerInnen-Modellierung einen passenden disziplinären Rahmen. Die NutzerInnen-Modellierung fußt auf einem innovativen konzeptuellen Modell, welches Theorien zu räumlichen Netzwerken und Hägerstrands Theorie der Zeitgeographie miteinander kombiniert (Hägerstrand, 1970). Hierbei werden die von Hägerstrand entwickelten raumzeitlichen Einschränkungen (Constraints) auf das Netzwerkmodel übertragen, wodurch individuelle Aktionsräume konstituiert werden. Dieses Model wird schließlich in ein algorithmisches Computermodel übersetzt, dessen Operationen ausschließlich die Daten verarbeiten und nutzen, die auf den Smartphones der NutzerInnen generiert werden. Moderne Smartphones bieten für die Datengenerierung gute Voraussetzungen, da sie den Zugriff auf eine ganze Bandbreite an Sensoren und anderen Datenquellen ermöglich. Die vorliegende Arbeit beschränkt sich dabei jedoch auf die raumzeitlichen Informationen, welche über die Ortungsfunktionen des Geräts produziert werden (Trajectories). Die Trajektorien werden angereichert durch Aktivitätsklassifikationen (z.B. Laufen, Radfahren, etc.), welche von der App, die diese Daten aufzeichnet, zugeordnet werden. Das Computermodel basiert auf diesen Daten und gliedert diese in drei grundlegende Komponenten: 1) Orte (Knotenpunkte) 2) Trips (Kanten) und 3) Cluster (Nachbarschaften). Zu Beginn der algorithmischen Verarbeitung werden die eingehenden Daten optimiert und analysiert, um in einem ersten Schritt geographische Orte zu identifizieren. Um diese Orte nun mit semantischen Informationen anzureichern wird ein automatisierter Algorithmus über User-Feedback trainiert, welcher die Orts-Typen selbstständig erkennt (z.B. Zuhause, Arbeitsplatz, Haltestelle). Der Algorithmus basiert auf einem künstlichen neuronalen Netz, welches versucht, Muster in den Daten zu erkennen. Die Entscheidung, neuronale Netze in diesem Prozess einzusetzen, ergab sich aus einer Evaluation verschiedener Verfahren der statistischen Klassifizierung und des maschinellen Lernens. Das Verfahren zur Erkennung der Orts-Typen erreichte unter Zuhilfenahme eines künstlichen neuronalen Netz eine Genauigkeit von 87.69% und war damit das akkurateste. Eine weitere Einsatzmöglichkeit solcher neuronalen Netze ist bei der Vorhersage von Aufenthaltsdauern an bestimmten Orten, welche im Durschnitt 0.69 Klassen vom korrekten Ergebnis abwich. Eine große Herausforderung für alle Module war sowohl die Ungenauigkeit der Rohdaten, also auch die ungleichmäßige Verteilung der Daten. Die Ungenauigkeit ist ein Resultat der Generierung der Positionsinformationen, welche zugunsten eines geringeren Energieverbrauchs der mobilen Geräte Ungenauigkeiten in Kauf nehmen muss. Die ungleichmäßige Verteilung ergibt sich wiederum durch häufig wiederkehrende Muster (z.B. Fahrten zur Arbeit und nach Hause), welche im Vergleich zu anderen Aktivitäten vergleichsweise häufig auftreten und die Datensätze dominieren. Die Orte, die in der ersten Phase identifiziert und klassifiziert wurden, werden im nächsten Schritt für die Konstruktion des eigentlichen räumlichen Netzwerks genutzt. Basierend auf den über einen bestimmten Zeitraum gesammelten Daten der NutzerInnen und im Rückgriff auf Hägerstrands Einschränkungsprinzip werden Vorhersagen über mögliche raumzeitliche Verhaltensweisen im nutzerspezifischen Netzwerk gemacht. Hierzu werden Methoden des maschinellen Lernens, in diesem Fall künstliche neuronale Netze und Nächste-Nachbarn-Klassifikation (k-nearest-neighbour), mit Methoden der Trajektorien-Analyse kombiniert. Die zugrundeliegenden Orts- und Bewegungsinformationen werden unter Anwendung von Netzwerk-Nachbarschafts-Methoden und klassischen räumlichen Gruppierungsmethoden (Clustering) für die Optimierung der Algorithmen verfeinert. Die aus diesen Schritten resultierende Methodik erreichte eine Genauigkeit von 75% bei der Vorhersage über raumzeitliches Verhalten. Wenn man Vorhersagen mit einbezieht, bei denen der korrekte Treffer auf Rang 2 und 3 der Nächste-Nachbarn-Klassifikation liegt, erreichte die Methodik sogar eine Vorhersagen-Genauigkeit von 90%. Um zu erproben, welche weiteren Schlussfolgerungen über die NutzerInnen basierend auf den zugrundeliegenden Daten getroffen werden könnten, werden abschließend zwei beispielhafte Methoden entwickelt und getestet: zum einen werden die Trajektorien genutzt um vorherzusagen, wie gut eine NutzerIn ein bestimmtes Gebiet kennt (Potential Memorisation Index). Zum anderen werden zeitlich-semantische Muster für Orts-Cluster extrahiert und darauf basierend berechnet, wann welche Aktivitäten und spezifischen Orte innerhalb eines Clusters für die NutzerIn potenziell von Interesse sind. Trotz der Herausforderungen, die mit den unausgeglichenen Datensätzen und teilweise fehlerhaften Daten einhergehen, spricht die dennoch vergleichsweise hohe Präzision der nutzerseitigen Klassifizierungs- und Vorhersagemethoden für den in dieser Arbeit vorgestellten Ansatz der nutzerseitigen Modellierung. In einem letzten Schritt kontextualisiert die vorliegende Arbeit die erstellten Ansätze in einem realweltlichen Anwendungsfall und diskutiert den Austausch der generierten Daten mit einem datengestützten Dienst. Hierzu wird das Konzept der Generalisierung genutzt, um im Sinne des Schutzes der Privatsphäre abstrahierte Daten mit einem Dienst zu teilen. Obgleich der positiven Ergebnisse der Tests gibt es auch klare Nachteile im Vergleich zur klassischen serverseitigen Modellierung, die unter Einbezug mehrerer aggregierter NutzerInnenprofile stattfindet. Hierzu zählt zum einen, dass unterrepräsentierte Klassen in den Daten schlechter identifiziert werden können. Zum anderen ergibt sich der Nachteil, dass nur Verhaltensweisen erkannt werden können, die bereits zuvor von der NutzerIn selber ausgeübt wurden und somit in den Daten bereits enthalten sind. Im Vergleich dazu besteht bei serverseitiger Modellierung auf der Basis zahlreicher Personenprofile der Zugriff auf ein breiteres Spektrum an Verhaltensmustern und somit die Möglichkeit, diese Muster mit dem der NutzerIn abzugleichen, ohne dass dieses Verhalten bereits in ihren nutzerseitig generierten Daten abgelegt ist. Nichtsdestotrotz zeigt die Arbeit, welches Potential die nutzerseitige Modellierung bereithält - nicht nur in Bezug auf den größeren Schutz der Privatsphäre der NutzerInnen, sondern ebenso in Hinsicht auf den Einsatz von Methoden des verteilten Rechnens (distributed computing). Die Kombination von beidem, nutzerInnen- und serverseitiger Modellierung, könnte ein neuer und vielversprechender Pfad für datengetriebene Innovation darstellen. Neben der technologischen Perspektive werden die entwickelten Methoden einer kritischen Analyse unterzogen. Durch das Einbringen der nutzerseitigen Modellierung in Form von benutzerspezifischen künstlichen neuronalen Netzen trainieren die NutzerInnen ihre eigenen Algorithmen auf ihren mobilen Geräten. Diese spezifischen Algorithmen sind weniger stark von generalisierten Vorannahmen, Vorurteilen und möglichen Befangenheiten der EntwicklerInnen beeinflusst. Hierdurch haben NutzerInnen die Möglichkeit, vielfältigere und persönlichere Perspektiven auf ihre Daten und ihr Verhalten zu generieren. Dieses Konzept setzt Ideen der kritischen Kartographie fort, in welcher der Status Quo der Wahrnehmung und Repräsentation des Raumes hinterfragt werden.…

Metadaten
Author details:	Sebastian Meier ORCiD GND
URN:	urn:nbn:de:kobv:517-opus4-406696
Subtitle (English):	a privacy-centred selective cloud computing approach to progressive user modelling on mobile devices
Subtitle (German):	ein mit dem Schwerpunkt auf Privatsphäre entwickelter selektiver Cloud-Computing Ansatz zur fortschreitenden Modellierung von Nutzerverhalten auf mobilen Endgeräten
Supervisor(s):	Hartmut Asche, Frank Heidmann, Till Nagel
Publication type:	Doctoral Thesis
Language:	English
Publication year:	2017
Publishing institution:	Universität Potsdam
Granting institution:	Universität Potsdam
Date of final exam:	2017/12/07
Release date:	2018/02/01
Tag:	Empfehlungen; Machine Learning; Mobil; Privatsphäre; Verhalten; persönliche Informationen; raum-zeitlich Personal Data; behaviour; machine learning; mobile; privacy; recommendation; spatio-temporal
Number of pages:	xxiv, 133
RVK - Regensburg classification:	RB 10104
Organizational units:	Mathematisch-Naturwissenschaftliche Fakultät / Institut für Umweltwissenschaften und Geographie
DDC classification:	0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Institution name at the time of the publication:	Mathematisch-Naturwissenschaftliche Fakultät / Institut für Geographie
License (German):	Keine öffentliche Lizenz: Unter Urheberrechtsschutz

Personal Big Data

Personal Big Data

Download full text files

Export metadata

Additional Services