Η συνεχής εξέλιξη των τεχνολογιών αισθητήρων τις τελευταίες δεκαετίες έχει ως αποτέλεσμα την καθημερινή παραγωγή μεγάλων ροών δεδομένων, διαθέσιμων για επεξεργασία και ερμηνεία. Η απόδοση των συστημάτων Αναγνώρισης Ανθρώπινης Δραστηριότητας επηρεάζεται άμεσα από τον όγκο των παραγόμενων ακατέργαστων σημάτων, λόγω της συνεχούς ανάγκης για γρήγορες και ακριβείς προβλέψεις, ιδιαίτερα στην περίπτωση άμεσων/πραγματικού χρόνου εκτελέσεων. Οι τεχνικές Επιλογής Χαρακτηριστικών, ως αναπόσπαστο κομμάτι της αλληλουχίας τεχνικών Μηχανικής Μάθησης/Εξόρυξης Δεδομένων, έχουν αποδείξει την αποτελεσματικότητα τους στο να ελαττώνουν τον όγκο των διαθέσιμων ακατέργαστων ροών δεδομένων, όπως επίσης και στο να αφαιρούν τα περιττά δεδομένα, παρέχοντας στους αλγόριθμους ταξινόμησης διακρίνουσα πληροφορία για τα διαθέσιμα δεδομένα. Η εργασία αυτή ερευνά την επίδραση της Επιλογής Χαρακτηριστικών στον τομέα της Αναγνώρισης Ανθρώπινης Δραστηριότητας και υλοποιείται σε τρία στάδια.
Κατά τη διάρκεια του πρώτου σταδίου αυτής της εργασίας, πραγματοποιούμε μια συγκριτική μελέτη ώστε να εκτιμήσουμε τις βέλτιστες παραμέτρους, την πειραματική διάταξη και τους κατάλληλους αλγόριθμους ώστε να ενσωματώσουμε την Επιλογή Χαρακτηριστικών σε εφαρμογές Αναγνώρισης Ανθρώπινης Δραστηριότητας. Αξιολογούμε την αλληλουχία μεθόδων για Απόκτηση Δεδομένων, Τμηματοποίηση, Εξαγωγή Χαρακτηριστικών και Επιλογή Χαρακτηριστικών χρησιμοποιώντας δύο διαφορετικά σύνολα δεδομένων για Αναγνώριση Ανθρώπινης Δραστηριότητας. Τα ευρήματα αυτής της μελέτης αναφέρουν ότι η χρήση μικρών παράθυρων στη διαδικασία της Τμηματοποίησης βελτιώνει την απόδοση της Ταξινόμησης επειδή τα εμπλεκόμενα σε κάθε παράθυρο δεδομένα χαρακτηρίζονται από λιγότερες κλάσεις. Όσον αφορά στην Επιλογή Χαρακτηριστικών, τα αποτελέσματα μας τονίζουν την αποδοτικότητα των μεθόδων χωρίς επίβλεψη που βασίζονται σε αναπαραστάσεις γράφων.
Ο σκοπός του δεύτερου σταδίου αυτής της εργασίας είναι η μετάβαση σε εφαρμογές Αναγνώρισης Ανθρώπινης Δραστηριότητας άμεσης εκτέλεσης με την ενσωμάτωση των ευρημάτων της συγκριτικής μελέτης σε ένα αντίστοιχο περιβάλλον μέσω μιας εφαρμογής Android. Η διαδικασία Απόκτησης Δεδομένων πραγματοποιείται χρησιμοποιώντας μικρότερες παρτίδες δεδομένων αντί για ολόκληρα σύνολα δεδομένων, προσομοιώνοντας μια υπηρεσία παροχής συνεχών ροών δεδομένων. Μελετούμε διαφορετικά μεγέθη παρτίδων δεδομένων και παρατηρούμε την απόδοση διάφορων αλγόριθμων Επιλογής Χαρακτηριστικών στις διαμερίσεις δεδομένων που προκύπτουν, σε σχέση με τις διαθέσιμες ανθρώπινες δραστηριότητες. Πραγματοποιούμε επίσης μια ποιοτική ανάλυση στα επιλεγμένα χαρακτηριστικά και εξάγουμε πληροφορία η οποία σχετίζεται με τους κυρίαρχους τύπους δεδομένων που μεταφέρουν τα επικρατέστερα χαρακτηριστικά. Αξιολογούμε την απόδοση των ξεχωριστών μονάδων της εφαρμογής όσον αφορά στο χρόνο εκτέλεσης και μετράμε τη συνολική απαιτούμενη ενέργεια στην πλατφόρμα Android. Τα πειραματικά μας αποτελέσματα τονίζουν τη συνεισφορά των μικρών παρτίδων δεδομένων στην γρηγορότερη εκτέλεση των ξεχωριστών μονάδων και στην αποτελεσματικότητα των μεθόδων βασισμένων σε αναπαραστάσεις γράφων στην επιλογή επικρατέστερων Χαρακτηριστικών. Το τρίτο και τελικό στάδιο αυτής της εργασίας ερευνά τεχνικές και αρχιτεκτονικές για συγχώνευση δεδομένων στο επίπεδο των Χαρακτηριστικών. Επεκτείνουμε την Android βιβλιοθήκη Επιλογής Χαρακτηριστικών και συμπεριλαμβάνουμε μεθόδους που συγχωνεύουν δεδομένα βασισμένες σε δύο προσεγγίσεις, ένα σχήμα Ταξινόμησης άμεσης εκτέλεσης και μία Αρχιτεκτονική Επιλογής Χαρακτηριστικών, που λειτουργούν σε δύο στάδια. Το πρώτο στάδιο των δύο προσεγγίσεων περιλαμβάνει την εκτέλεση της αλληλουχίας των μεθόδων Μηχανικής Μάθησης σε δεδομένα που προέρχονται από διαφορετικές τοποθεσίες κόμβων αισθητήρων. Για το σχήμα Ταξινόμησης άμεσης εκτέλεσης τα επιλεγμένα Χαρακτηριστικά από κάθε τοποθεσία κόμβου αισθητήρων συγχωνεύονται σε ένα πίνακα Χαρακτηριστικών για την περαιτέρω επεξεργασία τους ως προς την Ταξινόμηση Ανθρώπινων Δραστηριοτήτων, στην Android συσκευή. Για την Αρχιτεκτονική Επιλογής Χαρακτηριστικών, προβαίνουμε σε ένα δεύτερο επίπεδο Επιλογής Χαρακτηριστικών χρησιμοποιώντας τον συγχωνευμένο πίνακα Χαρακτηριστικών που προέρχονται από διαφορετικές τοποθεσίες κόμβων αισθητήρων, εμπλουτισμένο με ζεύγη συσχετίσεων μεταξύ διαφορετικών τοποθεσιών κόμβων. Τα πειραματικά αποτελέσματα αυτής της μελέτης τονίζουν την αποτελεσματικότητα της αρχιτεκτονικής Επιλογής Χαρακτηριστικών στην παροχή υψηλής συμπίεσης στα δεδομένα με ελάχιστη επιβάρυνση σε υπολογιστικό χρόνο.
(EL)
The continuous evolution of sensing technologies during the last decades has resulted
in the production of massive streams of daily generated data for processing and interpretation.
The performance of Human Activity Recognition (HAR) systems is directly affected
by the volume of the produced raw signals due to the continuous need for rapid and accurate
predictions, especially in the case of online/real-time installations. Feature Selection
techniques, as an integral aspect of the Machine Learning/Data Mining pipeline, reduce
the volume of the available raw streams and filter out redundancy, providing the classifiers
with discriminative information about the available data. This thesis explores the effect of
Feature Selection in the HAR domain and it involves three phases.
During the first phase, we perform a benchmark study in order to assess the optimal
parameters, experimental set-up, and suitable algorithms for incorporating Feature
Selection in HAR applications. We evaluate the pipeline for Data Acquisition, Segmentation,
Feature Extraction, and Feature Selection on two different HAR datasets. Our work
demonstrates that the use of short windows during the segmentation stage results in better
classification performance, since the involved data in each window is characterized
by fewer class labels. Concerning Feature Selection, we highlight the effectiveness of
unsupervised graph-based methods.
The second phase of the thesis focuses on the transition into online HAR applications
by incorporating the findings of the benchmark study into an online environment by means
of an Android application. The Data Acquisition process is performed using smaller
batches of data instead of large datasets, simulating a streaming service scenario. We
explore different batch sizes and observe the performance of various Feature Selection
algorithms for various data partitions, with respect to the available activities. We also
perform a qualitative analysis on the selected features and we extract information about
the main modalities that convey dominant features. We evaluate the online performance of
the distinct application components in terms of execution time and we measure the overall
energy requirements on the Android platform. Our experimental results highlight the
contribution of short batches of data to the faster execution of the individual components,
and the efficacy of graph-based techniques to select dominant attributes.
The third and final phase of this thesis explores techniques and architectures for online
feature-level fusion. We expand our Android Feature Selection library and include
methods that merge data based on two approaches, an online Classification scheme and
a Feature Selection architecture, both operating in two stages. The first stage of both
approaches involves the execution of the Machine Learning pipeline on data originating
from different sensor node locations. For the online Classification scheme, the selected
features from each location are merged into a concatenated feature matrix for the further
prediction of the underlying Human Activities on the Android device. The Feature Selection
architecture proceeds into a second layer of feature selection by utilizing the concatenated
matrix of features from different node locations, enriched with inter-location
pairwise correlations. Our results highlight the efficacy of the Feature Selection architecture
to provide high data compression with a minimal computation time overhead.
(EN)