Στην παρούσα διπλωματική εργασία διερευνήθηκε η χρήση τεχνικών βαθιάς μάθησης και πιο συγκεκριμένα Συνελικτικών Νευρωνικών Δικτύων (ΣΝΔ) για την αυτόματη αναγνώριση τροφών από φωτογραφικά τους στιγμιότυπα. Για την ανάπτυξη των μοντέλων ταξινόμησης εφαρμόστηκε η αρχιτεκτονική ResNet των 50 επιπέδων, η οποία περιλαμβάνει την επανάληψη 50 δομικών μπλοκ βασιζόμενα σε φίλτρα συνέλιξης. Για την εκπαίδευσή του ΣΝΔ εφαρμόστηκαν και συγκρίθηκαν ως προς τις απαιτήσεις τους σε υπολογιστική ισχύ δύο frameworks: (i) το MatConvNet, που βασίζεται στο περιβάλλον Matlab, και το (ii) Torch, που βασίζεται στην γλώσσα σεναρίων ανοιχτού κώδικα Lua. Για την αξιολόγηση της απόδοσης και της ακρίβειας του υπό μελέτη μοντέλου χρησιμοποιήθηκε η βιβλιογραφικά διαθέσιμη βάση εικόνων γευμάτων Food-101, η οποία αποτελείται από 101000 φωτογραφίες γευμάτων που ανήκουν σε 101 κατηγορίες. Για την εκπαίδευση του μοντέλου χρησιμοποιήθηκε το 75% των εικόνων και για την αξιολόγησή του το υπόλοιπο 25% . Επίσης πραγματοποιήθηκε μια αξιολόγηση του εκπαιδευμένου ΣΝΔ χρησιμοποιώντας δειγματοληπτικά εικόνες από σύνολα δεδομένων, διαφορετικά από αυτά που χρησιμοποιήθηκαν για την εκπαίδευση του ΣΝΔ. Το υπό μελέτη μοντέλο πέτυχε ακρίβεια ταξινόμησης 85,82% λαμβάνοντας υπόψη μόνο την μεγαλύτερη πιθανότητα που εξάγει το ΣΝΔ (top-1 accuracy), και 97,24% λαμβάνοντας υπόψη τις 5 μεγαλύτερες πιθανότητες (top-5 accuracy)
(EL)
In the
present
diploma
thesis,
the use of deep learning and more specifically
Convolutional Neural Networks (CNN
s) has been investigated in order to automatically
recognize meal contents from meal
screenshots.
The development of the classifier
has
been based on the architecture ResNet
-50, which
includes structural blocks based on
convolutional filters, stacked together in order to form a sequence of 50 similar blocks.
For its training two frameworks were considered
and compar
atively
assessed
: (i)
MatConvNet, based on the MatLab environment, and (ii) Torch, based on the open-
source scripting language Lua. For
evaluating the classifier
’s
performance and
accuracy, the publicly available
dataset
named
“Food
-101”
of food images
has been
used, which consists of 101000 images
assigned
to 101 categories.
75% of the images
have been used for training purposes and the rest 25% for validation. Furthermore, the
classifier has been applied and evaluated on samples
images
from
external
food image
datasets
different than those used for its training
.
The
developed
model achieved classification accuracy of 85.85%, taking into
consideration only the first ‘guess’ of the CNN (top–
1 accuracy), and an accuracy of
97.24% taking into consideration the first 5 guesses (top-
5 accuracy)
(EN)