Σκοπός της παρούσας διπλωματικής εργασίας είναι η αυτόματη
κατάτμηση μιας ταινίας σε σκηνές, αξιοποιώντας την εικόνα, τον ήχο και την πληροφορία από το σενάριο της ταινίας. Πρόκειται για ένα πρόβλημα που μελετάται ευρέως και έχει ιδιαίτερο ενδιαφέρον, καθώς η κατάτμηση μιας ταινίας σε στοιχειώδεις θεματικές ενότητες αποτελεί βασικό στάδιο προεπεξεργασίας σε εφαρμογές video indexing, μη γραμμικής πλοήγησης, ταξινόμησης βίντεο κ.α. Η κατάτμηση της ταινίας σε σκηνές
προϋποθέτει την κατάτμησή της σε λήψεις. Η προσέγγιση που εφαρμόζεται στο πλαίσιο της παρούσας διπλωματικής για την κατάτμηση σε λήψεις επικεντρώνεται αποκλειστικά σε χαμηλού επιπέδου χαρακτηριστικά, όπως είναι τα ιστογράμματα χρώματος και οι ακμές της εικόνας (καρέ της ταινίας). Στη συνέχεια, δοκιμάζονται υπάρχοντες αλγόριθμοι της βιβλιογραφίας για
την κατάτμηση σε σκηνές, που βασίζονται είτε στην κατασκευή ενός συνεκτικού γράφου μεταβάσεων είτε στην ομαδοποίηση λήψεων με βάση τη φασματική τους ομοιότητα (Spectral Clustering). Αφού γίνει η αρχική αυτή κατάτμηση, προτείνονται τρόποι βελτίωσης του αποτελέσματος, εμπνευσμένοι από τη θεωρία πληροφορίας (Bayesian Information Criterion)
ή τη γλωσσική μοντελοποίηση (Bag of Words). Στο στάδιο αυτό εισάγεται η ακουστική πληροφορία (συντελεστές MFCC) καθώς και βελτιωμένοι περιγραφητές της οπτικής πληροφορίας (GIST ή SIFT). Για την αξιοποίηση του σεναρίου, παρουσιάζεται μια μεθοδολογία για τη χρονική ευθυγράμμιση του με τους υπότιτλους, ώστε να αποδοθούν χρονικές ετικέτες σε γεγονότα
και ομιλητές από το σενάριο.
(EL)
The aim of this diploma thesis is to deal with the problem of multi-modal
movie scene segmentation. This task is widely studied and its interest lies
in the fact that segmentation of a video into fundamental semantic units
is an essential pre-processing stage in applications such as video indexing,
non-linear browsing, classification etc. Shot segmentation is a prerequisite
for scene segmentation. Our approach focuses on low-level features, such
as color histograms and edges of the image (movie frames), in order to
initially segment the movie into shots. Subsequently, existing algorithms,
based on the construction of a connected graph or the grouping of shots
using Spectral Clustering, are tested. Initial segmentation results are further
refined through our proposed methods, based on the Bayesian Information
Criterion and Bag of Words techniques. At this point acoustic information
is also used (MFCCs) and improved descriptors of visual information (GIST
or SIFT features). To exploit information from the movie script, a temporal
alignment of the subtitles and the script is performed, in order to assign
temporal labels to events and speakers.
(EN)