Πολυτροπική κατάτμηση ταινιών σε σκηνές

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Πολυτροπική κατάτμηση ταινιών σε σκηνές (EL)

Καραθάνου, Ολίβια (EL)
Karathanou, Olivia (EN)

ntua (EL)
Μαραγκός, Πέτρος (EL)
Ποταμιάνος, Γεράσιμος (EL)
Φωτεινέα, Ευίτα-Σταυρούλα (EL)

bachelorThesis

2015-07-20
2016-04-12T07:31:29Z
2016-04-12


Σκοπός της παρούσας διπλωματικής εργασίας είναι η αυτόματη κατάτμηση μιας ταινίας σε σκηνές, αξιοποιώντας την εικόνα, τον ήχο και την πληροφορία από το σενάριο της ταινίας. Πρόκειται για ένα πρόβλημα που μελετάται ευρέως και έχει ιδιαίτερο ενδιαφέρον, καθώς η κατάτμηση μιας ταινίας σε στοιχειώδεις θεματικές ενότητες αποτελεί βασικό στάδιο προεπεξεργασίας σε εφαρμογές video indexing, μη γραμμικής πλοήγησης, ταξινόμησης βίντεο κ.α. Η κατάτμηση της ταινίας σε σκηνές προϋποθέτει την κατάτμησή της σε λήψεις. Η προσέγγιση που εφαρμόζεται στο πλαίσιο της παρούσας διπλωματικής για την κατάτμηση σε λήψεις επικεντρώνεται αποκλειστικά σε χαμηλού επιπέδου χαρακτηριστικά, όπως είναι τα ιστογράμματα χρώματος και οι ακμές της εικόνας (καρέ της ταινίας). Στη συνέχεια, δοκιμάζονται υπάρχοντες αλγόριθμοι της βιβλιογραφίας για την κατάτμηση σε σκηνές, που βασίζονται είτε στην κατασκευή ενός συνεκτικού γράφου μεταβάσεων είτε στην ομαδοποίηση λήψεων με βάση τη φασματική τους ομοιότητα (Spectral Clustering). Αφού γίνει η αρχική αυτή κατάτμηση, προτείνονται τρόποι βελτίωσης του αποτελέσματος, εμπνευσμένοι από τη θεωρία πληροφορίας (Bayesian Information Criterion) ή τη γλωσσική μοντελοποίηση (Bag of Words). Στο στάδιο αυτό εισάγεται η ακουστική πληροφορία (συντελεστές MFCC) καθώς και βελτιωμένοι περιγραφητές της οπτικής πληροφορίας (GIST ή SIFT). Για την αξιοποίηση του σεναρίου, παρουσιάζεται μια μεθοδολογία για τη χρονική ευθυγράμμιση του με τους υπότιτλους, ώστε να αποδοθούν χρονικές ετικέτες σε γεγονότα και ομιλητές από το σενάριο. (EL)
The aim of this diploma thesis is to deal with the problem of multi-modal movie scene segmentation. This task is widely studied and its interest lies in the fact that segmentation of a video into fundamental semantic units is an essential pre-processing stage in applications such as video indexing, non-linear browsing, classification etc. Shot segmentation is a prerequisite for scene segmentation. Our approach focuses on low-level features, such as color histograms and edges of the image (movie frames), in order to initially segment the movie into shots. Subsequently, existing algorithms, based on the construction of a connected graph or the grouping of shots using Spectral Clustering, are tested. Initial segmentation results are further refined through our proposed methods, based on the Bayesian Information Criterion and Bag of Words techniques. At this point acoustic information is also used (MFCCs) and improved descriptors of visual information (GIST or SIFT features). To exploit information from the movie script, a temporal alignment of the subtitles and the script is performed, in order to assign temporal labels to events and speakers. (EN)


Graph partitioning (EL)
Κατάτμηση σε λήψεις (EL)
Key franes (EL)
Κατάτμηση σε σκηνές (EL)
Αντιπροσωπευτικά καρέ (EL)
Διαμερισμός γράφων (EL)
Κριτήριο πληροφορίας Bayes (EL)
Scene segmentation (EL)
Bayesian information criterion (EL)
Shot segmentation (EN)

Ελληνική γλώσσα

Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων (EL)

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
http://creativecommons.org/licenses/by-nc-nd/3.0/gr/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.