Αναγνώριση μουσικού είδους: μια βιοεμπνευσμένη πολυγραμμική προσέγγιση

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2008 (EL)
Music genre classification: a bio-inspired multilinear approach
Αναγνώριση μουσικού είδους: μια βιοεμπνευσμένη πολυγραμμική προσέγγιση

Παναγάκης, Ιωάννης Κωνσταντίνου

Στην παρούσα μεταπτυχιακή διατριβή το πρόβλημα της αυτόματης αναγνώρισης μουσικού είδους προσεγγίζεται υπό μια νέα οπτική. Παρακινούμενοι από την λειτουργία του ανθρώπινου συστήματος ακοής, εξάγουμε ηχητικές αναπαραστάσεις φλοιού που μιμούνται την απόκριση των κυττάρων του πρωτοταγούς ακουστικού φλοιού σε ήχους με περιεχόμενο χαμηλών συχνοτήτων χρονικών και χρονοφασματικών διαμορφώσεων. Οι αναπαραστάσεις φλοιού αναπαρίστανται με τανυστές. Για να εξάγουμε κατάλληλα διανύσματα από τις προαναφερθείσες αναπαραστάσεις στην παρούσα μεταπτυχιακή διατριβή προτείνονται δύο νέοι αλγόριθμοι παραγοντοποίησης μη αρνητικών τανυστών χρησιμοποιώντας τεχνικές προβεβλημένων διανυσμάτων κλίσης (projected gradients). Οι δύο νέοι αλγόριθμοι έχουν θεωρητικά θεμελιωμένες ιδιότητες σύγκλισης και μπορούν να εφαρμοστούν σε τανυστές Ν τάξης συμπεριλαμβανομένων και των τανυστών για Ν=2, αντιμετωπίζοντας έτσι την παραγοντοποίηση μη αρνητικών πινάκων, (Non Negative Matrix Factorization - NMF) ως υποπερίπτωση της παραγοντοποίησης μη αρνητικών τανυστών. Για λόγους πληρότητας και σύγκρισης, εκτός από τις προτεινόμενες μεθόδους NTF χρησιμοποιούμε και μια σειρά άλλων πολυγραμμικών μεθόδων ανάλυσης υποχώρων, που έχουν πρόσφατα προταθεί στη βιβλιογραφία, για την εξαγωγή χαρακτηριστικών από τις ηχητικές αναπαραστάσεις φλοιού. Πιο συγκεκριμένα χρησιμοποιούμε, την Πολυγραμμική Ανάλυση Πρωτευουσών Συνιστωσών (Multilinear Principal Component Analysis - MPCA), την Υψηλής Τάξης Αποσύνθεση Ιδιαζουσών Τιμών (High Order Singular Value Decomposition - HOSVD), καθώς και τη μέθοδο NTF που προτάθηκε από τον Μπενέτο. Για την αναγνώριση μουσικού είδους χρησιμοποιούμε ταξινομητές πλησιέστερου γείτονα καθώς και Μηχανές Εδραίων Διανυσμάτων (Support Vector Machines - SVMs). Εκτεταμένα πειράματα σε δύο γνωστά σύνολα δεδομένων, το σύνολο δεδομένων GTZAN και το σύνολο δεδομένων SMIR2004Genre, καταδεικνύουν τα πλεονεκτήματα των προτεινόμενων αλγόριθμων NTF μεταξύ των άλλων πολυγραμμικών μεθόδων ανάλυσης υποχώρων. Η ακρίβεια ορθής αναγνώρισης μουσικού είδους της προτεινόμενης προσέγγισης φτάνει και ξεπερνά το 83% στην καλύτερη περίπτωση, ξεπερνώντας αριακά αυτή των καλύτερων αλγορίθμων αναγνώρισης μουσικού είδους που έχουν προταθεί στην βιβλιογραφία.
In this master thesis, automatic musical genre classification is addressedunder a multilinear perspective. Inspired by a model of auditory corticalprocessing, multiscale temporal and spectro-temporal modulationfeatures are extracted. Recently, such temporal and spectro-temporalmodulation features have been successfully used in various content-basedaudio classification tasks, but not yet in musical genre classification. Eachrecording is represented by a N-order feature tensor generated bythe auditory model. Thus, each ensemble of recordings is representedby a (N + 1)-order data tensor created by stacking the N-order featuretensors associated to the recordings, where N = 2 or N = 3 according totype o modulation features are used. To handle large data tensors andderive compact feature vectors suitable for classification, two new NonnegativeTensor Factorization Algorithms (NTF) are proposed, namelythe Projected Landweber -NTF and Coordinate Wise-NTF based on LeastSquares Error (LSE) minimization by employing projected gradienttechniques. These algorithms guarantee that the limit point of the optimizationis a stationary point. Additionally, three other multilinear subspaceanalysis techniques are employed as multilinear feature extractiontechniques, namely a classical Non-Negative Tensor Factorization, theHigh-Order Singular Value Decomposition (HOSVD), and the MultilinearPrincipal Component Analysis (MPCA). Classification is performedby a Support Vector Machine (SVM) and a Nearest Neighbour (NN)classifier. Stratified cross-validation tests on two well known datasets,namely the GTZAN dataset and the ISMIR 2004 GENRE one, demonstratethe advantages of the proposed NTF algorithms among the othermultilinear subspace analysis methods. The effectiveness of the proposedapproach exceeds the accuracies achieved by the state-of-the-art musicgenre classification algorithms and is near 83.%.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Πολυγραμμική άλγεβρα
Παραγοντοποίηση μη-αρνητικών τανυστών
Ψηφιακή επεξεργασία σήματος-ήχου
Automatic music genre classification
Digital signal-audio processing
Multilinear algebra
Cortical representations
Non negative tensor factorization
Pattern recognition
Αναπαραστάσεις φλοιού
Αναγνώριση προτύπων

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα
Αγγλική γλώσσα

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.