Ψηφιακής επεξεργασία ομιλίας με εφαρμογή στην αναγνώριση συναισθημάτων

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2009 (EL)
Discrete-time speech processing with application to emotion recognition
Ψηφιακής επεξεργασία ομιλίας με εφαρμογή στην αναγνώριση συναισθημάτων

Κώττη, Μαργαρίτα Χρ.

Στη διατριβή παρουσιάζονται 3 συστήματα ανίχνευσης διαλόγου. Για πρώτη φορά στη διεθνή βιβλιογραφία γίνεται ανίχνευση διαλόγου από το ηχητικό κανάλι. Χρησιμοποιούνται συναρτήσεις δείκτη. Υπολογίζεται η ετεροσυσχέτιση και η φασματική πυκνότητα ισχύος. Γίνεται εκτίμηση του μοντέλου της διάρκειας ομιλίας ενός ομιλητή και δημιουργείται βάση από σκηνές με διάλογο και χωρίς διάλογο από ταινίες. Στη συνέχεια πραγματοποιείται κατάτμηση ομιλητών με το κριτήριο πληροφορίας κατά Bayes. Προτάθηκε η εκμετάλλευση της κατανομής της διάρκειας ομιλίας καθώς και η επιλογή των πιο διακριτικών συντελεστών χάσματος σε κλίμακα Mel. Μετασχηματίστηκε το κριτήριο πληροφορίας κατά Bayes μέσω κεντραρίσματος και ταυτόχρονης διαγωνιοποίησης. Η ισοδύναμη μετασχηματισμένη μορφή είναι πιο αποδοτική σε ταχύτητα, μνήμη και υπολογιστική ισχύ από τη συμβατική. Επιπροσθέτως, η μορφή αυτή ελέγχθηκε για το πρόβλημα κατάτμησης σε φθόγγους. Για το πρόβλημα της αναγνώρισης φύλου από ομιλία συναισθηματικώς φορτισμένης πραγματοποιήθηκε εξαγωγή 1418 χαρακτηριστικών. Eπισημειώθηκαν 2 βάσεις συναισθηνατικώς φορτισμένης ομιλίας. Δημιουργήθηκε μία από τις λίγες βάσεις αυθόρμητης συναισθματικώς φορτισμένης ομιλίας από κέντρο εξυπηρέτησης στην ελληνική
In this thesis, 3 dialogue detection systems are presented. This is the first effort in the international literature that the audio channel is axclusively exploited. Also, it is the first time that the sleaker utterance duration is estimation. Indicator functions are employed. Cross-corelation and cross power spectral tensity are computed. Part of the MUSLE movie database is developed for this thesis. Next, speaker segmentation using the Bayesian information criterion (BIC) is tested. BIC tests are performed when a speaker change point is most probable to occur. Most efficient features for speaker segmentation are identified. A new BIC formulation is derived by applying centering and simultaneous diagonilization. This formulation is less demanding than standard BIC and found an additional application in phone segmentation. gender classification by processing emotional speech is exploited, creating a large pool of 1418 features. 2 emotional speech databases are annnotated by 6 annotators. Finally, we created one of the few audio databases in grrek with spontaneous emotionally recording

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Speech processing systems
Αναγνώριση φύλου
Εξαγωγή χαρακτηριστικών, επιλογή χαρακτηριστικών
Feature extraction, feature selection
Ταξινομητές, μετα-ταξινομητές
Classifiers, meta-classifiers
Επεξεργασία σήματος, Ψηφιακές τεχνικές
Gender classification
Συστήματα επεξεργασίας ομιλίας
Κατάτμηση ομιλιτών
Dialogue detection
Ανίχνευση διαλόγου
Speaker segmentation (speaker tuin detection)
Signal processing, Digital techniques

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

2009
2009-09-25T12:30:46Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.