Digital speech processing techniques in emotion recognition

 
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2008 (EN)
Τεχνικές ψηφιακής επεξεργασίας ομιλίας στην αναγνώριση συναισθημάτων
Digital speech processing techniques in emotion recognition

Βερβερίδης, Δημήτριος Α.

Τhe subject of this thesis is the recognition of emotions from speech. The investigation began with a review of methods that extract acoustic characteristics and methods for classifying speech into emotional states. The technique adopted for recognizing emotions is as follows. First, statistics are estimated on curves of acoustical characteristics, such as the fundamental frequency, the various frequency band energies, and the formants of the vocal tube. Then, for the classification of speech using the aforementioned characteristics, the Bayes classifier is used, where the probability density function (pdf) each characteristic was modeled as a Gaussian or as a mixture Gaussians. In the experiments, we used two speech databases, one of actors in the Danish language and one of military personnel in the American language. An algorithm for finding the highly correlated acoustic characteristics is proposed, based on the multiple correlation coefficient. The advantage of the proposed method is the exact calculation of confidence intervals of the cross-correlation coefficient. The non-linear Newton-Raphson method is applied twice, one to reverse the pdf of the cross-correlation coefficient, and one for finding the correct number of factors required for the convergence of a hypergeometric function involved in the calculation of pdf of the cross-correlation coefficient. Finally, the algorithm for emotion recognition was applied to a database that consists of speech from students, that are trained in a virtual earthquake environment. The signals were employed, except the speech, was sweating and heart pulses
To αντικείμενο της διατριβής αυτής είναι η αναγνώριση συναισθημάτων μέσω της ομιλίας. Η έρευνα ξεκίνησε με μία ανασκόπηση των μεθόδων εξαγωγής ακουστικών χαρακτηριστικών και των τεχνικών κατηγοριοποίησης της ομιλίας σε συναισθηματικές καταστάσεις. Η τεχνική που υιοθετήθηκε για την αναγνώριση συναισθημάτων έχει ως εξής. Πρώτα εξάγονται τα στατιστικά χαρακτηριστικά των καμπύλων της θεμελιώδους συχνότητας, των ενεργειών σε διάφορες ζώνες συχνοτήτων, και των ιδιοσυχνοτήτων του φωνητικού σωλήνα. Μετά, για τη κατηγοριοποίηση της ομιλίας βάσει των προαναφερθέντων χαρακτηριστικών χρησιμοποιήθηκε ο ταξινομητής Bayes όπου η συνάρτηση πυκνότητας πιθανότητας (σ.π.π.) κάθε χαρακτηριστικού μοντελοποιήθηκε ως μία Γκαουσιανή ή ως μίγμα Γκαουσιανών. Στις δοκιμές χρησιμοποιήθηκαν δύο βάσεις δεδομένων ομιλίας, μία από ηθοποιούς στη Δανική γλώσσα και μία στρατιωτικού προσωπικού στην Αμερικάνικη γλώσσα. Προτάθηκε ένας αλγόριθμος για την εύρεση των συσχετισμένων ακουστικών χαρακτηριστικών, που βασίζεται στο συντελεστή πολλαπλής συσχέτισης (multiple correlation coefficient). Το πλεονέκτημα της προτεινόμενης μεθόδου είναι ο ακριβής εντοπισμός των διαστημάτων εμπιστοσύνης του συντελεστή πολλαπλής συσχέτισης. Η μη-γραμμική μέθοδος (Newton-Raphson) εφαρμόσθηκε δύο φορές, μία για να αντιστραφεί η σ.π.π. του συντελεστή πολλαπλής συσχέτισης, και μία για να βρεθεί ο σωστός αριθμός παραγόντων που απαιτούνται για τη σύγκλιση μίας υπεργεωμετρικής συνάρτησης που εμπλέκεται στον υπολογισμό της σ.π.π. του συντελεστή πολλαπλής συσχέτισης. Έπειτα, ο αλγόριθμος κατηγοριοποίησης συναισθημάτων εφαρμόσθηκε στη βάση δεδομένων ομιλίας παιδιών τα οποία εκπαιδεύονται ένα εικονικό περιβάλλον σεισμού. Τα σήματα που μας απασχόλησαν, εκτός της ομιλίας, ήταν η εφίδρωση και οι παλμοί καρδιάς των παιδιών. Τα βιοσήματα αποτελούν ένα αντικείμενο μελλοντικής έρευνας

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Συστήματα επεξεργασίας ομιλίας
Speech processing systems
Συντελεστής πολλαπλής συσχέτισης
Cross-validation
Multiple correlation coefficient
Acoustic features extraction
Gaussian mixture models
Επεξεργασία σήματος, Ψηφιακές τεχνικές
Υπολογισμός ακουστικών χαρακτηριστικών
Signal processing, Digital techniques
Μέθοδος διασταυρώμενης επικύρωσης
Μίγματα γκαουσιανών κατανομών

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Greek
English

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)