Emotion recognition from speech using digital singal processing and machine learning techniques

This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*

PhD thesis (EN)

2012 (EN)
Αναγνώριση συναισθημάτων από ομιλία με χρήση τεχνικών ψηφιακής επεξεργασίας σήματος και μηχανικής μάθησης
Emotion recognition from speech using digital singal processing and machine learning techniques

Κωστούλας, Θεόδωρος

The present dissertation entitled "Emotion Recognition from Speech Using DigitalSignal Processing and Machine Learning Techniques" was submitted to theUniversity of Patras, in partial fulfillment of the requirements for the degree of Doctorof Philosophy.The dissertation is structured as follows:In Chapter 1, an introduction to human-computer interaction is presented. Theimportance as well as the necessity of emotion recognition from speech is outlined,together with the main directions in the research area of emotion recognition. Finally,the contribution of the Thesis and its structure are presented.In Chapter 2, the reader is introduced to more details on the area of emotionrecognition from speech. Specifically, the globally inherited emotion models areintroduced, and there follows an introduction to emotion recognition from speechsignal, utilizing the acoustic information, which is topic of the present Thesis.In Chapter 3 a initial study on a complete end-to-end emotion recognition fromspeech system is presented, which is based on decision trees. The evaluation of thesystem is performed on acted speech data both without noise and in various type ofnoise conditions, and compared to subjective evaluation of humans.In Chapter 4 the process of designing, and implementing a real world speech corpusof emotions, which serves the purpose of conducting research in the area of emotionrecognition from real-life speech is described. The system suggested is designed todetect negative emotional states in real world conditions, both in speaker dependentand speaker independent mode using Gaussian Mixture Models, (GMM). Thesuggested architecture utilizes low and high level descriptors for constructing thefeature vector.In Chapter 5 a emotion recognition system based on Universal Background Model,(UBM-GMM), is evaluated-integrated and evaluated for different kind of real-worlddata: for the purpose of supporting patients with mental disorders and evaluated fordetecting emotions in atypical event situations, respectively. Further, the improvementof an emotion recognition system utilizing speech parameter selection is presented.In Chapter 6 a novel method for modeling co-occurrence of affective states, as theyappear in real life speech is proposed. The proposed architecture leads to significantimprovement over a number of affective states.In Chapter 7 a summary and conclusion of the work together with future directionsare presented.
Η παρούσα διατριβή με τίτλο "Αναγνώριση Συναισθημάτων από Ομιλία με XρήσηΤεχνικών Ψηφιακής Επεξεργασίας Σήματος και Μηχανικής Μάθησης" υποβλήθηκεστο Πανεπιστήμιο Πατρών για τη μερική εκπλήρωση των υποχρεώσεων όσον αφοράστην απόκτηση Διδακτορικού τίτλου.Η διατριβή είναι οργανωμένη ως εξής:Στο Κεφάλαιο 1 παρουσιάζεται μια γενική επισκόπηση του ερευνητικού χώρουεπικοινωνίας ανθρώπου μηχανής. Στη συνέχεια, παρουσιάζεται η αναγκαιότηταύπαρξης συστήματος αναγνώρισης συναισθημάτων από ομιλία και δίνεται μιαπεριγραφή των κύριων προσεγγίσεων στη διεθνή βιβλιογραφία. Τέλος, αναφέρουμετη συνεισφορά της διατριβής και περιγράφουμε τη δομή αυτής.Στο Κεφάλαιο 2 εισάγουμε τον αναγνώστη στο χώρο της αναγνώρισηςσυναισθημάτων από ομιλία. Συγκεκριμένα, γίνεται μια εισαγωγή στα ευρέωςυιοθετημένα μοντέλα συναισθημάτων, και στον χώρο της αναγνώρισηςσυναισθημάτων από ομιλία, με έμφαση στην αναγνώριση συναισθημάτων από ομιλίαμε χρήση ακουστικής πληροφορίας, που είναι το αντικείμενο της διδακτορικήςδιατριβής.Στο Κεφάλαιο 3 περιγράφεται η αρχική μελέτη της συμπεριφοράς ενόςολοκληρωμένου συστήματος αναγνώρισης συναισθημάτων από ομιλία με δέντρααπόφασης. Η συμπεριφορά του συστήματος μελετάται σε προσποιητή ομιλία, σεδιαφορετικές συνθήκες θορύβου και συγκρίνεται με υποκειμενική αξιολόγησηακροατών.Στο Κεφάλαιο 4 παρουσιάζεται η διαδικασία για τη δημιουργία πραγματικώνδεδομένων που εξυπηρετούν την έρευνα στο χώρο της αναγνώρισηςσυναισθηματικών καταστάσεων σε πραγματικά δεδομένα. Προτείνεται ένα σύστηματο οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο εξαρτημένου καιανεξάρτητου ομιλητή πρόβλημα, με χρήση μοντέλου Γκαουσιανών κατανομών. Ηπροτεινόμενη αρχιτεκτονική συνδυάζει εξαγωγή παραμέτρων ομιλίας χαμηλού καιυψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα.Στο Κεφάλαιο 5 παρουσιάζεται η πρακτική εφαρμογή ενός συστήματος αναγνώρισηςσυναισθημάτων βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών σεδιαφορετικούς τύπους δεδομένων πραγματικής ζωής: για υποστήριξη ατόμων μενοητική δυσλειτουργία και εντοπισμό συναισθημάτων σε μη-τυπικές καταστάσεις σεδιαφορετικά περιβάλλοντα. Επίσης, περιγράφεται η διαδικασία βελτίωσης ενόςσυστήματος αναγνώρισης συναισθημάτων με επιλογή παραμετρικού διανύσματος.Στο Κεφάλαιο 6 προτείνεται μια νέα μεθοδολογία για μοντελοποίηση συνυπαρχουσώνσυναισθηματικών καταστάσεων, όπως αυτές εμφανίζονται σε οποιαδήποτε δεδομέναπραγματικής ζωής. Δείχνουμε ότι το σύστημα επιτυγχάνει υψηλότερη απόδοση σεσχέση με τρέχουσες τεχνολογίες και είναι εφαρμόσιμο σε πραγματικά δεδομένα.Στο Κεφάλαιο 7 γίνεται μια γενική επισκόπηση της διατριβής και δίνονταιμελλοντικές κατευθύνσεις.

Emotion recognition
Speech interface
Επιλογή παραμέτρων ομιλίας
Αναγνώριση συναισθηματικών καταστάσεων
Speech parameterization
Παραμετροποίηση ομιλίας
Affect recognition
Feature Selection
Διαλογικό σύστημα
Μοντελοποίηση συναισθημάτων
Dialogue system
Co-occuring emotions
Συνυπάρχοντα συναισθήματα
Αναγνώριση συναισθημάτων
Emotion modeling
Διεπαφή ομιλίας

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)



Πανεπιστήμιο Πατρών
University of Patras

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)