Voice and speech processing and recognition: on the use of stochastic methods for the extraction of phonetic sub-phonetic features from the speech signal

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2007 (EL)

Επεξεργασία και αναγνώριση φωνής και ομιλίας: διερεύνηση της χρήσης στοχαστικών μεθόδων για την εξαγωγή φωνητικών υπο-φθογγικών χαρακτηριστικών από το σήμα ομιλίας
Voice and speech processing and recognition: on the use of stochastic methods for the extraction of phonetic sub-phonetic features from the speech signal

Τούτιος, Αστέριος

Κοτρόπουλος, Κωνσταντίνος
Νικολαΐδου, Κατερίνα
Μαργαρίτης, Κωνσταντίνος
Παπαδημητρίου, Γιάννης Δ.
Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών. Τμήμα Εφαρμοσμένης Πληροφορικής. (ΕΠ)
Παπαρρίζος, Κωνσταντίνος
Παπαναστασίου, Δημήτριος
Σεργιάδης, Γεώργιος

Η βιβλιοθήκη διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή.
Διατριβή (Διδακτορική)--Πανεπιστήμιο Μακεδονίας, Θεσσαλονίκη, 2006.
Η παρούσα διατριβή παρουσιάζει προτάσεις για την αντιμετώπιση των προβλημάτων της απεικόνισης του σήματος ομιλίας σε πληροφορία ηλεκτρομαγνητικής αρθρωτογραφίας και σε πληροφορία ηλεκτροπαλατογραφίας. Τα δύο προβλήματα εντάσσονται στο ερευνητικό πεδίο της αντίστροφης ομιλίας το οποίο επισκοπείται στη διατριβή. Ως βασικό μεθοδολογικό εργαλείο χρησιμοποιείται η παλινδρόμηση εδραίων διανυσμάτων: Η σχετική θεωρία περιγράφεται συνοπτικά. Στην περίπτωση της απεικόνισης του σήματος ομιλίας σε πληροφορία ηλεκτρομαγνητικής αρθρωτογραφίας, επιδεικνύεται ότι η χρήση παλινδρόμησης εδραίων διανυσμάτων οδηγεί σε εκτιμήσει των αρθρωτογραφικών τροχιών, καλύτερες ή τουλάχιστον συγκρίσιμες με άλλες προσπάθειες στη βιβλιογραφία. Στην περίπτωση της απεικόνισης σε πληροφορία ηλεκτροπαλατογραφίας πραγματοποιείται μια πρωτότυπη μελέτη καθώς το πρόβλημα δεν έχει στο παρελθόν αντιμετωπιστεί σε αυτήν την έκταση με ενθαρρυντικά αποτελέσματα.
This thesis addresses the problems of mapping the acoustic speech signal onto electromagnetic articulography (EMA) and electropalatography (EPG) information. The two problems are cases of the more general speech inversion problem, which is summarized in the thesis. The main mathematical tool used is support vector regression (SVR): The related theory is briefly presented. For the acoustic-to-EMA case, it is demonstrated that SRV leads to better or at least comparable results when compared to other methods in the literature. For the acoustic-to-EPG case, an original study is conducted, since the problem has not been addressed in the past at the same extent with encouraging results.
Η παρούσα έρευνα χρηματοδοτήθηκε από το πρόγραμμα: "ΗΡΑΚΛΕΙΤΟΣ - Υποτροφίες Έρευνας στο Πανεπιστήμιο Μακεδονίας".
Περιλαμβάνει βιβλιογραφικές αναφορές (σ. 191-213).
003/2006

Electronic Thesis or Dissertation
Text

Ηλεκτροπαλατογραφία
Παλινδρόμηση εδραίων διανυσμάτων
Αντιστροφή ομιλίας
Principal component analysis (PCA)
Articulation
Ανάλυση σε πρωτεύουσες συνιστώσες
Support vector regression (SVR)
Electromagnetic articulography (EMA)
Μηχανική μάθηση
Machine learning
Speech inversion
Άρθρωση
Επεξεργασία ομιλίας
Speech processing
Ηλεκτρομαγνητική αρθρωτογραφία
Electropalatography (EPG)


Ελληνική γλώσσα

2006
2007-04-13T07:41:41Z


Πανεπιστήμιο Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.