Language analysis and prosodic feature annotation for high quality speech synthesis

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Εθνικό Αρχείο Διδακτορικών Διατριβών
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2009 (EL)
Βελτίωση ποιότητας συνθετικής ομιλίας μέσω προσωδιακών χαρακτηριστικών
Language analysis and prosodic feature annotation for high quality speech synthesis

Σπηλιωτόπουλος, Δημήτριος
Spiliotopoulos, Dimitris

Previous works show that Natural Language Generators may produce linguistically enriched text description that can lead to significantly improved quality of speech synthesis. There are cases, however, where either the generator modules produce pieces of non-analyzed, non-annotated plain text, or such modules are not available at all. Moreover, the language analysis is restricted by the usually limited domain coverage of the generator. For those cases the enriched input to the speech synthesizer needs to be produced from plain text in order to maintain speech quality. This work reports on a framework of several combined language resources and procedures (word/sentence identification, syntactic analysis, prosodic feature annotation) for text annotation/processing from plain text. Using that, the implementation of an automatic XML formatted output generation module produces enriched prosodic markup for English and Greek texts. Visiting the domain of visual documents and accessibility, visual documents usually embody visually oriented meta-information in the form of complex visual structures, such as tables. The semantics involved in such objects result in poor and ambiguous text-to-speech synthesis. Although most speech synthesis frameworks allow the consistent control of an abundance of parameters through appropriate mark-up, such as prosodic cues, there is not enough experimentally proven specification to speech-enable visual elements. This paper presents a method for the acoustic specification modelling of simple and complex data tables, derived from the human paradigm. A series of psychoacoustic experiments were set-up for providing speech properties obtained from prosodic analysis of natural spoken descriptions of data tables. Thirty blind and thirty sighted listeners selected the most prominent natural rendition. The derived prosodic phrase-accent and pause-break placement vectors were modelled using the ToBI semiotic system to successfully convey semantically important visual information through prosody control. The quality of the information provision of speech-synthesized tables when utilizing the proposed prosody specification was evaluated by first-time listeners. The results show a significant increase (from 14% to 20% depending on the table type) of the user subjective understanding (overall impression, listening effort and acceptance) of the table data semantic structure compared to the traditional linearized speech synthesis of tables. Furthermore, it is proven that successful prosody manipulation can be applied to data tables using generic specification sets for certain table types and browsing techniques, resulting in improved data comprehension.
Η διατριβή αυτή εξετάζει το πρόβλημα της βελτίωσης ποιότητας συνθετικής ομιλίας από απλά και ήδη εμπλουτισμένα κείμενα, όπως αυτά που παράγονται από μια Γεννήτρια Φυσικής Γλώσσας κατά τη Μετατροπή Κειμένου σε Ομιλία. Παρουσιάζεται η έρευνα για το μείζον πρόβλημα της έλλειψης γνώσης για την ανάδειξη, αναγνώριση και καταχώρηση προσωδιακών χαρακτηριστικών από εμπλουτισμένα κείμενα, την αναπαράσταση των γλωσσολογικών αυτών μετα-πληροφοριών με τη μορφή επισημειώσεων σε κείμενα και το φορμαλισμό των πληροφοριών για προσωδιακά χαρακτηριστικά ως προς την χρησιμότητα αυτών ως προς τη σύνθεση ομιλίας, καθώς και τη σχεδίαση μίας γενικής μεθοδολογίας και υλοποίηση ανοικτών και επεκτάσιμων εργαλείων και πόρων για την αυτόματη επισημείωση εγγράφων κειμένων απλών (plain text) και μερικώς ή πλήρως επισημειωμένων, είτε αυτά προϋπάρχουν είτε παράγονται από Γεννήτρια Φυσικής Γλώσσας.Ως αποτέλεσμα της έρευνας αυτής παρουσιάστηκαν ο καθορισμός και η κατάταξη των γλωσσολογικών εκείνων στοιχείων, πέρα των γραμματικών, που σχετίζονται με την προσωδιακή συμπεριφορά της ομιλίας, καθώς και η περαιτέρω μελέτη της συμβολής τους στην παραγωγή συνθετικής ομιλίας. Αναπτύχθηκε μεθοδολογία για την αυτόματη εξαγωγή αυτού του είδους της πληροφορίας από εμπλουτισμένα (με γλωσσολογική και νοηματική πληροφορία) κείμενα αλλά και από απλά κείμενα. Επιπλέον εκπονήθηκε ένα ενοποιημένο μοντέλο σημειολογικής αναπαράστασης της προσωδιακής δομής που επιτρέπει τη βέλτιστη αξιοποίησή της κατά τη μετατροπή κειμένων σε φυσικότερης ποιότητας συνθετική ομιλία, ανεξάρτητα από συγκεκριμένη γλώσσα ή σύστημα μετατροπής κειμένου σε ομιλία. Ο δεύτερος άξονας της διατριβής αφορά την αναπαράσταση σύνθετων οπτικών δομών στο ακουστικό επίπεδο με έμφαση στη «Σχεδίαση για Όλους». Σύνθετες οπτικές δομές όπως οι πίνακες δεδομένων υπάρχουν στα περισσότερα έγγραφα. Τα έγγραφα αυτά είναι φτιαγμένα από το συγγραφέα με σκοπό τη βέλτιστη οπτική απεικόνιση του περιεχομένου στον αναγνώστη. Περιέχουν σύνθετες οπτικές δομές που με τη σειρά τους συνδέουν σε λογικό επίπεδο τα δεδομένα που περιέχονται σε αυτές. Ένας απλός πίνακας περιέχει συσχετισμούς σε δύο διαστάσεις, ενώ ένας σύνθετος πίνακας συσχετισμούς σε τρεις διαστάσεις στο λογικό επίπεδο. Αυτή οι λογική αναπαράσταση μπορεί να αποσυντεθεί μέσω της οπτικής αναπαράστασης από βλέποντες αναγνώστες και να γίνει κατανοητή. Αντίθετα η ακουστική αναπαράσταση από έναν αναγνώστη οθόνης και συνθέτη οδηγεί σε απώλεια της λογικής συσχέτισης των δεδομένων και σε μεγάλο βαθμό της κατανόησης. Μια σειρά ψυχοακουστικών πειραμάτων είχε σαν σκοπό την ανάλυση απλών και σύνθετων πινάκων δεδομένων ως προς την υποκείμενη λογική δομή. Η ανάλυση που ακολούθησε έδειξε ότι υπάρχει συστηματική σημασιολογική αναπαράσταση των δεδομένων των πινάκων με βάση τις ιεραρχικά οργανωμένες έννοιες. Έπειτα, μοντελοποιώντας την ανθρώπινη φυσική απόδοση παρήχθει το βέλτιστο μοντέλο προσωδιακών παραμέτρων για τη Μετατροπή Πινάκων-σε-Ήχο. Τέλος η αξιολόγηση έδειξε ότι η χρήση του μοντέλου αυτού έχει ακρίβεια 99% για απλούς πίνακες και 95 έως 99% για σύνθετους πίνακες, μια βελτίωση 14-20% στην κατανόηση, ακουστική προσπάθεια, συνολική εντύπωση και αποδοχή εκ μέρους των χρηστών.

Prosody
Accessibility
Προσωδία
Επικοινωνία ανθρώπου-υπολογιστή
Προσβασιμότητα
Human-computer interaction
Speech synthesis
Σύνθεση φωνής

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Ελληνική γλώσσα

2009


National and Kapodistrian University of Athens
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.