Μοντελοποίηση της ακουστικής αναπαράστασης της τυπογραφίας εγγράφων μέσω εκφραστικής συνθετικής ομιλίας για τυφλούς και βλέποντες

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Εθνικό Αρχείο Διδακτορικών Διατριβών
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2012 (EL)
Modeling acoustic rendition of documents' typography using expressive speech synthesis for sighted and blind users
Μοντελοποίηση της ακουστικής αναπαράστασης της τυπογραφίας εγγράφων μέσω εκφραστικής συνθετικής ομιλίας για τυφλούς και βλέποντες

Τσώνος, Δημήτριος

Η δυνατότητα πρόσβασης στα έντυπα και ηλεκτρονικά έγγραφα (βιβλία, εφημερίδες, περιοδικά, επιστολές, περιεχόμενο ιστού) από τα άτομα με εντυποαναπηρία, αλλά και από τους μετακινούμενους χρήστες ή τους ηλικιωμένους, βασίζεται στη μετατροπή τους (σε πραγματικό χρόνο) σε ακουστική, κατά κύριο λόγο, ή και απτική μορφή. Ένα έγγραφο, πέραν από το περιεχόμενό του, περιλαμβάνει έναν αριθμό από στοιχεία οπτικής παρουσίασης, όπως: είδος, μέγεθος και χρώμα γραμματοσειράς και τρόπο γραφής (έντονη, πλάγια, υπογραμμισμένη). Παρά τη μεγάλη πρόοδο που επιτεύχθηκε στα συστήματα μετατροπής Κειμένου-σε-Ομιλία, σήμερα αυτά δεν υποστηρίζουν την αποτελεσματική ακουστικοποίηση της σημασιολογίας και των γνωσιακών πτυχών των Στοιχείων Οπτικής Παρουσίασης των Εγγράφων (ΣΟΠΕ). Ουσιαστικά αυτή η επιπλέον πληροφορία «χάνεται» κατά την επεξεργασία του εγγράφου με σκοπό την ακουστική απόδοσή του ή τη μετατροπή του σε απτική μορφή (γραφή Braille). Η παρούσα διατριβή ασχολείται με την ακουστικοποίηση, για τυφλούς και βλέποντες, της μεταπληροφορίας ΣΟΠΕ κατά τη μετατροπή τους σε ομιλία. Η προσέγγιση του προβλήματος χωρίζεται σε δύο στάδια: α) την αυτόματη εξαγωγή των επαγόμενων συναισθημάτων του αναγνώστη από τις εναλλαγές των ΣΟΠΕ και β) την ακουστική απόδοσή τους χρησιμοποιώντας εκφραστική συναισθηματική συνθετική ομιλία.Με σκοπό τη δημιουργία ενός συστήματος αυτόματης εξαγωγής της επαγόμενης συναισθηματικής κατάστασης από τα ΣΟΠΕ και τη κατάλληλη επισημείωση των εγγράφων με αυτή την πληροφορία, προτείνεται μία αρχιτεκτονική για την πολυτροπική παραγωγή, παρουσίαση και πλοήγηση σε πραγματικό χρόνο σε καθολικά προσβάσιμα έγγραφα, ανεξάρτητα φυσικής γλώσσας, περιεχομένου και πολιτισμού. Η υλοποίηση του αντίστοιχου πρωτότυπου συστήματος βασίστηκε στην τεχνολογία XML. Στη συνέχεια, αναπτύσσεται ένα μοντέλο για την ποσοτική περιγραφή του τρόπου ακουστικοποίησης των τυπογραφικών εναλλαγών ΣΟΠΕ μέσω: i) της μαθηματικής περιγραφής των μεταβολών της επαγόμενης συναισθηματικής κατάστασης του αναγνώστη που στηρίζεται στη διαστατική φύση των συναισθημάτων στον χώρο «Ευχαρίστηση», «Διέγερση» και «Επικράτηση», και ii) της αντιστοίχησής τους σε μεταβολές προσωδιακών χαρακτηριστικών της εκφραστικής συνθετικής ομιλίας.Για την αξιολόγηση του προσωδιακού μοντέλου εξετάστηκε, μέσω ψυχοακουστικών πειραμάτων, το κατά πόσο οι ακροατές είναι σε θέση να αναγνωρίσουν τις τυπογραφικές εναλλαγές ΣΟΠΕ με ακουστικό τρόπο. Τα αποτελέσματα ήσαν θετικά ακόμη και για ακροατές χωρίς πρότερη εκπαίδευση. Επίσης, το μοντέλο που αναπτύχθηκε αξιολογήθηκε από βλέποντες και τυφλούς μαθητές δημοτικού σχολείου ότι προάγει την απόδοσή τους κατά τη διδακτική διαδικασία.
The accessibility to printed and electronic documents (books, newspapers, journals, letters, web content) by the print disabled, as well as the moving users and the elderly, is based on the possibility to convert them (in real time) into, primary, acoustic and or haptic modality. Besides its content, a printed or electronic text document contains a number of presentation visual elements that apply design glyphs or typographic elements, such as font (type, size and color) and font style (bold, italics and underline). Regardless the important progress achieved in Text-to-Speech systems, to date they do not support the efficient sonification of the semantics and cognitive aspects of the Visual Presentation Elements in Documents (VPED). Essentially all this additional metadata vanishes during the document processing towards its acoustic or haptic (in Braille) rendition.This dissertation deals with the sonification of the VPED metadata during their transformation to speech. The approach to this problem includes two phases: a) the automatic extraction of the VPED induced emotional states to the reader and b) their acoustic rendition using expressive emotional synthetic speech. Focusing on the develop a system for the automatic extraction of the VPED induced emotional states and the appropriate tagging of the documents with this information, a novel architecture is proposed for the multimodal universal accessibility of documents, regardless of their natural language, content and culture. The realization of the corresponding system is based on the XML technology. Moreover, a quantitative model is developed for the sonification of the VPED typographic alternations by: i) the mathematical formulation of the induced reader’s emotional state, based on the dimensional nature of the emotions in the space “Pleasure”, “Arousal” and “Dominance”, and ii) their mapping into prosodic alternation of the expressive synthetic speech. For the evaluation of the prosodic model we have explored, using psychoacoustic experiments, whether the listeners can acoustically recognize the VPED typographic alternations. The results were positive even in the case of listeners without any previous training. Furthermore, the evaluation of the developed model by sighted and blind students of primary education shows enhancement of their performance during the didactic process.

Συναισθήματα
Universal accessibility
Human computer-interaction
Αλληλεπίδραση ανθρώπου - υπολογιστή
Καθολική πρόσβαση
Εκφραστική συνθετική ομιλία
Σχεδίαση για όλους
Design-for-all
Emotions
Expressive speech synthesis

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Ελληνική γλώσσα

2012


National and Kapodistrian University of Athens
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.