Ανίχνευση Ασυνεχειών στη Συνδετική Σύνθεση Φωνής με Ακουστικές Μονάδες

 
This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*
share




2006 (EN)
Detection of Discontinuities in Concatenative Speech Synthesis
Ανίχνευση Ασυνεχειών στη Συνδετική Σύνθεση Φωνής με Ακουστικές Μονάδες

Πανταζής, Ιωάννης (EL)
Pantazis, Ioannis (EN)

Τα τελευταία χρόνια, σύνθεση φωνής με επιλογή ακουστικών μονάδων έγινε ένα σημαντικό πεδίο της σύνθεσης φωνής. Η σύνθεση φωνής με επιλογή ακουστικών μονάδων δίνει την μέγιστη φυσικότητα για τον λόγο ότι δεν εφαρμόζει τεχνικές ψηφιακής επεξεργασίας σήματος πάνω στην ηχογραφημένηφωνή οι οποίες έχουν ως αποτέλεσμα να παράγουν λιγότερο φυσική συνθετική φωνή. Για να βρούμε της καλύτερες μοναδες από την ηχογραφημένη βάση, η σύνθεση φωνής με επιλογή ακουστικών μονάδων βασίζεται σε δύο συναρτήσεις κόστους: /κόστος στόχου/ και /κόστος σύνδεσης/. Το κόστος σύνδεσης έχει να κάνει με το πόσο καλά διαδοχικές μονάδες ενώνονται. Ο υπολογισμός του κόστους σύνδεσης γίνεται σε δύο βήματα. Στο πρώτο βήμα βρίσκουμε τα χαρακτηριστικά του σήματος και στο δεύτερο βρίσκουμε την κατάλληλη απόσταση για να τα ξεχωρίσουμε. Πρόσφατες μελέτες προσπάθησαν να βρουν ποιο κόστος σύνδεσης είναι ικανό να προβλέπει ακουστικές ασυνέχειες ή αλλιώς, να συσχετίζεται με την αντίληψη των ασυνεχειών από τον άνθρωπο στο σημείο σύνδεσης. Παρόλα αυτά κανένα κόστος σύνδεσης μέχρι σήμερα δεν μπορεί να μετρήσει το ποσοστό ασυνέχειας δύο διαδοχικών μονάδων ικανοποιητικά. <π> Διάφορα χαρακτηριστικά όπως “line spectral frequencies (LSF)” και “Mel frequency cepstral coefficients (MFCC)” έχουν χρησιμοποιηθεί για τον εντοπισμό ασυνεχειών. Σε αυτή την εργασία τρία νέα σετ χαρακτηριστικών αναλύονται. Το πρώτο βασίζεται στην μοντελοποίηση της φωνής με ένα μη γραμμικό αρμονικό μοντέλο του οποίου τα πλάτη είναι χρονικά μεταβαλλόμενα. Το δεύτερο σετ βασίζεται σε μια μη γραμμική τεχνική ανάλυσης η οποία αναλύει το σήμα σε AM και FM συνιστώσες. Το τρίτο σετ χαρακτηριστικών προσπαθεί να εκμεταλλευτεί τη μη γραμμική φύση του αυτιού. Χρησιμοποιώντας το ακουστικό μοντέλο του Lyon, υπολογίζουμε τη συμπεριφορά του εσωτερικού αυτιού. Για να υπολογίσουμε τη διαφορά μεταξύ δύο διανυσμάτων χαρακτηριστικών χρειαζόμαστε μια απόσταση. Παραδείγματα αποστάσεων είναι η απόλυτη απόσταση (/l/1 νόρμα) και η ευκλείδεια απόσταση (/l/2 νόρμα). Αυτές οι αποστάσεις όμως δίνουν φτωχά αποτελέσματα. Προτείνουμε τη χρήση γραμμικών διακρινουσών, καθώς επίσης, και τετραγωνικών διακρινουσών. Επιπλέον, γραμμική παλινδρόμηση (linear regression) χρησιμοποιήθηκε ως διακρίνουσα. Η αξιολόγηση των κοστών σύνδεσης όπως και η εκπαίδευση των διακρινουσων έγινε πάνω σε δύο βάσεις. Για να δημιουργηθεί μια βάση, ένα ψυχοακουστικό πείραμα έλαβε χώρα και οι γνώμες των ακροατών καταγράφηκαν. Η πρώτη βάση δημιουργήθηκε από τους Klabbers και Veldhuis στην Ολλανδία ενώ, η δεύτερη δημιουργήθηκε από τους Στυλιανού και Syrdal στα εργαστήρια της ΑΤ&Τ. Οπότε είμαστε ικανοί να συγκρίνουμε κάποιο κόστος σύνδεσης σε διαφορετικές βάσεις και να πάρουμε πιο ασφαλή συμπεράσματα. Τα αποτελέσματα που πήραμε δείχνουν ότι το κόστος σύνδεσης βασισμένο στο μη γραμμικό αρμονικό μοντέλο με χρήση γραμμικής διακρίνουσας ή γραμμικής παλινδρόμησης ανιχνεύει της ασυνέχειες και στις δύο βάσεις ικανοποιητικά. Είναι πολύ καλύτερο από το κόστος βασισμένο στο MFCC με χρήση ευκλείδειας απόστασης που είναι ένα τυπικό κόστος στα σύγχρονα συστήματα σύνθεσης φωνής. Ένα άλλο κόστος σύνδεσης που έδωσε καλά αποτελέσματα είναι η AM-FM ανάλυση πάλι με χρήση γραμμικής διακρίνουσας ή γραμμικής παλινδρόμησης. Σαν γενικό συμπέρασμα μπορούμε να πούμε ότι *ένα κόστος σύνδεσης βασισμένο σε μη γραμμικά χαρακτηριστικά με χρήση στατιστικών διακρινουσων *είναι μια καλή επιλογή. (EL)
Last decade, unit selection synthesis became a hot topic in speech synthesis research. Unit selection gives the greatest naturalness due to the fact that it does not apply a large amount of digital signal processing to the recorded speech, which often makes recorded speech sound less natural. In order to find the best units in the database, unit selection is based on two cost functions, /target cost /and /concatenation cost/. Concatenation cost refers to how well adjacent units can be joined. The problem of finding a concatenation cost function is broken into two subproblems; into finding the proper parameterizations of the signal and into finding the right distance measure. Recent studies attempted to specify which concatenation distance measures are able to predict audible discontinuities and thus, highly correlates with human perception of discontinuity at concatenation point. However, none of the concatenation costs used so far, can measure the similarity (or, (dis-)continuity) of two consecutive units efficiently. Many features such as line spectral frequencies (LSF) and Mel frequency cepstral coefficients (MFCC) have been used for the detection of discontinuities. In this study, three new sets of features for detecting discontinuities are introduced. The first set of features are obtained by modeling the speech signal as a sum of harmonics with time varying complex amplitude, which yield a nonlinear speech model. The second set of features is based on a nonlinear speech analysis technique which tries to decompose speech signals into AM and FM components. The third feature set exploits the nonlinear nature of the ear. Using Lyon’s auditory model, the behaviour of the cochlea is measured by evaluating neural firing rates. To measure the difference between two vectors of such parameters, we need a distance measure. Examples of such measures are absolute distance (/l/1 norm) and Euclidean distance (/l/2 norm). However, these measures are naive and provide rather poor results. We further suggest using Fisher’s linear discriminant as well as a quadratic discriminant as discrimination functions. Linear regression, which employs a least-squares method, was also tested as a discrimination function. The evaluation of the objective distance measures (or concatenation costs) as well as the training of the discriminant functions was performed on two databases. To build a database, a psychoacoustic listening experiment is performed and listener’s opinions are obtained. The first database was created by Klabbers and Veldhuis in Holland while, the second database was created by Stylianou and Syrdal at AT&T Labs. Therefore, we are able to compare same approaches on different databases and obtain more robust results. Results obtained from the two different psychoacoustic listening tests showed that nonlinear harmonic model using Fisher’s linear discriminant or linear regression performed very well in both tests. It was significantly better than MFCC separated with Euclidean distance which a common concatenation cost in modern TTS systems. Another good concatenation cost, but less good than nonlinear harmonic model, is AM-FM decomposition again with Fisher’s linear discriminant or linear regression. These results indicate that *a concatenation cost which is based on nonlinear features separated by a statistical discriminant function *is a good choice. (EN)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)

2007-10-11
2006-12-01


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)