This thesis presents our efforts to address two major problems in current large vocabulary continuous speech recognition systems. The first problem is the mismatched conditions between the training and testing sets. We particularly focus on the performance degradation due to different speakers and dialects. The second problem is the explicit modeling of the inter-frame correlations in a speaker-independent (SI) system. We attack both of these problems by applying strategies based on the popular family of linear model transformations and we further propose a novel stochastic transformation scheme named Maximum Likelihood Stochastic Transformations (MLST).MLST consists of a collection of component, linear transformations that are shared among all the Gaussians in each mixture. The component transformation applied to each Gaussian is selected probabilistically, based on weight probabilities. For the estimation of the transformation parameters and weight probabilities we use the expectation-maximization (EM) algorithm. The single linear transformations can then be seen as a special case of MLST with one linear component. In its generic form, MLST is a more advantageous transformation since it provides the mechanism to increase acoustic resolution while maintaining the robust estimation of its parameters. Although the component transformations may be tied over a set of mixtures, the choice of the specific transformation that is applied to a Gaussian is based on a soft decision process using the transformation weights.To evaluate our new method we first perform a series of speaker-adaptation experiments using SRI's DECIPHER speech recognition system. We find that our new method significantly outperforms the methods based on the single linear transformations. Furthermore, the overall computational demands remain almost the same as with the linear approach. We then investigate the effect of mismatched dialects and find that it significantly influences the recognition accuracy. Consequently, we apply several adaptation approaches, which had been previously used in the speaker or channel adaptation tasks, to develop a dialect-specific recognition system using a dialect-dependent system trained on a different dialect and a small number of training sentences from the target dialect. We show that adaptation improves recognition performance dramatically and increases robustness with small amounts of training sentences. Furthermore, using MLST in dialect-adaptation experiments we get significant performance improvement over the linear approaches.Finally, we incorporate the MLST transformations in the training process of SI systems in an effort to explicitly model the correlations between the spectral parameters. We find that, although some performance gains can be obtained, performance is not significantly influenced by the number of MLST component transforms, nor by the type of the transformation.
Στην εργασία αυτή παρουσιάζουμε τις προσπάθειες μας να αντιμετωπίσουμε δύο σημαντικά προβλήματα στα σύγχρονα , μεγάλου λεξιλογίου, συστήματα αναγνώρισης συνεχούς ομιλίας. Το πρώτο πρόβλημα είναι οι συνθήκες αναντιστοιχίας ανάμεσα στα δεδομένα εκπαίδευσης και ελέγχου. Συγκεκριμένα εστιάζουμε στο πρόβλημα μειωμένης απόδοσης εξαιτίας διαφορών στους ομιλητές και στις διαλέκτους. Το δεύτερο πρόβλημα είναι η άμεση μοντελοποίηση των εσωτερικών (inter-frame) συσχετίσεων ενός χαρακτηριστικού διανύσματος σε ένα σύστημα ανεξάρτητο από ομιλητή (SI). Προσεγγίζουμε και τα δύο αυτά προβλήματα εφαρμόζοντας στρατηγικές βασισμένες στην διαδεδομένη οικογένεια των γραμμικών μετασχηματισμών των μοντέλων και επιπρόσθετα προτείνουμε ένα καινοτόμο σχήμα στοχαστικών μετασχηματισμών με την ονομασία Μεγίστης Πιθανοφάνειας Στοχαστικοί Μετασχηματισμοί (MLST).Οι MLST αποτελούνται από ένα σύνολο συστατικών γραμμικών μετασχηματισμών οι οποίοι μοιράζονται σε όλες τις Gaussian κατανομές σε κάθε μείγμα. Η επιλογή του συστατικού γραμμικού μετασχηματισμού που θα εφαρμοστεί σε κάθε Gaussian γίνεται πιθανοκρατικά, μέσω βαρών. Για την εκτίμηση των παραμέτρων του μετασχηματισμού και των βαρών, χρησιμοποιούμε τον αλγόριθμο expectation-maximization (EM). Ο απλός γραμμικός μετασχηματισμός μπορεί συνεπώς να θεωρηθεί ως μια ειδική περίπτωση του MLST με μία γραμμική συνιστώσα. Στη γενική του μορφή, ο MLST πλεονεκτεί αφού παρέχει τον μηχανισμό για να αυξηθεί η ανάλυση στο ακουστικό μοντέλο, διατηρώντας παράλληλα την δυνατότητα εύρωστης εκτίμησης των παραμέτρων του. Παρότι οι συστατικοί μετασχηματισμοί μπορούν να προσδεθούν σε ένα σύνολο από μείγματα, η επιλογή του συγκεκριμένου μετασχηματισμού που εφαρμόζεται σε κάθε Gaussian του μείγματος είναι θέμα μιας ευέλικτης απόφασης (soft decision) που βασίζεται στα βάρη των μετασχηματισμών.Για την αξιολόγηση της νέας μας μεθόδου, αρχικά εκτελούμε μια σειρά από πειράματα προσαρμογής σε ομιλητή χρησιμοποιώντας το σύστημα αναγνώρισης ομιλίας DECIPHER του SRI. Βρίσκουμε ότι η νέα μέθοδος υπερτερεί σημαντικά των μεθόδων που βασίζονται σε έναν απλό γραμμικό μετασχηματισμό. Επιπλέον το συνολικό υπολογιστικό κόστος παραμένει σχεδόν ίδιο με τη γραμμική προσέγγιση.Ακολούθως ερευνήσαμε το πρόβλημα της αναντιστοιχίας των διαλέκτων και βρήκαμε ότι αυτές επηρεάζουν σημαντικά την ακρίβεια της αναγνώρισης. Συνεπώς, εφαρμόσαμε διάφορες τεχνικές προσαρμογής των ακουστικών μοντέλων που είχαν προηγουμένως εφαρμοστεί στην προσαρμογή ομιλητή και καναλιού για να αναπτύξουμε ένα σύστημα αναγνώρισης συγκεκριμένης διαλέκτου ξεκινώντας από ένα σύστημα εκπαιδευμένο σε άλλη διάλεκτο και μικρό αριθμό προτάσεων εκπαίδευσης της νέας διαλέκτου. Δείχνουμε ότι η προσαρμογή βελτιώνει θεαματικά την επίδοση του αναγνωριστή και αυξάνει την ευρωστία με λίγες μόνο προτάσεις εκπαίδευσης. Επιπρόσθετα, χρησιμοποιώντας MLST στα πειράματα προσαρμογής σε διάλεκτο, επιτυγχάνουμε σημαντικά καλύτερη ακρίβεια σε σύγκριση με τις απλές γραμμικές προσεγγίσεις.Τέλος, ενσωματώνουμε τους μετασχηματισμούς MLST στην διαδικασία εκπαίδευσης των SI συστημάτων σε μια προσπάθεια να μοντελοποιήσουμε άμεσα τις συσχετίσεις ανάμεσα στις παραμέτρους του φάσματος. Βρίσκουμε ότι, παρότι μπορούμε να επιτύχουμε κάποια κέρδη στην επίδοση, τα κέρδη αυτά δεν φαίνεται να επηρεάζονται σημαντικά από τον αριθμό των συστατικών μετασχηματισμών του MLST ή τον τύπο του μετασχηματισμού.