Πολυμεσική επεξεργασία ομιλίας

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2008 (EL)
Multimedia speech processing
Πολυμεσική επεξεργασία ομιλίας

Αλμπανίδης, Γεώργιος Λ.

Αντικείμενο της διατριβής είναι η πολυμεσική επεξεργασία ομιλίας, Στην έρευνα που αφορά την κατάτμηση φθόγγων μελετήθηκε ο αλγόριθμος DISTBIC και αναπτύχθηκαν παραλλαγές του που βασίζονται σε διορθώσεις μικρού μεγέθους δείγματος, αντικατάσταση του Μπεϋζιανού πληροφοριακού κριτηρίου με εναλλακτικά κριτήρια, μοντελοποίηση των χαρακτηριστικών ομιλίας με τη γενικευμένη Γάμμα κατανομή, χρήση μετασχηματισμών και εφαρμογή εύρωστης στατιστικής στην επιλογή μοντέλου. Οι τροποποιήσεις αυτές αποτιμήθηκαν στις φωνητικές βάσεις ΝΤΙΜΙΤ και M2VTS όπου επιτεύχθηκε βελτίωση στους ρυθμούς σφαλμάτων σε σχέση με τη βασική μέθοδο. Στην επεξεργασία γραπτού λόγου έγινε έρευνα στην εστιασμένη προσκομιδή ιστοσελίδων. Προτάθηκε μια στρατηγική αναζήτησης με επιλογή βέλτιστου κόμβου που βασίζεται στη μέθοδο της λανθάνουσας σημασιολογικής δειτκοδότησης και συνδυάζει λεκτικό περιεχόμενο με πληροφορία υπερσυνδέσμων. Πειράματα στις βάσεις WebKB και Cora έδειξαν σημαντική βελτίωση στους ρυθμούς ανάκλησης και ακρίβειας σε σχέση με γνωστές τεχνικές ανάκτησης πληροφορίας. Προτάθηκε μία μέθοδος πυ σητρίζεται στα διακριτά κρυμμένα μοντέλα markov και επιτρέπει τη μοντελοποίηση ακολουθιών χαρακτήρων. Πειράματα που εκτελέστηκαν σε κείμενα γραμμένα σε πέντε ευρωπαϊκές γλώσσες έδειξαν υψηλούς ρυθμούς ταυτοποίησης
The subject of this thesis is multimodal speech processing. The research in phonemic segmentation is focused on the study of the DISTBIC algorithm where several variations were developed; these are based on small sample corrections, replacement of the Bayesian information criterion with alternative criteria, modelling of the speech features with the generalised Gamma distribution, use of transformations and robust statistics in model selection. These modifications were evaluated in the NTIMIT and M2VTS speech databases, where improvement in error rates was attained with repsect to the baseline method. Regarding text processing, research was done in focused web crawling. A best first search strategy with hyperlink information was proposed. Experiments in the WebKB and Cora databases showed significant improvement in the recall and precision rates yielded with respect to well known information retrieval techniques. last, research was done in the text language identification. The discrete hidden Markov models based mehtod which was proposed yielded high identification rates in five European languages

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Speech processing systems
Robust statistical model selection
Ανάκτηση πληροφοριών
Information retrieval
Generalised Gamma distribution
Phonemic segmentation with information criteria
Κατάτμηση φθόγγων με πληροφοριακά κριτήρια
Συστήματα επεξεργασίας ομιλίας
Εύρωστη στατιστική επιλογή μοντέλου
Γενικευμένη Γάμμα κατανομή
Αυτόματη προσκομιδή ιστοσελίδων
Latent semantic indexing
Signal processing
Επεξεργασία σήματος

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα
Αγγλική γλώσσα

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.