NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Εθνικό Αρχείο Διδακτορικών Διατριβών
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




1995 (EL)

ΝΕΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΑΝΤΙΞΟΕΣ ΣΥΝΘΗΚΕΣ ΘΟΡΥΒΟΥ ΚΑΙ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ
NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

Ραγκούση, Μαρία

THE PRESENT THESIS DEALS WITH DIGITAL SPEECH PROCESSING AND MORE SPECIFICALLY WITH THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND WITH THE RECOGNITION OF THE UNVOICED PLOSIVES /K/, /P/ AND /T/. NEW METHODS ARE PROPOSED FOR THE DETECTION PROBLEM, WHICH ARE BASED ON THE SINGULAR VALUE DECOMPOSITION OF THE NOISY SPEECH SIGNAL, UNDER THE WHITE ADDITIVE NOISE ASSUMPTION, AND ON THE THIRD ORDER CUMULANTS OF THE SAME SIGNAL, UNDER THE COLORED BUT SYMMETRICALLY DISTRIBUTED NOISE ASSUMPTION. THE PROPOSED DETECTORS ARE IMPLEMENTED THROUGH ALGORITHMS THAT TAKE EITHER THE FRAME PROCESSING OR THE SAMPLE ADAPTIVE FORM. THESE ALGORITHMS HAVE SHOWN SATISFACTORY PERFORMANCE ON REAL CAR-INTERIOR SPEECH RECORDINGS AND DOWN TO -6 DB SNR. FOR THE PLOSIVES RECOGNITION PROBLEM, WE PROPOSE THE USE OF THE TIME-FREQUENCY REPRESENTATIONS OF THE EXPLOSION PART OFTHE CORRESPONDING SIGNALS, AND MORE SPECIFICALLY OF THE SMOOTHED AND SUBSAMPLED VERSION OF THE WIGNER-VILLE DISTRIBUTION. THE FEATURE VECTORS THUS PRODUCED ARE THEN CLASSIFIED VIA THE LEARNING VECTOR QUANTIZATION ALGORITHM, WITH CORRECT CLASSIFICATION SCORES UP TO 96%, INDEPENDENT OF SPEAKER OR CONTEXT, AND ON REAL SPEECH SIGNALS FROM THE DARPA/TIMIT CORPUS.
Η ΠΑΡΟΥΣΑ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΕΝΤΑΣΣΕΤΑΙ ΣΤΗΝ ΠΕΡΙΟΧΗ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΩΝΗΣ. ΣΥΓΚΕΚΡΙΜΕΝΑ, ΑΣΧΟΛΕΙΤΑΙ ΜΕ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΘΟΡΥΒΩΔΕΣ ΠΕΡΙΒΑΛΛΟΝ ΚΑΙ ΜΕ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΤΩΝ ΑΦΩΝΩΝ ΕΚΡΗΚΤΙΚΩΝ ΣΥΜΦΩΝΩΝ /K/, /P'/ ΚΑΙ /T/.ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΙΧΝΕΥΣΗΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΝΕΕΣ ΜΕΘΟΔΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΤΗΝΑΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ ΤΟΥ ΘΟΡΥΒΩΔΟΥΣ ΣΗΜΑΤΟΣ ΦΩΝΗΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΛΕΥΚΟΥΠΡΟΣΘΕΤΙΚΟΥ ΘΟΡΥΒΟΥ, ΚΑΙ ΤΙΣ ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ ΤΟΥ ΙΔΙΟΥ ΣΗΜΑΤΟΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΕΓΧΡΩΜΟΥ ΑΛΛΑ ΣΥΜΜΕΤΡΙΚΑ ΚΑΤΑΝΕΜΗΜΕΝΟΥ ΘΟΡΥΒΟΥ. ΟΙ ΠΡΟΤΕΙΝΟΜΕΝΟΙ ΑΝΙΧΝΕΥΤΕΣ ΥΛΟΠΟΙΟΥΝΤΑΙ ΜΕΣΩ ΑΛΓΟΡΙΘΜΩΝ ΕΠΕΞΕΡΓΑΣΙΑΣ ΚΑΤΑ ΠΛΑΙΣΙΑ ΚΑΙ ΑΝΑΔΡΟΜΙΚΗΣ ΩΣ ΠΡΟΣ ΤΟ ΧΡΟΝΟ ΜΟΡΦΗΣ. ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΑΥΤΟΙ ΕΔΩΣΑΝ ΠΟΛΥ ΙΚΑΝΟΠΟΙΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΠΡΑΓΜΑΤΙΚΕΣ ΘΟΡΥΒΩΔΕΙΣ ΚΑΤΑΓΡΑΦΕΣ ΑΠΟ ΕΣΩΤΕΡΙΚΟ ΚΙΝΟΥΜΕΝΟΥ ΟΧΗΜΑΤΟΣ, ΚΑΙ ΣΕ SNR ΕΩΣ ΚΑΙ -6 DB. ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΤΩΝ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ ΠΡΟΤΕΙΝΕΤΑΙ Η ΧΡΗΣΗ ΤΩΝ ΧΡΟΝΟΣΥΧΝΟΤΙΚΩΝ ΑΝΑΠΑΡΑΣΤΑΣΕΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΕΚΡΗΞΗΣ ΤΩΝ ΑΝΤΙΣΤΟΙΧΩΝ ΣΗΜΑΤΩΝ, ΚΑΙ ΣΥΓΚΕΚΡΙΜΕΝΑ ΜΙΑ ΕΞΟΜΑΛΥΜΕΝΗ ΚΑΙ ΥΠΟΔΕΙΓΜΑΤΟΛΗΠΤΗΜΕΝΗ ΜΟΡΦΗ ΤΗΣ ΚΑΤΑΝΟΜΗΣ WIGNER-VILLE. ΤΑ ΔΙΑΝΥΣΜΑΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕΓΕΘΩΝΠΟΥ ΠΡΟΚΥΠΤΟΥΝ, ΚΑΤΗΓΟΡΙΟΠΟΙΟΥΝΤΑΙ ΜΕ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΚΒΑΝΤΙΣΜΟΥ ΜΕ ΕΚΜΑΘΗΣΗ, ΔΙΝΟΝΤΑΣ ΠΟΣΟΣΤΑ ΟΡΘΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΜΕΧΡΙ ΚΑΙ 96%, ΑΝΕΞΑΡΤΗΤΩΣ ΟΜΙΛΗΤΗ ΚΑΙ ΣΥΜΦΡΑΖΟΜΕΝΩΝ, ΓΙΑ ΠΡΑΓΜΑΤΙΚΑ ΣΗΜΑΤΑ ΑΠΟ ΤΗ ΒΑΣΗ DARPA/TIMIT.

PhD Thesis

Ψηφιακή επεξεργασία φωνής
Networks, Artificial neural
Ανάλυση ιδιαζουσών τιμών
ΧΡΟΝΟΣΥΧΝΟΤΙΚΕΣ ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Electrical Engineering, Electronic Engineering, Information Engineering
Αναγνωρίσεις
Ανίχνευση
Επιστήμες Μηχανικού και Τεχνολογία
Digital speech precessing
Engineering and Technology
THIRD ORDER CUMULANTS
Classification
Δίκτυα, Τεχνητά νευρωνικά
Time-frequency representations
Detection
Κατηγοριοποίηση
Recognition
ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ
Singular value decomposition


Ελληνική γλώσσα

1995


Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ)
National Technical University of Athens (NTUA)




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.