NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

1995 (EN)
ΝΕΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΑΝΤΙΞΟΕΣ ΣΥΝΘΗΚΕΣ ΘΟΡΥΒΟΥ ΚΑΙ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ
NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

ΡΑΓΚΟΥΣΗ, ΜΑΡΙΑ

THE PRESENT THESIS DEALS WITH DIGITAL SPEECH PROCESSING AND MORE SPECIFICALLY WITH THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND WITH THE RECOGNITION OF THE UNVOICED PLOSIVES /K/, /P/ AND /T/. NEW METHODS ARE PROPOSED FOR THE DETECTION PROBLEM, WHICH ARE BASED ON THE SINGULAR VALUE DECOMPOSITION OF THE NOISY SPEECH SIGNAL, UNDER THE WHITE ADDITIVE NOISE ASSUMPTION, AND ON THE THIRD ORDER CUMULANTS OF THE SAME SIGNAL, UNDER THE COLORED BUT SYMMETRICALLY DISTRIBUTED NOISE ASSUMPTION. THE PROPOSED DETECTORS ARE IMPLEMENTED THROUGH ALGORITHMS THAT TAKE EITHER THE FRAME PROCESSING OR THE SAMPLE ADAPTIVE FORM. THESE ALGORITHMS HAVE SHOWN SATISFACTORY PERFORMANCE ON REAL CAR-INTERIOR SPEECH RECORDINGS AND DOWN TO -6 DB SNR. FOR THE PLOSIVES RECOGNITION PROBLEM, WE PROPOSE THE USE OF THE TIME-FREQUENCY REPRESENTATIONS OF THE EXPLOSION PART OFTHE CORRESPONDING SIGNALS, AND MORE SPECIFICALLY OF THE SMOOTHED AND SUBSAMPLED VERSION OF THE WIGNER-VILLE DISTRIBUTION. THE FEATURE VECTORS THUS PRODUCED ARE THEN CLASSIFIED VIA THE LEARNING VECTOR QUANTIZATION ALGORITHM, WITH CORRECT CLASSIFICATION SCORES UP TO 96%, INDEPENDENT OF SPEAKER OR CONTEXT, AND ON REAL SPEECH SIGNALS FROM THE DARPA/TIMIT CORPUS.
Η ΠΑΡΟΥΣΑ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΕΝΤΑΣΣΕΤΑΙ ΣΤΗΝ ΠΕΡΙΟΧΗ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΩΝΗΣ. ΣΥΓΚΕΚΡΙΜΕΝΑ, ΑΣΧΟΛΕΙΤΑΙ ΜΕ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΘΟΡΥΒΩΔΕΣ ΠΕΡΙΒΑΛΛΟΝ ΚΑΙ ΜΕ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΤΩΝ ΑΦΩΝΩΝ ΕΚΡΗΚΤΙΚΩΝ ΣΥΜΦΩΝΩΝ /K/, /P'/ ΚΑΙ /T/.ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΙΧΝΕΥΣΗΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΝΕΕΣ ΜΕΘΟΔΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΤΗΝΑΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ ΤΟΥ ΘΟΡΥΒΩΔΟΥΣ ΣΗΜΑΤΟΣ ΦΩΝΗΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΛΕΥΚΟΥΠΡΟΣΘΕΤΙΚΟΥ ΘΟΡΥΒΟΥ, ΚΑΙ ΤΙΣ ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ ΤΟΥ ΙΔΙΟΥ ΣΗΜΑΤΟΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΕΓΧΡΩΜΟΥ ΑΛΛΑ ΣΥΜΜΕΤΡΙΚΑ ΚΑΤΑΝΕΜΗΜΕΝΟΥ ΘΟΡΥΒΟΥ. ΟΙ ΠΡΟΤΕΙΝΟΜΕΝΟΙ ΑΝΙΧΝΕΥΤΕΣ ΥΛΟΠΟΙΟΥΝΤΑΙ ΜΕΣΩ ΑΛΓΟΡΙΘΜΩΝ ΕΠΕΞΕΡΓΑΣΙΑΣ ΚΑΤΑ ΠΛΑΙΣΙΑ ΚΑΙ ΑΝΑΔΡΟΜΙΚΗΣ ΩΣ ΠΡΟΣ ΤΟ ΧΡΟΝΟ ΜΟΡΦΗΣ. ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΑΥΤΟΙ ΕΔΩΣΑΝ ΠΟΛΥ ΙΚΑΝΟΠΟΙΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΠΡΑΓΜΑΤΙΚΕΣ ΘΟΡΥΒΩΔΕΙΣ ΚΑΤΑΓΡΑΦΕΣ ΑΠΟ ΕΣΩΤΕΡΙΚΟ ΚΙΝΟΥΜΕΝΟΥ ΟΧΗΜΑΤΟΣ, ΚΑΙ ΣΕ SNR ΕΩΣ ΚΑΙ -6 DB. ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΤΩΝ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ ΠΡΟΤΕΙΝΕΤΑΙ Η ΧΡΗΣΗ ΤΩΝ ΧΡΟΝΟΣΥΧΝΟΤΙΚΩΝ ΑΝΑΠΑΡΑΣΤΑΣΕΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΕΚΡΗΞΗΣ ΤΩΝ ΑΝΤΙΣΤΟΙΧΩΝ ΣΗΜΑΤΩΝ, ΚΑΙ ΣΥΓΚΕΚΡΙΜΕΝΑ ΜΙΑ ΕΞΟΜΑΛΥΜΕΝΗ ΚΑΙ ΥΠΟΔΕΙΓΜΑΤΟΛΗΠΤΗΜΕΝΗ ΜΟΡΦΗ ΤΗΣ ΚΑΤΑΝΟΜΗΣ WIGNER-VILLE. ΤΑ ΔΙΑΝΥΣΜΑΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕΓΕΘΩΝΠΟΥ ΠΡΟΚΥΠΤΟΥΝ, ΚΑΤΗΓΟΡΙΟΠΟΙΟΥΝΤΑΙ ΜΕ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΚΒΑΝΤΙΣΜΟΥ ΜΕ ΕΚΜΑΘΗΣΗ, ΔΙΝΟΝΤΑΣ ΠΟΣΟΣΤΑ ΟΡΘΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΜΕΧΡΙ ΚΑΙ 96%, ΑΝΕΞΑΡΤΗΤΩΣ ΟΜΙΛΗΤΗ ΚΑΙ ΣΥΜΦΡΑΖΟΜΕΝΩΝ, ΓΙΑ ΠΡΑΓΜΑΤΙΚΑ ΣΗΜΑΤΑ ΑΠΟ ΤΗ ΒΑΣΗ DARPA/TIMIT.

Ψηφιακή επεξεργασία φωνής
Networks, Artificial neural
Ανάλυση ιδιαζουσών τιμών
ΧΡΟΝΟΣΥΧΝΟΤΙΚΕΣ ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ
Αναγνωρίσεις
Ανίχνευση
Digital speech precessing
THIRD ORDER CUMULANTS
Classification
Δίκτυα, Τεχνητά νευρωνικά
Time-frequency representations
Detection
Κατηγοριοποίηση
Recognition
ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ
Singular value decomposition

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Greek

1995


Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ)
National Technical University of Athens (NTUA)



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)