NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

URI: https://www.openarchives.gr/aggregator-openarchives/edm/phdtheses/000040-10442_3275
RDF/XML JSON-LD

This item is provided by the institution :

National Documentation Centre (EKT)

Repository :
National Archive of PhD Theses

see the original item page
in the repository's web site and access all digital files if the item^*

Semantic enrichment by EKT

ΕΚΤ item type

PhD thesis (EN)

EKT year

1995 (EN)

EKT historical period

Title

ΝΕΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΑΝΤΙΞΟΕΣ ΣΥΝΘΗΚΕΣ ΘΟΡΥΒΟΥ ΚΑΙ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ

NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

Creator

Ραγκούση, Μαρία

Description

THE PRESENT THESIS DEALS WITH DIGITAL SPEECH PROCESSING AND MORE SPECIFICALLY WITH THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND WITH THE RECOGNITION OF THE UNVOICED PLOSIVES /K/, /P/ AND /T/. NEW METHODS ARE PROPOSED FOR THE DETECTION PROBLEM, WHICH ARE BASED ON THE SINGULAR VALUE DECOMPOSITION OF THE NOISY SPEECH SIGNAL, UNDER THE WHITE ADDITIVE NOISE ASSUMPTION, AND ON THE THIRD ORDER CUMULANTS OF THE SAME SIGNAL, UNDER THE COLORED BUT SYMMETRICALLY DISTRIBUTED NOISE ASSUMPTION. THE PROPOSED DETECTORS ARE IMPLEMENTED THROUGH ALGORITHMS THAT TAKE EITHER THE FRAME PROCESSING OR THE SAMPLE ADAPTIVE FORM. THESE ALGORITHMS HAVE SHOWN SATISFACTORY PERFORMANCE ON REAL CAR-INTERIOR SPEECH RECORDINGS AND DOWN TO -6 DB SNR. FOR THE PLOSIVES RECOGNITION PROBLEM, WE PROPOSE THE USE OF THE TIME-FREQUENCY REPRESENTATIONS OF THE EXPLOSION PART OFTHE CORRESPONDING SIGNALS, AND MORE SPECIFICALLY OF THE SMOOTHED AND SUBSAMPLED VERSION OF THE WIGNER-VILLE DISTRIBUTION. THE FEATURE VECTORS THUS PRODUCED ARE THEN CLASSIFIED VIA THE LEARNING VECTOR QUANTIZATION ALGORITHM, WITH CORRECT CLASSIFICATION SCORES UP TO 96%, INDEPENDENT OF SPEAKER OR CONTEXT, AND ON REAL SPEECH SIGNALS FROM THE DARPA/TIMIT CORPUS.

Η ΠΑΡΟΥΣΑ ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΕΝΤΑΣΣΕΤΑΙ ΣΤΗΝ ΠΕΡΙΟΧΗ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΩΝΗΣ. ΣΥΓΚΕΚΡΙΜΕΝΑ, ΑΣΧΟΛΕΙΤΑΙ ΜΕ ΤΗΝ ΑΝΙΧΝΕΥΣΗ ΦΩΝΗΣ ΣΕ ΘΟΡΥΒΩΔΕΣ ΠΕΡΙΒΑΛΛΟΝ ΚΑΙ ΜΕ ΤΗΝ ΑΝΑΓΝΩΡΙΣΗ ΤΩΝ ΑΦΩΝΩΝ ΕΚΡΗΚΤΙΚΩΝ ΣΥΜΦΩΝΩΝ /K/, /P'/ ΚΑΙ /T/.ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΙΧΝΕΥΣΗΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΝΕΕΣ ΜΕΘΟΔΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΤΗΝΑΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ ΤΟΥ ΘΟΡΥΒΩΔΟΥΣ ΣΗΜΑΤΟΣ ΦΩΝΗΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΛΕΥΚΟΥΠΡΟΣΘΕΤΙΚΟΥ ΘΟΡΥΒΟΥ, ΚΑΙ ΤΙΣ ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ ΤΟΥ ΙΔΙΟΥ ΣΗΜΑΤΟΣ, ΥΠΟ ΤΗΝ ΥΠΟΘΕΣΗ ΕΓΧΡΩΜΟΥ ΑΛΛΑ ΣΥΜΜΕΤΡΙΚΑ ΚΑΤΑΝΕΜΗΜΕΝΟΥ ΘΟΡΥΒΟΥ. ΟΙ ΠΡΟΤΕΙΝΟΜΕΝΟΙ ΑΝΙΧΝΕΥΤΕΣ ΥΛΟΠΟΙΟΥΝΤΑΙ ΜΕΣΩ ΑΛΓΟΡΙΘΜΩΝ ΕΠΕΞΕΡΓΑΣΙΑΣ ΚΑΤΑ ΠΛΑΙΣΙΑ ΚΑΙ ΑΝΑΔΡΟΜΙΚΗΣ ΩΣ ΠΡΟΣ ΤΟ ΧΡΟΝΟ ΜΟΡΦΗΣ. ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΑΥΤΟΙ ΕΔΩΣΑΝ ΠΟΛΥ ΙΚΑΝΟΠΟΙΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΠΡΑΓΜΑΤΙΚΕΣ ΘΟΡΥΒΩΔΕΙΣ ΚΑΤΑΓΡΑΦΕΣ ΑΠΟ ΕΣΩΤΕΡΙΚΟ ΚΙΝΟΥΜΕΝΟΥ ΟΧΗΜΑΤΟΣ, ΚΑΙ ΣΕ SNR ΕΩΣ ΚΑΙ -6 DB. ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΤΩΝ ΕΚΡΗΚΤΙΚΩΝ ΗΧΩΝ ΠΡΟΤΕΙΝΕΤΑΙ Η ΧΡΗΣΗ ΤΩΝ ΧΡΟΝΟΣΥΧΝΟΤΙΚΩΝ ΑΝΑΠΑΡΑΣΤΑΣΕΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΕΚΡΗΞΗΣ ΤΩΝ ΑΝΤΙΣΤΟΙΧΩΝ ΣΗΜΑΤΩΝ, ΚΑΙ ΣΥΓΚΕΚΡΙΜΕΝΑ ΜΙΑ ΕΞΟΜΑΛΥΜΕΝΗ ΚΑΙ ΥΠΟΔΕΙΓΜΑΤΟΛΗΠΤΗΜΕΝΗ ΜΟΡΦΗ ΤΗΣ ΚΑΤΑΝΟΜΗΣ WIGNER-VILLE. ΤΑ ΔΙΑΝΥΣΜΑΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕΓΕΘΩΝΠΟΥ ΠΡΟΚΥΠΤΟΥΝ, ΚΑΤΗΓΟΡΙΟΠΟΙΟΥΝΤΑΙ ΜΕ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ΔΙΑΝΥΣΜΑΤΙΚΟΥ ΚΒΑΝΤΙΣΜΟΥ ΜΕ ΕΚΜΑΘΗΣΗ, ΔΙΝΟΝΤΑΣ ΠΟΣΟΣΤΑ ΟΡΘΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΜΕΧΡΙ ΚΑΙ 96%, ΑΝΕΞΑΡΤΗΤΩΣ ΟΜΙΛΗΤΗ ΚΑΙ ΣΥΜΦΡΑΖΟΜΕΝΩΝ, ΓΙΑ ΠΡΑΓΜΑΤΙΚΑ ΣΗΜΑΤΑ ΑΠΟ ΤΗ ΒΑΣΗ DARPA/TIMIT.

Type

PhD Thesis

Subject

Ψηφιακή επεξεργασία φωνής

Networks, Artificial neural

Ανάλυση ιδιαζουσών τιμών

ΧΡΟΝΟΣΥΧΝΟΤΙΚΕΣ ΑΝΑΠΑΡΑΣΤΑΣΕΙΣ

Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ

Electrical Engineering, Electronic Engineering, Information Engineering

Αναγνωρίσεις

Ανίχνευση

Επιστήμες Μηχανικού και Τεχνολογία

Digital speech precessing

Engineering and Technology

THIRD ORDER CUMULANTS

Classification

Δίκτυα, Τεχνητά νευρωνικά

Time-frequency representations

Detection

Κατηγοριοποίηση

Recognition

ΣΩΡΕΥΟΥΣΕΣ ΤΡΙΤΗΣ ΤΑΞΗΣ

Singular value decomposition

Provider

National Documentation Centre (EKT)

Repository / collection

National Archive of PhD Theses

Subcollections

Συλλογή ΕΑΔΔ

Language

Greek

Date

1995

Identifier

10.12681/eadd/3275

http://hdl.handle.net/10442/hedi/3275

Publisher

Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ)

National Technical University of Athens (NTUA)

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)

NEW TECHNIQUES FOR THE DETECTION OF SPEECH IN ADVERSE NOISE CONDITIONS AND FOR THE RECOGNITION OF PLOSIVE SOUNDS

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.