Εκτίμηση της ποιότητας φωνής χρησιμοποιώντας την πληροφορία της φάσης: εφαρμογή στην παθολογια φωνής

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
E-Locus Ιδρυματικό Καταθετήριο
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριοVoice quality assessment using phase information : application on voice pathology
Εκτίμηση της ποιότητας φωνής χρησιμοποιώντας την πληροφορία της φάσης: εφαρμογή στην παθολογια φωνής

Σημαντηράκη, Ολυμπία Ε.

Στυλιανού, Ιωάννης
Μουχτάρης, Αθανάσιος
Αργυρός, Αντώνιος

Μια από τις σημαντικότερες λειτουργίες του ανθρώπου είναι η φωνή. Η ομιλία είναι ο πρωταρχικός τρόπος εναρμόνισης μας με την κοινωνία. Επίσης, η φωνή μας μπορεί να αποκαλύψει αρκετές πληροφορίες για μάς. Κάποιες από αυτές είναι η ενέργεια μας, τα συναισθήματα μας, η προσωπικότητα μας, καθώς επίσης και τα καλλιτεχνικά χαρακτηριστικά μας. Πιθανές διαταραχές στη φωνή μπορεί να προκαλέσουν κοινωνική απομόνωση του ατόμου ή να δημιουργήσουν προβλήματα σε ορισμένες κατηγορίες επαγγελμάτων. Λόγω λοιπόν της σημαντικότητας της φωνής, η έγκαιρη ανίχνευση παθολογιών σχετιζόμενων με τη φωνή είναι απαραίτητη. Μια πολύ γνωστή πάθηση της φωνή είναι η σπασμωδική δυσφωνία. Η πάθηση αυτή είναι νευρολογική και κατά κύριο λόγο επηρεάζει την ομαλή λειτουργία των μυών που βρίσκονται κοντά στη γλωττίδα, προκαλώντας ανεπιθύμητες συσπάσεις. Αυτές οι μη ομαλές συσπάσεις των μυών της γλωττίδας έχουν αντίκτυπο στην παραγόμενη ομιλία. Η φωνή του ατόμου που πάσχει από σπασμωδική δυσφωνία εμφανίζει τρέμουλο και διακόπτεται απότομα κατά την διάρκεια της ομιλίας του. Παρόμοιες ενδείξεις μπορεί να παρουσιάσουν και νορμοφωνικοί ομιλητές, οι οποίες σχετίζονται με το άγχος, την φωνητική κούραση κλπ. Ακόμα όμως και για τις περιπτώσεις αυτών των νορμοφωνικών ομιλητών, αυτές οι ενδείξεις μπορεί να είναι ένα πρώτο σύμπτωμα για την εμφάνιση κάποιας νευρολογικής ασθένειας. Επομένως, γίνεται αντιληπτό ότι οι αλγόριθμοι επεξεργασίας φωνής, που ποσοτικοποιούν τη σοβαρότητα των συμπτωμάτων, είναι πολύ χρήσιμοι για την έγκαιρη διάγνωση των ασθενειών. Διάφορες μέθοδοι, που έχουν προταθεί κατά καιρούς για την ανίχνευση και ποσοτικοποίηση παθολογιών φωνής, χρησιμοποιούν την πληροφορία από το φασματικό πλάτος του σήματος ομιλίας. Άλλες εγκυρότερες μέθοδοι, απομονώνουν το σήμα της γλωττίδας η οποία και σχετίζεται με την φυσιολογική ή μη λειτουργία της φωνής. Όμως οι μέθοδοι, που βασίζονται στο φασματικό πλάτος του σήματος, δεν είναι αξιόπιστες, γιατί το φάσμα πλάτους δεν απεικονίζει τα χαρακτηριστικά της γλωττίδας. Ένας καλύτερος δείκτης για την ανίχνευση ανωμαλιών φωνής είναι η φάση του σήματος της γλωττίδας. Όμως πολύ λίγες μελέτες χρησιμοποιούν την πληροφορία της φάσης, λόγω της δυσκολίας εξαγωγής της από το σήμα φωνής. Οι μελέτες που χρησιμοποιούν την πληροφορία φάσης, χρησιμοποιούν τεχνικές αντίστροφου φιλτραρίσματος για την εξαγωγή του σήματος της γλωττίδας και έπειτα εξάγουν χαρακτηριστικά από το φασματογράφημα της φάσης του σήματος της γλωττίδας. Στην εργασία αυτή παρουσιάζεται μια καινούρια μέθοδος για την εκτίμηση της ποιότητας της φωνής που βασίζεται στη φάση. Η μέθοδος αυτή είναι λιγότερο πολύπλοκη από άλλες μεθόδους που για να εξάγουν το σήμα της γλωττίδας χρησιμοποιούν τεχνικές αντίστροφου φιλτραρίσματος. Αρχικά, εφαρμόζοντας στο σήμα ένα αρμονικό προσαρμοστικό μοντέλο εκτιμώνται τα στιγμιαία χαρακτηριστικά του σήματος φωνής (πλάτος, φάση, συχνότητα). Από τις στιγμιαίες φάσεις του σήματος φωνής μέσω μαθηματικών τύπων, ένα καινούριο φασματογράφημα φάσης, το φασματογράφημα παραμόρφωση φάσης (PD-Phase Distortion) εξάγεται, το οποίο είναι συσχετισμένο με το σήμα της γλωττίδας. Από την διακύμανση του PD φασματογραφήματος, μια καινούρια μετρική, ο Δείκτης Κανονικότητας, προτείνεται για να συλλάβει τις ανωμαλίες του σήματος της γλωττίδας. Τέλος, η αποδοτικότητα της μεθόδου μας εκτιμάται πάνω σε μια βάση που περιέχει ομιλητές με σπασμωδική δυσφωνία πριν και μετά την έγχυση βουτουλινικής τοξίνης στους μύες της γλωττίδας. Τα αποτελέσματα από την κατάταξη που προέκυψαν έδειξαν ότι η μέθοδος που προτείνει η εργασία αυτή, είναι συσχετισμένη σε μεγάλο βαθμό όχι μόνο με τη συνολική σοβαρότητα της σπασμωδικής δυσφωνίας αλλά και με άλλα υποκειμενικά χαρακτηριστικά παθολογίας όπως το τρέμουλο σε χαμηλές και υψηλές συχνότητες (θόρυβος), που σημαίνει ότι η προτεινόμενη μετρική, Δείκτης Κανονικότητας, μπορεί να εφαρμοστεί και σε άλλες παθολογίες φωνής. (EL)
One of the most important human abilities is speech along with hearing. Speech is the primary way in which we attune to the society. Our voice can uncover several information about us to other people. It reveals our energy level, our emotions, our personality and our artistry. Voice abnormalities may cause social isolation or may create problems in the professional field. Due to this significance of the voice, the early detection of a voice pathology is essential. A well-known voice abnormality is called Spasmodic Dysphonia (SD). SD is a neurological disease primarily affecting the regular contraction of the muscles around vocal cords, causing their undesirable vibration. This abnormal vibration of muscles of the glottis has an impact on speech. One that suffers from SD speaks more tremulous and makes disruptions during speech. Similar indications appear also to normophonic speakers usually related to stress, voice fatigue, etc. Even for the normophonic cases, these indications may be a first symptom of a neurological disease, so an early diagnosis is necessary. Therefore, algorithms that measure the intensity of the symptoms are very useful. Traditional methods that detect and quantify voice pathologies use the amplitude information of the speech signal. More refined approaches make essential the isolation of the glottal source signal as the glottis is related to voice abnormalities. However, in both cases the amplitude based methods are not very reliable because the amplitude spectrum cannot capture characteristics of the glottis. A better indicator of voice irregularities is the phase information. Nevertheless, very few studies use the phase information because of its difficulty in the manipulation. Moreover, studies which work with the phase information, use inverse filtering techniques for extracting the glottal source signal and then they extract features from the phase spectrogram of the glottal source. In this thesis, an innovated phase-based method for voice quality assessment is presented. The proposed method is less complex than the state-of-the-art methods which use the inverse filtering for extracting the glottal source. Firstly, the instantaneous amplitudes, phases and frequencies are estimated from the speech signal by an adaptive harmonic model. From the instantaneous phases of the speech signal through mathematical formulas, a new phase spectrum, the Phase Distortion (PD) spectrum, is extracted, highly correlated with the shape of the glottal source. From the time variance of the PD spectrum (PDD), a new metric called Regularity Ratio (RR) is proposed to capture the irregularities of the glottal source. Finally, the efficiency of our method is validated on a database containing speakers with SD before and after the botulinum toxin injection. The results show that the obtained ranking is highly correlated with the subjective evaluations provided by medical doctors not only on the overall severity of SD but also on other features like tremor and jitter, revealing that our proposed feature, the RR, can be applied on other voice pathologies. (EN)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης


Ελληνική γλώσσα
Αγγλική γλώσσα

2014-11-21


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.