2002 (EN)
Speech Spectrum Expansion
Επέκταση Φάσματος Ομιλίας

Αγιομυργιαννάκης, Ιωάννης (EL)
Agiomyrgiannakis, Ioannis (EN)

Ενώ το σήμα της ομιλίας έχει φασματικό περιεχόμενο που εκτείνεται έως και τα 20 KHz, τα τηλεφωνικά δίκτυα της σταθερής τηλεφωνίας μεταφέρουν τα κατώτερα 0.3-3.7 KHz του φάσματος, και της κινητής τηλεφωνίας τα κατώτερα 0-4 KHz και ένα σημαντικό μέρος του φάσματος του σήματος της ομιλίας χάνεται. Αυτό οδηγεί σε μείωση της ποιότητας της μεταδιδόμενης ομιλίας. Σκοπός αυτής της εργασίας είναι να ανακτηθεί το χαμένο φάσμα, χρησιμοποιώντας την σχέση που έχει το μεταδιδόμενο μέρος του φάσματος με εκείνο που χάνεται προκειμένου να εκτιμηθεί το σήμα των χαμένων συχνότητες στα 4-8 KHz. Για αυτόν το σκοπό μοντελοποιήθηκε το χαμένο σήμα σε δύο παραμέτρους, μια περιγραφή της περιβάλλουσας του φάσματος, και μια έκφραση της ενέργειας του. Το μοντέλο έδωσε πολύ καλής ποιότητας ομιλία. Για την εκτίμηση της περιβάλλουσας δοκιμάστηκαν διάφορες εκτιμήτριες που υπάρχουν στην βιβλιογραφία και προτείνεται ένα καινούριο σύστημα πολλαπλών εκτιμητριών με επιλογή μέσω της τονικότητας. Τα ενδεχόμενα λάθη της εκτίμησης διορθώνονται με περαιτέρω επεξεργασία του σήματος. Το σύστημα εκπαιδεύτηκε σε εκτενή βάση δεδομένων. Η εκτίμηση της ενέργειας, παραμένει ανοικτό θέμα έρευνας. Αποτέλεσμα της εργασίας αυτής είναι ένα σύστημα επέκτασης φωνής που χρειάζεται μετάδοση του λόγου ενέργειας του μεταδιδόμενου σήματος των 0-4 KHz προς το χαμένο σήμα των 4-8 KHz. Η ποιότητα του ανακατασκευασμένου σήματος των 0-8 KHz είναι αρκετά καλή, όπως δείχνουν υποκειμενικές δοκιμές που διεξήχθησαν στο πλαίσιο αυτής της εργασίας. Το σύστημα μπορεί να βελτιώσει την ποιότητα της ομιλίας ενός κωδικοποιητή / αποκωδικοποιητή φωνής των 0-4 KHz με ελάχιστη επιπλέον μεταδιδόμενη πληροφορία. (EL)
Speech signal has spectral content that extends up to 20 KHz. Since current analogue telephone lines carry the lowest 0.3-3.7 KHz of the speech signal, and mobile telephony standard speech codecs encode only the 0-4 KHz signal, a significant portion of the speech signal is not included. This leads to a degradation of perceived speech quality. The purpose of this research is to use the statistical behaviour of the transmitted signal to estimate the untransmitted signal, and restore the wideband 0-8 KHz speech signal, perceptually better than the 0-4 KHz signal, and as close as possible to the original 0-8 KHz. For this reason the lost 4-8 KHz of the speech signal were modelled with two parameters; an LSF description of the 4-8 KHz spectral envelope and an expression of its energy. This model produced speech of high quality. The spectral envelope estimation was done with several estimators. A novel pitch based multiple estimator system is introduced. The errors of the spectral envelope estimator are successfully corrected with post-processing. The spectral expansion system was trained with a big database. The energy estimation remains an open issue. The result of this research is a Speech Spectrum Expansion system that requires the transmission of only one parameter, the energy ratio between 0-4 KHz and 4-8 KHz. The SSE system produces reconstructed wideband speech of quality, as subjective tests indicate. The SSE system can improve a speech codec of 0-4 KHz with minimal bandwidth requirements. (EN)

