Αντικείμενο της παρούσας μεταπτυχιακής διατριβής αποτελεί η εξαγωγή και η αναγνώριση ηχητικών χαρακτηριστικών, με χρήση Βαθέων Νευρωνικών Δικτύων (Deep Neural Networks). Στόχος είναι η ανάπτυξη ενός συστήματος που εξάγει, αρχικά, κάποια ηχητικά χαρακτηριστικά από ένα τμήμα ομιλίας και στη συνέχεια αναγνωρίζει βάσει αυτών την ομιλούμενη σε αυτό γλώσσα (π.χ. Ελληνικά, Αγγλικά κ.ά.). Στην παρούσα μελέτη, τα ηχητικά χαρακτηριστικά εξάγονται είτε με κλασικούς αλγορίθμους εξαγωγής ηχητικών χαρακτηριστικών (π.χ. MFCC ή SDC χαρακτηριστικά), είτε με τη χρήση βαθέων νευρωνικών δικτύων. Αντίστοιχα, και η αναγνώριση των χαρακτηριστικών γίνεται είτε με τη χρήση βαθέων νευρωνικών δικτύων, είτε με άλλες μεθόδους μοντελοποίησης (π.χ. GMM, SVM). Τα τελευταία χρόνια, η Βαθιά Μάθηση (Deep Learning) αναδύθηκε ως ένα νέο πεδίο στον τομέα της μάθησης μηχανής. Οι τεχνικές που έχουν αναπτυχθεί μέσω της έρευνας στον τομέα αυτό έχουν ήδη μεγάλο αντίκτυπο σε εφαρμογές επεξεργασίας σήματος και πληροφοριών, διευρύνοντας έτσι τα πεδία εφαρμογής της μάθησης μηχανής. Η βαθιά μάθηση μπορεί να οριστεί ως μία κατηγορία τεχνικών μάθησης μηχανής, όπου αξιοποιούνται πολλά επίπεδα μη-γραμμικής επεξεργασίας πληροφορίας για την εξαγωγή και το μετασχηματισμό χαρακτηριστικών, την ανάλυση προτύπων και την ταξινόμηση, με επίβλεψη ή χωρίς επίβλεψη. Τα βαθιά νευρωνικά δίκτυα που χρησιμοποιούνται στην παρούσα μεταπτυχιακή διατριβή ονομάζονται Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks, CNN) και αποτελούν ένα είδος τεχνητών νευρωνικών δικτύων εμπρόσθιας τροφοδότησης, εμπνευσμένα από τη δομή βιολογικών οπτικών φλοιών. Μέσα από έρευνες που έχουν διενεργηθεί, φαίνεται ότι τα CNN δίνουν πολύ καλά αποτελέσματα στον τομέα της ρομποτικής όρασης, αλλά και της επεξεργασίας ομιλίας.
The objective of this master thesis is the extraction and recognition of acoustic features, using Deep Neural Networks. The aim is the development of a system that initially extracts some audio features of a speech segment and then recognizes the language spoken in this speech segment (e.g. Greek, English, etc.). In this study, the audio features are extracted either by classical audio features’ extraction algorithms (hand-crafted features e.g. MFCC or SDC), or through Deep Neural Networks. Accordingly, the recognition of the audio features is made either through Deep Neural Networks, or by using other conventional modeling methods such as GMM or SVM. In recent years, Deep Learning has emerged as a new field of Machine Learning. The techniques that have been developed through research in this area have already a big impact in signal and information processing applications, thus expanding the machine learning scopes. Deep learning can be defined as a category of machine learning techniques with many levels of non-linear information processing for features’ extraction and transformation, pattern analysis and classification, supervised or unsupervised. The Deep Neural Networks used in this master thesis are called Convolutional Neural Networks (CNN). CNNs are artificial neural feed-forward networks, inspired by the structure of organic fiber hulls. Through surveys carried out, it appears that CNNs give very good results in the field of robotic vision, but also speech processing.
Βιβλιογραφία: σ. 109-115
115 σ.