Bandwidth extension for audio signals using deep learning

Το τεκμήριο παρέχεται από τον φορέα :
Δημοκρίτειο Πανεπιστήμιο Θράκης   

Αποθετήριο :
Αποθετήριο Δημοκρίτειου Πανεπιστημίου   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Επέκταση εύρους ζώνης ηχητικών σημάτων με βαθιά μάθηση
Bandwidth extension for audio signals using deep learning

Βασιλάκης, Ιωάννης
Vasilakis, Ioannis

Πρατικάκης, Ιωάννης
Pratikakis, Ioannis
Παπαμάρκος, Νικόλαος
Mitianoudis, Nikolaos
Μητιανούδης, Νικόλαος
Papamarkos, Nikos

masterThesis

2023-01-11T10:07:01Z
2022-06-17


Βιβλιογραφία: σ. 106-115
116 σ.
Το πρόβλημα της προσαύξησης φασματικής πληροφορίας (Bandwidth Extension) απασχόλησε την επιστημονική κοινότητα από τις αρχές της έλευσης της ψηφιακής περιόδου. Λόγω του χαμηλού ρυθμού αποστολής δεδομένων στα πρώιμα τηλεπικοινωνιακά συστήματα, κρίθηκε απαραίτητος ο περιορισμός του φασματικού περιεχομένου των σημάτων, και κυρίως της φωνής, όπου χρησιμοποιήθηκε μόνο το περιεχόμενο από 300 Hz έως 3400 Hz. Επόμενη ήταν η ανάγκη για ανακατασκευή του χαμένου περιεχομένου στον δέκτη μέσω αλγορίθμων προσαύξησης φασματικής πληροφορίας. Βασιζόμενοι στην συσχέτιση της χαμηλής και υψηλής φασματικά πληροφορίας, η πρώτη επιτυχής εφαρμογή έγινε με τον αλγόριθμο Spectral Band Replication, το υψηλό φασματικό περιεχόμενο προκύπτει από αντιγραφή του αντίστοιχου χαμηλού με ταυτόχρονο περιορισμό από την περιβάλλουσα του υψηλής ανάλυσης σήματος. Σε επόμενο χρόνο και λόγω του περιορισμένου αλλά ικανοποιητικού αποτελέσματος που προσέφερε ο Spectral Band Replication, οι επιστημονική κοινότητα στράφηκε σε παραμετρικές και μη παραμετρικές μεθόδους (Gaussian Mixture Models, Markov and Hidden Markov Models) και πρώιμους αλγορίθμους μηχανικής μάθησης, όπως το μοντέλο Perceptron πολλών στρωμάτων (Multi-Layer Perceptron). Κατά την διάρκεια του 2012, παρουσιάστηκε η εργασία των Krizhevsky, Sutskever και Hinton [4], όπου με την αλματώδη επιτυχία σε θέματα κατηγοριοποίησης εικόνων στο τότε μεγαλύτερο σύνολο δεδομένων εικόνων, το ImageNet, κατοχύρωσαν την υπεροχή των Νευρωνικών Δικτύων Βαθιάς Μάθησης (Deep Learning) και τα εγκαθίδρυσνα ως την μείζονα τεχνολογία επίλυσης πολύπλοκων προβλημάτων. Το 2017 παρουσιάσθηκε και η πρώτη σημαντική εργασία όπου χρησιμοποιήθηκε Βαθιά Μάθηση για το πρόβλημα της προσαύξησης φασματικής πληροφορίας. O Kuleshov [5] και οι υπόλοιποι ερευνητές, πρότειναν την χρήση ενός Αποκωδικοποιητή (Autoencoder), όπου είσοδο αποτελούσε ένα τεχνητά προσαυξημένο χαμηλής ανάλυσης σήμα στο πεδίο του χρόνου. Για την πρώιμη προσαύξηση χρησιμοποιήθηκε ο αλγόριθμος κυβικής παρεμβολής. Η εργασία αυτή αποτέλεσε και την βάση για όλες τις επόμενες εργασίες, οι οποίες χρησιμοποιήσαν παραλλαγές αυτής της μεθόδου. Εκτός από την χρήση σημάτων στο πεδίο του χρόνου, νευρωνικά δίκτυα που χρησιμοποιούν μετασχηματισμούς των προηγούμενων στο πεδίο της συχνότητας αποδείχτηκαν αρκετά πιο αποδοτικά, συναρτήσει των παραμέτρων όπου χρησιμοποιούνται. Είναι αρκετά σημαντικό να τονιστεί ότι τα παραπάνω δίκτυα εκτιμούν το πλάτος των φασματογραφημάτων αλλά όχι την φάση, όπου η τελευταία απλά αντιγράφεται από την φάση του χαμηλότερου φασματικού περιεχομένου. Τέλος, εργασίες οι οποίες χρησιμοποιούν την πληροφορία του σήματος στο πεδίο του χρόνου και το πεδίο της συχνότητας έχουν παρουσιαστεί, είτε ως παράλληλη εκπαίδευση ανεξάρτητων δικτύων για το κάθε πεδίο, είτε ενσωματώνοντας την πληροφορία της συχνότητας στην συνάρτηση κόστους. Η παρούσα διπλωματική εργασία βασίζεται στην ερευνητική εργασία των Lagrange και Gontier [1], οι οποίοι ήταν οι πρώτοι που ασχολήθηκαν με σήματα μουσικής έναντι σημάτων ομιλίας και πρότειναν την χρήση ενός πλήρως συνελικτικού δικτύου (Fully Convolutional Neural Network) για την εκτίμηση του πλάτους της υψηλής φασματικής πληροφορίας και αποτελεί μια συγκριτική ανάλυση του μοντέλου των Lagrange και Gontier με προτεινόμενες βελτιώσεις. Από πρώιμους ελέγχους, ο συγγραφέας προσδιόρισε την ικανότητα του παραπάνω δικτύου για εκτίμηση ήχων που ομοιάζουν με κρουστά αλλά αδυναμία για εκτίμηση του φάσματος μονοφωνικών, εναρμονικών (inharmonic) κομματιών. Τα τελευταία είναι παρόντα σε παραδείγματα κλασικής μουσικής, όπου πολλές φορές ένα όργανο είναι αρκετά πιο αντιληπτό από την συνοδεία της υπόλοιπης ορχήστρας, λόγω μεγάλης διαφοράς στην ένταση. Για την επίλυση του παραπάνω, χρησιμοποιήθηκε ένα δίκτυο Perceptron πολλών στρωμάτων ως ενσωματωμένο στρώμα εξόδου, με σκοπό την ενίσχυση της εναρμονικότητας σε περιοχές όπου δεν χρησιμοποιούνται κρουστά. Ως δεύτερη βελτίωση, προτάθηκε η χρήση Enhanced Deep Residual Networks (EDSR) [2] για την αντιμετώπιση του προβλήματος ως πρόβλημα υπερ-ανάλυσης (super-resolution), όπου ο συγγραφέας βασίστηκε στην υπόθεση υψηλής συσχέτισης μεταξύ υψηλής και χαμηλής φασματικής πληροφορίας. Τέλος, μετά την εργασία των Vaswani και υπολοίπων [3] όπου παρουσιάστηκε ο μηχανισμός προσοχής (Attention), κρίθηκε απαραίτητος ο έλεγχος τους σε συνάρτηση με το πρόβλημα της προσαύξησης φασματικής πληροφορίας. Η εργασία αποτελείται από πέντε κεφάλαια. Στο πρώτο, γίνεται παρουσίαση του θεωρητικού και πρακτικού υπολογισμού του Διακριτού Μετασχηματισμού Fourier (Discrete Fourier Transform) και της αντίστοιχης βελτιστοποιημένης εκδοχής του, του Ταχύ Μετασχηματισμού Fourier (Fast Fourier Transform). Στο δεύτερο κεφάλαιο γίνεται μια σύντομη συνοπτική ιστορική αναδρομή στις εξελίξεις του χώρου της Μηχανικής και Βαθιάς Μάθησης. Στο τρίτο κεφάλαιο παρουσιάζεται η ιστορική αναδρομή επιστημονικών εργασιών του προβλήματος προσαύξησης φασματικής πληροφορίας. Στο τέταρτο κεφάλαιο παρουσιάζονται οι προτεινόμενες αρχιτεκτονικές βαθιάς μάθησης και λεπτομέρειες για την διαδικασία εκπαίδευσής τους. Τέλος, στο πέμπτο κεφάλαιο παρουσιάζεται η συγκριτική ανάλυση των προτεινόμενων αρχιτεκτονικών και μελλοντικές προτάσεις.
Bandwidth Extension (BWE) is the problem of estimating missing fre- quency components in the frequency domain, or samples in the time domain, of a low-resolution signal and thus, estimating its high-resolution transformation. Due to the complexity and high dimensional nature of this problem, statistical algorithm for parametric and non-parametric estimation and typical statistical learning algorithms, such as Multi-Layer Perceptrons (MLP), were heavily emphasized from 1990-2010, when the advent and success of Deep Learning provided effective solutions. Architectures used the time-domain signal or its frequency transformation or a joint time-frequency representation as the input. Apart from the success of time-domain based architectures, frequency- domain architectures are lightweight and provide very good results for music BWE. In the present work, 6 different augmentations of a frequency domain based Fully Convolutional Neural Network [1] are compared for Music BWE and Speech BWE separately. The author proposed the use of an output MLP embedding layer, the use of a lightweight super-resolution module based on the hypothesis of lower and higher frequency component correlation, the use of Enhanced Deep Residual Network (EDSR) [2] and the use of Dot Product Attention [3] for time, frequency and time frequency attention. This comparative analysis illustrates the absence and therefore, the importance of an informative metric for the problem of frequency-domain based audio BWE, the robustness of the network proposed by Lagrange and Gontier [1], as most of the proposed architectures performed worse or marginally better with respect to their network. Last but not least, it is worth noting that qualitative evaluation proves to be more informative than estimating the performance of those networks with respect to metrics. The author believes that this problem is based on the high-dimensional nature of frequency-domain based BWE and the use of metrics that use unweighted mean values.


Deep learning
Προσαύξηση ηχητικής πληροφορίας
Ηχητική υπερ-ανάλυση
Βαθιά μάθηση
Audio bandwith extension
Signal processing--Digital techniques
Πλήρες συνελικτικά νευρωνικά δίκτυα
Fully Convolutional Neural Network
Audio Super Resolution

Αγγλική γλώσσα

duth
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρονικής και Τεχνολογίας Συστημάτων Πληροφορικής. Εργαστήριο Ηλεκτρικών Κυκλωμάτων, Επεξεργασίας Σήματος και Εικόνας


http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Attribution-NonCommercial-NoDerivs 3.0 United States
free




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.