Bandwidth extension for audio signals using deep learning

Bandwidth extension for audio signals using deep learning

URI: https://www.openarchives.gr/aggregator-openarchives/edm/repo_duth/000179-123456789_15358
RDF/XML JSON-LD

Το τεκμήριο παρέχεται από τον φορέα :
Δημοκρίτειο Πανεπιστήμιο Θράκης

Αποθετήριο :
Αποθετήριο Δημοκρίτειου Πανεπιστημίου

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου^*

Τίτλος

Επέκταση εύρους ζώνης ηχητικών σημάτων με βαθιά μάθηση

Bandwidth extension for audio signals using deep learning

Δημιουργός

Βασιλάκης, Ιωάννης

Vasilakis, Ioannis

Συντελεστής

Πρατικάκης, Ιωάννης

Pratikakis, Ioannis

Παπαμάρκος, Νικόλαος

Mitianoudis, Nikolaos

Μητιανούδης, Νικόλαος

Papamarkos, Nikos

Τύπος

masterThesis

Διπλωματική εργασία
Μεταπτυχιακή εργασία (EL)

Ημερομηνία

2023-01-11T10:07:01Z

2022-06-17

Χρονολογία

2022 (EL)

Περιγραφή

Βιβλιογραφία: σ. 106-115

116 σ.

Το πρόβλημα της προσαύξησης φασματικής πληροφορίας (Bandwidth Extension) απασχόλησε την επιστημονική κοινότητα από τις αρχές της έλευσης της ψηφιακής περιόδου. Λόγω του χαμηλού ρυθμού αποστολής δεδομένων στα πρώιμα τηλεπικοινωνιακά συστήματα, κρίθηκε απαραίτητος ο περιορισμός του φασματικού περιεχομένου των σημάτων, και κυρίως της φωνής, όπου χρησιμοποιήθηκε μόνο το περιεχόμενο από 300 Hz έως 3400 Hz. Επόμενη ήταν η ανάγκη για ανακατασκευή του χαμένου περιεχομένου στον δέκτη μέσω αλγορίθμων προσαύξησης φασματικής πληροφορίας. Βασιζόμενοι στην συσχέτιση της χαμηλής και υψηλής φασματικά πληροφορίας, η πρώτη επιτυχής εφαρμογή έγινε με τον αλγόριθμο Spectral Band Replication, το υψηλό φασματικό περιεχόμενο προκύπτει από αντιγραφή του αντίστοιχου χαμηλού με ταυτόχρονο περιορισμό από την περιβάλλουσα του υψηλής ανάλυσης σήματος. Σε επόμενο χρόνο και λόγω του περιορισμένου αλλά ικανοποιητικού αποτελέσματος που προσέφερε ο Spectral Band Replication, οι επιστημονική κοινότητα στράφηκε σε παραμετρικές και μη παραμετρικές μεθόδους (Gaussian Mixture Models, Markov and Hidden Markov Models) και πρώιμους αλγορίθμους μηχανικής μάθησης, όπως το μοντέλο Perceptron πολλών στρωμάτων (Multi-Layer Perceptron). Κατά την διάρκεια του 2012, παρουσιάστηκε η εργασία των Krizhevsky, Sutskever και Hinton [4], όπου με την αλματώδη επιτυχία σε θέματα κατηγοριοποίησης εικόνων στο τότε μεγαλύτερο σύνολο δεδομένων εικόνων, το ImageNet, κατοχύρωσαν την υπεροχή των Νευρωνικών Δικτύων Βαθιάς Μάθησης (Deep Learning) και τα εγκαθίδρυσνα ως την μείζονα τεχνολογία επίλυσης πολύπλοκων προβλημάτων. Το 2017 παρουσιάσθηκε και η πρώτη σημαντική εργασία όπου χρησιμοποιήθηκε Βαθιά Μάθηση για το πρόβλημα της προσαύξησης φασματικής πληροφορίας. O Kuleshov [5] και οι υπόλοιποι ερευνητές, πρότειναν την χρήση ενός Αποκωδικοποιητή (Autoencoder), όπου είσοδο αποτελούσε ένα τεχνητά προσαυξημένο χαμηλής ανάλυσης σήμα στο πεδίο του χρόνου. Για την πρώιμη προσαύξηση χρησιμοποιήθηκε ο αλγόριθμος κυβικής παρεμβολής. Η εργασία αυτή αποτέλεσε και την βάση για όλες τις επόμενες εργασίες, οι οποίες χρησιμοποιήσαν παραλλαγές αυτής της μεθόδου. Εκτός από την χρήση σημάτων στο πεδίο του χρόνου, νευρωνικά δίκτυα που χρησιμοποιούν μετασχηματισμούς των προηγούμενων στο πεδίο της συχνότητας αποδείχτηκαν αρκετά πιο αποδοτικά, συναρτήσει των παραμέτρων όπου χρησιμοποιούνται. Είναι αρκετά σημαντικό να τονιστεί ότι τα παραπάνω δίκτυα εκτιμούν το πλάτος των φασματογραφημάτων αλλά όχι την φάση, όπου η τελευταία απλά αντιγράφεται από την φάση του χαμηλότερου φασματικού περιεχομένου. Τέλος, εργασίες οι οποίες χρησιμοποιούν την πληροφορία του σήματος στο πεδίο του χρόνου και το πεδίο της συχνότητας έχουν παρουσιαστεί, είτε ως παράλληλη εκπαίδευση ανεξάρτητων δικτύων για το κάθε πεδίο, είτε ενσωματώνοντας την πληροφορία της συχνότητας στην συνάρτηση κόστους. Η παρούσα διπλωματική εργασία βασίζεται στην ερευνητική εργασία των Lagrange και Gontier [1], οι οποίοι ήταν οι πρώτοι που ασχολήθηκαν με σήματα μουσικής έναντι σημάτων ομιλίας και πρότειναν την χρήση ενός πλήρως συνελικτικού δικτύου (Fully Convolutional Neural Network) για την εκτίμηση του πλάτους της υψηλής φασματικής πληροφορίας και αποτελεί μια συγκριτική ανάλυση του μοντέλου των Lagrange και Gontier με προτεινόμενες βελτιώσεις. Από πρώιμους ελέγχους, ο συγγραφέας προσδιόρισε την ικανότητα του παραπάνω δικτύου για εκτίμηση ήχων που ομοιάζουν με κρουστά αλλά αδυναμία για εκτίμηση του φάσματος μονοφωνικών, εναρμονικών (inharmonic) κομματιών. Τα τελευταία είναι παρόντα σε παραδείγματα κλασικής μουσικής, όπου πολλές φορές ένα όργανο είναι αρκετά πιο αντιληπτό από την συνοδεία της υπόλοιπης ορχήστρας, λόγω μεγάλης διαφοράς στην ένταση. Για την επίλυση του παραπάνω, χρησιμοποιήθηκε ένα δίκτυο Perceptron πολλών στρωμάτων ως ενσωματωμένο στρώμα εξόδου, με σκοπό την ενίσχυση της εναρμονικότητας σε περιοχές όπου δεν χρησιμοποιούνται κρουστά. Ως δεύτερη βελτίωση, προτάθηκε η χρήση Enhanced Deep Residual Networks (EDSR) [2] για την αντιμετώπιση του προβλήματος ως πρόβλημα υπερ-ανάλυσης (super-resolution), όπου ο συγγραφέας βασίστηκε στην υπόθεση υψηλής συσχέτισης μεταξύ υψηλής και χαμηλής φασματικής πληροφορίας. Τέλος, μετά την εργασία των Vaswani και υπολοίπων [3] όπου παρουσιάστηκε ο μηχανισμός προσοχής (Attention), κρίθηκε απαραίτητος ο έλεγχος τους σε συνάρτηση με το πρόβλημα της προσαύξησης φασματικής πληροφορίας. Η εργασία αποτελείται από πέντε κεφάλαια. Στο πρώτο, γίνεται παρουσίαση του θεωρητικού και πρακτικού υπολογισμού του Διακριτού Μετασχηματισμού Fourier (Discrete Fourier Transform) και της αντίστοιχης βελτιστοποιημένης εκδοχής του, του Ταχύ Μετασχηματισμού Fourier (Fast Fourier Transform). Στο δεύτερο κεφάλαιο γίνεται μια σύντομη συνοπτική ιστορική αναδρομή στις εξελίξεις του χώρου της Μηχανικής και Βαθιάς Μάθησης. Στο τρίτο κεφάλαιο παρουσιάζεται η ιστορική αναδρομή επιστημονικών εργασιών του προβλήματος προσαύξησης φασματικής πληροφορίας. Στο τέταρτο κεφάλαιο παρουσιάζονται οι προτεινόμενες αρχιτεκτονικές βαθιάς μάθησης και λεπτομέρειες για την διαδικασία εκπαίδευσής τους. Τέλος, στο πέμπτο κεφάλαιο παρουσιάζεται η συγκριτική ανάλυση των προτεινόμενων αρχιτεκτονικών και μελλοντικές προτάσεις.

Bandwidth Extension (BWE) is the problem of estimating missing fre- quency components in the frequency domain, or samples in the time domain, of a low-resolution signal and thus, estimating its high-resolution transformation. Due to the complexity and high dimensional nature of this problem, statistical algorithm for parametric and non-parametric estimation and typical statistical learning algorithms, such as Multi-Layer Perceptrons (MLP), were heavily emphasized from 1990-2010, when the advent and success of Deep Learning provided effective solutions. Architectures used the time-domain signal or its frequency transformation or a joint time-frequency representation as the input. Apart from the success of time-domain based architectures, frequency- domain architectures are lightweight and provide very good results for music BWE. In the present work, 6 different augmentations of a frequency domain based Fully Convolutional Neural Network [1] are compared for Music BWE and Speech BWE separately. The author proposed the use of an output MLP embedding layer, the use of a lightweight super-resolution module based on the hypothesis of lower and higher frequency component correlation, the use of Enhanced Deep Residual Network (EDSR) [2] and the use of Dot Product Attention [3] for time, frequency and time frequency attention. This comparative analysis illustrates the absence and therefore, the importance of an informative metric for the problem of frequency-domain based audio BWE, the robustness of the network proposed by Lagrange and Gontier [1], as most of the proposed architectures performed worse or marginally better with respect to their network. Last but not least, it is worth noting that qualitative evaluation proves to be more informative than estimating the performance of those networks with respect to metrics. The author believes that this problem is based on the high-dimensional nature of frequency-domain based BWE and the use of metrics that use unweighted mean values.

Επιστημονικό πεδίο

Επιστήμες Μηχανικού και Τεχνολογία
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ (EL)

Θέμα

Deep learning

Προσαύξηση ηχητικής πληροφορίας

Ηχητική υπερ-ανάλυση

Βαθιά μάθηση

Audio bandwith extension

Signal processing--Digital techniques

Πλήρες συνελικτικά νευρωνικά δίκτυα

Fully Convolutional Neural Network

Audio Super Resolution

Γλώσσα

Αγγλική γλώσσα

Εκδότης

duth

Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρονικής και Τεχνολογίας Συστημάτων Πληροφορικής. Εργαστήριο Ηλεκτρικών Κυκλωμάτων, Επεξεργασίας Σήματος και Εικόνας

Σχολή/Τμήμα/Ινστιτούτο

Δημοκρίτειο Πανεπιστήμιο Θράκης ▶ Πολυτεχνική Σχολή ▶ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ▶ Τομέας Ηλεκτρονικής και Τεχνολογίας Συστημάτων Πληροφορικής
Εργαστήριο Ηλεκτρικών Κυκλωμάτων, Επεξεργασίας Σήματος και Εικόνας

Δικαιώματα

http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Attribution-NonCommercial-NoDerivs 3.0 United States

free

Πάροχος

Δημοκρίτειο Πανεπιστήμιο Θράκης

Αποθετήριο / συλλογή

Αποθετήριο Δημοκρίτειου Πανεπιστημίου

Επιμέρους συλλογή

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΜΕΤΑΠΤΥΧΙΑΚΕΣ ΕΡΓΑΣΙΕΣ ΕΙΔΙΚΕΥΣΗΣ

Π.Μ.Σ. ΠΡΟΗΓΜΕΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΗΛΕΚΤΡΟΛΟΓΟΥ ΜΗΧΑΝΙΚΟΥ ΚΑΙ ΜΗΧΑΝΙΚΟΥ ΥΠΟΛΟΓΙΣΤΩΝ

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ

ΓΚΡΙΖΑ ΒΙΒΛΙΟΓΡΑΦΙΑ

*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.

Bandwidth extension for audio signals using deep learning

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.