Τα τελευταία χρόνια, η Αυτόματη Μεταγραφή Μουσικής, η διαδικασία δηλαδή
μετατροπής ηχογραφήσεων σε συμβολικές αναπαραστάσεις χωρίς ανθρώπινη
παρέμβαση, έχει βιώσει σημαντικές προόδους και έχει εφαρμοστεί σε διάφορους τομείς
της μουσικής. Πολλές υπάρχουσες προσεγγίσεις χρησιμοποιούν Βαθιά Νευρωνικά
Δίκτυα και βασίζονται στην εκμάθηση των χαρακτηριστικών εισόδου απευθείας από
αναπαραστάσεις όπως τα φασματογράμματα λογαριθμικής κλίμακας Mel. Αυτό οδηγεί
σε προκλήσεις, όπως έναν υψηλό αριθμό εκπαιδεύσιμων παραμέτρων, περιορισμένη
προσαρμοστικότητα και αργή σύγκλιση. Σε αυτήν τη διατριβή, αντιμετωπίζουμε αυτές τις
προκλήσεις προτείνοντας μια νέα μέθοδο για τη βελτίωση των συστημάτων μεταγραφής
πιάνου μέσω της ενσωμάτωσης εκπαιδεύσιμων φίλτρων για την εξαγωγή
χαρακτηριστικών. Εμπνευσμένοι από το SincNet, μια αρχιτεκτονική με Συνελικτικά
Νευρωνικά Δίκτυα που υλοποιεί παραμετρικά φίλτρα βασισμένα σε sinc συναρτήσεις,
στοχεύουμε στην βελτίωση της ακρίβειας και της αποδοτικότητας ενός υπάρχοντος,
υψηλής ανάλυσης, συστήματος μεταγραφής πιάνου. Το προτεινόμενο πλαίσιο
επιτυγχάνει ένα Μέσο Ποσοστό Ακρίβειας 89%, το οποίο είναι συγκρίσιμο αλλά
χαμηλότερο από αυτό της πρωτότυπης μεθόδου. Ωστόσο, συγκριτικά με την πρωτότυπη
μέθοδο, αποδίδει καλύτερα στην ακρίβεια ανίχνευσης των ενάρξεων και απολήξεων των
μουσικών νοτών. Η υλοποίηση της προτεινόμενης μας μεθόδου είναι διαθέσιμη στη
διεύθυνση https://github.com/marikaitiprim/MusicTranscription-BScThesis.
(EL)
In recent years, Automatic Music Transcription, the process of converting audio
recordings into symbolic representations without the human intervention, has witnessed
significant advancements and has been applied across various domains in the music
field. Many existing approaches utilize Deep Neural Networks and rely on learning their
input features directly from representations like log-mel spectrograms. This leads to
challenges such as a high number of trainable parameters, limited adaptability and slow
convergence. In this thesis, we tackle these challenges by proposing a new method to
enhance piano transcription systems through the incorporation of trainable filterbanks for
feature extraction. Drawing inspiration from SincNet, a Convolutional Neural Network
architecture that implements parameterized sinc-based filterbanks, we aim to improve
the accuracy and efficiency of an existing high-resolution piano transcription system. Our
proposed framework achieves an Average Precision Score of 89%, which is comparable
to but lower than that of the original method. However, it outperforms the original method
in terms of the accuracy of onset and offset detections. The implementation of our
proposed method is available at
https://github.com/marikaitiprim/MusicTranscription-BScThesis.
(EN)