A Speech/Music Discriminator based on RMS and zero-crossings

A Speech/Music Discriminator based on RMS and zero-crossings

URI: https://www.openarchives.gr/aggregator-openarchives/edm/elocus/000018-dlib_4_e_5_metadata-dlib-2000panagiotakis.tkl
RDF/XML JSON-LD

This item is provided by the institution :
University of Crete

Repository :
E-Locus Institutional Repository

see the original item page
in the repository's web site and access all digital files if the item^*

Title

Τμηματοποίηση ήχου και κατηγοριοποίηση σε μουσική και ομιλία

A Speech/Music Discriminator based on RMS and zero-crossings

Creator

Παναγιωτάκης, Κώστας

Contributor

Τζιρίτας, Γιώργος

Type

text

Τύπος Εργασίας--Τεχνικές αναφορές

Technical report (EN)

Date

2000-11-24

Year

2000 (EN)

Description

Τα τελευταία χρόνια γίνεται μεγάλη προσπάθεια να εξαχθεί πληροφορία από οπτικοακουστικά μέσα, ώστε να είναι δυνατή η περιγραφή του περιεχομένου των. Μ' αυτό τον τρόπο μπορούν να καταχωρηθούν σε βάσεις δεδομένων και να ανακαλούνται αυτόματα με βάση το περιεχόμενό των. Στην παρούσα εργασία αντιμετωπίζεται ο χαρακτηρισμός ενός ηχητικού σήματος που είτε αποτελεί μέρος ενός οπτικοακουστικού προγράμματος, είτε υφίσταται αυτόνομα για παράδειγμα καταγραμμένο σ' ένα ακουστικό ψηφιακό δίσκο. Σκοπός μας ήταν να αναπτυχθεί ένα σύστημα πρώτα τμηματοποίησης του ηχητικού σήματος, και έπειτα κατηγοριοποίησης σε δύο κύριες κατηγορίες: ομιλία και μουσική. Μεταξύ των απαιτήσεων συμπεριλαμβάνεται η ταχύτητα της επεξεργασίας και η απόκριση του συστήματος σε πραγματικό χρόνο. Λόγω του περιορισμού σε δύο μόνο κλάσεις τα χαρακτηριστικά που εξάγονται περιορίζονται σημαντικά και επιπλέον δεν απαιτούν πολύπλοκους υπολογισμούς. Ο πειραματικός έλεγχος έδειξε ότι οι επιδόσεις είναι εξαιρετικές, χωρίς να θυσιασθεί η απόδοση του συστήματος. Η τμηματοποίηση βασίζεται στην κατανομή του πλάτους του σήματος. ενώ στην ταξινόμηση έγινε επιπλέον χρήση ενός χαρακτηριστικού που σχετίζεται με την συχνότητα του σήματος. Ο ταξινομητής μπορεί να χρησιμοποιηθεί είτε σε συνδυασμό με την τμηματοποίηση, οπότε επιβεβαιώνει ή διαψεύδει μία αλλαγή τύπου μουσική/ομιλία ή ομιλία/μουσική, είτε αυτόνομα, σε δοσμένα τμήματα ήχου. Τα βασικά χαρακτηριστικά υπολογίζονται σε διαστήματα 20 msec, με αποτέλεσμα τα όρια των τμημάτων να προσδιορίζονται με ακρίβεια 20 msec. Η ελάχιστη διάρκεια των τμημάτων τίθεται στο ένα δευτερόλεπτο. Οι αλγόριθμοι τμηματοποίησης και κατηγοριοποίησης δοκιμάσθηκαν σε μία μεγάλη βάση από δεδομένα, με ποσοστά επιτυχούς τμηματοποίησης που ανέρχονται σε 97% και επιτυχούς ταξινόμησης κοντά στο 95%. (EL)

Over the last years major efforts have been made to develop methods for extracting information from audio-visual media, in order that they may be stored and retrieved in databases automatically, based on their content. In this work we deal with the characterization of an audio signal, which may be part of a larger audiovisual system or may be autonomous, as for example in the case of an audio recording stored digitally on disk. Our goal was to first develop a system for segmentation of the audio signal, and then classification into one of two main categories: speech or music. Among the system's requirements are its processing speed and its ability to function in a real time environment. Because of the restriction to two classes, the characteristics that are extracted are considerably reduced and moreover the required computations are straightforward. Experimental results show that efficiency is exceptionally good, without sacrificing performance. Segmentation is based on mean signal amplitude distribution, whereas classification utilizes an additional characteristic related to the frequency. The classification algorithm may be used either in conjunction with the segmentation algorithm, in which case it verifies or refutes a music-speech or speech-music change, or autonomously, with given audio segments. The basic characteristics are computed in 20 msec intervals, resulting in the segments' limits being specified within an accuracy of 20 msec. The smallest segment length is one second. The segmentation and classification algorithms were benchmarked on a large data set, with correct segmentation about 97% of the time and correct classification about 95%. (EN)

Scientific field

Computer and Information Sciences (EN)

Language

Greek

School / Department / Institute

Univerisity of Crete ▶ School of Sciences & Engineering
Computer Science Department

Provider

University of Crete

Repository / collection

E-Locus Institutional Repository

Subcollections

Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Τεχνικές αναφορές

Elocus

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)

A Speech/Music Discriminator based on RMS and zero-crossings

A Speech/Music Discriminator based on RMS and zero-crossings

A Speech/Music Discriminator based on RMS and zero-crossings

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.