2009 (EN)
Υπολογιστικά μοντέλα εκτίμησης της ακουστότητας
Loudness estimate computational models

Misits, Militsa Dragomir (Μίσιτς, Μιλίτσα Ντ.)

Psychophysics is the branch of psychology concerned with the relations between physical stimuli and phenomena occurring in the mind. When modelling human psychophysics it is need to distinguish the external physical variables Φ from the internal psychophysical variables Ψ. Psychophysical modelling attempt to obtain a transformation from the external physical domain to the internal psychophysical domain. Sound is the result of pressure variations in an elastic medium, generated by a vibrating surface, or turbulent fluid flow. Sound propagates in the form of waves involving a succession of compressions and rarefactions in the elastic medium. When a sound wave propagates in air the oscillations in pressure are above and below the ambient atmospheric pressure. Some sound sources have single frequency components. Most sound sources produce a random waveform of pressure versus time. Sound intensity is a vector quantity determined as the product of sound pressure and the component of particle velocity in the direction of the intensity vector. It is a measure of the rate at which work is done on a conducting medium by an advancing sound wave and thus the rate of power transmission through a surface normal to the intensity vector.The auditory system can be divided into: the peripheral auditory system, the brainstem and midbrain structures, and the central stages.The peripheral auditory system has been divided into three parts: the outer ear, the middle ear, and the inner ear.Τhe peripheral stages include the cochlear analysis and transformations of sound into nervous activity in the auditory nerve. Sounds come into the outer ear canal and then vibrate the eardrum. The vibration propagates to the cochlea. One function of the Cochlea is spectral analysis.Another function is converting the mechanical vibration into neural pulse patterns along approximately 30000 neurons of the human auditory (VIIIth) nerve. The auditory nerve propagates the neural spikes to the auditory pathway.Τhe brainstem and midbrain structures performing the subsequent processing in the cochlear nucleus, superior olive, and up to the inferior colliculus, to extract elementary spectra-temporal and spatial features for various higher level tasks.Τhe central stages involve the thalamic and cortical centers where multiple spectral and temporal features from convergent binaural and monaural pathways combine to create higher level representations.The external physical variable, intensity of a sound, is quantified by direct measurement.The internal psychophysical variable that relates to intensity is the loudness. The dependence of loudness on frequency and on intensity of a sound, and changes in loudness with time is described.Different methods for calculating loudness: Steven's method for calculating loudness, Zwicker's method for calculating loudness of steady-state sounds and temporally variable sounds, Moore's method for calculating loudness of steady-state sounds and temporally variable sounds, are described and made their comparisons.According to Moore's method for calculating loudness of steady-state sounds and temporally variable sounds, computer program for calculating loudness of time-varying sound is described and evaluated in National Instruments LabVIEW graphical programming environment. The central stages in the computational model for measuring loudness of time variable sounds are:1. The Acquisition2. Outer and Middle-Ear Filtering, FIR Filter3. Initial Spectral AnalysisShort Time Fourier Transform (STFT) SpectrogramSpectral magnitudes over a specific frequency range4. Calculation of an Excitation Pattern from the Physical Spectrum5. Auditory Filters Analysi6. Excitation Pattern7. Specific Loudness8. Instantaneous Loudness9. Short-Term Loudness Impression10. Long-Term Loudness Impression The model uses as input the time waveform of a sound. Transmission of stimuli through the outer and middle ear is represented by a fixed band-pass filter. The cochlea is characterised as being a bank of bandpass filters. The bandwidth of each filter increases with increasing centre frequency. The sound is passed through a bank of rounded exponential filters. The filter slopes and bandwidths were calculated based on the findings of Glasberg and Moore [94]. The output of this filter bank represents the excitation pattern on the basilar membrane elicited by the input sound. The frequency scale is represented using the equivalent rectangular bandwidths (ERB) scale.In the next stage, a nonlinear compression is applied to the momentary excitation pattern to obtain the specific loudness elicited by the sound. This compression varies with the frequency and intensity of the input sound.Specific loudness is defined as the loudness elicited per ERB filter. The instantaneous loudness is defined as the summation of specific loudness of each critical band over 1 ms and is not consciously observable. The instantaneous loudness is then smoothed to obtain the short term loudness, with a relatively fast attack and slower decay time. The short term loudness is observable, for example, as would be perceivable for a 10 Hz amplitude modulated signal. The short term loudness is smoothed again, with larger time constants, to obtain the long-term loudness. The long term loudness corresponds to the overall loudness percept of the signal. Temporal characteristics are included calculating instantaneous, short and long term loudness at one instant in time. The procedure is repeated in successive time instants. The final result represents variations of short term loudness and long term loudness in time
Ψυχοφυσική είναι τμήμα της ψυχολογίας που αφορά τις σχέσεις μεταξύ του φυσικού ερεθίσματος και των φαινόμενων που συμβαίνουν στον εγκέφαλο, το όργανο το οποίο διεκπεραιώνει τις νοητικές λειτουργίες και τις συμπεριφορές . Όταν γίνετε η σχεδίαση ανθρώπινης ψυχοφυσικής χρειάζεται να γίνει η διάκριση της εξωτερικής φυσικής μεταβλητής Φ (ερέθισμα), από την εσωτερική ψυχοφυσική μεταβλητή Ψ (αίσθηση).Ψυχοφυσική σχεδίαση προσπαθεί να πετύχει μετασχηματισμό από το εξωτερικό φυσικό πεδίο στο εσωτερικό ψυχοφυσικό πεδίο.Ήχος είναι αποτέλεσμα μεταβολής πίεσης στο ελαστικό μέσο, η οποία δημιουργείται με την δονούμενη επιφάνεια, η στροβιλώδης ροή υγρού. Ήχος διαδίδεται με εναλλαγές πυκνωμάτων και αραιωμάτων στο ελαστικό μέσο. Όταν το ηχητικό κύμα διαδίδεται στην ατμόσφαιρα, η μεταβολή της πίεσης είναι άνω και κάτω της ατμοσφαιρικής πίεσης του περιβάλλοντος. Περισσότερες πηγές ήχου παράγουν τυχαία κυματομορφή πιέσεις στο χρόνο.Ο ρυθμός με τον οποίο μεταφέρεται η ηχητική ενέργεια αποτελεί την ακουστική ισχύ.Η ένταση Ι του ήχου είναι διανισματική ποσότητα καθορισμένη ως γινόμενο ηχητικής πίεσης και συνιστώσας ταχύτητας σωματιδίων με κατεύθυνση διανύσματος έντασης. Είναι μέτρο του ρυθμού του έργου επί του αγώγιμου μέσου που γίνεται από το ηχητικό κύμα. Η ένταση του ηχητικού κύματος ορίζεται η μέση ηχητική ισχύς που διέρχεται από μια μοναδιαία επιφάνεια. Το ακουστικό σύστημα μπορεί να διαιρεθεί σε: περιφερειακό ακουστικό σύστημα, εγκεφαλικό στέλεχος (brainstem) και δομές μέσου εγκέφαλου, και κεντρικές βαθμίδες.Το περιφερειακό ακουστικό σύστημα χωρίζεται σε τρία μέρη:εξωτερικό αυτί, μέσο αυτί, και εσωτερικό αυτί. Το εξωτερικό αυτί περιλαμβάνει το πτερύγιο που λειτουργεί σαν συλλέκτης των ηχητικών κυμάτων. Τα ηχητικά κύματα συλλέγονται στον ακουστικό πόρο και προκαλούν ταλάντωση της τυμπανικής μεμβράνης. Το μέσο αυτί είναι το μεταβατικό στάδιο μεταξύ του συλλέκτη και του επεξεργαστή των ηχητικών σημάτων. Η μεταφορά και ενίσχυση του σήματος γίνεται μέσω τριών μικρών οστών: της σφύρας, του άκμονα και του αναβολέα. Το εσωτερικό αυτί απαρτίζεται από τον κοχλία και τις τριχοειδείς απολήξεις του ακουστικού νεύρου. Η ταλάντωση της τυμπανικής μεμβράνης διαδίδεται στον κοχλία. Μια λειτουργία του κοχλία είναι η συχνοτική ανάλυση, φασματική ανάλυση. Η άλλη λειτουργία είναι μετατροπή μηχανικής ταλάντωσης, μετατροπή της ενέργειας ερεθίσματος σε ηλεκτρική δραστηριότητα στους αισθητικούς νευρώνες. Δομές εγκεφαλικό στέλεχος και μεσεγκέφαλος εκτελούν διαδοχική επεξεργασία σε κοχλιακό πυρήνα, πυρήνα άνω ελαίας (superior olive), μέχρι το κάτω διδύμιο, για την εξαγωγή στοιχειώδεις φασματικό-χρονικών και για τον χώρο χαρακτηριστικών για διάφορα ανώτερα επίπεδα εργασίας.Οι κεντρικές βαθμίδες περιλαμβάνουν το θάλαμο εγκεφάλου και τα κέντρα του φλοιού εγκεφάλου, όπου πολλαπλά φασματικά και χρονικά χαρακτηριστικά από συγκλίνουσες στερεοφωνικές και μονοφωνικές ακουστικές διαδρομές συνδυάζονται, για να δημιουργήσουν ανώτερου επιπέδου απεικονίσεις. Η εξωτερική φυσική μεταβλητή η ένταση Ι του ήχου είναι ποσοτικοποιημένη με άμεση μέτρηση. Η εσωτερική ψυχοφυσική μεταβλητή, η αίσθηση, η οποία αντιστοιχεί περισσότερο στην ένταση του ήχου είναι η ακουστότητα. Η ακουστότητα είναι εσωτερική, υποκειμενική εμπειρία για το πόσο δυνατός είναι ο ήχος. Η ακουστότητα είναι καθορισμένη ως “εκείνη η ιδιότητα της ακουστικής αίσθησης σε σχέση με την οποία οι ήχοι μπορεί να είναι διατεταγμένοι στην κλίμακα επεκτεινόμενη από χαμηλούς έως δυνατούς ” [42]. Η ακουστότητα είναι εξαρτημένη από τη φυσική σύνθεση του ήχου. Το ποιο σημαντικό μέγεθος Φ ψυχοακουστικής είναι η ηχητική πίεση ως συνάρτηση του χρόνου. Η ακουστότητα εξαρτάται από φασματικά και χρονικά στοιχεία. Η εξάρτηση της ακουστότητας από την συχνότητα και την ένταση του ήχου, και οι μεταβολές της ακουστότητας στο χρόνο, περιγράφονται στην παρούσα μελέτη.Υπολογισμός της ακουστότητας ήχων σταθερής κατάστασης (steady-state sounds), ή χρονικά αμετάβλητων ήχων, και χρονικά μεταβλητών ήχων (temporally variable sounds) περιγράφεται στην παρούσα μελέτη, βάση των μελετών των H. Fletcher, W. A. Munson, S. S. Stevens, E. Zwicker, and B. C. J. Moore. Πρόγραμμα υπολογιστή για το υπολογισμό της ακουστότητας χρονικά μεταβλητών ήχων περιγράφεται, όπως και η ανάπτυξη του υπολογισμού στο National Instruments LabVIEW graphical programming environment.Κεντρικές βαθμίδες υπολογιστικού μοντέλου για την μέτρηση της ακουστότητας χρονικά μεταβλητών ήχων είναι:1. Απόκτηση του χρονικά μεταβλητού ήχου (the acquisition).Τα δεδομένα είναι αποθηκευμένα στο wav αρχείο. Το όνομα του αρχείου είναι αιτούμενο από το πρόγραμμα.2. Στο πεδίο συχνοτήτων, ένα γραμμικό και χρονικά αμετάβλητο σύστημα χαρακτηρίζεται από μια συνάρτηση μεταφοράς (transfer function) H(f) η οποία εκφράζεται με την απόκριση πλάτους |H(f)| και φασική απόκριση γωνία της H(f):Η απόκριση πλάτους εκφράζεται σε decibels (dB) με χρήση του ορισμού:Η φασματική πυκνότητα του σήματος εισόδου τροποποιείται από την παρεμβολή του συστήματος |H(f)| που αποτελείται από το εξωτερικό και μέσο αυτί. Τα φάσματα πλάτους των σημάτων εισόδου |X(f)| και εξόδου |Y(f)| σχετίζονται μεταξύ τους με:Το σύστημα αυτό δρά σαν μια διάταξη επιλογής συχνοτήτων. Ανάλογα με την συναρτησιακή εξάρτηση H(f) από την f, μερικές συνιστώσες συχνότητας ενισχύονται ενώ άλλες συνιστώσες εξασθενούν. Αυτή την επιλεκτικότητα σε συχνότητα είναι φιλτράρισμα.Σχεδιασμός φίλτρου διέλευσης ζώνης συχνοτήτων: φίλτρο πεπερασμένης κρουστικής απόκρισης (FIR Filter).3. Αρχική φασματική ανάλυση (Initial Spectral Analysis) Ανάλυση Fourier βραχέως χρόνου: ορίζουμε το πλαίσιο (frame) x(n) μιας κυματομορφής pFIR(n) γύρο από το σημείο m ως το γινόμενο του σήματος της κυματομορφής pFIR(n) επί κάποιο σήμα-παράθυρο w(n) (παράθυρο Hanning) μετατοπισμένο στη γειτονία του σημείου m:Ο Μετασχηματισμός Fourier Βραχέως Χρόνου είναι συνάρτηση δύο μεταβλητών: του χρόνου (m – διακριτή μεταβλητή), και της κανονικοποιημένης συχνότητας (συνεχής μεταβλητή).Μετασχηματισμός Fourier Βραχέως Χρόνου (STFT) δίνει το μετασχηματισμό Fourier διακριτού χρόνου για ένα παράθυρο του αρχικού σήματος στη γειτονία του δείγματος m. Μεγάλες τιμές του μήκους του παραθύρου δίνουν καλή ανάλυση στη συχνότητα. Μικρές τιμές του μήκους του παραθύρου θα δώσουν χειρότερη ανάλυση στη συχνότητα. Σύμφωνα με την αρχή της Αβεβαιότητας (Uncertainty Principle), δεν μπορούμε να έχουμε ακριβή ανάλυση και στο χρόνο και στη συχνότητα.Χρησιμοποιώντας μικρό εύρος παραθύρου δίνεται έμφαση στην ανάλυση στο χρόνο. Χρησιμοποιώντας μεγαλύτερο εύρος παραθύρου δίνεται έμφαση στην ανάλυση στη συχνότητα.Δειγματοληψία στη συχνότητα γίνεται με χρήση του Ταχύ Μετασχηματισμού Fourier (FFT, Fast Fourier Transform) των N σημείων. Εάν το μήκος παράθυρου L είναι μικρότερο από το μέγεθος N του FFT, τότε θεωρούμε ότι οι τιμές του σήματος από L μέχρι N -1 είναι μηδενικές (zero padding). Χωρισμός των φασματικών μεγεθών στις συγκεκριμένες περιοχές συχνοτήτων, ανάλογα με το εύρος του παραθύρου.Short Time Fourier Transform (STFT) σπεκτρόγραμμα δίνει το πλάτος των φασματικών συνιστωσών συναρτήσει της συχνότητας, και του χρόνου. 4. Ανάλυση των ακουστικών φίλτρων. 5. Υπολογισμός του σχήματος διέγερσης (excitation pattern)6. Ειδική ακουστότητα (specific loudness)7. Στιγμιαία ακουστότητα – ακουστότητα για δεδομένη χρονική στιγμή (instantaneous loudness)8. Βραχύχρονη, σύντομη ακουστότητα (short-term loudness)9. Μακράς διαρκείας ακουστότητα, ακουστότητα που παρατηρείται για μεγάλο χρόνο (long-term loudness).
The model seems appropriate for use with audio signals, which are always time varying.

Postgraduate Thesis / Μεταπτυχιακή Εργασία

Μακράς διαρκείας ακουστότητα
Specific loudness
Short term loudness
Στιγμιαία ακουστότητα
Auditory filters
Ειδική ακουστότητα
Ακουστικό φίλτρο
Long term loudness
Time varying loudness
Βραχύχρονη ακουστότητα

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Πολυτεχνική Σχολή, Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

