Γλωσσική τεχνολογία στατιστικά μοντέλα για γλώσσα, ομιλία και εικόνα

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
sharePhD thesis (EN)

2012 (EN)
Language technology - statistical models for language, speech and images
Γλωσσική τεχνολογία στατιστικά μοντέλα για γλώσσα, ομιλία και εικόνα

Μπάσιου, Νικολέττα

The present thesis studies the statistical modeling of information inherent in text, speech, and images in combination with clustering based on various similarity criteria, so that multimedia documents are efficiently organized and handled even in a constantly changing environment. In more detail, the research lies in two main fields: language modeling and clustering. In the field of language modeling, the classic bigram model, the long distance bigram models, with and without interpolation, and the trigger-pairs together with smoothing were studied for word clustering in groups of conceptual synonyms. For this purpose, the language models were incorporated in three different clustering algorithms. The clustering results were evaluated with relative and external validity indices. In the special case of estimating the external indices where a ground truth is needed this was extracted systematically for the first time by means of Wordnet. The language models were also studied in image processing by proposing a new multi-channel color histogram equalization method that entails the smoothed bigram model. The new method was additionally extended with a non-linear transformation in order to deal with the potential problem of out of gamut colors. In the research field of clustering, the research was also extended in speech by proposing a new speaker diarization method that exploits the eigengap criterion for estimating the number of speakers and the cluster ensembles, which are produced by various clustering algorithms. Moreover, the problem of outliers (that is, singleton clusters) was studied by presenting two techniques for dealing with them. Finally, the updating of the Probabilistic Latent Semantic Analysis (PLSA) model was studied that was estimated from an initial document collection, when new documents are added in the initial document collection. Two new updating methods were proposed for updating the parameters of the statistical asymmetric and symmetric aspect model. The first method (Recursive PLSA) incorporates documents that are added one by one in an existing document collection. The second method (extended RPLSA) consists an extension of the first method, since it adds new documents, which may contain words from an open vocabulary, in batches. In addition, the initialization of the conditional probabilities for the incoming documents and of the initial PLSA model parameter was studied. The proposed updating methods were proved superior to corresponding updating methods with respect to correctly estimating the PLSA model parameters, to their speed and their effective application in document clustering.
Αντικείμενο της παρούσας διατριβής αποτελεί η στατιστική μοντελοποίηση της πληροφορίας που εμπεριέχεται σε κείμενα, ομιλία και εικόνες σε συνδυασμό με την ομαδοποίηση της με βάση διάφορα κριτήρια ομοιότητας με σκοπό την αποτελεσματικότερη οργάνωση και διαχείριση της ακόμα και σε ένα μεταβαλλόμενο χρονικά περιβάλλον. Αναλυτικότερα, η έρευνα κινήθηκε σε δύο βασικούς άξονες: τη γλωσσική μοντελοποίηση και την ομαδοποίηση. Στα πλαίσια της γλωσσικής μοντελοποίησης μελετήθηκαν το κλασικό μοντέλο δυάδων, τα μοντέλα δυάδων σε μεγάλη απόσταση, με και χωρίς παρεμβολή, και τα ζεύγη εναύσεως σε συνδυασμό με εξομάλυνση στα πλαίσια την ομαδοποίησης λέξεων σε εννοιολογικές ομάδες συνωνύμων. Για το σκοπό αυτό τα μοντέλα αυτά ενσωματώθηκαν σε τρεις διαφορετικούς αλγορίθμους ομδοποίησης, των οποίων τα αποτελέσματα αποτιμήθηκαν με σχετικούς και αντικειμενικούς δείκτες εγκυρότητας των ομαδοποιήσεων. Ειδικότερα, για την εκτίμηση των αντικειμενικών δεικτών όπου απαιτείται μια βάσιμη αλήθεια αυτή κατασκευάστηκε για πρώτη φορά με συστηματικό τρόπο αξιοποιώντας το Wordnet. Τα γλωσσικά μοντέλα μελετήθηκαν και στα πλαίσια της επεξεργασίας εικόνας προτείνοντας μια νέα πολυ-καναλική μέθοδο ισοστάθμισης ιστογράμματος έγχρωμων εικόνων η οποία ενσωματώνει το κλασικό μοντέλο δυάδων με εξομάλυνση. Η νέα μέθοδος επεκτάθηκε και με έναν μη-γραμμικό μετασχηματισμό για την αντιμετώπιση του προβλήματος εμφάνισης χρωμάτων εκτός γκάμας. Στην ερευνητική περιοχή της ομαδοποίησης, η έρευνα επεκτάθηκε και στα αρχεία ομιλίας προτείνοντας μια νέα μέθοδο δεικτοδότησης ομιλητών η οποία αξιοποιεί το κριτήριο του ιδιοκενού για την εκτίμηση του αριθμού των ομιλητών και τα σύνολα ομάδων που προέρχονται από διαφορετικούς αλγορίθμους ομαδοποίησης. Παράλληλα, διερευνήθηκε το πρόβλημα των ακραίων παρατηρήσεων, δηλαδή των μοναδιαίων ομάδων, αναπτύσσοντας δύο τεχνικές για τη διαχείριση τους. Τέλος, διερευνήθηκε η ανανέωση των παραμέτρων του μοντέλου Πιθανοκρατικής Ανάλυσης Λανθάνουσας Σημασιολογίας, το οποίο έχει εκτιμηθεί από μια αρχική συλλογή κειμένων, όταν νέα κείμενα εισέρχονται στην αρχική συλλογή κειμένων. Προτάθηκαν δύο νέες μέθοδοι ανανέωσης των παραμέτρων του στατιστικού ασύμμετρου και συμμετρικού μοντέλου απόψεων. Η πρώτη μέθοδος (Αναδρομική Πιθανοκρατική Ανάλυση Λανθάνουσας Σημασιολογίας) ενσωματώνει κείμενα τα οποία προσαρτώνται ένα-ένα σε μια υπάρχουσα συλλογή κειμένων. Η δεύτερη μέθοδος (διευρυμένη Αναδρομική Πιθανοκρατική Ανάλυση Λανθάνουσας Σημασιολογίας), αποτελεί επέκταση της πρώτης μεθόδου, καθώς μπορεί να διαχειρίζεται την εισαγωγή νέων κειμένων με μαζικό τρόπο τα οποία επιπλέον μπορεί να περιέχουν και λέξεις από ένα ανοιχτό λεξιλόγιο. Παράλληλα, μελετήθηκε η αρχικοποίηση των υπό συνθήκη πιθανοτήτων για τα νεοεισερχόμενα κείμενα και των αρχικών παραμέτρων του μοντέλου. Οι προτεινόμενες μέθοδοι αποδείχτηκαν ανώτερες σε σχέση με αντίστοιχες μεθόδους ως προς την ακρίβεια μοντελοποίησης των παραμέτρων, την ταχύτητα τους και την αποτελεσματική εφαρμογή τους στην ομαδοποίηση κειμένων.

Ισοστάθμιση ισογράμματος
Δεικτοδότηση ομιλητών
Clustering
Speaker diarization
Ομαδοποίηση
Γλωσσική μοντελοποίηση
Wordnet
Language modeling
Histogram equalization

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Greek

2012


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ)
Aristotle University Of Thessaloniki (AUTH)*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)