Machine learning methods for automated text classification

see the original item page
in the repository's web site and access all digital files if the item*

PhD thesis (EN)

2009 (EN)
Μέθοδοι μηχανικής μάθησης για αυτόματη ταξινόμηση κειμένων
Machine learning methods for automated text classification

Κατάκης, Ιωάννης Γ.

Applications of machine learning methods to text data present great commercial and research interest due to the high availability of information in unstructured text format. The utilization of machine learning enables the analysis and automated management of large amounts of text. The contribution of this thesis regards three challenging text classification problems: a) text stream classification, b) multilabel text classification and c) text classification in the world wide web. Concerning text stream classification, the problem of the appearance of new predictive features (words) over time is discussed. A computationally efficient approach is presented that combines an incremental feature selection method with a learning algorithm that can operate in a dynamic feature space. The proposed method is incorporated into a personalized news reader. Additionally, the problem of recurring contexts is confronted by exploiting stream clustering in order to dynamically build and update an ensemble of incremental classifiers. To achieve this, a transformation function that maps batches of examples into a new conceptual representation model is proposed. The clustering algorithm is then applied in order to group batches of examples into concepts and identify recurring contexts. The ensemble is produced by creating and maintaining an incremental classifier for every concept discovered in the data stream. Furthermore, two methods are proposed for multilabel text classification that focus on the problem of large number of labels. The first one constructs a hierarchy of multilabel classifiers, each one dealing with a much smaller set of labels and a more balanced example distribution. The second one proposes breaking the initial set of labels into a number of small random subsets, and employing a multilabel classifier for each one. The set of labels can be either disjoint or overlapping, depending on which of two strategies is used to construct them. Empirical evidence indicates that both approaches manage to improve substantially over the base multilabel classifier, especially in domains with large numbers of labels. Additionally the overlapping approach outperforms the disjoint one and exhibits competitive performance against other highperforming multilabel learning methods. Finally, two applications of text classification for the world wide web were studied. In the first one a multilabel classification algorithm is utilized in order to build an automated tag recommender for web bookmarks and bibliographic references. The second one tackles the problem of automated classification of semantic web services according to their application domain. The method represents each web service as a feature vector based on the text and the semantic annotations of the web service description. A number of different representations is proposed. The classification is achieved by applying machine learning algorithms to these representations. An increase in predictive accuracy is obtained by exploiting classifier combination
Οι εφαρμογές μεθόδων μηχανικής μάθησης σε δεδομένα κειμένου παρουσιάζουν ιδαίτερο ερευνητικό και εμπορικό ενδιαφέρον εξαιτίας της μεγάλης διαθεσιμότητας πληροφορίας σε μορφή κειμένου. Με τη χρήση της μηχανικής μάθησης είναι εφικτή η ανάλυση μεγάλου αριθμού κειμένων και η αυτόματη διαχείρισή τους. Σημαντικό ενδιαφέρον συγκεντρώνει η διεργασία της ταξινόμησης κειμένων την οποία πραγματεύεται και η παρούσα διατριβή. Συγκεκριμένα, αντιμετωπίζονται τρία σημαντικά προβλήματα της ταξινόμησης κειμένων α) η ταξινόμηση ροών κειμένων, β) η ταξινόμηση κειμένων πολλαπλών ετικετών και γ) η ταξινόμηση κειμένων του παγκόσμιου ιστού. Αρχικά, η διατριβή επικεντρώνεται σε ένα πρόβλημα της ταξινόμησης ροών κειμένων, την εννοιολογική απόκλιση και ειδικότερα στην εμφάνιση νέων χαρακτηριστικών με το πέρασμα του χρόνου. Παρουσιάζεται ένα πλαίσιο μάθησης το οποίο συνδυάζει μία επαυξητική μέθοδο επιλογής χαρακτηριστικών με έναν ταξινομητή που μπορεί να λειτουργήσει σε δυναμικούς χώρους χαρακτηριστικών με στόχο την αντιμετώπιση αυτού του προβλήματος. Το προτεινόμενο πλαίσο εφαρμόζεται σε ένα προσαρμοστικό σύστημα ανάγνωσης ειδήσεων. Επίσης, προτείνεται μία μέθοδος ομάδας ταξινομητών κατά την οποία χρησιμοποιείται ένα νέο μοντέλο αναπαράστασης κατάλληλο για προβλήματα ταξινόμησης ροών δεδομένων που εμπεριέχουν επανεμφανιζόμενες έννοιες. Συγκεκριμενένα, η ροή διαχωρίζεται σε δέσμες δεδομένων οι οποίες μετασχηματίζοτναι σε διανύσματα που περιγράφουν τις έννοιες που εμπεριέχονται σε αυτά. Στην προκύπτουσα ροή των διανυσμάτων αυτών εφαρμόζεται ένας αλγόριθμος ομαδοποίησης ροών με στόχο την οργάνωσή τους σε ομάδες όπου επικρατούν οι ίδιες ή παρόμοιες έννοιες. Απώτερος σκοπός είναι η διατήρηση ενός ταξινομητή για κάθε έννοια ροής. Επιπλέον, προτείνονται δύο μέθοδοι για το πρόβλημα της ταξινόμησης πολλαπλών ετικετών με ιδιαίτερη έμφαση σε προβλήματα με μεγάλο αριθμό ετικετών. Η πρώτη, αντιμετωπίζει το πρόβλημα οργανώνοντας τις ετικέτες σε μία ιεραρχία με κύριο πλεονέκτημα τους μικρούς χρόνους ταξινόμησης αλλά και την ποιότητα πρόβλεψης. Για την οργάνωση των ετικετών στην ιεραρχία προτάθηκε ένας νέος αλγόριθμος ισορροπημένης ομαδοποίησης. Στη δεύτερη μέθοδο, διασπάται τυχαία το αρχικό σύνολο ετικετών σε υποσύνολα. Σε κάθε ένα από αυτά εφαρμόζεται ένας ξεχωριστός ταξινομητής πολλαπλών ετικετών. Τέλος, παρουσιάζονται δύο μέθοδοι ταξινόμησης κειμένων στον παγκόσμιο ιστό. Η πρώτη χρησιμοποιεί έναν ταξινομητή πολλαπλών ετικετών για τη σύσταση λέξεων επισήμανσης σε σύστημα διαμοιρασμού βιβλιογραφικών αναφορών και σελιδοδεικτών ιστού. Προτείνονται μέθοδοι για την αναπαράσταση των περιγραφών των υπηρεσιών ως διανύσματα χαρακτηριστικών στα οποία εφαρμόζονται αλγόριθμοι μηχανικής μάθησης. Παρουσιάζονται επίσης δύο μέθοδοι συνδυασμού αυτών των αναπαραστάσεων

PhD Thesis / Διδακτορική Διατριβή

Text mining
Εξόρυξη κειμένων
Multi-label classification
Τεχνητή νοημοσύνη
Μηχανική μάθηση
Machine learning
Ταξινόμηση κειμένων
Data stream classification
Ταξινόμηση πολλαπλών ετικετών
Artificial intelligence
Ταξινόνηση ροών δεομένων
Text classification

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)



Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license ( Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license ( You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)