Κατηγοριοποίηση στον Παγκόσμιο Ιστό και στο περιβάλλον WEKA

This item is provided by the institution :
University of the Aegena   

Repository :
Institutional Repository Hellanicus   

see the original item page
in the repository's web site and access all digital files if the item*



Κατηγοριοποίηση στον Παγκόσμιο Ιστό και στο περιβάλλον WEKA

Χαραλαμπόπουλος, Ιωάννης - Διονύσιος

Αναγνωστόπουλος, Ιωάννης

masterThesis

2011
2015-11-18T10:40:00Z


Η παρούσα διπλωματική είναι μία μελέτη, των υπαρχόντων αλγορίθμων ταξινόμησης και συσταδοποίησης εγγράφων κειμένου και αντικειμένων του παγκόσμιου ιστού. Στο πειραματικό κομμάτι έχουμε την υλοποίηση διαφόρων κλασικών αλγορίθμων ανάκτησης πληροφορίας στο περιβάλλον WEKA. Ο στόχος είναι η μελέτη αυτή να αποτελέσει μία εισαγωγή στο ερευνητικό πεδίο της ανάκτησης πληροφορίας (γενικότερα) για μελλοντικούς μελετητές. Στο §1 γίνετε μία εισαγωγή στον τομέα της ανάκτησης πληροφορίας, την κατηγοριοποίηση, την συσταδοποίηση καθώς και την νεώτερη θεώρηση του διαδικτυακού περιεχομένου. Ενώ στο §1.4 γίνετε μία μικρή αναφορά στο περιβάλλον WEKA. Στο §2 παρουσιάζουμε τους πιο γνωστούς αλγορίθμους κατηγοριοποίησης εγγράφων κειμένου. Από τον Μπέιες μέχρι τις μηχανές υποστήριξης. Οι περισσότεροι από αυτούς τους αλγορίθμους είναι «γεννημένοι» πριν το 1970. Στο επόμενο κεφάλαιο παρουσιάζουμε όλες τις γνωστές και ευρέως διαδεδομένες μεθόδους συσταδοποίησης. Οι τεχνικές αυτές χωρίζονται σε παραμετρικές ή μη και σε δύο διαφορετικά μοντέλα, ανασκευαστικά και παραγωγικά. Εκτενώς παρουσιάζονται το Μοντέλο Διανυσματικού Χώρου και η k-NN. Στο προτελευταίο κεφάλαιο αναλύουμε τις μεθόδους που εφαρμόζονται σε διαδικτυακό περιεχόμενο. Ξεκινώντας από την επανάσταση του PageRank μέχρι και στις πιο πρόσφατες μεθόδους που καταφέρνουν να βελτιστοποιήσουν έστω και κατά μικρό ποσοστό τις ήδη αποδοτικές μεθόδους. Στο §5 θεωρούμε ένα σύνολο δειγμάτων που θα χρησιμοποιηθεί για να δοκιμάσουμε διάφορες τεχνικές κατηγοριοποίησης και συσταδοποίησης στο περιβάλλον WEKA. Μετά από τις πρώτες δοκιμές θα αναθεωρήσουμε το μοντέλο μας για να βελτιστοποιήσουμε την εφαρμογή των διαφόρων τεχνικών. Ενώ κλείνοντας θα παρουσιάσουμε τα συμπεράσματα και ίσως κάποιες κατευθύνσεις που μπορούν να ακολουθηθούν σαν συνέχεια της έρευνας.

Algorithms
Machine learning
Web site development--Computer programs

Συσταδοποίηση
Classification
Machine learning
Clustering
Κατηγοριοποίηση
Weka
Μηχανές εκμάθησης

Πανεπιστήμιο Αιγαίου. Σχολή Θετικών Επιστημών. Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων. Τεχνολογίες και Διοίκηση Πληροφοριακών και Επικοινωνιακών Συστημάτων.




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)