Ευφϋείς τεχνικές εξόρυξης δεδομένων για χρήσεις του διαδικτύου

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Ευφϋείς τεχνικές εξόρυξης δεδομένων για χρήσεις του διαδικτύου (EL)

Κουτσούκος, Δημήτριος (EL)
Koutsoukos, Dimitrios (EN)

ntua (EL)
Σταφυλοπάτης, Ανδρέας-Γεώργιος (EL)
Κόλλιας, Στέφανος (EL)
Στάμου, Γεώργιος (EL)

bachelorThesis

2016-06-10
2016-06-10T11:11:27Z
2016-03-22


Ο Παγκόσμιος Ιστός έχει πολύ μεγάλη ανάπτυξη στις μέρες μας. Εκατομμύρια σελίδες δέχονται επίσκεψη καθημερινά από δισεκατομμύρια χρήστες. Οι προσβάσεις τους καταγράφονται στα αρχεία καταγραφής των εξυπηρετητών. Η εξόρυξη χρήσεων του διαδικτύου εφαρμόζει τεχνικές εξόρυξης δεδομένων για να εξαγάγει την συμπεριφορά των χρηστών και να ανακαλύψει χρήσιμα μοτίβα πρόσβασης στο διαδίκτυο. Η ανακάλυψη αυτών των μοτίβων μπορεί να είναι χρήσιμη με μία πληθώρα τρόπων, όπως για παράδειγμα την εξατομίκευση μιας ιστοσελίδας, την προανάκληση συνδέσμων και τη βελτίωση της επίδοσης των εξυπηρετητών. Όμως, για την ανακάλυψη μοτίβων τα αρχεία καταγραφής πρέπει να υποστούν προεπεξεργασία προκειμένου να αφαιρεθεί ο “θόρυβος”. Σε αυτή τη διπλωματική εργασία, εξερευνάται η φάση της προεπεξεργασίας των δεδομένων και προτείνεται ένας νέος αλγόριθμος για την αναγνώριση της συνεδρίας χρήστη, που χρησιμοποιεί την ασαφή συσταδοποίηση c-κέντρων. Έπειτα, γίνεται μια έρευνα στους τρόπους που μπορούν να εξαχθούν μοτίβα και εφαρμόζεται η εξόρυξη κανόνων συσχέτισης σε πραγματικά αρχεία καταγραφής για την εξαγωγή ουσιωδών κανόνων προκειμένου να προβλεφθεί το επόμενο αίτημα ενός χρήστη από τα προηγούμενά του. (EL)
World Wide Web has an enormous growth during these days. Millions of pages are added daily and billions of users access them. Their accesses are recorded in web server logs. Web Usage Mining applies data mining techniques in server logs in order to extract the behaviour of users and dis- cover web access paterns. Discovering these paterns can be useful in a number of ways such as personalizing a website, prefetching links and improving the web server performance. However, for patern discovery the web logs have to be preprocessed in order to remove “noise”. In this diploma thesis, the preprocessing phase is being explored and a new algorithm for session identification us- ing Fuzzy C-Means Clustering is being proposed. Following, a survey on the techniques of patern discovery is being done and association rule mining is being applied on real web logs in order to extract meaningful rules and to “guess” a user’s next request based on his previous ones. (EN)


Εξόρυξη κανόνων συσχέτισης (EL)
Εξόρυξη χρήσεων του διαδικτύου (EL)
Αναγνώριση συνεδρίας χρήστη (EL)
Association rule mining (EN)
Web usage mining (EN)
Session identification (EN)

Ελληνική γλώσσα

Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής (EL)

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
http://creativecommons.org/licenses/by-nc-nd/3.0/gr/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.