Αυτόματη εξαγωγή και διαχείριση περιεχομένου από ειδησεογραφικά site

 
This item is provided by the institution :
Harokopio University
Repository :
Library & Information Center ESTIA
see the original item page
in the repository's web site and access all digital files if the item*
share




2014 (EN)
Αυτόματη εξαγωγή και διαχείριση περιεχομένου από ειδησεογραφικά site

Χαράτσεβ, Φίλιππος

Η πληθώρα ειδησεογραφικών πηγών και η ανάγκη της αγοράς για ανάλυση ειδήσεων σε μεγάλη κλίμακα, έχει καταστήσει αναγκαία την ύπαρξη μηχανισμών που θα συγκεντρώνουν πληροφορία από ειδησεογραφικές πηγές ελαχιστοποιώντας την ανθρώπινη παρέμβαση. Ταυτόχρονα καθιστά πλέον επιτακτική την ολοκλήρωση επιμέρους εργαλείων ανάλυσης και επεξεργασίας κειμένων σε μια ενιαία πλατφόρμα που θα στοχεύει στον τελικό χρήστη αποκρύβοντας τις επιμέρους λεπτομέρειες. Στόχος είναι να σχεδιάσει και να υλοποιήσει έναν μηχανισμό ο οποίος θα υποστηρίζει αλγορίθμους που θα εντοπίζουν περιεχόμενο ενδιαφέροντος σε ειδησεογραφικά site ,αλλά και γενικότερα site το οποία περιέχουν κείμενο γραμμένο από χρήστες αυτών, και θα δημιουργούν με αυτόματο τρόπο μηχανισμούς εξαγωγής και κατηγοριοποίησης συναισθήματος από κείμενα γραμμένα σε φυσική γλώσσα. Στη συνέχεια θα οργανώνουν και αναλύουν τη συγκεντρωμένη πληροφορία και θα οπτικοποιούν την παραγόμενη γνώση. Στα πλαίσια της παρούσας εργασίας σχεδιάζεται ένα γενικότερο πλαίσιο διεπαφών με τη χρήση Java Interfaces, το οποίο ορίζει ένα ευέλικτο περιβάλλον εξαγωγής, ανάλυσης και οπτικοποίησης γνώσης. Η αρχιτεκτονική του συστήματος ορίζεται ούτως ώστε να δίνεται η δυνατότητα προσαρμογής του συστήματος σε διαφορετικές ανάγκες μέσω χρήσης διαφορετικών μορφωμάτων κώδικα για κάθε στάδιο της εξαγωγής γνώσης, όπως και διαφορετικούς συνδυασμούς αυτών. Η υλοποίηση των διεπαφών τις οποίες ορίζει το πλαίσιο, από εξωτερικές βιβλιοθήκες οι οποίες έχουν δημιουργηθεί με σκοπό την επίλυση των προβλημάτων που προκύπτουν από το κάθε στάδιο ανάλυσης και εξαγωγής γνώσης, επιτρέπουν ουσιαστικά στη δημιουργία ενός μεγάλου εύρους διαφορετικών προσεγγίσεων ως προς την επίλυση ενός προβλήματος. Δίνεται επίσης η δυνατότητα σύγκρισης των αποτελεσμάτων τα οποία προκύπτουν. Δημιουργείται μια ενδεικτική υλοποίηση κάθε σταδίου του πλαισίου, ώστε να αποδειχθεί η αποτελεσματικότητα του σχεδιασμού, και μέσω του processing pipeline που ορίζεται, συνδυάζονται και δημιουργούν ένα ολοκληρωμένο σύστημα γνώσης. Για την υλοποίηση κάθε σταδίου αξιοποιούνται βιβλιοθήκες η οποίες παρέχονται δωρεάν στο διαδίκτυο. Μέσω της διαδικασίας δημιουργίας μια ολοκληρωμένης υλοποίησης παράγονται αρχεία με κατηγοριοποιημένη πληροφορία, η οποία μπορεί να αξιοποιηθεί οποιαδήποτε στιγμή ώστε να οπτικοποιηθεί το αποτέλεσμα δίχως την ανάγκη εκ νέου συλλογής και κατηγοριοποίησης των δεδομένων.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

ειδησεογραφικά site
διαχείριση περιεχομένου

Χαροκόπειο Πανεπιστήμιο (EL)
Harokopio University (EN)

2014-07-08


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)