Aνάλυση Κειμένου και Εξαγωγή Γνώσης απο Πηγές Ψηφιακής Διακυβέρνησης

Το τεκμήριο παρέχεται από τον φορέα :
Χαροκόπειο Πανεπιστήμιο   

Αποθετήριο :
Βιβλιοθήκη και Κέντρο Πληροφόρησης ΕΣΤΙΑ   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Aνάλυση Κειμένου και Εξαγωγή Γνώσης απο Πηγές Ψηφιακής Διακυβέρνησης

Βενέτη, Ισμήνη, Κωνσταντίνος

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

2021-03-30


Σε αυτή την εποχή της πληροφορίας που διανύουμε, οι άνθρωποι μαθαίνουν συνεχώς για νέεςτεχνολογιές, τις οποίες ενσωματώνουν σταδιακά στις ζωές τους. Ιδέες όπως η ανοιχτή γνώση είναιπλέον διαδεδομένες, με τη χρήση του παγκόσμιου ιστού σαν βάση για την διασπορά τους. Οικυβρενήσεις έχουν αρχίσει να το καταλαβαίνουν και εχουν ξεκινήσει να ανοίγουν τα δεδομένατους στο κοινό χρησιμοποιώντας την πλατφόρμα του διαδικτύου.Η Ελληνική Κυβέρνηση δημιούργησε το Πρόγραμμα Διαύγεια, ένα API το οποίο περιέχειδιοικητικές πράξεις και αποφάσεις για πάνω από τρεις χιλιάδες κυβερνητικά και διοικητικά όργανα,επικυρώνοντας τις πλέον με την υποβολή τους στο διαδίκτυο. Αποφασίσαμε να χρησιμοποιήσουμετη Διαύγεια για να δημιουργήσουμε μία αλληλουχία εκτέλεσης (pipeline) με την χρήση της Επεξεργασίαςτης Φυσικής Γλώσσας (NLP), και συγκεκριμένα την Αναγνώριση Ονομαστικών Οντοτήτων (NER)για να απεικονίσουμε τις χρηματικές συναλλαγές σε σύγκριση με διαφορετικά στοιχεία. Τα στοιχείααυτά τα βρίσκουμε στα δεδομένα του κάθε αντικειμένου στο JSON API της Διαύγειας.Λόγω της φύσης των ονομαστικών οντοτήτων σε κυβερνητικές αποφάσεις, καθώς και τηνέλλειψη επισειωμένων δεδομένων (annotated data) στην Ελληνική γλώσσα, δημιουργήσαμε εναδικό μας σύνολο δεδομένων (dataset), το οποίο περιείχε 400 κείμενα, χρησιμοποιώντας το εργαλείοετικετοποίησης doccano. Χρησιμοποιήσαμε το προαναφερθεν σύνολο δεδομένων σε συνδυασμόμε το ήδη υπάρχον για να εκπαιδεύσουμε ένα μοντέλο στην βιβλιοθήκη spaCy, με την οποίαυλοποιήσαμε στη συνέχεια το κομμάτι της αναγνώρισης ονομαστικών οντοτήτων αυτού του έργου.Τα δεδομένα συναλλαγών που εξήχθηκαν αποθηκεύτηκαν τοπικά σε ένα αρχείο, και στη συνέχειαανακτήθηκαν για να δημιουργήσουν διαφορετικά διαγράμματα ράβδων, συγκρίνοντας τις ημερομηνίεςπου αποφασίστηκαν οι πράξεις, τις ημερομηνίες υποβολής, όπως και τους τύπους των πράξεων.Αυτό μας επέτρεψε να δούμε τις συναλλαγές όχι ως μία συλλογή διαφορετικών αποφάσεων, αλλαώς ένα υπολογισμένο αποτέλεμα, συσχετίζοντας το με διαφορετικά στοιχεία των πράξεων. Σανέργο μας επιτρέπει να βελτιώσουμε την διαφάνεια του Προγράμματος Διαύγεια και βοηθάει στηδιάδοση των πληροφοριών που μας προσφέρει το ίδιο το κράτος.

Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών

Εφαρμογές
Επεξεργασία Φυσικής Γλώσσας
Μηχανική Μάθηση
εργαλεία
Ελληνική Γλώσσα
Αναγνώριση Ονοματικών Οντοτήτων
Πρόγραμμα Διαύγεια
Εξόρυξη δεδομένων
κλπ.

Τμήμα Πληροφορικής και Τηλεματικής

Αναφορά Δημιουργού – Μη Εμπορική Χρήση 4.0




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.