Εφαρμογή , Ανάπτυξη και Αξιολόγηση Τεχνικών Εξαγωγής Χωροχρονικών Πληροφοριών Από Κείμενα με Χρήση Τεχνικών Μηχανικής Μάθησης.

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2017 (EL)

Implementation, Development and Evaluation of Technics to Export Spatiotemporal Information From Texts Using Machine Learning Techniques.
Εφαρμογή , Ανάπτυξη και Αξιολόγηση Τεχνικών Εξαγωγής Χωροχρονικών Πληροφοριών Από Κείμενα με Χρήση Τεχνικών Μηχανικής Μάθησης.

Μαγκούτης, Βασίλειος

Κωτσιαντής, Σωτήριος
Μαρκέτος, Γεράσιμος
Βερύκιος , Βασίλειος

The extraction of information from written sources is an old problem, which was solved by studying and processing the written source from a human being. The change in this was brought about by the discovery of the computer, the appearance of which then developed the field of machine learning and, consequently, the extraction of information using machine learning. Initially, there were the rules through which the algorithm learned but the technology evolved rapidly resulting in the current algorithms being astonishingly accurate, requiring minimal training effort by being trained essentially with un-supervised or semi-supervised ways. A tool that exploits these technologies to the full is the MITE (MIT) information extraction tool that combines the word embeddings of eigenwords with mechanical learning through structured support vector machines. Technological developments have also been made in the field of software development, where technology prefers the use of modular programming to develop application code in order not to repeat the code lines and to easily maintain them. In this diploma thesis, data models are trained using the MITIE tool, which can detect location-time data in a text and map it to the event to which it refers. These models and the disclosure algorithm are then integrated into an application programming interface (api) to form a library and to be autonomous and reusable. Finally, with the use of other technologies (python, postgreSQL, bootstrap), a graphical user interface is created through which the algorithm can be used. Keywords: Named Entity Recognition – Information Extraction – programming language Python – Machine Learning – MIT information extraction - Application Programming Interface – eigenwords – Structured SVMs Content: This thesis is accompanied by source code written in Python.
Περιέχει : Πίνακες, Εικόνες, Διαγράμματα.
Η εξαγωγή πληροφοριών από γραπτές πηγές δεν είναι καινούριο πρόβλημα, το οποίο λυνόταν με μελέτη και επεξεργασία της γραπτής πηγής από άνθρωπο. Την αλλαγή σε αυτό έφερε η ανακάλυψη του ηλεκτρονικού υπολογιστή, από την εμφάνιση του οποίου και ύστερα αναπτύχθηκε το πεδίο της μηχανικής μάθηση και κατά συνέπεια η εξαγωγή πληροφοριών από γραπτές πηγές με τη χρήση μηχανικής μάθησης. Αρχικά υπήρχαν οι κανόνες μέσα από τους οποίους μάθαινε ο αλγόριθμος αλλά η τεχνολογία εξελίχθηκε γοργά με αποτέλεσμα οι σημερινοί αλγόριθμοι να είναι εκπληκτικά εύστοχοι, να απαιτούν ελάχιστη προσπάθεια εκπαίδευσης αφού εκπαιδεύονται στην ουσία από μη επιβλεπόμενη ή ημιεπιβλεπόμενη μάθηση. Το εργαλείο MITIE (MIT information extraction) συνδυάζει τις αναπαραστάσεις λέξεων από διανύσματα (eigenwords) με τη μηχανική μάθηση μέσω δομημένων μηχανών διανύσματος υποστήριξης (Structured Support Vector Machines). Τεχνολογικές εξελίξεις έχουν γίνει και στον τομέα της ανάπτυξης λογισμικού όπου η τεχνολογία προστάζει τη χρήση τμηματικού προγραμματισμού (modular programming) για την ανάπτυξη του κώδικα των εφαρμογών, με σκοπό τη μη επανάληψη των γραμμών κώδικα και την εύκολη συντήρηση τους. Σε αυτή την διπλωματική εργασία πραγματοποιείται εκπαίδευση μοντέλων δεδομένων με την χρήση του εργαλείου MITIE, τα οποία μπορούν να ανιχνεύσουν χωροχρονικά δεδομένα σε ένα κείμενο και να τα αντιστοιχίσουν στο γεγονός στο οποίο αυτά αναφέρονται. Στη συνέχεια, τα μοντέλα αυτά και ο αλγόριθμος αποκάλυψης ενσωματώνονται σε διεπαφή προγραμματισμού εφαρμογών (api) ώστε να αποτελέσουν μια βιβλιοθήκη και να είναι αυτόνομα και επαναχρησιμοποιήσιμα. Τέλος, με τη χρήση και άλλων τεχνολογιών (python, postgreSQL, bootstrap) δημιουργείται γραφική διεπαφή χρήστη μέσα από την οποία μπορεί να γίνει χρήση του αλγορίθμου. Λέξεις κλειδιά : Αποκάλυψη Ονοματικών Οντοτήτων – Εξαγωγή πληροφοριών – γλώσσα προγραμματισμού python – μηχανική μάθηση – MIT information extraction – διεπαφή προγραμματισμού – eigenwords – Δομημένες μηχανές διανύσματος υποστήριξης Περιεχόμενο : Η εργασία αυτή συνοδεύεται από πηγαίο κώδικα σε γλώσσα python

Διπλωματική Εργασία / Thesis

MIT information extraction
Named Entity Recognition
Εξαγωγή πληροφοριών
μηχανική μάθηση
Δομημένες μηχανές διανύσματος υποστήριξης
MITIE
Machine Learning
Structured SVMs
γλώσσα προγραμματισμού python
eigenwords
Αποκάλυψη Ονοματικών Οντοτήτων
Information Extraction
programming language Python


Ελληνική γλώσσα

2017-09-23
2017-10-09T09:59:41Z


Ελληνικό Ανοικτό Πανεπιστήμιο / Hellenic Open University

0
2
85




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.