Εξόρυξη δεδομένων της νέας ελληνικής γλώσσας και οντολογική δόμησή τους στην πλατφόρμα του Protégé

Εξόρυξη δεδομένων της νέας ελληνικής γλώσσας και οντολογική δόμησή τους στην πλατφόρμα του Protégé

URI: https://www.openarchives.gr/aggregator-openarchives/edm/polynoe/000125-11400_7945
RDF/XML JSON-LD

This item is provided by the institution :
University of West Attica

Repository :
Institutional Repository Polynoe

see the original item page
in the repository's web site and access all digital files if the item^*

Title

Εξόρυξη δεδομένων της νέας ελληνικής γλώσσας και οντολογική δόμησή τους στην πλατφόρμα του Protégé

Creator

Κορωναίος, Ιωάννης

Contributor

Laskaris, Nikolaos

Σχολή Μηχανικών

Papakitsos, Evangelos

Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής

Drosos, Christos

Type

Διπλωματική εργασία

Thesis (EN)

Issued

2024-10-25

Created

2024-11-01T08:12:42Z

Year

2024 (EN)

Description

Η παρούσα Διπλωματική Εργασία εξετάζει την δυνατότητα άντλησης γλωσσικών δεδομένων της Νέας Ελληνικής Γλώσσας από μια δομημένη πηγή στο διαδίκτυο και την φόρτωση αυτών σε μια οντολογία στην πλατφόρμα Protégé. Ως πηγή χρησιμοποιήθηκε το «Λεξικό της Κοινής Νέας Ελληνικής» του Μανώλη Τριανταφυλλίδη, το οποίο είναι διαθέσιμο σε ηλεκτρονική μορφή στο διαδίκτυο. Η εφαρμογή μας έχει σαν στόχο να συγκεντρώσει όλα τα λήμματα που περιέχονται στο παραπάνω λεξικό σε ένα αρχείο τύπου csv (comma – separated values) και στην συνέχεια, να τα μεταφορτώσει από το αρχείο αυτό σε μια Οντολογία που να είναι συμβατή με την πλατφόρμα Protégé. Εντός της οντολογίας, τα λήμματα θα πρέπει να οργανωθούν σε κλάσεις, ανάλογα με το Μέρος του Λόγου στο οποίο ανήκουν. Επιπλέον, για κάθε λήμμα πρέπει είναι διακριτά τα εκάστοτε επιμέρους χαρακτηριστικά του. Η εφαρμογή μας αναπτύσσεται σε τρία scripts, για λόγους ευκολίας στην διαχείριση του όγκου των δεδομένων. Συνεπώς, έχουμε: 1. Άντληση λημμάτων σε ένα αρχείο .csv Η άντληση των λημμάτων πρέπει να γίνει με τέτοιο τρόπο, ώστε να είναι διακριτό το Μέρος του Λόγου στο οποίο ανήκουν, αλλά ταυτόχρονα να καταχωρούνται ξεχωριστά και διάφορα επιμέρους χαρακτηριστικά τους όπως συνώνυμες ή αντώνυμες λέξεις, ετυμολογία, προφορά κ.ά. 2. Δημιουργία της Οντολογίας Μέσω κώδικα θα πρέπει να δημιουργήσουμε μια Οντολογία σε πρότυπο owl, το οποίο μπορεί να αναγνωστεί από το Protégé. Η οντολογία μας, θα περιλαμβάνει μια κύρια κλάση, την «Μέρη_του_Λόγου/Parts_of_Speech» και στη συνέχεια υποκλάσεις σε διάφορα επίπεδα, αναπαριστώντας τα Μέρη του Λόγου όπως περιέχονται στην Γραμματική της Νέας Ελληνικής, καθώς και τις μεταξύ τους σχέσεις. Επίσης, θα δημιουργηθούν κλάσεις που θα απεικονίζουν τα επιμέρους χαρακτηριστικά κάθε λήμματος, όπως αυτά αναφέρονται παραπάνω. Οι κλάσεις αυτές θα είναι μέρος των Data Properties και των Annotation Properties της οντολογίας. 3. Μεταφόρτωση από το αρχείο .csv στην Οντολογία Το τρίτο script της εφαρμογής μας θα αντλεί από το csv τα λήμματα οργανωμένα και τα χαρακτηριστικά αυτών και θα τα φορτώνει στην Οντολογία του προηγούμενου βήματος, φροντίζοντας για την ορθή καταχώρησή τους στις υπάρχουσες κλάσεις. Ο χωρισμός των γλωσσικών όρων και η ταξινόμηση των επιμέρους ιδιοτήτων τους θα γίνει βάσει των καταχωρημένων στο csv στοιχείων. Πρέπει να αναφερθεί πως η παρούσα εργασία αποτελεί ένα μέρος της υποστήριξης της διδακτορικής διατριβής της κας Νικολέττας Σαμαρείδη. Τα scripts που αναπτύχθηκαν είναι τα 1.LexikoOrganosi.py, 2.Dimioyrgia_Ontologias.py και 3.Prosthiki_Individuals, τα οποία και παρατίθενται στο παράρτημα της εργασίας.

Scientific field

Engineering and Technology ▶ Other Engineering and Technologies
Industrial and Manufacturing Engineering (EN)

Subject

Σημασιολογικός ιστός

OWL

Νέα ελληνική γλώσσα

Γλωσσικές τεχνολογίες

Protégé

Data mining

Οντολογία

Εξόρυξη δεδομένων

Python

Language

Greek

Publisher

Πανεπιστήμιο Δυτικής Αττικής

School / Department / Institute

ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ - Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής - Διπλωματικές εργασίες

University of West Attica ▶ School of Social Engineering
Department of Industrial Design and Production Engineering

Rights

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 Διεθνές

https://creativecommons.org/licenses/by-nc-sa/4.0/deed.el

Provider

University of West Attica

Repository / collection

Institutional Repository Polynoe

Subcollections

ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ

Τμήμα Μηχανικών Βιομηχανικής Σχεδίασης και Παραγωγής

Διπλωματικές εργασίες

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)

Εξόρυξη δεδομένων της νέας ελληνικής γλώσσας και οντολογική δόμησή τους στην πλατφόρμα του Protégé

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.