Εξαγωγή ορολογίας και νεολογισμών από μεγάλα σώματα κειμένων

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Βιβλιοθήκη και Κέντρο Πληροφόρησης ΕΣΤΙΑ
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2017 (EL)

Εξαγωγή ορολογίας και νεολογισμών από μεγάλα σώματα κειμένων

Πετσόπουλος, Τηλέμαχος Θ.

Σκοπός της παρούσας εργασίας είναι η μελέτη και η βελτίωση της διαδικασίας που ακολουθείται από το Κέντρο Ερεύνης Επιστημονικών Όρων και Νεολογισμών της Ακαδημίας Αθηνών για την εξαγωγή ορολογίας και νεολογισμών απόμεγάλα σώματα κειμένων.Συγκεκριμένα γίνεται επέκταση υπάρχουσας εφαρμογής η οποία χρησιμοποιείται από το κέντρο για τον εντοπισμό νεολογισμών (νέων λέξεων) της Ελληνικής γλώσσας.Η επέκταση εστιάζει στην αυτοματοποίηση της διαδικασίας εντοπισμού υποψήφιων νεολογισμών και εξαγωγής στατιστικών στοιχείων για τους όρους που επιλέγονται,το οποίο πετυχαίνεταιμε τεχνικές ομαδοποίησης των δεδομένων και καταγράφοντας τις εμφανίσεις τωνυποψήφιωνλέξεων όπως αυτές εισάγονται και αναλύονται από την προαναφερθείσα εφαρμογή.Επιπλέον μελετά θέματα που αφορούν την εξαγωγή μεταδεδομένων για τα κείμενα που αναλύονται.Σε αυτό το σημείο δίνεται βάση στην δημιουργία ενός μοντέλου μηχανικής μάθησης χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων το οποίο θα χωρίζει σεπαραπάνω απόμία θεματικέςΚατηγορίες (multi-labelclassification) τα κείμενα που εισάγονται με αποτέλεσμα την ύπαρξη ενός σωστά διαχωρισμένου corpus.Επίσης διερευνά την δυνατότητα εξαγωγής επιστημονικής ορολογίας (ξενόγλωσσων όρων) και των αντίστοιχων όρων με τους οποίους αποδίδονται σε Ελληνικά ακαδημαϊκά συγγράμματα με στόχο την δημιουργία ενός λεξικού επιστημονικής ορολογίας. Τέλος, η συγκεκριμένη εργασία παραθέτει τις εξελίξεις στον τομέα της εύρεσης νεολογισμών, τις τεχνικές, τα εργαλεία που χρησιμοποιούνται διεθνώς καιμερικές καλές πρακτικές από αντίστοιχα ερευνητικά κέντρα του εξωτερικού.

graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

κατηγοριοποίηση
εξόρυξη δεδομένων
Επεξεργασία φυσικής γλώσσας (Επιστήμη των υπολογιστών)
Μηχανική μάθηση
μηχανική μάθηση
επεξεργασία φυσικής γλώσσας
νεολογισμός
Εξόρυξη δεδομένων


2017-10-04


Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.