Μοντελοποίηση της ελληνικής νοηματικής γλώσσας για τα συστήματα στατιστικής μηχανικής μετάφρασης

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Μοντελοποίηση της ελληνικής νοηματικής γλώσσας για τα συστήματα στατιστικής μηχανικής μετάφρασης (EL)

Κουρεμένος, Δημήτρης (EL)
Kouremenos, Dimitris (EN)

Κόλλιας, Στέφανος
ntua (EL)
Κόλλιας, Στέφανος (EL)
Μαραγκός, Μαραγκός (EL)
Σταφυλοπάτης, Ανδρέας - Γεώργιος (EL)
Νταλιάνης, Κλήμης (EL)
Καρπούζης, Κωνσταντίνος (EL)
Στάμου, Γεώργιος (EL)
Καρυδάκης, Γεώργιος (EL)

doctoralThesis

2021-02-02
2020-07-08
2021-02-02T09:08:20Z


Η παρούσα διατριβή τοποθετείται στο πλαίσιο της αυτόματης Μηχανικής Μετάφρασης, στην διαπροσωπίας ανθρώπου και μηχανής για τα άτομα με προβλήματα ακοής κάνοντας χρήση την γλώσσα των Κωφών, τηn Ελληνική Νοηματική Γλώσσα. Σε αυτή τη εργασία παρουσιάζουμε ένα πρωτότυπο σύστημα βασισμένο σε κανόνες μηχανικής μετάφρασης με σκοπό τη δημιουργία μεγάλων παράλληλων εύρωστων γραπτών σωμάτων ελληνικού κειμένου και της Ελληνικής Νοηματικής Γλώσσας κάνοντας χρήση της Σύντομης Μεταγραφής της Ελληνικής Νοηματικής Γλώσσας (ΣΜΕΝΓ) (text glosses). Στη συνέχεια, τα σώματα κειμένου χρησιμοποιούνται ως δεδομένα κατάρτισης για την παραγωγή / δημιουργία γλωσσικών μοντέλων ν-γραμμάτων (n-gram Language Model). Επίσης χρησιμοποιούνται και ως δεδομένα εκπαίδευσης για το σύστημα MOSES Στατιστικής Μηχανικής Μετάφρασης. Πρέπει να σημειωθεί ότι όλη η διαδικασία είναι ισχυρή και ευέλικτη, καθώς δεν απαιτεί βαθιά γνώση γραμματικής της ΕΝΓ. Στην εργασία μας παρουσιάζουμε μετρήσεις χρονικές εκτιμήσεις για την δημιουργία των γλωσσικών πόρων, αξιολογούμε τα γλωσσικά μοντέλα της ΕΝΓ μέσω της περιπλοκής και τέλος χρησιμοποιώντας τη μετρική βαθμολογία BiLingual Understudy Assessment (BLEU) για την αξιολόγηση της μηχανικής μετάφρασης, το πρωτότυπο σύστημα MT μας επιτυγχάνει ελπιδοφόρες επιδόσεις και συγκεκριμένα μια μέση βαθμολογία 60,53% και 85,1% / 65,5% / 53,8% / 44,8% για 1-gram / 2 -gram / 3-gram / 4-gram. (EL)
This thesis is located in the framework of Automatic Machine Translation and in the human and machine software interface for hearing disabled people using the Greek Sign Language. In this work we present a novel prototype Rule Based Machine Translation (RBMT) system for the creation of large quality written Greek Sign Language (GSL) glossed corpora. In particular, the proposed RBMT system supports the professional translator of GSL to produce different kinds of GSL glossed corpus. Then the glossed corpus is used as training data for the production/creation of Language Model (LM) n-gram. With the GSL glossed corpus and for any domain, we can build, test and evaluate different kinds of Language Models for different kinds of glossed GSL corpus, even if there is no real written GSL large corpus. These GSL parallel corpus and languages models also will be used as training data by the Statistical Machine Translation (SMT) MOSES application system. It should be noted that the whole process is robust and flexible, since it does not demand deep grammar knowledge of GSL. By using the BiLingual Evaluation Understudy (BLEU) metric score, our prototyped MT system achieves a very promising performance, and in particular an average score of 60,53% και 85,1% / 65,5% / 53,8% / 44,8% για 1-gram / 2 -gram / 3-gram / 4-gram. (EN)


Ελληνική γλώσσα (EL)
Ελληνική νοηματική γλώσσα (ΕΝΓ) (EL)
Επικοινωνία κωφού-μηχανής (EL)
Στατιστική μηχανική μετάφραση (EL)
Γλωσσικά Μοντέλα (EL)
Μοντέλο φράσης (EL)
MOSES (EN)

Ελληνική γλώσσα

Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης (EL)
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (EL)

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα
http://creativecommons.org/licenses/by-nc-sa/3.0/gr/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.