This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Handwritten Optical Character Recognition

Βόσσος Χαράλαμπος (EL)
Vossos Charalampos (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2024


Η παρούσα διπλωματική επικεντρώνεται στην αναγνώριση παλαιών ελληνικών χειρόγρα- φων εγγράφων, τα οποία είναι γραμμένα με πεζά και κεφαλαία γράμματα. Αν και τα κεί- μενα είναι γραμμένο με το ελληνικό πολυτονικό σύστημα γραφής, οι προβλέψεις γίνονται σε επίπεδο γραμμάτων χωρίς τόνους και πνεύματα. Όλες οι σελίδες προέρχονται από τα πρακτικά του Γενικού Συμβουλίου της Τράπεζας της Ελλάδος, από μια συλλογή χειρό- γραφων κοινοβουλευτικών ερωτήσεων από το ιστορικό αρχείο (1974-1977) της Βουλής των Ελλήνων και από μια ελληνική χειρόγραφη μετάφραση του Μάκμπεθ του Σαίξπηρ από το 1842 και χωρίζονται σε εικόνες γραμμών κειμένου. Κάθε εικόνα αντιστοιχεί σε ένα αρχείο κειμένου με το πραγματικό περιέχομενο. Χρησιμοποιούμε τέσσερα διαφορε- τικά μοντέλα. Αρχικά, χρησιμοποιούμε το Calamari OCR, το οποίο είναι ένα εργαλείο ανοικτού κώδικα για την αναγνώριση γραμμών κειμένου. Ακολουθεί την αρχιτεκτονική κωδικοποιητή αποκωδικοποιητή με μοντέλα CNN και αμφίδρομου LSTM αντίστοιχα και χρησιμοποιεί τη συνάρτηση απωλειών CTC κατά την εκπαίδευση, δεδομένου ότι το σύ- νολο δεδομένων δεν είναι ευθυγραμμισμένο. Επιπλέον, οι χρήστες έχουν τη δυνατότητα να εφαρμόζουν επαυξήσεις στο σύνολο δεδομένων και να επιτρέπουν τη χρήση GPU για ταχύτερη εκπαίδευση. Για να δοκιμαστεί το εκπαιδευμένο μοντέλο σε καινούργιες εικόνες γραμμών, απαιτείται τουλάχιστον ένα μοντέλο για προβλέψεις. Χρησιμοποιούμε το προ- επιλεγμένο δίκτυο με ένα αμφίδρομο LSTM στον αποκωδικοποιητή και ένα μεγαλύτερο δίκτυο με τρία αμφίδρομα επίπεδα LSTM. Επιπλέον, υλοποιούμε δύο μοντέλα βασισμένα σε transformers (TrOCR) με προ-εκπαιδευμένους transformers εικόνας στον κωδικοποι- ητή και αμφίδρομα επίπεδα LSTM στον αποκωδικοποιητή. Χρησιμοποιούμε μια μεγάλη έκδοση του κωδικοποιητή με περισσότερες παραμέτρους και τρία αμφίδρομα στρώματα LSTM στον αποκωδικοποιητή, καθώς και μια μικρή έκδοση του κωδικοποιητή με λιγότερες παραμέτρους και έναν αμφίδρομο αποκωδικοποιητή LSTM. Για να αυξήσουμε την ακρίβεια του μοντέλου εφαρμόζουμε ορισμένες δημοφιλείς τεχνικές επαύξησης. Οι εικόνες εισόδου αλλάζουν μέγεθος σε 384 × 384 και στη συνέχεια χωρίζο- νται σε ακολουθίες από 16 × 16 patches πριν προωθηθούν στους transformers εικόνας. Ως τυπικό μοντέλο transformers εφαρμόζεται ο μηχανισμός shelf-attention. Επιπλέον, χρησιμοποιούμε τη συνάρτηση απωλειών CTC για την εκπαίδευση. Εκπαιδεύουμε και τα δύο μοντέλα στα ίδια σύνολα δεδομένων. Κατά την εξαγωγή προβλέψεων χρησιμοποιού- με τις μεθόδους αποκωδικοποίησης greedy search, beam search και beam search με γλωσσικό μοντέλο n-gram, κρατώντας τον beam search ως τον πιο ακριβή αλγόριθμο α- ποκωδικοποίησης. Επιπλέον, αναλύουμε την προτεινόμενη λύση μας για τον διαγωνισμό αναγνώρισης βραζιλιάνικων εκθέσεων του ICDAR 2024. Υπάρχουν 3 διαφορετικά προ- βλήματα ανάλογα με τις εικόνες εισόδου. Για τα 3 προβλήματα δίνονται εικόνες γραμμών κειμένου, παράγραφοι και ολόκληρες σελίδες αντίστοιχα. Η προσέγγισή μας συνδυάζει το μοντέλο YOLOv5 για την ανίχνευση γραμμών κειμένου (για τα προβλήματα 2 και 3) και το Calamari OCR για την αναγνώριση γραμμών κειμένου. Κρίσιμο βήμα είναι η Contrast Limited Adaptive Histogram Equalization (CLAHE) που εφαρμόζουμε στις εικόνες, αυξά- νοντας την αντίθεση μεταξύ κειμένου και φόντου. Αυτό είναι ευεργετικό για τη φάση της αναγνώρισης γραμμής κειμένου. Το σύνολο δεδομένων είναι εξαιρετικά δύσκολο με αρ- κετές ειδικές περιπτώσεις, επειδή είναι γραμμένο από διαφορετικούς συγγραφείς και πε- ριέχει θορύβους, δυσανάγνωστες λέξεις, κείμενα με υπεργραφή και διαγραμμένα κείμενα. Επιπλέον, παρουσιάζουμε τα αποτελέσματά μας όσον αφορά τις μετρικές Character Error Rate (CER) και Word Error Rate (WER). Τέλος, συγκρίνουμε ένα δημοφιλές μοντέλο βασι- σμένο στο CNN όπως το Calamari OCR με ένα προ-εκπαιδευμένο μοντέλο βασισμένο σε transformers χρησιμοποιώντας τις μετρικές Character Error Rate (CER), Word Error Rate (WER), recall, F1 score, precision και Mathews Correlation Coefficient (MCC). Καταλή- γουμε στο συμπέρασμα ότι ένα προ-εκπαιδευμένο μοντέλο που βασίζεται σε transformers υπερτερεί έναντι ενός μοντέλου που βασίζεται σε CNN όπως το Calamari OCR όσον αφο- ρά την ακρίβεια στην αναγνώριση χαρακτήρων, αλλά το Calamari OCR έχει μεγαλύτερη ακρίβεια στην αναγνώριση λέξεων. (EL)
This thesis focuses on recognizing Old Greek handwritten manuscripts, which are written in lowercase and capital letters. Although the text is written in Greek polytonic orthography, predictions are made at the level of letters without the use of diacritical marks. All the pages come from proceedings of the General Board of the Bank of Greece, a collection of handwritten Parliamentary Questions from the Historical Archive (1974-1977) of the Greek Parliament and from an 1842 Greek handwritten translation of Shakespeare’s Macbeth, and are split into text line images. Each image corresponds to a ground truth text file with the context. We employ four different models. Firstly, we use the Calamari OCR system, which is an open source toolkit for text line recognition. Calamari follows the encoder decoder architecture with CNN and bidirectional LSTM models, respectively. Since the dataset is not aligned, the CTC loss function has been used during training. Additionally, users can apply augmentations to the dataset and use GPUs for faster training. To test the trained model on unseen line images, at least one model is required for predictions. We employ the default network with one bidirectional LSTM at the decoder, and one larger network with three bidirectional LSTM layers. In addition, we implement two state-of-the-art transformer-based (TrOCR) models with pre-trained image transformers at the encoder and bidirectional LSTM layers at the decoder. We use a large version of the encoder with more parameters and three bidirectional LSTM layers at the decoder, as well as a small version of the encoder with fewer parameters and one bidirectional LSTM decoder. In order to increase the robustness of the model, we apply some popular augmentation techniques. Input images are resized to 384 × 384 and then are split into sequences of 16 × 16 patches before being forwarded to the image transformers. As a typical transformer model, a shelf-attention mechanism is applied. Furthermore, we use the CTC loss function for training. We train every model on the same datasets. During inference, we employ greedy search, beam search, and beam search with the n-gram language model decoding methods, keeping the beam search as the most accurate decoding algorithm. Furthermore, we analyze our proposed solution for the Brazilian Essay competition of the ICDAR 2024 Competition on Handwritten Text Recognition in Brazilian Essays – BRESSAY. There are 3 different tasks depending on the input images. Text line images, paragraphs, and entire pages are given for the 3 tasks, respectively. Our approach combines the YOLOv5 model for text line detection (for tasks 2 and 3) and Calamari OCR for text line recognition. The crucial step is the Contrast Limited Adaptive Histogram Equalization (CLAHE) that we apply on the given images, increasing the contrast between text and background. This is beneficial for the text line detection phase. The dataset poses significant challenges due to its diverse authorship, the presence of noise, difficult-to-read words, overwriting, and the presence of strike-through texts. Furthermore, we present our results in terms of the Character Error Rate and the Word Error Rate (WER) metrics. Finally, we compare a popular CNN-based model, like Calamari OCR, with pre-trained transformer-based models using the Character Error Rate (CER), the Word Error Rate metrics (WER), the recall, the F1 score, the precision, and the Mathews Correlation Co- efficient (MCC). We conclude that a pre-trained transformer-based model outperforms a CNN-based model like Calamari OCR in terms of the accuracy in recognizing characters, but Calamari OCR is more accurate at word-level recognition. (EN)

Θετικές Επιστήμες

Θετικές Επιστήμες (EL)
Science (EN)

English

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική
Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » ΠΜΣ Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας » Κατεύθυνση Βιοπληροφορική-Επιστήμη Βιοϊατρικών Δεδομένων

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)