Οπτική επεξεργασία και ανάλυση ιστορικών εγγράφων

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2011 (EN)
Optical process and analysis of historical documents
Οπτική επεξεργασία και ανάλυση ιστορικών εγγράφων

Σταματόπουλος, Νικόλαος

The collections of historical books are an important source of information, both for the history of previous periods and for the development of the cultural documentation itself. Although to date, there have been made several attempts of digitalization and electronic navigation, there is not an appropriate frame of optical process and analysis of the content of these collections, consequently a large number of historical books have not been studied yet and remain unexploited. In this thesis, we studied the preprocessing stages which are performed before the recognition process and we focused on the enhancement and segmentation of historical documents. Preprocessing stages play an important role in document image processing since they affect the performance of subsequent processing, such as optical character recognition. At the enhancement stage, we focused on the border removal as well as on the dewarping of document images, which are common problems associated with historical documents. Two methodologies that detect and remove black borders as well as noisy text regions are proposed. Furthermore, optimal page frames of double page document images are detected since the majority of approaches are able to process only single page document images. The experimental results on several historical documents demonstrate the effectiveness of the proposed techniques since they remove the noisy borders without missing text information. Concerning the warping problem, a coarse-to-fine rectification methodology to compensate for undesirable document image distortions is proposed. To verify the validity of the proposed methodology, experiments have been carried out using indirect evaluation techniques as well as a novel semi-automatic evaluation methodology. Using the proposed evaluation methodology we can obtain objective evaluations and quantitative comparisons among the different dewarping techniques. At the document image segmentation stage we proposed a novel combination method of complementary text line segmentation techniques, where each technique can solve different difficult problems of historical problems. The experimental results are promising in order to apply the combination methodology in different segmentation tasks, such as word and character segmentation. Furthermore, a methodology for character segmentation in historical documents is suggested. Comparative experiments using several historical documents from different languages and time periods prove the efficiency of the proposed technique. Finally, in order to ease the construction of document image segmentation ground-truth that includes text-image alignment we presented an efficient technique.
Η έρευνα ιστορικών βιβλίων αποτελεί μία σημαντική πηγή πληροφοριών, τόσο σε ότι αφορά την ιστορία των προηγούμενων περιόδων όσο και την ανάπτυξη, διαχρονικά, της ίδιας της πολιτιστικής τεκμηρίωσης. Μέχρι σήμερα έχουν γίνει αρκετές προσπάθειες ψηφιοποίησης και ηλεκτρονικής πλοήγησης, εντούτοις όμως δεν υπάρχει κατάλληλο περιβάλλον οπτικής επεξεργασίας και ανάλυσης του περιεχομένου των συλλογών αυτών. Κατά συνέπεια μεγάλος αριθμός ιστορικών βιβλίων δεν έχει μελετηθεί ακόμα και παραμένει ανεκμετάλλευτος. Η παρούσα διδακτορική διατριβή επικεντρώνεται στα στάδια επεξεργασίας των ιστορικών εγγράφων πριν την αναγνώριση και ειδικότερα στα στάδια βελτίωσης της ποιότητας και κατάτμησης του εγγράφου. Τα παραπάνω στάδια χρήζουν ιδιαίτερης προσοχής αφού επηρεάζουν άμεσα το αποτέλεσμα της αναγνώρισης. Στο στάδιο της βελτίωσης ποιότητας δόθηκε έμφαση στον εντοπισμό και την αφαίρεση του περιθωρίου καθώς και στη διόρθωση της τοπικής καμπυλότητας, τα οποία αποτελούν τα κατεξοχήν προβλήματα των ιστορικών εγγράφων. Πιο συγκριμένα, για τον εντοπισμό και την αφαίρεση του περιθωρίου αναπτύχθηκαν δύο μέθοδοι. Η πρώτη μέθοδος αφαιρεί συγχρόνως με το περιθώριο και τμήματα κειμένου γειτονικών σελίδων, ενώ η δεύτερη μέθοδος διαχωρίζει τα έγγραφα που περιέχουν δύο σελίδες καθώς η πλειοψηφία των τεχνικών επεξεργασίας εγγράφων θεωρεί ότι επεξεργάζονται μία σελίδα. Τα πειραματικά αποτελέσματα καταδεικνύουν την αποτελεσματικότητα των μεθόδων εφόσον καταφέρνουν να αφαιρέσουν το περιθώριο χωρίς να χάνεται χρήσιμη πληροφορία. Για τη διόρθωση της τοπικής καμπυλότητας αναπτύχθηκε μία μέθοδος η οποία εφαρμόζεται σε δύο φάσεις επιτυγχάνοντας να διορθώσει όλες τις παραμορφώσεις σε επίπεδο λέξης. Η αποτίμηση της μεθόδου βασίζεται, εκτός από τους έμμεσους τρόπους που συναντάμε στη βιβλιογραφία, και σε μία πρωτότυπη ημιαυτόματη μέθοδο η οποία δίνει τη δυνατότητα να συγκρίνονται άμεσα μέθοδοι διόρθωσης της τοπικής καμπυλότητας. Στο στάδιο της κατάτμησης αναπτύχθηκε μία πρωτότυπη μεθοδολογία συνδυασμού αποτελεσμάτων κατάτμησης γραμμών κειμένου, η οποία προσπαθεί να εκμεταλλευτεί συμπληρωματικές τεχνικές ώστε να αντιμετωπιστούν τα πολλά και σύνθετα προβλήματα που συναντάμε στα ιστορικά έγγραφα. Τα πειραματικά αποτελέσματα είναι ενθαρρυντικά για την εφαρμογή της μεθοδολογίας και σε άλλα επίπεδα κατάτμησης. Επιπρόσθετα, δημιουργήθηκε μία μέθοδος κατάτμησης χαρακτήρων σε ιστορικά έγγραφα. Τα πειραματικά αποτελέσματα σε σημαντικό αριθμό ιστορικών εγγράφων από διαφορετικές γλώσσες αλλά και χρονολογικές περιόδους επιβεβαιώνουν την αποτελεσματικότητα της. Τέλος, αναπτύχθηκε μία μέθοδος με στόχο να μειωθεί σημαντικά ο χρόνος που χρειάζεται για τη δημιουργία ground-truth αξιολόγησης μεθόδων κατάτμησης.

Διόρθωση τοπικής καμπυλότητας
Document image dewarping
Border removal
Κατάτμηση εγγράφου
Combined segmentation techniques
Βελτίωση ποιότητας εγγράφου
Document image segmentation
Αφαίρεση περιθωρίου
Document image enhancement
Συνδιασμός μεθόδων κατάτμησης

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Greek

2011


National and Kapodistrian University of Athens
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ)



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)