Hypatia Digital Library: A novel text classification approach for small text fragments

Το τεκμήριο παρέχεται από τον φορέα :
Πανεπιστήμιο Δυτικής Αττικής (ΠΑ.Δ.Α.)   

Αποθετήριο :
Journal of Integrated Information Management  | ΕΚΤ eJournals   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Hypatia Digital Library: A novel text classification approach for small text fragments (EN)

Triantafyllou, Ioannis
Vorgia, Frosso
Koulouris , Alexandros

info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Peer-reviewed Article (EN)

2019-12-01


Purpose - The purpose of this paper is to further investigate prior work of the authors in text classification in Hypatia, the digital library of University of Western Attica. The main objective is to provide an accurate automated classification tool as an alternative to manual assignments. Design/methodology/approach - The crucial point in text classification is the selection of the most important term-words for document representation. The specific document collection consists of 718 abstracts in Medicine, Tourism and Food Technology. Two weighting methods were investigated: classic TF.IDF and DEVMAX.DF. The last one was proposed by the authors as a more accurate term-word selection tool for smaller text fragments. Classification was conducted by applying 14 classifiers available on WEKA. Findings - Classification process yielded an excellent ~97% precision score and DEVMAX.DF proved to perform better than classic TF.IDF. (EN)


Digital libraries (EN)
Statistical natural language processing (EN)
WEKA (EN)
Word stemming (EN)
Text classification (EN)

Αγγλική γλώσσα

Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας & Συστημάτων Πληροφόρησης, Σχολή Διοικητικών, Οικονομικών & Κοινωνικών Επιστημών, Πανεπιστήμιο Δυτικής Αττικής (EN)


2623-4629
Journal of Integrated Information Management; Vol. 4 No. 2 (2019): Jul-Dec 2019; 16-23 (EN)

https://creativecommons.org/licenses/by-nc/4.0




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.