Generative Artificial Intelligence: Models, Benefits, Dangers and Detection of AI-Generated Text on Specialized Domains

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Generative Artificial Intelligence: Models, Benefits, Dangers and Detection of AI-Generated Text on Specialized Domains

Μήτρου Ιωάννης (EL)
Mitrou Ioannis (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2024


Η Τεχνητή Νοημοσύνη, και πιο συγκεκριμένα, η Μηχανική Μάθηση, βιώνει μια πρωτοφανή ανάπτυξη σήμερα. Στο επίκεντρο αυτής της ανάπτυξης βρίσκεται η Παραγωγική Τεχνητή Νοημοσύνη. Από την παραγωγή εικόνων και κειμένου μέχρι τη σύνθεση ομιλίας και ήχου, η Παραγωγική Τεχνητή Νοημοσύνη έχει γίνει εξαιρετικά δημοφιλής πολύ γρήγορα με πολυάριθμες εφαρμογές. Σε αυτή την εργασία, αναφέρεται αρχικά τι είναι η Παραγωγική Τεχνητή Νοημοσύνη και πώς μπορούν να ταξινομηθούν οι πιο προεξέχοντες και γνωστοί τύποι Παραγωγικής Τεχνητής Νοημοσύνης με βάση την είσοδο και την έξοδο, προτού εξεταστούν τα πιο γνωστά μοντέλα που χρησιμοποιούνται για την υλοποίησή τους. Επιπλέον, γίνεται έμφαση στις χρήσεις αυτών των μοντέλων, καθώς και στους κινδύνους που υπάρχουν με την αλόγιστη χρήση αυτής της αναδυόμενης τεχνολογίας. Στη συνέχεια και κάτι που βρίσκεται στο επίκεντρο της εργασίας, σχεδιάζεται και αξιολογείται ένα μοντέλο για τη διάκριση μεταξύ πραγματικών και τεχνητά δημιουργημένων, εξειδικευμένων κειμένων. Αρχικά, εξετάζεται και γίνεται μια εκτενής ανασκόπηση πρόσφατων ερευνών πάνω στην ανίχνευση κειμένων που έχουν παραχθεί με τεχνητή νοημοσύνη. Ενώ κάποιες δημοφιλείς εφαρμογές έχουν ικανοποιητικά αποτελέσματα με ChatGPT-3.5, όταν χρησιμοποιείται ChatGPT-4 ή όταν το κείμενο είναι επίσημο και έχει αντικειμενικό ύφος, τα αποτελέσματα δεν είναι ικανοποιητικά. Προκειμένου να αυξηθεί σημαντικά η ακρίβεια και να γίνει ευκολότερη η ανίχνευση μοτίβων, μπορεί να δημιουργηθεί ένα εξειδικευμένο μοντέλο με ένα πολύ συγκεκριμένο σύνολο δεδομένων. Για να επιβεβαιώσουμε αυτή την υπόθεση, χρησιμοποιούμε ένα εξειδικευμένο σύνολο δεδομένων από έναν διαγωνισμό του Kaggle. Το μοντέλο που προτείνουμε χρησιμοποιεί τις τεχνικές Byte-Pair Encoding για Tokenization και TF-IDF για vectorization, καθώς και έναν ensemble ταξινομητή με επιμέρους ταξινομητές για μεγαλύτερη ακρίβεια. Μετά από την αξιολόγηση των αποτελεσμάτων, εξετάζεται το κύριο μειονέκτημα της μεθόδου: Ένα σενάριο, όπου υπάρχουν πολύ λίγα ή καθόλου πραγματικά δεδομένα για να εκπαιδευτεί ο δυαδικός ταξινομητής. Σε αυτή την περίπτωση όπου υπάρχει μία κλάση δεδομένων, το πρόβλημα γίνεται πλέον πρόβλημα anomaly detection και όχι δυαδικής ταξινόμησης και εκπαιδεύεται ένα one-class SVM μοντέλο, το οποίο έχει καλύτερα αποτελέσματα από γενικές εφαρμογές όταν έχει εκπαιδευτεί σε ένα πολύ συγκεκριμένο σύνολο δεδομένων. (EL)
Artificial Intelligence, and more specifically, Machine Learning, is undergoing a rapid and unprecedented development nowadays. At the center of Machine Learning, the fastest growing field of science that has been dominating public discourse with almost innumerable applications is Generative Artificial Intelligence. From art and text generation to speech synthesis, Generative AI has become extremely popular extremely quickly. The thesis delves first into Generative Artificial Intelligence and its applications. After defining what Generative AI is, it is classified into the most prominent categories based on input and output type and the most commonly used models that are used to implement them are evaluated. Furthermore, emphasis is placed on the common uses of these models and on the risks and dangers that this emerging technology entails. In the sequel and what is the focus of this thesis, a model to distinguish real from AI-Generated essays is designed and evaluated. Initially, a comprehensive review of the State of the Art in AI-Generated text detection is conducted and analyzed. While popular AI-Generated text detectors demonstrate decent results when ChatGPT-3.5 is used, inconsistencies arise when ChatGPT-4 is used or when the text is formal. In order to substantially increase the accuracy and make pattern detection easier, a customized model can be built with a highly specialized dataset. To validate the hypothesis, we use a specialized dataset from a Kaggle competition. The model uses Byte-Pair Encoding for tokenization and TF-IDF for vectorization, as well as an ensemble classifier with sub-classifiers for classification. After evaluating the results and performance of the model, the main drawback of this method is examined: a scenario where few or no real essays are provided to train the binary classifier. In that scenario, it is an anomaly detection problem, instead of binary classification and a One-Class SVM model is trained, which outperforms generic AI text detectors particularly within the confines of a highly specific dataset. (EN)

Τεχνολογία – Πληροφορική

Τεχνολογία – Πληροφορική (EL)
Technology - Computer science (EN)

English

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική
Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » ΠΜΣ Πληροφορική » Κατεύθυνση Διαχείριση Δεδομένων, Πληροφορίας και Γνώσης

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)