δείτε την πρωτότυπη σελίδα τεκμηρίου στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection
Η αυξανόμενη συχνότητα εμφάνισης ευπαθειών λογισμικού και οι εξελίξεις στη Μηχανική
Μάθηση και Επεξεργασία Φυσικής Γλώσσας έχουν ανοίξει το δρόμο για την εξερεύνηση
της δυνατότητας των Μεγάλων Γλωσσικών Μοντέλων στην ανίχνευση ευπαθειών. Αυτή η
διπλωματική εργασία διερευνά τον αντίκτυπο των συνόλων δεδομένων εκπαίδευσης στην
απόδοση των Μεγάλων Γλωσσικών Μοντέλων στην αναγνώριση ευπαθειών μέσα στον
πηγαίο κώδικα. Εξετάζεται τη συσχέτιση μεταξύ της αποτελεσματικότητας των μοντέλων
και των μετρικών πολυπλοκότητας του κώδικα, της δομής των συνόλων δεδομένων και
των συγκεκριμένων τύπων ευπαθειών. Τα ευρήματά αναδεικνύουν τη σημαντική επιρροή
των χαρακτηριστικών των συνόλων δεδομένων στην απόδοση των Μεγάλων Γλωσσικών
Μοντέλων, υπογραμμίζοντας την ύπαρξη προσαρμοσμένων δεδομένων εκπαίδευσης και
στρατηγικές προσαρμογής. Προτείνεται, επίσης, η δυνατότητα ενσωμάτωσης ενός στα-
δίου αξιολόγησης δεδομένων κατά την προεπεξεργασία για τη μέτρηση παραγόντων όπως
η ομοιότητα του κώδικα, που θα μπορούσε να βελτιώσει περαιτέρω την αποτελεσματικό-
τητα του μοντέλου. Αυτή η έρευνα συμβάλλει στις συνεχιζόμενες προσπάθειες αξιοποίη-
σης των Μεγάλων Γλωσσικών Μοντέλων για τη βελτίωση της ασφάλειας του λογισμικού
και παρέχει πληροφορίες για μελλοντικές ερευνητικές κατευθύνσεις σε αυτόν τον τομέα.
(EL)
The increasing prevalence of software vulnerabilities and the advancements in Machine
Learning (ML) and Natural Language Processing (NLP) have paved the way for exploring
the potential of Large Language Models (LLMs) in vulnerability detection. This thesis in-
vestigates the impact of datasets on the performance of LLMs in identifying vulnerabilities
within source code. We dive into the correlation between model efficacy and code com-
plexity metrics, dataset structure, and the specific types of vulnerabilities. Our findings
highlight the significant influence of dataset characteristics on the performance of LLMs,
emphasizing the need for tailored training data and fine-tuning strategies. We also pro-
pose the potential of incorporating a data evaluation step during preprocessing to measure
factors like code similarity, which could further enhance the model’s effectiveness. This
research contributes to the ongoing efforts in leveraging LLMs for improving software se-
curity and provides insights for future research directions in this domain.
(EN)
*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.
Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.