Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

Το τεκμήριο παρέχεται από τον φορέα :
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών   

Αποθετήριο :
Πέργαμος   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

Γαλανοπούλου Ραφαήλα (EL)
Galanopoulou Rafaila (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2024


Η αυξανόμενη συχνότητα εμφάνισης ευπαθειών λογισμικού και οι εξελίξεις στη Μηχανική Μάθηση και Επεξεργασία Φυσικής Γλώσσας έχουν ανοίξει το δρόμο για την εξερεύνηση της δυνατότητας των Μεγάλων Γλωσσικών Μοντέλων στην ανίχνευση ευπαθειών. Αυτή η διπλωματική εργασία διερευνά τον αντίκτυπο των συνόλων δεδομένων εκπαίδευσης στην απόδοση των Μεγάλων Γλωσσικών Μοντέλων στην αναγνώριση ευπαθειών μέσα στον πηγαίο κώδικα. Εξετάζεται τη συσχέτιση μεταξύ της αποτελεσματικότητας των μοντέλων και των μετρικών πολυπλοκότητας του κώδικα, της δομής των συνόλων δεδομένων και των συγκεκριμένων τύπων ευπαθειών. Τα ευρήματά αναδεικνύουν τη σημαντική επιρροή των χαρακτηριστικών των συνόλων δεδομένων στην απόδοση των Μεγάλων Γλωσσικών Μοντέλων, υπογραμμίζοντας την ύπαρξη προσαρμοσμένων δεδομένων εκπαίδευσης και στρατηγικές προσαρμογής. Προτείνεται, επίσης, η δυνατότητα ενσωμάτωσης ενός στα- δίου αξιολόγησης δεδομένων κατά την προεπεξεργασία για τη μέτρηση παραγόντων όπως η ομοιότητα του κώδικα, που θα μπορούσε να βελτιώσει περαιτέρω την αποτελεσματικό- τητα του μοντέλου. Αυτή η έρευνα συμβάλλει στις συνεχιζόμενες προσπάθειες αξιοποίη- σης των Μεγάλων Γλωσσικών Μοντέλων για τη βελτίωση της ασφάλειας του λογισμικού και παρέχει πληροφορίες για μελλοντικές ερευνητικές κατευθύνσεις σε αυτόν τον τομέα. (EL)
The increasing prevalence of software vulnerabilities and the advancements in Machine Learning (ML) and Natural Language Processing (NLP) have paved the way for exploring the potential of Large Language Models (LLMs) in vulnerability detection. This thesis in- vestigates the impact of datasets on the performance of LLMs in identifying vulnerabilities within source code. We dive into the correlation between model efficacy and code com- plexity metrics, dataset structure, and the specific types of vulnerabilities. Our findings highlight the significant influence of dataset characteristics on the performance of LLMs, emphasizing the need for tailored training data and fine-tuning strategies. We also pro- pose the potential of incorporating a data evaluation step during preprocessing to measure factors like code similarity, which could further enhance the model’s effectiveness. This research contributes to the ongoing efforts in leveraging LLMs for improving software se- curity and provides insights for future research directions in this domain. (EN)

Τεχνολογία – Πληροφορική

Τεχνολογία – Πληροφορική (EL)
Technology - Computer science (EN)

Αγγλική γλώσσα

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική
Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » ΠΜΣ Πληροφορική » Κατεύθυνση Υπολογιστικά Συστήματα: Λογισμικό και Υλικό

https://creativecommons.org/licenses/by-nc/4.0/




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.