Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

URI: https://www.openarchives.gr/aggregator-openarchives/edm/pergamos/000005-uoadl%3A3417157
RDF/XML JSON-LD

Το τεκμήριο παρέχεται από τον φορέα :
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Αποθετήριο :
Πέργαμος

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου^*

Τίτλος

Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

Δημιουργός

Γαλανοπούλου Ραφαήλα (EL)

Galanopoulou Rafaila (EN)

Τύπος

born_digital_postgraduate_thesis

Διπλωματική Εργασία (EL)

Postgraduate Thesis (EN)

Διπλωματική εργασία
Μεταπτυχιακή εργασία (EL)

Ημερομηνία

2024

Χρονολογία

2024 (EL)

Περιγραφή

Η αυξανόμενη συχνότητα εμφάνισης ευπαθειών λογισμικού και οι εξελίξεις στη Μηχανική Μάθηση και Επεξεργασία Φυσικής Γλώσσας έχουν ανοίξει το δρόμο για την εξερεύνηση της δυνατότητας των Μεγάλων Γλωσσικών Μοντέλων στην ανίχνευση ευπαθειών. Αυτή η διπλωματική εργασία διερευνά τον αντίκτυπο των συνόλων δεδομένων εκπαίδευσης στην απόδοση των Μεγάλων Γλωσσικών Μοντέλων στην αναγνώριση ευπαθειών μέσα στον πηγαίο κώδικα. Εξετάζεται τη συσχέτιση μεταξύ της αποτελεσματικότητας των μοντέλων και των μετρικών πολυπλοκότητας του κώδικα, της δομής των συνόλων δεδομένων και των συγκεκριμένων τύπων ευπαθειών. Τα ευρήματά αναδεικνύουν τη σημαντική επιρροή των χαρακτηριστικών των συνόλων δεδομένων στην απόδοση των Μεγάλων Γλωσσικών Μοντέλων, υπογραμμίζοντας την ύπαρξη προσαρμοσμένων δεδομένων εκπαίδευσης και στρατηγικές προσαρμογής. Προτείνεται, επίσης, η δυνατότητα ενσωμάτωσης ενός στα- δίου αξιολόγησης δεδομένων κατά την προεπεξεργασία για τη μέτρηση παραγόντων όπως η ομοιότητα του κώδικα, που θα μπορούσε να βελτιώσει περαιτέρω την αποτελεσματικό- τητα του μοντέλου. Αυτή η έρευνα συμβάλλει στις συνεχιζόμενες προσπάθειες αξιοποίη- σης των Μεγάλων Γλωσσικών Μοντέλων για τη βελτίωση της ασφάλειας του λογισμικού και παρέχει πληροφορίες για μελλοντικές ερευνητικές κατευθύνσεις σε αυτόν τον τομέα. (EL)

The increasing prevalence of software vulnerabilities and the advancements in Machine Learning (ML) and Natural Language Processing (NLP) have paved the way for exploring the potential of Large Language Models (LLMs) in vulnerability detection. This thesis in- vestigates the impact of datasets on the performance of LLMs in identifying vulnerabilities within source code. We dive into the correlation between model efficacy and code com- plexity metrics, dataset structure, and the specific types of vulnerabilities. Our findings highlight the significant influence of dataset characteristics on the performance of LLMs, emphasizing the need for tailored training data and fine-tuning strategies. We also pro- pose the potential of incorporating a data evaluation step during preprocessing to measure factors like code similarity, which could further enhance the model’s effectiveness. This research contributes to the ongoing efforts in leveraging LLMs for improving software se- curity and provides insights for future research directions in this domain. (EN)

Επιστημονικό πεδίο

Τεχνολογία – Πληροφορική

Φυσικές Επιστήμες ▶ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Επιστήμη ηλεκτρονικών υπολογιστών (EL)

Επιστήμες Μηχανικού και Τεχνολογία ▶ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική (EL)

Φυσικές Επιστήμες ▶ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λογισμικό (software) (EL)

Φυσικές Επιστήμες ▶ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Πληροφοριακά συστήματα (EL)

Θέμα

Τεχνολογία – Πληροφορική (EL)

Technology - Computer science (EN)

Γλώσσα

Αγγλική γλώσσα

Σχολή/Τμήμα/Ινστιτούτο

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική

Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » ΠΜΣ Πληροφορική » Κατεύθυνση Υπολογιστικά Συστήματα: Λογισμικό και Υλικό

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών ▶ Σχολή Θετικών Επιστημών
Τμήμα Πληροφορικής και Τηλεπικοινωνιών

Δικαιώματα

https://creativecommons.org/licenses/by-nc/4.0/

Πάροχος

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Αποθετήριο / συλλογή

Πέργαμος

Επιμέρους συλλογή

Διπλωματική Εργασία

*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.

Exploring the Power of Data: A Deep Dive into Large Language Models for Vulnerability Detection

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.