Η Διασταύρωση Οντοτήτων είναι μια θεμελιώδης τεχνική στη διαχείριση δεδομένων, η οποία περιλαμβάνει την αναγνώριση και σύνδεση εγγραφών που αναφέρονται στην ίδια οντότητα του πραγματικού κόσμου σε διαφορετικά σύνολα δεδομένων. Παρόλο που τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) παρουσιάζουν υποσχόμενα αποτελέσματα στην αντιμετώπιση σύνθετων εργασιών επεξεργασίας φυσικής γλώσσας, οι σημαντικές υπολογιστικές απαιτήσεις τους συχνά περιορίζουν την πρακτική εφαρμογή τους. Η παρούσα εργασία διερευνά τη χρήση μικρής κλίμακας LLMs, συγκεκριμένα μοντέλων με 7 δισεκατομμύρια παραμέτρους και κβαντοποίηση 4-bit, για εργασίες διασταύρωσης οντοτήτων που μπορούν να εκτελεστούν με περιορισμένους υπολογιστικούς πόρους.
Εξετάζουμε διάφορες στρατηγικές προτροπής, συμπεριλαμβανομένων των προτροπών μηδενικών βημάτων, λίγων βημάτων και γενικού ορισμού αντιστοίχισης, με σκοπό να αξιολογήσουμε την αποτελεσματικότητά τους στη βελτίωση της ακρίβειας της διασταύρωσης οντοτήτων. Τα πειράματα διεξάγονται σε δύο σύνολα δεδομένων, Abt-Buy και Walmart-Amazon, τα οποία παρουσιάζουν διαφορετικά επίπεδα πολυπλοκότητας και πρόκλησης στις περιγραφές προϊόντων. Τα ευρήματά μας δείχνουν ότι τα μικρής κλίμακας LLMs μπορούν να εκτελέσουν αποτελεσματικά τη διασταύρωση οντοτήτων, με το μοντέλο Orca2 να ξεπερνά σταθερά τα άλλα σε διαφορετικές στρατηγικές προτροπής και σύνολα δεδομένων.
Η μελέτη υπογραμμίζει ότι η προτροπή λίγων βημάτων βελτιώνει σημαντικά την απόδοση σε σύγκριση με τις προσεγγίσεις μηδενικών βημάτων, τονίζοντας τη σημασία των παραδειγμάτων συγκεκριμένων εργασιών και του προσεκτικού σχεδιασμού προτροπών. Εξετάζουμε επίσης, την επίδραση της σειράς των παραδειγμάτων στις προτροπές λίγων βημάτων και διαπιστώνουμε ότι έχει σημαντική επίδραση στην απόδοση του μοντέλου. Επιπλέον, η εργασία έρχεται αντιμέτωπη με το πρόβλημα των περιορισμένων υπολογιστικών πόρων αποδεικνύοντας ότι η αποτελεσματική διασταύρωση οντοτήτων μπορεί να επιτευχθεί με μοντέλα περιορισμένων πόρων, καθιστώντας τις προηγμένες τεχνικές διασταύρωσης οντοτήτων πιο προσιτές για πρακτικές εφαρμογές.
(EL)
Entity matching is a fundamental task in data management, involving the identification and linking of records that refer to the same real-world entity across different datasets. While Large Language Models (LLMs) have shown promise in addressing complex natural language processing tasks, their substantial computational requirements often limit their practical applicability. This thesis investigates the use of small-scale LLMs, specifically models with 7 billion parameters and 4-bit quantization, for entity matching tasks executable on limited hardware.
We explore various prompting strategies, including zero-shot, few-shot, and general matching definition prompts, to evaluate their effectiveness in improving entity matching accuracy. Experiments are conducted on two benchmark datasets, Abt-Buy and Walmart-Amazon, which present varying levels of complexity and challenges in product descriptions. Our findings demonstrate that small-scale LLMs can effectively perform entity matching, with the Orca2 model consistently outperforming others across different prompting strategies and datasets.
The study highlights that few-shot prompting significantly enhances performance over zero-shot approaches, emphasizing the importance of task-specific examples and careful prompt design. We also examine the impact of example order in few-shot prompts and find that it has a substantial effect on model performance. Additionally, the work addresses hardware limitations by demonstrating that effective entity matching can be achieved with resource-constrained models, making advanced entity resolution techniques more accessible for practical applications.
(EN)