Plagiarism Detection in Text Collections


Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Αποθετήριο ΔΙ.ΠΑ.Ε.
δείτε την καρτέλα τεκμηρίου
μέσα από τον ιστότοπο του αποθετηρίου του φορέα *
κοινοποιήστε το τεκμήριο

Σημασιολογικός εμπλουτισμός/ομογενοποίηση από το EKT

2017 (EL)
Plagiarism Detection in Text Collections (EN)

Kalampokis, Panagiotis (EN)

School of Science and Technology, MSc in Mobile and Web Computing (EL)
Papadopoulos, Apostolos (EN)
Gatzianas, Marios (EN)
Evangelidis, Georgios (EN)

The main purpose of this dissertation was to find an efficient way to compare a big corpus of document texts among them and check which of them have been subjected plagiarism. We conclude to the MinHash algorithm that is used most, for big data sets. The MinHash algorithm makes extensive use of Hashing functions so as to reduce the dimensionality space kept for the “useful” part of a document during the action of preprocessing, and estimates the probability, that two documents resemble each other with the LSH technique. (EN)


Plagiarism Detection (EN)
Big Data (EN)
Data Mining (EN)
MinHash (EN)

Διεθνές Πανεπιστήμιο της Ελλάδος (EL)
International Hellenic University (EN)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.