Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Αποθετήριο ΔΙ.ΠΑ.Ε.
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2017 (EL)
Plagiarism Detection in Text Collections (EN)

Kalampokis, Panagiotis (EN)

School of Science and Technology, MSc in Mobile and Web Computing (EL)
Papadopoulos, Apostolos (EN)
Gatzianas, Marios (EN)
Evangelidis, Georgios (EN)

The main purpose of this dissertation was to find an efficient way to compare a big corpus of document texts among them and check which of them have been subjected plagiarism. We conclude to the MinHash algorithm that is used most, for big data sets. The MinHash algorithm makes extensive use of Hashing functions so as to reduce the dimensionality space kept for the “useful” part of a document during the action of preprocessing, and estimates the probability, that two documents resemble each other with the LSH technique. (EN)

masterThesis

LSH (EN)
Plagiarism Detection (EN)
Big Data (EN)
Data Mining (EN)
MinHash (EN)

Διεθνές Πανεπιστήμιο της Ελλάδος (EL)
International Hellenic University (EN)

2017-03-24


IHU (EN)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.