την παρούσα διπλωματική διατριβή μας απασχολεί η χρήση μεθόδων συσταδοποίησης ακόμα και για δεδομένα μεγάλου όγκου στο περιβάλλον της MATLAB όπου είναι αδύνατη η χρήση του k-means του Text Analytics Toolbox. Εξετάζουμε διαφορετικούς αλγορίθμους και υλοποιήσεις και ιδιαίτερα την ενδιαφέρουσα πρόσφατη πρόταση των Stephen R. Becker και Farhad Pourkamali-Anaraki που ονομάζεται Sparsified k-means. Αν και ο αλγόριθμος αυτός υπάρχει ήδη και επομένως η διπλωματική διατριβή δεν προσφέρει κάποια αλγοριθμική καινοτομία, δεν έχει δοκιμαστεί αρκετά και δεν έχει συνδυαστεί με το Text Analytics Toolbox και άλλες εργαλειοθήκες της MATLAB. Επομένως, πέραν της παρουσίασης της μεθόδου, ασχολούμαστε και με την ενσωμάτωσή της στην εργαλειοθήκη TMG που χρησιμοποιείται για την δημιουργία μητρώων όρων-κειμένων και την ανάκτηση πληροφορίας από κείμενα.