Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

 
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2008 (EN)
Statistical multivariate methods of analysis of data from biological texts and ontodologies
Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

Θεοδοσίου, Θεοδόσιος Γ.

Η διατριβή εντάσσεται στο γενικότερο χώρο της εξόρυξης και ανάλυσης πληροφοριών από βιολογικά κείμενα με χρήση στατιστικών μεθοδολογιών και αλγόριθμων. Ειδικότερα η έρευνα κινείται σε 3 άξονες, α)στην ανάθεση ενός όρου γονιδιακής οντολογίας σε ένα κείμενο με βάση μεθόδους και μοντέλα κατάταξης, όπως η Linear Discriminant Analysis LDA, Support Vector machines, SVM & H Multinomial Logistic Regressions MLR. H LDA αποδείχθηκε αποτελεσματικότερη, β)χρήση της Non Linear Canonical Correlation Analysis, NLCCA, για ποσοτικοποίηση της μη γραμμικής συσχέτισης μεταξύ των λέξεων των κειμένων, των όρων της γονιδιακής οντολογίας και των όρων της Medical Subject headings, MESH,Οντολογίας. Αντικατάσταση των τριών συνόλων με ένα νέο λιγότερων μεταβλητών, γ)μεθοδολογία ομαδοποίησης κειμένων με βάση το στοχαστικό αλγόριθμο Markov Clustering Algorithm, MCL και παράσταση των αποτελεσμάτων σε διαδραστικό 2Δ ή 3Δ περιβάλλον
The research involves text mining of biological texts using statistical methods of classification and clustering. The classification involves the use of Linear Discriminant Analysis, LDA, Support Vector Machines, SVA and Multinomial Logistic Regression, MLR, LDA was found to perform the best. Non Linear Canonical Correlation, Analysis, NLCCA was also used in order to describe the information of the words of the texts, their gene ontology and Medical Subject Headings with only one dataset, with reduced number of variables. The clustering was based on a stohastic algorithm, namely Markov clustering(MCL) and represented the results to the end user in a 2d or 3d environment

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Statistical multivariate methods
Βιολογικές οντολογίες
Biological texts
Data mining
Clustering
Εξόρυξη δεδομένων
Στατιστική πολυμεταβλητή ανάλυση
Biological ontologies
Τεχνητή νοημοσύνη
Classification
Βιολογικά κείμενα
Artificial intelligence
Ομαδοποίηση
Κατηγοριοποίηση

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Greek
English

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)