Development and evaluation of data mining models for air quality prediction in Athens

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2008 (EL)
Ανάπτυξη και αξιολόγηση μοντέλων εξόρυξης δεδομένων για την πρόβλεψη της ποιότητας της ατμόσφαιρας στην Αττική
Development and evaluation of data mining models for air quality prediction in Athens

Ρήγα, Μαρίνα Κωνσταντίνου

Η μοντελοποίηση του φαινομένου της ατμοσφαιρικής ρύπανσης και η πρόβλεψη των επιπέδων συγκέντρωσης των ρύπων του αέρα σε αστικές περιοχές, συνθέτουν τον πυρήνα λειτουργικότητας ενός Συστήματος Διαχείρισης Ποιότητας της Ατμόσφαιρας. Τα συστήματα αυτά πρέπει να είναι ικανά να διαχειριστούν, με ακριβή και αυτοματοποιημένο τρόπο, πλήθος διαφορετικών μετρήσεων και σύνθετων ποιοτικών χαρακτηριστικών (όπως συγκεντρώσεις ρύπων, πηγές εκπομπής αυτών, φυσικές και χημικές αντιδράσεις, περιοδικότητα φαινομένων, μετεωρολογικά δεδομένα, τοπογραφία περιοχής κ.ά.), με σκοπό την εξαγωγή και ανάλυση χρήσιμων πληροφοριών για τη στήριξη λήψης αποφάσεων. Η χρησιμότητα των Περιβαλλοντικών Πληροφοριακών Συστημάτων έγκειται στις άμεσα αξιοποιήσιμες πληροφορίες που παρέχουν προς κυβερνητικούς φορείς και πολίτες, μέσα από τη δυνατότητα παρακολούθησης του φαινομένου της ατμοσφαιρικής ρύπανσης, βραχυχρόνιας πρόβλεψης των περιβαλλοντικών συνθηκών και έγκαιρης ενημέρωσης.Ένα σύστημα μοντελοποίησης της ποιότητας της ατμόσφαιρας πρέπει να αναλύει κατάλληλα το σύνολο των αρχικών δεδομένων εκπαίδευσής του και να «μαθαίνει» δυναμικά, μέσα από την πρότερη γνώση ή τα νέα δεδομένα που αποκτά, ώστε να βελτιστοποιεί προοδευτικά την ακρίβεια στην απόδοση των προβλέψεών του. Η πολυπλοκότητα των περιβαλλοντικών δεδομένων, η μη‐γραμμικότητα των συσχετίσεων μεταξύ τους, οι απαιτήσεις για υπολογιστική αποτελεσματικότητα και για δυναμική εκμάθηση, είναι σημαντικά κριτήρια που πρέπει να ληφθούν υπόψη για την ορθή επιλογή των μεθοδολογιών που θα υποστηρίξουν την ανάπτυξη αποδοτικών μοντέλων πρόβλεψης.Το βασικό αντικείμενο της παρούσας διπλωματικής εργασίας είναι η διερεύνηση της απόδοσης αλγορίθμων εξόρυξης δεδομένων σε προβλήματα μοντελοποίησης της ατμοσφαιρικής ρύπανσης και πραγματοποίησης βραχυχρόνιων προβλέψεων. Υιοθετήθηκε πλήθος διαφορετικών μεθόδων εξόρυξης δεδομένων για την ποιοτική πρόβλεψη των επιπέδων συγκέντρωσης των ατμοσφαιρικών ρύπων ή την ποσοτική πρόβλεψη των τιμών τους σε επόμενες χρονικές στιγμές, κάθε μια από τις οποίες υλοποιείται μέσω αλγορίθμων ταξινόμησης ή παλινδρόμησης αντίστοιχα. Τα μοντέλα πρόβλεψης εκπαιδεύτηκαν και αξιολογήθηκαν με βάση πραγματικές ατμοσφαιρικές και μετεωρολογικές μετρήσεις, σε πέντε περιοχές της Αττικής.Η απόδοση των αλγορίθμων εξόρυξης δεδομένων κρίνεται συνήθως βάσει δεικτών που υπολογίζουν την ακρίβεια των αποτελεσμάτων πρόβλεψης, το επίπεδο των σφαλμάτων και τον βαθμό σημαντικότητάς τους. Συνεπώς, επιπρόσθετο μέλημα στην παρούσα διπλωματική, ήταν η αξιολόγηση της ποιότητας των αποτελεσμάτων, με μεθοδικό τρόπο, ώστε να εξευρεθεί ο βέλτιστος αλγόριθμος ή να οριστεί μια ομάδα αλγορίθμων, που αποδεδειγμένα διαφέρει σημαντικά στην απόδοση των μοντέλων εξόρυξης δεδομένων που αναπτύσσει, έναντι των υπολοίπων.Η μεθοδολογία αξιολόγησης των αλγορίθμων και ανάλυσης των αποτελεσμάτων σχεδιάστηκε και πραγματοποιήθηκε σε πολλαπλά επίπεδα, τόσο ως προς τις μετρικές αξιολόγησης όσο και ως προς το σύνολο των παραμέτρων εκπαίδευσης. Σε κάθε βήμα χρησιμοποιήθηκαν κατάλληλοι στατιστικοί έλεγχοι, ενισχύοντας έτσι την εγκυρότητα των τελικών συμπερασμάτων.Τα πειραματικά αποτελέσματα έδειξαν υψηλά ποσοστά ορθών προβλέψεων, στο σύνολο των σταθμών μέτρησης, ικανοποιητικές τιμές σε εξειδικευμένες μετρικές που υπολογίστηκαν, και σαφή συμπεράσματα στο διαχωρισμό των σημαντικά καλύτερων αλγορίθμων εξόρυξης δεδομένων για τη δημιουργία μοντέλων πρόβλεψης της ποιότητας της ατμόσφαιρας μεταγενέστερων στιγμών.
The process of modeling air pollution and predicting concentration levels of air pollutants in urban areas, composes the core utility of an Air Quality Management System. These systems should be capable of managing, in a precise and automated way, a vast amount of different measurements and complex qualitative characteristics (such as concentration values of air pollutants, emission sources, physical and chemical reactions, occurrence of periodicity, meteorological data, topography of the area etc.), aiming at extracting and analyzing useful information for the support of decision making. The value of Environmental Information Systems lies in the accurate and useful knowledge they provide to governmental entities and citizens, through their capabilities of air pollution observation, short term forecasting of environmental conditions and ontime information provision.An air quality modeling system should be able to properly analyze the initial training data set and dynamically learn through previously obtained knowledge or newly entered data, in order to progressively optimize the accuracy of its predictions. The complexity of environmental data and the nonlinearity of their correlations, in addition to the demands for computational efficiency and dynamic learning, are the most important parameters that should be taken into account, for the development of efficient predictive models.The basic objective of this diploma thesis is the investigation of the potential of data mining algorithms in air pollution modeling and short term forecasting problems. Various data mining methods were adopted, for the qualitative forecasting of concentration levels of air pollutants, or the quantitative prediction of their values, through the implementation of different classification or regression algorithms respectively. The predictive models were trained and evaluated, by the use of real atmospheric and meteorological measurements from five stations in the greater Athens area.The effectiveness of data mining algorithms is usually evaluated using indexes of prediction accuracy, estimated error and their significance level. Thus, an additional aim of this diploma thesis, was the systematic assessment of the quality of results, in order to discover the best performing algorithm or a set of algorithms that is proved to be significantly different from its rivals, in terms of performance of the developed data mining models.The evaluation methodology of this thesis was designed and implemented in multiple levels, both in terms of test metrics and sets of training parameters. Appropriate statistical tests were adopted in each step of the methodology, thus reinforcing the validity of the final conclusions.The experimental results showed high percentages of correct classifications in the set of monitoring stations, satisfactory values for domain specific calculated metrics, and clear conclusions as far as the determination of significantly best performing algorithms is concerned, for the development of air quality prediction models.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Πρόγνωση ποιότητας της ατμόσφαιρας
Air quality prediction
Air quality forecasting
Πρόγνωση όζοντος
Data mining
Αξιολόγηση ατμοσφαιρικών μοντέλων
Atmospheric model evaluation
Εξόρυξη δεδομένων

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Διαπανεπιστημιακό Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών, Προηγμένα Συστήματα Υπολογιστών και Επικοινωνιών

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.