Knowledge extraction from river hydraulics databases

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2014 (EN)
Εξόρυξη γνώσης από βάσεις δεδομένων ποτάμιας υδραυλικής
Knowledge extraction from river hydraulics databases

Kitsikoudis, Vasileios
Κιτσικούδης, Βασίλειος

The study of river hydraulics is characterised from the channel loose boundaries that are continuously being modified and subsequently affect the flow and create a bidirectional operation, which is difficult to comprehend and model numerically. Mean flow velocity in an open channel is needed for numerous engineering applications, such as sediment transport calculation, risk analysis, numerical modeling, and flood estimation. In addition, hydraulic engineers and geologists have studied sedimenttransport in natural streams and rivers for centuries due to its importance in understanding river hydraulics. Erosion and deposition of sediment alters the hydraulic geometry of the channel and may cause increase of flood frequency as well as navigation problems from excessive deposition. Moreover, the discharge of industrial and agricultural residuals sets the sediment particles to be the primary transporters of toxic substances that contaminate aquatic systems. High sediment discharge peaks may be destructive for fish habitats and ecosystems, while long-term sediment yield affects the design and function of constructions such as dams and reservoirs, as well as the coastal erosion at the basin outlet.In problems where the knowledge of the physics seems to be inadequate, machine learning offers an attractive alternative since technological progress offers large databases of quality data from which, after the proper elaboration, predictive models can be generated with regression analysis. The recorded observations of a system can be further analyzed in the search for the information they encode. Such automated search for models, accurately describing data, constitutes a direction that can be identified as that of data mining. Data mining and knowledge discovery aim at providing tools to facilitate the conversion of data into a number of forms, such as equations, which can provide a better understanding of the process generating or producing these data. These models combined with the already available understanding of the physical processes result in an improved understanding and novel formulationsof physical laws and improved predictive capability (Babovic, 2000). While the selection of the proper independent variables that serve as inputs is a prerequisite for the proper usage of machine learning, the regression analysis model that is utilised is of significance as well. Witten et al. (2011) argued that the universal learner is an idealistic fantasy since experience has shown that no single machine learning technique is appropriate to all data mining problems due to the fact that certain classes of model syntax may be inappropriate as a representation of a physical system. Consequently, in the present doctoral thesis, four machine learning techniques are utilized, namely artificial neural networks (ANN), adaptive-network-based fuzzy inference system (ANFIS), symbolic regression (SR) based on genetic programming (GP), and support vector regression (SVR).The problems that are being studied in the present doctoral thesis concern the calculation of the mean flow velocity, separately for sand-bed and gravel-bed rivers due to certain differences in the flow resistance mechanisms, and the quantification of sediment transport. In sand-bed rivers, the estimated sediment transport refers to the bed-material load (bed load plus suspended load), while in gravel-bed rivers refers just to the bed load. Especially for the latter one, two different cases were investigatedseparately, namely the bed load based on a characteristic grain diameter, with the aid of all the aforementioned machine learning techniques, and the fractional bed load based on the grain diameters of the sediment mixture, with the aid of a custom-made ANN with multiple output neurons and partially connected neurons of the successive layers for the quantification of the hiding effect in the surface layer of a poorly sorted gravel bed. The training of the models, which calculate the bed-material load in sand-bed rivers, was accomplished by utilizing, separately, field data as well as flume data in order to investigate the transferability of a model that was developed in a controlled environment, with uniform flow and the minimum possible noise embedded in the retrieved measurements, and is expected to make predictions in natural streams and rivers. In addition, for the sediment transport calculation based on a single characteristic diameter, several input combinations were tested with the variables on which most of the existing sediment transport formulae rely, namely shear stress, stream power, and unit stream power, discriminating these combinations, without the need to set a criterion for the initiation of motion. All these combinations provided equally good results, with respect to the machine learning technique utilized, accentuating the importance of the regression analysis model.The exploited data originate from measurements in natural rivers and laboratory flumes and they are accommodated in large databases, which have been used in the past, and they continue to be utilized, from several researchers and they facilitate benchmark studies (Brownlie, 1981a; King et al., 2004; Rickenmann and Recking, 2011). These measurements are considered to be reliable for the specific problem; however, they inevitably contain a certain amount of noise, which machine learning techniques seem able to overlook, and produce reliable and robust models.The results obtained from these implementations are clearly superior to the respective ones of some of the widely used formulae for the calculation of flow resistance and sediment transport. From the machine learning techniques utilized, the better results were, consistently, derived from the ANNs followed by ANFIS and SVR, which usually performed equally well. The least good results were generated from the SR implementation, although in some cases SR produced very simple and parsimoniousexplicit formulae. In all cases, the cross validation technique was used and as a result the testing set was a truly independent set, which facilitated the assessment and comparison of the produced models. The derived models can be utilized in the region from where the training data were extracted or in similar rivers for the range of the training data, as the proper usage of data-driven techniques dictates.
Η Ποτάμια Υδραυλική χαρακτηρίζεται από τα μεταβλητά όρια των υδατορρευμάτων που διαρκώς τροποποιούνται και συνακόλουθα επηρεάζουν τη ροή και δημιουργούν μία αμφίδρομη σχέση που είναι δύσκολο να μοντελοποιηθεί. Η μέση ταχύτητα ροής σε έναν ανοιχτό αγωγό απαιτείται για πλήθος εφαρμογών Μηχανικού, όπως είναι η αριθμητική μοντελοποίηση, η ανάλυση επικινδυνότητας, η εκτίμηση της παροχετευτικής ικανότητας και ο υπολογισμός της στερεομεταφοράς. Ταυτόχρονα, το φαινόμενο της μεταφοράς φερτών υλών μελετάται εδώ και αιώνες τόσο από Υδραυλικούς Μηχανικούς όσο και από Γεωλόγους λόγω της σημασίας του στην κατανόηση της Ποτάμιας Υδραυλικής. Η διάβρωση και η πρόσχωση της κοίτης μεταβάλλουν τη γεωμετρία της υδραυλικής διατομής του υδατορρεύματος και μπορεί να προκαλέσουν αύξηση της πλημμυρικής συχνότητας, αλλά και προβλήματα στη ναυσιπλοία λόγω της υπερβολικής πρόσχωσης. Επιπλέον, η έκχυση βιομηχανικών και αγροτικών αποβλήτων σε υδατορρεύματα καθιστά τους κόκκους πρωταρχικούς φορείς τοξικών ουσιών που μολύνουν υδατικά συστήματα. Οι υψηλές στερεοπαροχές μπορεί να αποδειχθούν καταστροφικές για βιότοπους και οικοσυστήματα, ενώ η μακροχρόνια απόθεση φερτών υλών επηρεάζει το σχεδιασμό και τη λειτουργία κατασκευών, όπως φράγματα και ταμιευτήρες, αλλά και την παράκτια διάβρωση στην έξοδο της λεκάνης απορροής. Σε προβλήματα όπου η γνώση της Φυσικής του προβλήματος κρίνεται ανεπαρκής, η μηχανική μάθηση αποτελεί μία ελκυστική εναλλακτική μεθοδολογία, καθώς με την τεχνολογική πρόοδο υπάρχουν πλέον μεγάλες βάσεις ποιοτικών δεδομένων, από τις οποίες, με κατάλληλη επεξεργασία, μπορούν να προκύψουν μοντέλα παλινδρόμησης. Οι καταγεγραμμένες παρατηρήσεις ενός συστήματος μπορούν να αναλυθούν περαιτέρω ως προς τις πληροφορίες που περιέχουν. Αυτού του είδους η αυτοματοποιημένη αναζήτηση μοντέλων που περιγράφουν τα δεδομένα, αποτελεί την εξόρυξη δεδομένων, η οποία στοχεύει στην παροχή εργαλείων που επιτρέπουν τη μετατροπή των δεδομένων σε άλλη μορφή, όπως εξισώσεις, που βοηθούν στην κατανόηση των διεργασιών που τα δημιουργούν. Τα μοντέλα αυτά σε συνδυασμό με την υπάρχουσα αντίληψη των φυσικών διεργασιών του υπό μελέτη φαινομένου συντελούν στη βελτιωμένη κατανόηση αυτού, στη δημιουργία νέων διατυπώσεων των φυσικών νόμων και στη βελτίωση της ικανότητας πρόβλεψης (Babovic, 2000). Η επιλογή των μεταβλητών εισόδου είναι πρωταρχικής σημασίας για την αξιοποίηση των δυνατοτήτων μιας τέτοιας τεχνικής, ωστόσο, και η επιλογή της ίδιας της τεχνικής παλινδρόμησης είναι εξίσου σημαντική. Οι Witten et al. (2011) θεωρούν ότι ένα μοντέλο μηχανικής μάθησης που μπορεί να ανταποκριθεί σε όλων των ειδών τα προβλήματα, αποτελεί μία ιδεαλιστική φαντασίωση, όπως έχει δείξει άλλωστε και η εμπειρία, καθώς η δομή και η σύνταξη κάποιων μοντέλων μηχανικής μάθησης δεν μπορούν να αποτυπώσουν ορισμένα φυσικά συστήματα. Συνεπώς, στην παρούσα διδακτορική διατριβή χρησιμοποιούνται τέσσερις τεχνικές μηχανικής μάθησης: τα τεχνητά νευρωνικά δίκτυα (artificial neural networks - ANN), τα ασαφή συμπερασματικά συστήματα βασιζόμενα σε προσαρμοστικά δίκτυα (adaptive-network-based fuzzy inference system - ANFIS), η συμβολική παλινδρόμηση (symbolic regression - SR), η οποία βασίζεται στο γενετικό προγραμματισμό (genetic programming - GP) και η παλινδρόμηση με μηχανές διανυσμάτων υποστήριξης (support vector regression - SVR). Τα προβλήματα που μελετώνται στην παρούσα διδακτορική διατριβή, αφορούν τον υπολογισμό της μέσης ταχύτητας ροής, ξεχωριστά για υδατορρεύματα με αμμώδη και χαλικώδη πυθμένα λόγω ορισμένων διαφορών στο μηχανισμό αντίστασης στη ροή, και τον υπολογισμό της στερεομεταφοράς. Η στερεομεταφορά που μελετάται, αφορά την ποσοτικοποίηση του στερεοφορτίου πυθμενικού υλικού (δηλαδή στερεοφορτίο κοίτης και αιωρούμενο στερεοφορτίο) σε υδατορρεύματα με αμμώδη πυθμένα και του στερεοφορτίου κοίτης σε υδατορρεύματα με χαλικώδη πυθμένα. Ειδικότερα για την τελευταία περίπτωση, διερευνήθηκαν οι περιπτώσεις υπολογισμού της στερεοπαροχής βάσει μίας χαρακτηριστικής διαμέτρου κόκκου, με τη χρήση όλων των προαναφερόμενων τεχνικών μηχανικής μάθησης. Επίσης, για κάθε μέγεθος κόκκου που απαντάται στο στερεοφορτίο, διερευνήθηκε η δυνατότητα υπολογισμού της κλασματικής μεταφοράς φερτών υλών με τη χρήση ενός ANN πολλαπλών εξόδων και με επιλεκτικές συνδέσεις μεταξύ των νευρώνων των διαφόρων στρώσεων του δικτύου για την ποσοτικοποίηση του φαινομένου της απόκρυψης στην επιφανειακή στρώση του πυθμένα. Για την εκπαίδευση των μοντέλων που υπολογίζουν το στερεοφορτίο πυθμενικού υλικού σε αμμώδη υδατορρεύματα, έγιναν δοκιμές τόσο με δεδομένα πεδίου όσο και με δεδομένα που προέκυψαν από πειράματα σε εργαστηριακούς αγωγούς, για να εξεταστεί η δυνατότητα μεταφοράς ενός μοντέλου που εκπαιδεύτηκε σε ελεγχόμενο περιβάλλον με ομοιόμορφη ροή και τον ελάχιστο δυνατό θόρυβο και καλείται να κάνει εκτιμήσεις στερεομεταφοράς σε φυσικά υδατορρεύματα. Επιπρόσθετα, για τον υπολογισμό της στερεοπαροχής βάσει μίας χαρακτηριστικής διαμέτρου κόκκου, δοκιμάστηκαν διάφοροι συνδυασμοί μεταβλητών εισόδου που διαφοροποιούνται από τη χρήση της συρτικής τάσης, της ισχύος του υδατορρεύματος και της μοναδιαίας ισχύος του υδατορρεύματος, δηλαδή τις μεταβλητές στις οποίες στηρίζονται οι περισσότερες υπάρχουσες εξισώσεις υπολογισμού στερεοπαροχής, χωρίς την ανάγκη να τεθεί ένα κριτήριο για την έναρξη της κίνησης των κόκκων. Τα μοντέλα που προέκυψαν, παρήγαγαν εξίσου καλά αποτελέσματα, ανάλογα με τη χρησιμοποιούμενη τεχνική, τονίζοντας τη σημαντικότητα του μοντέλου ανάλυσης παλινδρόμησης. Τα δεδομένα που χρησιμοποιούνται, προέρχονται από μετρήσεις σε φυσικά υδατορρεύματα και εργαστηριακούς αγωγούς και είναι κατανεμημένα σε βάσεις δεδομένων, οι οποίες έχουν χρησιμοποιηθεί κατά το παρελθόν, και εξακολουθούν να χρησιμοποιούνται, από διάφορους ερευνητές και προσφέρονται για συγκρίσεις (Brownlie, 1981a; King et al., 2004; Rickenmann and Recking, 2011). Οι μετρήσεις θεωρούνται αξιόπιστες για τη φύση του προβλήματος που μελετάται, ωστόσο, αναπόφευκτα ενσωματώνουν θόρυβο, τον οποίο όμως οι τεχνικές μηχανικής μάθησης είναι σε θέση να υπερκεράσουν και να παράγουν αξιόπιστα και αποδοτικά μοντέλα. Τα αποτελέσματα που προκύπτουν από τις παραπάνω εφαρμογές, είναι σαφώς ανώτερα από τα αντίστοιχα ορισμένων από τις ευρέως χρησιμοποιούμενες εξισώσεις υπολογισμού αντίστασης στη ροή και στερεοπαροχής. Από τις τεχνικές μηχανικής μάθησης, τα καλύτερα αποτελέσματα προέκυψαν από τα ANNs, ακολουθούμενα από τα ANFIS και SVR που συνήθως απέδιδαν εξίσου καλά. Τα λιγότερο καλά αποτελέσματα προέκυψαν από την εφαρμογή της SR, αν και σε ορισμένες περιπτώσεις παρήγαγαν πολύ απλές και κατανοητές εξισώσεις. Σε όλες τις περιπτώσεις χρησιμοποιήθηκε η τεχνική της διασταυρούμενης επικύρωσης, έτσι ώστε το σύνολο ελέγχου να είναι ένα πραγματικά ανεξάρτητο σύνολο που θα διευκολύνει την αξιολόγηση των παραγόμενων μοντέλων. Τα τελικά μοντέλα μπορούν να χρησιμοποιηθούν για σχετικές εκτιμήσεις στις περιοχές μελέτης όπου εκπαιδεύτηκαν, ή σε υδατορρεύματα με παρόμοια χαρακτηριστικά, με τις τιμές των μεταβλητών εισόδου να βρίσκονται μέσα στο εύρος των δεδομένων εκπαίδευσης, όπως ορίζει η ορθή μοντελοποίηση με τεχνικές μηχανικής μάθησης.

Μεταφορά φερτών υλών
River hydraulics
Ποτάμια υδραυλική
Sediment transport

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Greek

2014


Democritus University of Thrace (DUTH)
Δημοκρίτειο Πανεπιστήμιο Θράκης (ΔΠΘ)



*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)