Αυτοματοποιημένα εργαλεία εξόρυξης βιο-γεωδεδομένων μέσω μεθόδων εξελικτικής κατάτμησης χρονοσειρών

dc.contributor.advisor	Τσιλιγκιρίδης, Θεόδωρος	el
dc.contributor.author	Γκλεζάκος, Θωμάς Ι.	el
dc.date.issued	2012-09-28
dc.identifier.uri	http://hdl.handle.net/10329/5054
dc.description.abstract	Η διαδικασία προτυποποίησης ποικίλων προβλημάτων έχει σε πλείστες όσες περιπτώσεις βασιστεί στη χρήση ιστορικών πληροφοριών. Η πρακτική αυτή στηρίζεται στην παραδοχή ότι κατανεμημένες μετρήσεις\footnote{Ο όρος κατανεμημένες αναφέρεται στη χρονική επανάληψη των μετρήσεων, η οποία καθορίζεται από συγκεκριμένο κάθε φορά σταθερό ή μεταβλητό βήμα εκτέλεσης.} παρελθόντων διαδικασιών είναι ικανές να προσφέρουν σημαντική εισροή δεδομένων για την πιστή αναπαραγωγή των φαινομένων που μελετώνται. Έτσι, η ταυτοποίηση, ο χειρισμός και η προτυποποίηση μη γραμμικών δυναμικών συστημάτων που περιγράφονται από δεδομένα με τη μορφή ακολουθίας τιμών χρονικά κατανεμημένων, απέκτησε ιδιαίτερη σημασία. Πράγματι, η έρευνα σε αυτό το πεδίο στοχεύει κυρίως στην προτυποποίηση του μηχανισμού που είναι υπεύθυνος για την παραγωγή αυτών των δεδομένων. Ένας τυπικός μηχανισμός τέτοιων δεδομένων αποθηκεύει μετρήσεις κατά διαδοχικά και σταθερά χρονικά διαστήματα παράγοντας ακολουθίες τιμών, γνωστές ως χρονοσειρές, κάθε μία από τις οποίες αντιστοιχεί σε δεδομένη κατηγορία ή τιμή. Ένα σημαντικό πρόβλημα που ανακύπτει κατά την ανάλυση μεγάλων συνόλων δεδομένων χρονοσειρών, τόσο από άποψη διαστατικότητας, όσο και από άποψη μεγέθους, σχετίζεται με την επιλογή ενός αντιπροσωπευτικού υποσυνόλου των αρχικών δεδομένων. Εκ των προτέρων επεξεργασία της χρονοσειράς για την απόκτηση ενός αντιπροσωπευτικού δευτερογενούς υποσυνόλου όχι μόνο μειώνει δραστικά το συνολικό χρόνο επεξεργασίας, αλλά επίσης λειτουργεί ως μια διεργασία ομαλοποίησης της αρχικής πληροφορίας για την απομάκρυνση ανεπιθύμητων μη συστηματικών συνιστωσών\footnote{Ως μη συστηματικό τμήμα της χρονοσειράς νοείται ο διαταρακτικός όρος που εκφράζει το σφάλμα (θόρυβο) το οφειλόμενο σε αποκλίσεις στις μετρήσεις εξαιτίας αστοχίας του οργάνου μέτρησης ή σε άλλες τυχαίες συνθήκες που επικρατούν σε συγκεκριμένο χρόνο. Οι διαταραχές αυτές είναι σε κάποιες περιπτώσεις στιγμιαίες και εμφανίζονται με τη μορφή παλμών μεγάλου ή μεσαίου εύρους, ενώ σε άλλες περιπτώσεις εισέρχονται σε μεγαλύτερο βάθος στα δομικά στοιχεία της χρονοσειράς επηρεάζοντας την τάση και κατεύθυνσή της σε μεγαλύτερο ή μικρότερο βαθμό.} που δυσκολεύουν την αναλυτική διαδικασία. Οι περισσότερες παραδοσιακές μέθοδοι προ-επεξεργασίας χρονοσειρών, όπως είναι για παράδειγμα η τμηματοποίηση κατά μήκος του άξονα των χρόνων για ταχεία απόκριση, η μη-γραμμική κανονικοποίηση για να δοθεί έμφαση σε σημαντικά τμήματα της πληροφορίας, η εξαγωγή μέσων όρων για αντιμετώπιση των επιπτώσεων του θορύβου, η μείωση του αριθμού των δειγμάτων για την υλοποίηση αποτελεσματικότερων δικτύων, περιλαμβάνουν στατιστικές μεθόδους, όπως δειγματοληπτικές τεχνικές ή διαδικασίες κινούμενου μέσου, οι οποίες χειρίζονται την αρχική πληροφορία με παράθυρα σταθερού μήκους. Στην παρούσα εργασία περιγράφεται ο σχεδιασμός, η ανάπτυξη και η εφαρμογή μιας καινοτόμου μεθόδου ελέγχου του βαθμού διάστασης χρονοσειρών, με τη χρήση εργαλείων υπολογιστικής νοημοσύνης. Ο αλγόριθμος που προτείνεται επιτρέπει την παραγωγή περισσότερο προσαρμοσμένων δευτερογενών δεδομένων, αφού προηγουμένως έχει προ-επεξεργασθεί την αρχική χρονοσειρά με εξελικτικό τρόπο με στόχο τη μείωση της διάστασής της και την παράλληλη διατήρηση της δομής των αρχικών δεδομένων παρά τη μεγάλου εύρους εξομάλυνσή τους. Η όλη διαδικασία υλοποιείται με την ανάπτυξη ενός προσαρμοστικού αναλυτικού εργαλείου εξελικτικής φύσης με τη χρήση των Γενετικών Αλγορίθμων, των Τεχνητών Νευρωνικών Δικτύων και των Μηχανών Διανυσμάτων Υποστήριξης. Το προτεινόμενο εργαλείο δοκιμάστηκε στη λύση δύο προβλημάτων. Η πρώτη μελέτη περιλαμβάνει την περίπτωση ταυτοποίησης φυτικών ϊών. Είναι γενικά παραδεκτό ότι η ανάλυση χρονοσειρών είναι ιδιαίτερα σημαντική για τη φυτοπαθολογία και την ιολογία, ειδικά όσον αφορά την ταυτοποίηση ιών, η οποία στις περισσότερες περιπτώσεις υλοποιείται μέσω αξιολόγησης τέτοιου είδους δεδομένων. Στην πρώτη αυτή περίπτωση, η οποία είναι ουσιαστικά ένα πρόβλημα ταξινόμησης, δεδομένα παραγόμενα με τη μέθοδο της Βιοηλεκτρικής Αναγνώρισης (Bioelectric Recognition Assay BERA) χρησιμοποιήθηκαν για την ανίχνευση και την τελική ταξινόμηση φυτικών ιών και συγκεκριμένα των ιών του κροταλίσματος του καπνού (TRV: \textit{Tobacco Rattle Virus}) και της πράσινης ποικιλοχλώρωσης με μωσαϊκό της αγγουριάς (CGMMV: \textit{Cucumber Green Mottle Mosaic Virus}). Η μέθοδος εισάγει τη χρήση κατάλληλα προεπεξεργασμένων οργανικών αντιδραστηρίων ως αισθητηρίων στοιχείων. Μετά την αντίδραση με τους εν λόγω βιο-αισθητήρες, καθένας από τους ιούς εκθέτει μοναδιαία πρότυπα αισθητηριακής απόκρισης επί ενός ευρέως φάσματος συγκεντρώσεων, καθιστώντας τις αποκρίσεις αυτές ως συγκεκριμένο χαρακτηριστικό ιδίωμα κάθε ιού. Κάθε τέτοιου είδους υπογραφή είναι ουσιαστικά μια γραφική παράσταση βιο-ηλεκτρικών αποκρίσεων στη μονάδα του χρόνου, η οποία χρησιμοποιείται στην ανίχνευση και ταυτοποίηση εκάστου ιού. Το δεύτερο πρόβλημα στο οποίο εφαρμόσθηκε η μέθοδος σχετίζεται με τη διαχείριση ορεινών υδατικών αποθεμάτων. Τα δεδομένα εισόδου προέρχονται από το νησί της Κύπρου και περιλαμβάνουν δομικά και δυναμικά στοιχεία στα οποία βασική επίδραση ασκούν τα μηνιαία υδατώδη κατακρημνίσματα. Στην περίπτωση αυτή τα αρχικά δεδομένα, που καλύπτουν ένα μεγάλο χρονικό εύρος, ελήφθησαν από μετεωρολογικές βάσεις δεδομένων βροχόπτωσης που ενημερώνονταν από σταθμούς τοποθετημένους σε λεκάνες απορροής διάσπαρτες σε όλο το υδρογραφικό σύστημα του νησιού. Απώτερος σκοπός της έρευνας αποτελεί η ανάπτυξη ενός συστήματος για τον προσδιορισμό της Μέσης Ετήσιας Παροχής Ύδατος (AAWS: Average Annual Water Supply) σε ετήσια βάση για κάθε ορεινή λεκάνη απορροής.	el
dc.description.abstract	Decision making has in many cases engaged time series historical information. This is often used as an exemplification paradigm, on the grounds that past orderly measurements should be able to give enough input so as to reproduce the phenomenon in question. Thus, the identification, manipulation and modelling of non-linear dynamic systems incorporating time series information has become of crucial importance. In fact, most research on such information seeks to reveal the necessity to uncover the mechanism which is responsible for the production of the data. A typical generator of this kind of record-sets utilizes a sequence of vectors, measured at successive constant time intervals. Each vector either corresponds to a given class or a value, the distribution of which describes the phenomenon in question. An important problem arising while analyzing large time series data sets, both in dimension and size, relates to the proper selection of a subset of the original features. Preprocessing the time series to obtain a representative meta-data set not only significantly reduces computational time, but also functions as a smoothing technique to weed out possible non systematic portions of the initial information, which may, in an extent, inhibit the analytical process. Conventional methods of time series data preprocessing, such as segmentation along the time axis for fast response, nonlinear normalization to emphasize significant information, averaging samples of the plant virus waves to suppress noise effects, reduction in the number of samples to realize a more compact network, include descriptive statistical methods such as re-sampling techniques or moving average procedures, both of which manipulate the initial information in a fixed width fashion. On the other hand, time series analysis plays an important role for phytopathology and virology, especially as regards to virus identification, which is made possible due to time series assessment. The design, development and implementation of an innovative method is described in this manuscript, aiming to overcome the limitations posed by the fixed width of the analytical tools. The algorithm allows for the production of effective secondary data, after having preprocessed the original time series information in an evolutionary fashion. Thus, it drastically reduces the size of the raw data table to more compact sets of cases and, at the same time, retaining all the crucial information of the initial time-series. This is achieved by the development of analytical tools of evolutionary adaptive width, propelled by Genetic Algorithms, Artificial Neural Networks and Support Vector Machines. The proposed methodology was applied for the solution of two problems. In the first case, essentially a classification problem, the Bioelectric Recognition Assay (BERA) method was engaged so as to provide information used in the detection and identification of certain plant viruses, namely the \textit{Tobacco Rattle Virus} (TRV) and the \textit{Cucumber Green Mottle Mosaic Virus} (CGMMV), using appropriately preprocessed reagents as the sensing elements. While reacting to the biosensors, each of the viruses in question exhibit unique patterns of biosensor responses over specific ranges of concentrations, rendering these responses as a special characteristic for each virus, a real identification signature. Each signature is in essence a graphical curve of bioelectrical responses in the time unit, a time series data set, which should be identified as a characteristic for each virus and effectively classified. The second problem on which the method was applied relates to the management of water reservoirs. The island of Cyprus was elected as the study area, while the inputs of the problem include structural and dynamic data, in which monthly precipitation particles play a distinct role. In this case, the time series information originated from the historical monthly rainfall data measured at certain watershed stations for a wide temporal period. The issue here was to develop a methodology for the production of evolutionary training/testing data, in order to achieve an effective estimation of the Average Annual Water Supply (AAWS) index on an annual basis, for each mountainous watershed of Cyprus.	en
dc.language.iso	el	el
dc.subject	Τεχνητή νοημοσύνη	el
dc.subject	Υπολογιστική νοημοσύνη	el
dc.subject	Φυτικοί ιοί	el
dc.subject	Τεχνητά νευρωνικά δίκτυα	el
dc.subject	Μηχανές διανυσμάτων υποστήριξης	el
dc.subject	Γενετικοί αλγόριθμοι	el
dc.subject	Χειμαρρική επικινδυνότητα	el
dc.subject	Ορεινές λεκάνες απορροής	el
dc.subject.lcsh	Time-series analysis	en
dc.subject.lcsh	Plant viruses -- Identification	en
dc.subject.lcsh	Watersheds -- Mathematical models	en
dc.subject.lcsh	Support vector machines	en
dc.subject.lcsh	Neural networks (Computer science)	en
dc.subject.lcsh	Genetic algorithms	el
dc.subject.lcsh	Computational intelligence	en
dc.title	Αυτοματοποιημένα εργαλεία εξόρυξης βιο-γεωδεδομένων μέσω μεθόδων εξελικτικής κατάτμησης χρονοσειρών	el
dc.type	Διδακτορική εργασία	el
dc.contributor.department	ΓΠΑ Γενικό Τμήμα	el