Η Βιοτεχνολογία αποτελεί τον κατ’ εξοχήν κλάδο εφαρμογών της βιολογικής
γνώσης. Οι εφαρμογές εμπλέκουν γνώση από άλλα πεδία ή επιστήμες,
δημιουργώντας νέους κλάδους, με νέους στόχους. Παράδειγμα αποτελεί η
Βιοπληροφορική, που αναλαμβάνει να οργανώσει και να διαχειριστεί το
πληροφοριακό πλούτο των βιολογικών πειραμάτων, καθώς και να εντάξει στο
βιολογικό πλαίσιο εργαλεία, μεθόδους, αλλά και τη νοοτροπία της Πληροφορικής.
Ένα τέτοιο σύνολο εργαλείων και μεθόδων αποτελεί η Εξόρυξη από Δεδομένα, η
οποία αναπτύσσει τη δυναμική της κυρίως στο πλαίσιο της Βιολογίας
Συστημάτων.
Η παρούσα εργασία αποτελεί μια προσπάθεια εισαγωγής στις έννοιες, στις
διαδικασίες και στις δυνατότητες της Εξόρυξης από Δεδομένα, τόσο ως προς το
θεωρητικό υπόβαθρο όσο και ως προς τη τρέχουσα ερευνητική εφαρμογή της.
Ως
εκ
τούτου
αποτελεί
μια
εμπλουτισμένη
θεωρητικά
βιβλιογραφική
ανασκόπηση.
Αρχικά, γίνεται μια σκιαγράφηση του εύρους εφαρμογών τις οποίες
αναπτύσσουν οι κλάδοι της Βιοτεχνολογίας και Βιοπληροφορικής, καθώς και οι
προεκτάσεις τους μέσω της Βιολογίας Συστημάτων. Παράλληλα, παρουσιάζονται
και τα πρώτα προβλήματα ή σκοτεινά πεδία που φέρνουν στο φως οι νέες
τεχνολογίες. Προβλήματα διαχείρισης, απεικόνισης ή διαλογής μεγάλου όγκου
δεδομένων σχετίζονται σε πληροφοριακό επίπεδο με μεθοδολογίες Ταξινόμησης,
Αναγνώρισης Συστάδων ή μοτίβων γενικότερα, καθώς και Εύρεσης Κανόνων
Συσχέτισης.
Αφού γίνει μια περιεκτική παρουσίαση και ορισμός των βασικών εννοιών του
Δεδομένου και της Δομής Δεδομένων, που βρίσκονται στον πυρήνα της
Εξόρυξης από Δεδομένα, επιχειρείται μια αναλυτική παρουσίαση των βασικών
κατηγοριών Εξόρυξης. Έτσι αναλύονται οι επιμέρους τεχνικές για κάθε κατηγορία
Ταξινόμησης, Αναγνώρισης Συστάδων και Εύρεσης Κανόνων Συσχέτισης, σε
λειτουργικό επίπεδο χωρίς δημοσιευμένα παραδείγματα. Επιπροσθέτως, και
αφού παρουσιαστούν οι τεχνικές, γίνεται και η σύνδεσή τους με το πεδίο της
5Εξόρυξης
από
Κείμενο,
που
αποτελεί
κλάδο
αιχμής
κυρίως
για
την
αυτοματοποιημένη διαχείρισης της επιστημονικής βιβλιογραφίας.
Τέλος, παρουσιάζονται παραδείγματα τεχνικών και αποτελέσματα από τη
σύγχρονη βιβλιογραφία (2009-2017). Στην πλειονότητα των δημοσιεύσεων
αυτών η διαδικασία Εξόρυξης έχει μερικό ή επικουρικό ρόλο. Η παρουσίαση των
δημοσιεύσεων χωρίζεται βάσει του είδους των δεδομένων στα οποία έγινε η
Εξόρυξη, τα οποία διακρίνονται σε πρωτεομικά, χημικο-γονιδιακά ή δεδομένα
μικρο-συστοιχιών, ενώ γίνεται και μια ξεχωριστή κατηγοριοποίηση για της
δημοσιεύσεις που επιστράτευσαν τεχνικές Ενσωματωμένης Εξόρυξης σε
περιεχόμενο
κειμένου.
Από
την
κάθε
δημοσίευση
παρουσιάζονται
τα
σημαντικότερα αποτελέσματα που αφορούν στην Εξόρυξη από Δεδομένα, και
συγκεκριμένα σχηματικές απεικονίσεις των δεδομένων ή των διαδικασιών τις
οποίες υπέστησαν κατά την επεξεργασία.
Biotechnology constitutes the primary scientific field through which biological
knowledge is applied. Its application employs knowledge from existing fields to
generate new ones with novel aims. Bioinformatics is an example of such a novel
interdisciplinary field that is responsible for handling and organizing the complex
output of biological experiments by introducing the tools, methodology and
mentality of informatics in the biological framework. One such set of tools is Data
Mining which is predominantly applied in the context of Systems Biology.
The present thesis attempts to introduce the concepts, processes and
capabilities of Data Mining referring both to the theoretical background of the field
and to its current research applications. The result is a theoretically enriched
literature review.
Initially, the breadth of applications of biotechnology and bioinformatics and
their extensions in the field of System Biology in particular are illustrated. At the
same time, some emerging problems of these technologies are presented that
include difficulties with handling, presentation or selection of great volume data
(Big Data). The core of any Big Data problems relates to issues of classification,
clustering and the discovery of correlation rules, which are methodologies
adopted from informatics.
After defining core elements and concepts such as “data” and “data set”, an
extensive presentation of the basic categories of mining is attempted. Each
category is examined with respect to the techniques of classification, clustering
and discovery of correlation rules that are examined on a functional level and
without initially taking published examples into considerations. These particular
categories and techniques are subsequently considered in the context of text
mining processes, which are crucial for automated filtering of published scientific
work.
Finally, examples of published techniques and outcomes of recent literature
(2009-2017) that utilize Data Mining processes are presented. In their majority of
these published examples the use of data mining has only a partial or subsidiary
role. The published articles that are presented are sorted according to the nature
8
of the data that were mined, namely: proteomic data, chemical-genomic data or
micro-array data. A separate section is dedicated to publications that used
embedded data mining. From each publication only the most important data
mining results are described and figures of these data or the procedures though
which they were processed are presented.