Spectral imaging and Artificial Intelligence in precision horticulture are commonly used for a variety of applications ranging from disease detection to quality estimation. However, most of the available solutions require deep understanding of software engineering and they mostly focus on disease detection and post-harvest applications.
This study aimed to (i)develop Artificial Intelligence models utilizing spectral data that can identify different fertilisation levels, (ii)develop Artificial Intelligence models utilizing spectral data capable of identifying plant water deficit, (iii)compare the performance of traditional machine learning algorithms with novel user-friendly Auto Machine Learning (AutoML) techniques and(iv)evaluate the feasibility of developing a generalisation-capable AI model utilizing spectral data.
Towards that end, a progressive methodology was implemented to gather data and develop the required methodologies. During the first year spectral data from broccoli plants that were submitted to different fertilization schemes were collected, while during the second year spectral data were collected from broccoli plants that were submitted to different irrigation schemes. Besides spectral data during both years, dry matter measurements were conducted not only for broccoli but also for apple, leek and mushroom. Finally, during the third year, all AI methodologies were developed, and AI experiments were conducted.
Throughout these three years, this study evaluated and compared traditional Artificial Intelligence approaches with AutoML systems towards water/ acclimation and nutrient deficiency stress identification using spectral imaging. For both types of stress, AutoML was compared to a traditional machine learning approach (Partial Least Squares – Discriminant Analysis) used for classification of spectral data. On both occasions, data were captured with the use of the IMEC snapscan Visible Near Infrared hyperspectral camera (400-900nm). Moreover, the study aimed to investigate generalisation capabilities of spectral imaging and how each step of the “traditional” pre-processing pipeline followed for spectral data modelling affects its generalisation capabilities and performance. The pipeline, followed by both stress experiments and tested for its generalisation capabilities, consisted of the following steps: Outlier removal→Data smoothing→Data Scaling→Feature selection→Feature Extraction→Modelling. Techniques used for various steps across the pipeline included Savitzky Golay smoothing, Standard and Min Max scaling, f and mutual info regression for feature selection, umap, autoencoeder and PCA feature extraction and various machine learning models ranging from linear to quadratic models and reaching the complexity of neural networks. For identifying nutrient stress, the AutoML system achieved results that were superior to those achieved by the Partial Least Squares – Discriminant Analysis (PLS-DA) algorithm. Namely, an accuracy of 0.72 was achieved when using the CIELAB colour space and 0.94 when combining the CIELAB colour space with the hyperspectral data.
When using the hyperspectral data standalone, the results improved (accuracy 1.00), this performance was achieved using all 150 bands, however, it is worth mentioning that the same performance was maintained even when using the single statistically most important wavelength (874 nm). On the other hand, for the identification of water/acclimation stressed plants, both the Automated Machine Learning system and the PLSDA algorithm achieved an accuracy of 1.00 across all stress levels. Finally, hyperspectral imaging has proven capable of generalizing across different fruits and vegetables, achieving an (RMSEP) = 0.0137 using the Partial Least Squares Regression algorithm on a 10x5-fold cross-validation protocol.
Overall, the results suggest that Automated Machine Learning can achieve and even outperform traditional spectral imaging machine learning approaches for detecting water/ acclimation and nutrient deficiency stress. Moreover, the use of the CIELAB colour space for training the models failed to match the performance of using the spectral data, while combining the two did not lead to a performance increase compared to just using the spectral data. The evaluated techniques used for preprocessing affected the two regression algorithms, Automatic Relevance Determination Regression (ARD) and Partial Least Squares Regression (PLSR) in a different way, with the best performance achieved when the complete pipeline was used. Furthermore, feature selection appeared to be the preprocessing technique that had the most negative impact on the linear regression performance when used standalone. However, its use to fit a quadratic transformation of the features was found to be a good compromise. Overall, the pipeline using either ARD algorithm or PLSR algorithm showed strong generalization and performance in the Visible Near Infrared wavelength based dry matter content estimation across diverse crops.
To conclude, the use of Spectral imaging with AutoML solutions may provide a user friendly and cost-effective method for detecting plant stress, while at the same time, spectral imaging model generalisation can be achieved provided that a universal data acquisition protocol is followed, with promising results even without following complex data preprocessing pipelines. Finally, it should be noted that the present study did not examine the lag factor. It is assumed that with the prevalence of water or nutrient scarcity, the change in spectral data will not be automatic.
Η φασματική απεικόνιση και η Τεχνητή Νοημοσύνη στη λαχανοκομία (γεωργία) ακριβείας χρησιμοποιούνται συνήθως για μια ποικιλία εφαρμογών που κυμαίνονται από την ανίχνευση ασθενειών έως την εκτίμηση της ποιότητας. Ωστόσο, οι περισσότερες από τις διαθέσιμες λύσεις απαιτούν βαθιά κατανόηση της μηχανικής μάθησης και επικεντρώνονται κυρίως στην ανίχνευση ασθενειών και σε εφαρμογές μετά τη συγκομιδή.
Αυτή η μελέτη είχε ως στόχο: (i) την ανάπτυξη μοντέλων τεχνητής νοημοσύνης που χρησιμοποιούν φασματικά δεδομένα και μπορούν να προσδιορίσουν διαφορετικά επίπεδα λίπανσης, (ii) την ανάπτυξη μοντέλων τεχνητής νοημοσύνης που χρησιμοποιούν φασματικά δεδομένα και είναι ικανά να προσδιορίσουν το έλλειμμα νερού των φυτών, (iii) τη σύγκριση των επιδόσεων των παραδοσιακών αλγορίθμων μηχανικής μάθησης με νέες φιλικές προς τον χρήστη τεχνικές Αυτόματης Μηχανικής Μάθησης, και (iv) την αξιολόγηση της δυνατότητας ανάπτυξης ενός μοντέλου τεχνητής νοημοσύνης με δυνατότητα γενίκευσης που χρησιμοποιεί φασματικά δεδομένα.
Προς το σκοπό αυτό, εφαρμόστηκε μια προοδευτική μεθοδολογία για τη συλλογή δεδομένων και την ανάπτυξη των απαιτούμενων μεθοδολογιών. Κατά το πρώτο έτος συλλέχθηκαν φασματικά δεδομένα από φυτά μπρόκολου που υποβλήθηκαν σε διαφορετικές μεταχειρίσεις λίπανσης, ενώ κατά το δεύτερο έτος συλλέχθηκαν φασματικά δεδομένα από φυτά μπρόκολου που υποβλήθηκαν σε διαφορετικές μεταχειρίσεις άρδευσης. Εκτός από τα φασματικά δεδομένα κατά τη διάρκεια και των δύο ετών πραγματοποιήθηκαν μετρήσεις ξηρής ουσίας όχι μόνο για το μπρόκολο αλλά και για το μήλο, το πράσο και το μανιτάρι. Τέλος, κατά τη διάρκεια του τρίτου έτους αναπτύχθηκαν όλες οι μεθοδολογίες τεχνητής νοημοσύνης και πραγματοποιήθηκαν και τα αντίστοιχα πειράματα.
Κατά τη διάρκεια αυτών των τριών ετών η παρούσα μελέτη αξιολόγησε και συνέκρινε τις παραδοσιακές προσεγγίσεις τεχνητής νοημοσύνης με τα συστήματα Αυτόματης Μηχανικής Μάθησης για τον εντοπισμό της καταπόνησης λόγω έλλειψης νερού/εγκλιματισμού και θρεπτικών στοιχείων με τη χρήση φασματικής απεικόνισης. Και για τους δύο τύπους καταπόνησης η Αυτόματη Μηχανική Μάθηση συγκρίθηκε με μια παραδοσιακή προσέγγιση μηχανικής μάθησης,Partial Least Squares – Discriminant Analysis (PLSDA), που χρησιμοποιείται για την ταξινόμηση φασματικών δεδομένων. Και στις δύο περιπτώσεις τα δεδομένα λήφθηκαν με τη χρήση της υπερφασματικής κάμερας IMEC snapscan Visible Near Infrared (400-900nm). Επιπλέον, η μελέτη αποσκόπησε στη διερεύνηση των δυνατοτήτων γενίκευσης της φασματικής απεικόνισης και του τρόπου με τον οποίο κάθε βήμα της "τυπικής" διαδικασίας προεπεξεργασίας που ακολουθείται για τη μοντελοποίηση φασματικών δεδομένων επηρεάζει τις δυνατότητες και τις επιδόσεις της γενίκευσης. Η διαδικασία που ακολουθήθηκε τόσο από τα πειράματα καταπόνησης όσο και από τον έλεγχο των δυνατοτήτων γενίκευσης αποτελείται από τα ακόλουθα βήματα: Απομάκρυνση εκτόπων τιμών→Εξομάλυνση δεδομένων→Κλιμάκωση δεδομένων→Επιλογή χαρακτηριστικών→Εξαγωγή χαρακτηριστικών→Μοντελοποίηση. Οι τεχνικές που χρησιμοποιήθηκαν για τα διάφορα βήματα της διαδικασίας περιλαμβάνουν εξομάλυνση SavitzkyGolay, κλιμάκωση Standard και MinMax, παλινδρόμηση f και mutualinfo για επιλογή χαρακτηριστικών, εξαγωγή χαρακτηριστικών umap, autoencoeder και pca και διάφορα μοντέλα μηχανικής μάθησης που κυμαίνονται από γραμμικά έως τετραγωνικά μοντέλα και φτάνουν στην πολυπλοκότητα των νευρωνικών δικτύων.
Για τον εντοπισμό της θρεπτικής καταπόνησης το σύστημα αυτόματης μηχανικής μάθησης πέτυχε αποτελέσματα που είναι ανώτερα από εκείνα που πέτυχε η ανάλυση Partial Least Squares – Discriminant Analysis. Συγκεκριμένα, επιτεύχθηκε ακρίβεια (accuracy) 0,72 όταν χρησιμοποιήθηκε ο χρωματικός χώρος CIELAB και 0,94 όταν συνδυάστηκε ο χρωματικός χώρος CIELAB με τα υπερφασματικά δεδομένα. Κατά τη χρήση των υπερφασματικών δεδομένων αυτοτελώς, τα αποτελέσματα βελτιώθηκαν (ακρίβεια 1,00), η επίδοση αυτή επιτεύχθηκε με τη χρήση και των 150 φασμάτων, ωστόσο αξίζει να αναφερθεί ότι η ίδια επίδοση διατηρήθηκε ακόμη και όταν χρησιμοποιήθηκε το μοναδικό στατιστικά σημαντικότερο φάσμα (874 nm, near infrared).
Από την άλλη πλευρά, για την ταυτοποίηση των φυτών που έχουν υποστεί στρες από νερό/κλιματισμό, τόσο το σύστημα αυτόματης μηχανικής μάθησης όσο και ο αλγόριθμος PLSDΑ. Eπέτυχαν ακρίβεια 1,00 σε όλα τα επίπεδα στρες. Tέλος, η υπερφασματική απεικόνιση αποδείχθηκε ικανή να γενικεύει σε διάφορα φρούτα και λαχανικά, επιτυγχάνοντας Μέση Τετραγωνική απόκλιση (RMSEP) = 0.0137 χρησιμοποιώντας παλινδρόμηση Partial Least Squares Regression σε πρωτόκολλο διασταυρούμενης επικύρωσης 10x5 φορές. Συνολικά, τα αποτελέσματα υποδηλώνουν ότι η αυτόματη μηχανική μάθηση μπορεί να επιτύχει και ακόμη και να ξεπεράσει τις παραδοσιακές προσεγγίσεις μηχανικής μάθησης φασματικής απεικόνισης για την ανίχνευση του στρες του νερού/εγκλιματισμού και της θρεπτικής ανεπάρκειας. Επιπλέον, η χρήση του χρωματικού χώρου CIELAB για την εκπαίδευση των μοντέλων απέτυχε να φτάσει την απόδοση της χρήσης των φασματικών δεδομένων, ενώ ο συνδυασμός των δύο δεν οδήγησε σε αύξηση της απόδοσης σε σύγκριση με τη χρήση μόνο των φασματικών δεδομένων. Τέλος, οι τεχνικές προ επεξεργασίας που αξιολογήθηκαν επηρέασαν διαφορετικά τους δύο αλγορίθμους παλινδρόμησης (Automatic Relevance Determination και Partial Least Squares), με τα καλύτερα αποτελέσματα να επιτυγχάνονται όταν χρησιμοποιήθηκε η πλήρης διαδικασία. Επιπλέον, η επιλογή χαρακτηριστικών φάνηκε να είναι η τεχνική προ επεξεργασίας που έχει τον πιο αρνητικό αντίκτυπο στην απόδοση της γραμμικής παλινδρόμησης όταν χρησιμοποιείται μεμονωμένα. Ωστόσο, η χρήση της για την προσαρμογή ενός τετραγωνικού μετασχηματισμού των χαρακτηριστικών διαπιστώθηκε ότι αποτελεί έναν καλό συμβιβασμό. Συνολικά, η διαδικασία που χρησιμοποίησε είτε την Automatic Relevance Determination παλινδρόμηση είτε την Partial Least Squares Regression παλινδρόμηση παρουσίασε ισχυρή απόδοση και γενίκευση για την εκτίμηση της ξηρής ύλης με βάση το ορατό και κοντινό υπέρυθρο σε διάφορα φρούτα και λαχανικά.
Συμπερασματικά, η χρήση της φασματικής απεικόνισης με λύσεις Αυτόματης Μηχανικής Μάθησης μπορεί να παρέχει μια φιλική προς τον χρήστη και οικονομικά αποδοτική μέθοδο για την ανίχνευση της καταπόνησης των φυτών, ενώ ταυτόχρονα μπορεί να επιτευχθεί γενίκευση του μοντέλου φασματικής απεικόνισης, εφόσον ακολουθείται ένα καθολικό πρωτόκολλο απόκτησης δεδομένων, με πολλά υποσχόμενα αποτελέσματα ακόμη και χωρίς να ακολουθούνται πολύπλοκες σωληνώσεις προ επεξεργασίας δεδομένων. Τέλος, πρέπει να σημειωθεί ότι η παρούσα μελέτη δεν εξέτασε τον παράγοντα υστέρησης. Εκτιμάται πως με την επικράτηση έλλειψης νερού και θρεπτικών συστατικών η μεταβολή των φασματικών δεδομένων δεν θα είναι αυτόματη.