HEAL DSpace

Whole genome sequencing and characterization of the lactic acid bacteria Streptococcus thermophilus, Lactobacillus delbrueckii subsp. bulgaricus and Lactobacillus delbrueckii subsp. lactis. Physiological, evolutionary and technological implications

DSpace/Manakin Repository

Show simple item record

dc.contributor.advisor Tsakalidou, Effie en
dc.contributor.advisor Τσακαλίδου, Έφη el
dc.contributor.author Alexandraki, Stavroula en
dc.contributor.author Αλεξανδράκη, Σταυρούλα el
dc.date.issued 2020-11-09
dc.identifier.uri http://hdl.handle.net/10329/7172
dc.description.abstract Lactic acid bacteria (LAB) have been traditionally related to the production of fermented food and feed and are generally considered beneficial microorganisms, with several strains exhibiting probiotic potency. However, some LAB genera like Streptococcus and Enterococcus, include pathogenic species for both human and animals. Thus, a thorough comprehension of taxonomy, metabolism and molecular biology of LAB is essential to fully take advantage of their technological, nutritional and health-promoting traits, while avoiding at the same time potential risks. Nowadays, this is feasible due to the advancement of sequencing technologies, which have enhanced the generation of high quality genome sequences. Furthermore, the continuous development of bioinformatics tools enables the mining of biological data through in silico analysis. The informative value of such genomic scrutiny is notable, since it yields insights about strain-dependent technological and probiotic features, as well as bacterial diversity and niche-related adaptability. In the present thesis, the complete genome sequences of three LAB strains of the ACA-DC collection of the Laboratory of Dairy Research of the Agricultural University of Athens, namely Streptococcus thermophilus ACA-DC 2, Lactobacillus delbrueckii subsp. bulgaricus ACA-DC 87 and Lactobacillus delbrueckii subsp. lactis 178, were produced by next-generation sequencing (NGS) technologies and studied in silico by employing various bioinformatics tools, aiming at deciphering their biological and technological potential. Strains ACA-DC 2 and ACA-DC 87 were isolated from traditional naturally fermented Greek yogurt while strain ACA-DC 178 was isolated from naturally fermented Greek Kasseri cheese. With chromosome size of 1.73 Mbp, S. thermophilus ACA-DC 2 is the strain with the smallest genome among the strains of the species with complete sequenced genomes. Its genome carries 1,850 genes, with 1,556 encoding proteins, while 224 were identified as putative pseudogenes. Taking into consideration the lack of pathogenicity along with the presence of numerous pseudogenes, the strain has probably evolved through genome decay towards its adaption to the milk ecosystem. Clusters of Orthologous Groups (COG) functional classification of proteins showed that 1,327 of them (approximately 85%) were assigned to at least one COG category, with the most abundant being related to amino acid transport and metabolism (E: 10%), and that approximately 28.5% of the proteins do not have any described function. Among the studied technological-related genomic features of ACA-DC 2 were one complete lactose-galactose operon and one exopolysaccharide (EPS) gene cluster, implicated in lactose metabolism and EPS production, respectively. In addition, several proteolytic enzymes were predicted, although the cell-envelope proteinase (CEP) PrtS was absent. Stress response genes and four putative antimicrobial peptides were also identified. The presence of one putative Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR)-CRISPR associated (Cas) system was confirmed. However, the activity of the Cas proteins may be compromised, since the CRISPR array owns only one spacer. Finally, the existence of four putative restriction-modification (R-M) systems may account for the inadequacy of the CRISPR-Cas system. In order to assess the evolutionary, biological and technological traits of S. thermophilus, comparative genomic analysis among 23 strains of the species with complete genomes was performed. Comprehensive pangenomic analysis showed that the species pan genome include 2,516 genes, while the core genome comprises an important number of conserved genes, namely 1,082 genes. Moreover, 997 accessory genes along with numerous unique genes in several strains were also identified. Analysis also determined that the species pan genome will be shortly closed. Based on whole genome phylogenetic and average nucleotide identity (ANI) analyses, S. thermophilus strains, except for strain NCTC12958T, were grouped in two separate clusters, one including strains with genomes above 1.83 Mbp (i.e. cluster A), and the rest strains with smaller genomes (i.e. cluster B). This differentiation may be attributed to distinct gene gain or loss events that took place during the evolution of the species. Moreover, certain S. thermophilus strains formed subgroups within the aforementioned clusters. More specifically, cluster A included four subgroups, namely I (ASCC 1275, DGCC 7710, KLDS SM, MN-BM-A02, and ND07), II (MN-BM-A01 and MN-ZLW-002), III (LMD-9 and SMQ-301), and IV (APC151 and ND03), while cluster B contained only one subgroup (CNRZ1066, CS8, EPS, and S9). The occurrence of clusters and subgroups among S. thermophilus strains suggests the presence of lineages within the species. Thorough investigation concerning the allocation and/or the architecture of numerous genomic features, such as protease PrtS, histidine biosynthetic cluster, EPS loci, CRISPR-Cas systems, R-M systems and genomic islands (GIs), corroborated this observation to a certain extent. Moreover, several genetic loci implicated in essential metabolic processes, like lactose and urea metabolism, amino acid biosynthesis and amino acid and peptide transport, were found to be conserved within the species. Analysis of the Lb. delbrueckii subsp. bulgaricus ACA-DC 87 chromosomal sequence (1.86 Mbp) revealed the presence of 1,993 genes, 1,644 protein-coding genes and 229 putative pseudogenes. Approximately 87% of the protein-coding genes (1,284 proteins) were assigned to at least one COG functional category, with the majority of proteins being allocated primarily to the category of translation, ribosomal structure and biogenesis (J: 8.5%), and secondarily to the categories of amino acid transport and metabolism (E: 7.8%) and replication, recombination, and repair (L: 7.4%). One CRISPR array with a size of 761 bp, carrying 11 spacers and two distinct loci related to EPS biosynthesis were predicted. Finally, 12 GIs holding 196 genes in total, several of which encode CRISPR-associated proteins, subunits of R-M systems, and proteins implicated in EPS biosynthesis, were also identified. Regarding the genome sequence of Lb. delbrueckii subsp. lactis ACA-DC 178 (2.05 Mbp), a total of 2,112 genes were identified, including 1,752 protein-coding genes and 239 putative pseudogenes. COG annotation showed that about 80% of the proteins (i.e. 1,417) were assigned to at least one functional category, with the majority being distributed among the categories of replication, recombination and repair (L: 10.6%), translation, ribosomal structure and biogenesis (J: 7.5%), and amino acid transport and metabolism (E: 7.2%). One large CRISPR array of 3,197 bp containing 52 spacers, several of which are identical to phage sequences having hosts in strains of the genus Lactobacillus, was identified. Furthermore, two EPS biosynthetic gene clusters and 14 integrated GIs with a total of 159 genes, encoding proteins associated with EPS biosynthesis, amino acid transport and subunits of R-M systems, were also found. These findings clearly demonstrate that whole genome analysis and comparative genomics facilitated the identification of several genetic features associated with important technological traits, highlighting the significance of the application of genomics in food-related microorganisms. en
dc.description.abstract Τα οξυγαλακτικά βακτήρια εφαρμόζονται στην παραγωγή τροφίμων ζύμωσης και ζωοτροφών και γενικά θεωρούνται ωφέλιμοι μικροοργανισμοί, με αρκετά στελέχη να παρουσιάζουν προβιοτικές ιδιότητες. Ωστόσο, ορισμένα γένη των οξυγαλακτικών βακτηρίων, όπως τα γένη Streptococcus και Enterococcus, περιλαμβάνουν παθογόνα είδη τόσο για τον άνθρωπο όσο και για τα ζώα. Επομένως η κατανόηση της ταξινόμησης, του μεταβολισμού και της μοριακής βιολογίας των οξυγαλακτικών βακτηρίων είναι μείζονος σημασίας για την μέγιστη αξιοποίηση των τεχνολογικών, διατροφικών και προβιοτικών ιδιοτήτων τους, αποφεύγοντας ταυτόχρονα πιθανούς κινδύνους. Σήμερα, αυτό είναι εφικτό λόγω της βελτίωσης των τεχνικών αλληλούχησης, οι οποίες επιτρέπουν την παραγωγή γονιδιωμάτων υψηλής ποιότητας. Επιπλέον, η συνεχής ανάπτυξη εργαλείων βιοπληροφορικής επιτρέπει την ανεύρεση βιολογικών δεδομένων μέσω της in silico ανάλυσης των αλληλουχιών. Η πληροφοριακή δύναμη μιας τέτοιας γονιδιωματικής ανάλυσης είναι αξιοσημείωτη, καθώς παρέχει γνώσεις για τα τεχνολογικά και προβιοτικά χαρακτηριστικά, καθώς και για την βακτηριακή ποικιλομορφία και την οικολογική προσαρμογή των βακτηριακών στελεχών. Στην παρούσα διδακτορική διατριβή, μελετήσαμε το τεχνολογικό δυναμικό τριών οξυγαλακτικών βακτηρίων της συλλογής μικροοργανισμών ACA-DC του Εργαστηρίου Γαλακτοκομίας του Γεωπονικού Πανεπιστημίου Αθηνών, χρησιμοποιώντας σύγχρονες τεχνικές αλληλούχησης και προηγμένα εργαλεία βιοπληροφορικής. Πιο συγκεκριμένα μελετήθηκαν τα στελέχη Streptococcus thermophilus ACA-DC 2 και Lactobacillus delbrueckii subsp. bulgaricus ACA-DC 87, οι οποίοι απομονώθηκαν από παραδοσιακό γιαούρτι, καθώς και το στέλεχος Lactobacillus delbrueckii subsp. lactis 178, το οποίο απομονώθηκε από παραδοσιακό Κασέρι. Με χρωμόσωμα περίπου 1.73 Mbp, ο S. thermophilus ACA-DC 2 είναι το στέλεχος με το μικρότερο γονιδίωμα μεταξύ των στελεχών του είδους, για τα οποία υπάρχουν ολοκληρωμένες αλληλουχίες. Σε αυτό βρέθηκαν 1,850 γονίδια, εκ των οποίων τα 1,556 κωδικοποιούν πρωτεΐνες, καθώς και 224 πιθανά ψευδογονίδια. Η απουσία χαρακτηριστικών παθογένειας καθώς και ο μεγάλος αριθμός ψευδογονιδίων υποδεικνύουν εκφυλισμό του γονιδιώματος και υποστηρίζουν την προσαρμογή του στελέχους στο περιβάλλον του γάλακτος. Μελέτη της λειτουργίας των πρωτεϊνών με τη βάση δεδομένων Clusters of Orthologous Groups (COG) έδειξε ότι 1,327 πρωτεΐνες (περίπου 85%) ανήκουν σε μία τουλάχιστον λειτουργική κατηγορία COG, με επικρατέστερη την κατηγορία για την μεταφορά και τον μεταβολισμό αμινοξέων (E: 10%), ενώ περίπου 28.5% των πρωτεϊνών δεν έχουν κάποια χαρακτηρισμένη λειτουργία. Στο στέλεχος ACA-DC 2 ταυτοποιήθηκαν γενωμικά χαρακτηριστικά που σχετίζονται με σημαντικές τεχνολογικές ιδιότητες και περιλαμβάνουν τα οπερόνια για τον καταβολισμό της λακτόζης και της γαλακτόζης, το οπερόνιο για τη βιοσύνθεση εξωπολυσακχαριτών, τα πρωτεολυτικά ένζυμα, τους μηχανισμούς απόκρισης σε συνθήκες στρες καθώς και γονίδια για την παραγωγή αντιμικροβιακών ενώσεων. Το στέλεχος δεν κωδικοποιεί την πρωτεάση PrtS. Επίσης, επιβεβαιώθηκε η ύπαρξη ενός πιθανού Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR)-CRISPR associated (Cas) συστήματος. Ωστόσο η ενεργότητα των Cas πρωτεϊνών πιθανόν να είναι χαμηλή, αφού το στέλεχος διαθέτει μόνο έναν spacer στη συστοιχία CRISPR. Τέλος, η ύπαρξη τεσσάρων πιθανών restriction-modification (R-M) συστημάτων, ενδεχομένως να εξισορροπεί την ανεπάρκεια του συστήματος CRISPR-Cas. Προκειμένου να αξιολογήσουμε τα εξελικτικά, βιολογικά και τεχνολογικά χαρακτηριστικά του S. thermophilus, πραγματοποιήθηκε συγκριτική γονιδιωματική ανάλυση μεταξύ 23 στελεχών του είδους με ολοκληρωμένα γονιδιώματα. Το πανγονιδίωμα του είδους περιλαμβάνει 2,516 γονίδια, εκ των οποίων τα 1,082 ανήκουν στο συντηρημένο γονιδίωμα ενώ 997 ανήκουν στο συμπληρωματικό γονιδίωμα. Επίσης προσδιορίστηκαν μοναδικά γονίδια σε αρκετά από τα στελέχη που μελετήθηκαν. Η ανάλυση έδειξε ότι το πανγονιδίωμα του είδους είναι ακόμα ανοιχτό, σύντομα όμως θα μπορούσε να χαρακτηριστεί ως κλειστό. Η φυλογενετική ανάλυση των στελεχών του S. thermophilus βάσει του συντηρημένου γονιδιώματος καθώς και του ποσοστού ταυτόσημων νουκλεοτιδίων (average nucleotide identity, ANI), έδειξε την ύπαρξη δύο διακριτών Clusters, το Cluster A που περιλαμβάνει 15 στελέχη με μέγεθος γονιδιωμάτων μεγαλύτερο από 1.83 Mbp, και το Cluster Β που περιλαμβάνει 7 στελέχη με μικρότερο μέγεθος γονιδιωμάτων. Το στέλεχος NCTC12958Τ δεν ανήκει σε κανένα από τα δύο Clusters. Αυτή η διαφοροποίηση πιθανόν να οφείλεται σε διακριτά γεγονότα απόκτησης ή απώλειας γονιδίων κατά την εξελικτική πορεία του είδους. Σε αυτά τα δύο Clusters εντοπίστηκαν υποομάδες στελεχών. Πιο συγκεκριμένα το Cluster A περιλαμβάνει τέσσερις υποομάδες στελεχών, τις I (ASCC 1275, DGCC 7710, KLDS SM, MN-BM-A02, and ND07), II (MN-BM-A01 and MN-ZLW-002), III (LMD-9 and SMQ-301), and IV (APC151 and ND03), ενώ το Cluster Β περιλαμβάνει μόνο μία υποομάδα στελεχών (CNRZ1066, CS8, EPS, and S9). Η ύπαρξη Clusters και υποομάδων για τα στελέχη του S. thermophilus υποδεικνύει την ύπαρξη γενεαλογικών γραμμών του είδους. Διεξοδική μελέτη της κατανομής και/ή της αρχιτεκτονικής ποικίλλων γενωμικών χαρακτηριστικών, όπως η πρωτεάση PrtS, τα γονίδια για τη βιοσύνθεση της ιστιδίνης, οι γενετικές περιοχές για τη βιοσύνθεση εξωπολυσακχαριτών, τα συστήματα CRISPR-Cas και R-M και οι γονιδιωματικές νήσοι, επιβεβαιώνουν ως ένα βαθμό την παραπάνω παρατήρηση. Επιπλέον, πολλά γονίδια που σχετίζονται με βασικές μεταβολικές λειτουργίες, όπως τον μεταβολισμό της λακτόζης και της ουρίας, τη βιοσύνθεση των αμινοξέων και το πρωτεολυτικό σύστημα, βρέθηκαν συντηρημένα σε μεγάλο βαθμό σε όλα τα στελέχη του είδους. Ο Lb. delbrueckii subsp. bulgaricus ACA-DC 87 έχει χρωμόσωμα με μέγεθος περίπου 1.86 Mbp. Σε αυτό βρέθηκαν 1,993 γονίδια εκ των οποίων τα 1,644 κωδικοποιούν πρωτεΐνες. Επίσης ταυτοποιήθηκαν 229 πιθανά ψευδογονίδια. Περίπου 87% των πρωτεϊνών (1,284 πρωτεΐνες) ανήκουν σε μία τουλάχιστον λειτουργική κατηγορία COG, με την πλειοψηφία των πρωτεϊνών να εντοπίζονται κυρίως στις κατηγορίες της μετάφρασης, της ριβοσωμικής δομής και της βιογένεσης (J: 8.5%), της μεταφοράς και του μεταβολισμού αμινοξέων (E: 7.8%) και της αναπαραγωγής, του ανασυνδυασμού και της επιδιόρθωσης (L: 7.4%). Επίσης, ταυτοποιήθηκε μία συστοιχία CRISPR με μέγεθος 761 bp και 11 spacers καθώς και δύο διακριτές γενετικές περιοχές για τη βιοσύνθεση εξωπολυσακχαριτών. Τέλος, βρέθηκαν 12 γονιδιωματικές νήσοι, οι οποίες περιλαμβάνουν συνολικά 196 γονίδια, πολλά από τα οποία κωδικοποιούν Cas πρωτεΐνες, πρωτεΐνες των συστημάτων R-M καθώς και πρωτεΐνες για την παραγωγή εξωπολυσακχαριτών. Ο Lb. delbrueckii subsp. lactis ACA-DC 178 έχει χρωμόσωμα με μέγεθος περίπου 2.05 Mbp. Σε αυτό βρέθηκαν 2,112 γονίδια, εκ των οποίων τα 1,752 κωδικοποιούν πρωτεΐνες. Επίσης ταυτοποιήθηκαν 239 πιθανά ψευδογονίδια. Λειτουργική ανάλυση των πρωτεϊνών με τη βάση δεδομένων COG αποκάλυψε ότι περίπου το 80% των πρωτεϊνών (1,417 πρωτεΐνες) ανήκουν σε μία τουλάχιστον λειτουργική κατηγορία COG, με την πλειοψηφία αυτών να εντοπίζονται στις κατηγορίες της αναπαραγωγής, του ανασυνδυασμού και της επιδιόρθωσης (L: 10.6%), της μετάφρασης, της ριβοσωμικής δομής και της βιογένεσης (J: 7.5%) και της μεταφοράς και του μεταβολισμού αμινοξέων (E: 7.2%). Επίσης ταυτοποιήθηκε μία μεγάλη συστοιχία CRISPR με μέγεθος 3,197 bp και 52 spacers, πολλοί από τους οποίους αντιστοιχούν σε φάγους του γένους Lactobacillus. Επιπλέον, βρέθηκαν δύο διακριτές περιοχές για τη βιοσύνθεση εξωπολυσακχαριτών καθώς και 14 γονιδιωματικές νήσοι, οι οποίες περιλαμβάνουν συνολικά 159 γονίδια. Κάποια από αυτά τα γονίδια σχετίζονται με τη μεταφορά αμινοξέων, τα συστήματα R-M καθώς και την παραγωγή εξωπολυσακχαριτών. Αυτά τα ευρήματα καταδεικνύουν σαφώς ότι η ανάλυση ολόκληρων γονιδιωμάτων καθώς και η συγκριτική γονιδιωματική ανάλυση διευκόλυναν την ταυτοποίηση πολλών γενετικών χαρακτηριστικών που σχετίζονται με σημαντικές τεχνολογικές ιδιότητες, τονίζοντας τη σημασία της εφαρμογής της γονιδιωματικής ανάλυσης σε μικροοργανισμούς που σχετίζονται με τα τρόφιμα. el
dc.language.iso en en
dc.subject Lactic acid bacteria en
dc.subject Milk en
dc.subject Yogurt en
dc.subject Cheese en
dc.subject Lactobacillus en
dc.subject Streptococcus en
dc.subject Genomics en
dc.subject Bioinformatics en
dc.subject Technological properties en
dc.subject Pan genome en
dc.subject CRISPR en
dc.subject Οξυγαλακτικά βακτήρια el
dc.subject Γάλα el
dc.subject Γιαούρτι el
dc.subject Τυρί el
dc.subject Γονιδιωματική el
dc.subject Βιοπληροφορική el
dc.subject Τεχνολογικές Ιδιότητες el
dc.subject Πανγονιδίωμα el
dc.title Whole genome sequencing and characterization of the lactic acid bacteria Streptococcus thermophilus, Lactobacillus delbrueckii subsp. bulgaricus and Lactobacillus delbrueckii subsp. lactis. Physiological, evolutionary and technological implications en
dc.title.alternative Αλληλούχηση και χαρακτηρισμός των γονιδιωμάτων των οξυγαλακτικών βακτηρίων Streptococcus thermophilus, Lactobacillus delbrueckii subsp. bulgaricus και Lactobacillus delbrueckii subsp. lactis. Φυσιολογικές, εξελικτικές και τεχνολογικές προεκτάσεις el
dc.type Διδακτορική εργασία el
dc.contributor.department ΓΠΑ Τμήμα Επιστήμης Τροφίμων και Διατροφής του Ανθρώπου el


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account