L’apprentissage machine et les connaissances issues de la recherche génétique permettent de comprendre le fonctionnement des cellules et pourraient contribuer à la mise au point de nouveaux médicaments contre le COVID-19 et d’autres maladies
Par Shang Gao Doctoral student in Bioinformatics, University of Illinois, et Jalees Rehman, Professor of Medicine, Pharmacology and Biomedical Engineering, University of Illinois at Chicago
La grande idée
Nous avons combiné un algorithme d’apprentissage automatique avec des connaissances glanées dans des centaines d’expériences biologiques pour mettre au point une technique qui permet aux chercheurs biomédicaux de comprendre les fonctions des protéines qui activent et désactivent les gènes dans les cellules, appelées facteurs de transcription. Ces connaissances pourraient faciliter le développement de médicaments pour un large éventail de maladies.
Au début de la pandémie de COVID-19, les scientifiques qui ont étudié le code génétique des molécules d’ARN des cellules des poumons et des intestins ont découvert que seul un petit ensemble de cellules de ces organes était le plus vulnérable à l’infection par le virus SRAS-CoV-2. Cela a permis aux chercheurs de se concentrer sur le blocage de la capacité du virus à pénétrer dans ces cellules. Notre technique pourrait permettre aux chercheurs de trouver plus facilement ce type d’informations.
Les connaissances biologiques sur lesquelles nous travaillons proviennent de ce type de séquençage de l’ARN, qui donne aux chercheurs un aperçu des centaines de milliers de molécules d’ARN présentes dans une cellule au moment où elles sont traduites en protéines. Un outil d’apprentissage machine très apprécié, la plateforme d’analyse Seurat, a aidé les chercheurs du monde entier à découvrir de nouvelles populations de cellules dans des organes sains ou malades. Cet outil d’apprentissage machine traite les données provenant du séquençage de l’ARN d’une seule cellule sans aucune information préalable sur la façon dont ces gènes fonctionnent et sont liés les uns aux autres.
Notre technique adopte une approche différente en ajoutant des connaissances sur certains gènes et types de cellules pour trouver des indices sur les rôles distincts des cellules. Plus d’une décennie de recherche a permis d’identifier toutes les cibles potentielles des facteurs de transcription.
Forts de ces connaissances, nous avons utilisé une approche mathématique appelée inférence bayésienne. Dans cette technique, les connaissances préalables sont converties en probabilités qui peuvent être calculées par ordinateur. Dans notre cas, il s’agit de la probabilité qu’un gène soit régulé par un facteur de transcription donné. Nous avons ensuite utilisé un algorithme d’apprentissage machine pour déterminer la fonction des facteurs de transcription dans chacune des milliers de cellules que nous avons analysées.
Nous avons publié notre technique, appelée Modèle d’activité des facteurs de transcription d’interférence bayésienne, dans la revue Genome Research et avons également mis le logiciel en libre accès afin que d’autres chercheurs puissent le tester et l’utiliser.
Pourquoi c’est important
Notre approche fonctionne sur un large éventail de types de cellules et d’organes et pourrait être utilisée pour développer des traitements contre des maladies comme le COVID-19 ou la maladie d’Alzheimer. Les médicaments pour ces maladies difficiles à traiter fonctionnent mieux s’ils ciblent les cellules qui causent la maladie et évitent les dommages collatéraux aux autres cellules. Notre technique permet aux chercheurs de cibler plus facilement ces cellules.
Quelles sont les autres recherches en cours ?
Le séquençage de l’ARN d’une seule cellule a révélé que chaque organe peut comporter 10, 20 ou même plus de sous-types de cellules spécialisées, chacune ayant des fonctions distinctes. Un nouveau développement très intéressant est l’émergence de la transcriptomique spatiale, dans laquelle le séquençage de l’ARN est effectué dans une grille spatiale qui permet aux chercheurs d’étudier l’ARN des cellules à des emplacements spécifiques d’un organe.
Un article récent a utilisé une approche statistique bayésienne similaire à la nôtre pour déterminer les rôles distincts des cellules tout en tenant compte de leur proximité les unes des autres. Un autre groupe de recherche a combiné les données spatiales avec les données de séquençage de l’ARN d’une seule cellule et a étudié les fonctions distinctes des cellules voisines.
Prochaines étapes
Nous prévoyons de travailler avec des collègues pour utiliser notre nouvelle technique afin d’étudier des maladies complexes telles que la maladie d’Alzheimer et le COVID-19, travaux qui pourraient déboucher sur de nouveaux médicaments pour ces maladies. Nous voulons également travailler avec des collègues pour mieux comprendre la complexité des interactions entre les cellules.
Traduit par Citizen4Science – lien vers l’article original