« Deep learning » : dans les couches profondes de l’acquisition

Le « deep learning » ou apprentissage profond constitue la version la plus performante de l’apprentissage par la machine en fonctionnant selon un agencement de connections s’inspirant de la structure neuronale humaine. L’intérêt de mobiliser l’apprentissage profond réside dans sa capacité à traiter de très gros volumes de données et à en faire émerger des éléments auxquels un traitement humain ou de learning numérique classique ne pourrait pas accéder. Il est actuellement testé dans des programmes de recherche notamment en génomique.

« Res’ Previ » est un logiciel qui aide les producteurs à mieux négocier le prix du lait. Il modélise la quantité de lait produite sur les douze mois à venir en utilisant les données liées à l’alimentation et au lait déjà produit, issues du contrôle de performances des adhérents du réseau Eliance ainsi que des livraisons laitières récoltées par les organisations de producteurs et les coopératives. Ces données digérées par des machines sont mises à jour chaque mois, ce qui corrige la modélisation en temps réel. Il s’agit là d’un processus de machine learning par lequel les algorithmes identifient des motifs récurrents, ce que les spécialistes appellent des « patterns », afin d’apprendre et améliorer leurs performances. Les résultats sont au rendez-vous puisque la marge d’erreur n’est que de 0,5 à 1% d’écart avec les volumes de lait réellement livrés. Ces données restent néanmoins supervisées par des datascientists qui en visualisent l’affichage sur une plateforme web. Ils y ont accès à des informations sur le fonctionnement des prévisions, aux données qui entrent dans le modèle et à l’historique des livraisons ainsi qu’à des graphiques de positionnement.

Les capacités de stockage et les puissances de calcul ont atteint des niveaux tels aujourd’hui que ces nouveaux outils issus de l’intelligence artificielle, machine learning (ML) voire deep learning (DL) abordent de nouveaux champs d’application. Des technologies éprouvées peuvent être revisitées par des modèles d’intelligence artificielle. C’est le cas par exemple des spectres moyens infrarouges (MIR) qui permettent d’acquérir des informations d’ordre physiologique, génétique, sanitaire, productif (qualité du lait, alimentation du bétail, etc.) lorsqu’on leur soumet des échantillons de lait.

Mais si les indicateurs ainsi obtenus ont déjà permis la création de nouveaux outils-métier, il apparaît aussi que les modèles statistiques utilisés sont, eux, voués à d’importantes évolutions. Il est possible de les faire parler davantage en somme : « Le projet européen Holicow, explique Yassine Ben Mohamed, data scientist, chef de projet au Datalab d’Eliance, va permettre l’acquisition massive de données de spectres MIR qui seront soumises à du machine learning non supervisé, c’est-à-dire qui utilise des algorithmes d’apprentissage automatiques qui analyseront et regrouperont des jeux de données non conditionnés au préalable par une intervention humaine. » Ce mode non-supervisé décide seul de ses valeurs de sortie en quelque sorte, alors qu’en version de machine learning classique, l’apprentissage cherche à se rapprocher de ce qui est attendu. Face à de grands volumes de données, ce mode est capable de mettre en évidence des modèles dits cachés, c’est-à-dire de dégager des récurrences que l’analyse humaine n’aurait pas la faculté de mettre évidence. Dans le cas présent, le travail des algorithmes se concentrera sur des indicateurs environnementaux tels que le stress thermique, mais aussi le bien-être animal, la fertilité, production et la transformation, en vue d’obtenir de nouveaux modèles d’IA au service de nouvelles applications terrain.

Des « stats » plus puissants en génomique

La puissance croissante des algorithmes s’illustre également par des méthodes d’apprentissage profond, le « deep learning » en anglais. Elles vont plus loin que le simple machine learning car sont davantage capables d’associations complexes et autonomes, à la manière des facultés neuronales humaines dont elles imitent d’ailleurs la structure interconnective. Les réseaux profonds utilisent en effet un réseau multicouche – c’est en ce sens qu’on le qualifie de profond – qui n’a pas besoin là encore qu’on lui étiquette les données au préalable. L’apprentissage profond s’affranchit des simples associations statistiques linéaires grâce à ces couches de neurones dont les échanges successifs ont un potentiel reconfiguratif. Ce sont ces systèmes qui permettent par exemple la reconnaissance faciale ou donnent aux voitures autonomes la capacité de se diriger. Le deep learning a une propriété très recherchée : il ne sature pas face aux grands volumes de données.

Le machine learning n’est pas un nouveau venu dans l’univers du conseil et service en élevage. En matière de sélection, les valeurs génétiques des animaux sont classiquement calculées en fonction de modèles de prédiction élaborés par des biostatisticiens sur la base des données du génome. Il a déjà été démontré que le machine learning parvenait à des précisions équivalentes à celle de la méthode génomique traditionnelle mais sans jusqu’à présent créer de disruption de performance de prédiction. L’apprentissage profond, lui, pourrait permettre d’aller plus loin dans la précision de ces prédictions que ne le permettent les méthodes statistiques actuelles, la méthode statistique « BLUP », bien connue en génomique, ainsi que le principe d’inférence hypothètique de Bayes*. Ces méthodes font, en effet, l’hypothèse que la structure génétique suit une distribution normale et que les polymorphismes et les caractères d’intérêt sont linéaires.

Ce qui est vrai dans de nombreux cas et renseigne bien à hauteur de certains niveaux de population mais reste insuffisant pour interpréter des mesures hétérogènes, des interactions non-linéaires ou des facteurs environnementaux. Depuis 2023, un travail de thèse est en cours afin d’explorer l’intérêt du deep learning dans l’optimisation de la prédiction génomique, notamment dans le but de mieux maîtriser les effets de la contre-sélection (certains caractères sélectionnés en affaiblissent d’autres), de rendre plus précis les schémas d’accouplement ou encore les systèmes de croisement.

Des « stats » plus puissants en génomique

Des « stats » plus puissants en génomique