Confiance du réseau neuronal

Les chercheurs du MIT ont développé un moyen pour les réseaux de neurones d’apprentissage en profondeur d’estimer rapidement les niveaux de confiance dans leur sortie. Cette avancée pourrait améliorer la sécurité et l’efficacité de la prise de décision assistée par l’IA. Crédit: MIT

Un moyen plus rapide d’estimer l’incertitude dans la prise de décision assistée par l’IA pourrait conduire à des résultats plus sûrs.

De plus en plus, les systèmes d’intelligence artificielle connus sous le nom de réseaux neuronaux d’apprentissage profond sont utilisés pour éclairer des décisions vitales pour la santé et la sécurité humaines, comme la conduite autonome ou le diagnostic médical. Ces réseaux sont efficaces pour reconnaître les modèles dans de grands ensembles de données complexes pour aider à la prise de décision. Mais comment savons-nous qu’ils ont raison? Alexander Amini et ses collègues de MIT et l’Université de Harvard voulaient le savoir.

Ils ont développé un moyen rapide pour un réseau de neurones d’analyser les données et de générer non seulement une prédiction, mais également le niveau de confiance du modèle en fonction de la qualité des données disponibles. Cette avancée pourrait sauver des vies, car l’apprentissage en profondeur est déjà déployé dans le monde réel aujourd’hui. Le niveau de certitude d’un réseau peut faire la différence entre un véhicule autonome qui détermine qu ’« il est tout à fait clair de traverser l’intersection »et« il est probablement clair, alors arrêtez-vous juste au cas où ».

Les méthodes actuelles d’estimation de l’incertitude pour les réseaux de neurones ont tendance à être coûteuses en calcul et relativement lentes pour les décisions en une fraction de seconde. Mais l’approche d’Amini, surnommée «régression probante profonde», accélère le processus et pourrait conduire à des résultats plus sûrs. «Nous devons non seulement avoir des modèles performants, mais aussi comprendre quand nous ne pouvons pas faire confiance à ces modèles», déclare Amini, doctorante dans le groupe du professeur Daniela Rus au MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). .

«Cette idée est importante et applicable au sens large. Il peut être utilisé pour évaluer des produits qui reposent sur des modèles appris. En estimant l’incertitude d’un modèle appris, nous apprenons également la quantité d’erreur à attendre du modèle et les données manquantes qui pourraient améliorer le modèle », explique Rus.

Amini présentera la recherche à la conférence NeurIPS du mois prochain, avec Rus, qui est le professeur Andrew et Erna Viterbi de génie électrique et d’informatique, directeur du CSAIL et vice-doyen de la recherche au MIT Stephen A. Schwarzman College of Computing; et les étudiants diplômés Wilko Schwarting du MIT et Ava Soleimany du MIT et de Harvard.

Incertitude efficace

Après une histoire de hauts et de bas, l’apprentissage en profondeur a démontré des performances remarquables sur une variété de tâches, dépassant même dans certains cas les humains. précision. Et de nos jours, l’apprentissage profond semble aller partout où vont les ordinateurs. Il alimente les résultats des moteurs de recherche, les flux de médias sociaux et la reconnaissance faciale. «Nous avons eu d’énormes succès en utilisant le deep learning», déclare Amini. «Les réseaux de neurones sont vraiment efficaces pour connaître la bonne réponse 99% du temps.» Mais 99% ne le couperont pas lorsque des vies sont en jeu.

«Une chose qui a échappé aux chercheurs est la capacité de ces modèles à savoir et à nous dire quand ils pourraient se tromper», dit Amini. «Nous nous soucions vraiment de ce 1% du temps et de la manière dont nous pouvons détecter ces situations de manière fiable et efficace.»

Les réseaux de neurones peuvent être massifs, débordant parfois de milliards de paramètres. Il peut donc être difficile d’obtenir une réponse, sans parler d’un niveau de confiance. L’analyse des incertitudes dans les réseaux de neurones n’est pas nouvelle. Mais les approches précédentes, issues de l’apprentissage profond bayésien, reposaient à plusieurs reprises sur l’exécution ou l’échantillonnage d’un réseau de neurones pour comprendre sa confiance. Ce processus prend du temps et de la mémoire, un luxe qui n’existe peut-être pas dans le trafic à grande vitesse.

Les chercheurs ont mis au point un moyen d’estimer l’incertitude à partir d’une seule exécution du réseau neuronal. Ils ont conçu le réseau avec une sortie agrandie, produisant non seulement une décision, mais aussi une nouvelle distribution probabiliste capturant les preuves à l’appui de cette décision. Ces distributions, appelées distributions probantes, capturent directement la confiance du modèle dans sa prédiction. Cela inclut toute incertitude présente dans les données d’entrée sous-jacentes, ainsi que dans la décision finale du modèle. Cette distinction peut indiquer si l’incertitude peut être réduite en ajustant le réseau neuronal lui-même, ou si les données d’entrée sont simplement bruyantes.

Contrôle de confiance

Pour mettre leur approche à l’épreuve, les chercheurs ont commencé par une tâche difficile de vision par ordinateur. Ils ont formé leur réseau neuronal à analyser une image couleur monoculaire et à estimer une valeur de profondeur (c’est-à-dire la distance de l’objectif de la caméra) pour chaque pixel. Un véhicule autonome peut utiliser des calculs similaires pour estimer sa proximité avec un piéton ou un autre véhicule, ce qui n’est pas une tâche simple.

Les performances de leur réseau étaient comparables à celles des modèles de pointe précédents, mais il a également acquis la capacité d’estimer sa propre incertitude. Comme les chercheurs l’avaient espéré, le réseau projetait une incertitude élevée pour les pixels là où il prédisait la mauvaise profondeur. «Il était très calibré pour les erreurs commises par le réseau, ce qui, à notre avis, était l’une des choses les plus importantes pour juger de la qualité d’un nouvel estimateur d’incertitude», explique Amini.

Pour tester leur calibrage, l’équipe a également montré que le réseau projetait une incertitude plus élevée pour les données «hors distribution» – des types d’images totalement nouveaux jamais rencontrés pendant la formation. Après avoir formé le réseau sur des scènes d’intérieur à la maison, ils l’ont alimenté avec un lot de scènes de conduite en extérieur. Le réseau a constamment averti que ses réponses aux nouvelles scènes extérieures étaient incertaines. Le test a mis en évidence la capacité du réseau à signaler les cas où les utilisateurs ne devraient pas faire entièrement confiance à ses décisions. Dans ces cas, “s’il s’agit d’une application de soins de santé, peut-être que nous ne faisons pas confiance au diagnostic que le modèle donne et cherchons plutôt un deuxième avis”, dit Amini.

Le réseau savait même quand les photos avaient été trafiquées, ce qui pouvait potentiellement se prémunir contre les attaques de manipulation de données. Dans un autre essai, les chercheurs ont augmenté les niveaux de bruit contradictoires dans un lot d’images qu’ils ont transmis au réseau. L’effet était subtil – à peine perceptible à l’œil humain – mais le réseau a reniflé ces images, marquant sa sortie avec des niveaux élevés d’incertitude. Cette capacité à sonner l’alarme sur des données falsifiées pourrait aider à détecter et à dissuader les attaques adverses, une préoccupation croissante à l’ère des deepfakes.

La régression probante profonde est «une approche simple et élégante qui fait progresser le domaine de l’estimation de l’incertitude, ce qui est important pour la robotique et d’autres systèmes de contrôle du monde réel», explique Raia Hadsell, chercheuse en intelligence artificielle chez DeepMind qui n’a pas participé aux travaux. «Ceci est fait d’une manière nouvelle qui évite certains des aspects désordonnés d’autres approches – par ex. l’échantillonnage ou les ensembles – ce qui le rend non seulement élégant mais aussi plus efficace en termes de calcul – une combinaison gagnante.

Une régression probante profonde pourrait améliorer la sécurité dans la prise de décision assistée par IA. «Nous commençons à en voir beaucoup plus [neural network] les modèles sortent du laboratoire de recherche et pénètrent dans le monde réel, dans des situations qui touchent les humains avec des conséquences potentiellement mortelles », explique Amini. “Tout utilisateur de la méthode, qu’il s’agisse d’un médecin ou d’une personne occupant le siège passager d’un véhicule, doit être conscient de tout risque ou incertitude associé à cette décision.” Il envisage le système non seulement pour signaler rapidement l’incertitude, mais aussi pour l’utiliser pour prendre des décisions plus prudentes dans des scénarios risqués comme un véhicule autonome approchant d’une intersection.

«Tout domaine qui va avoir un apprentissage automatique déployable doit en fin de compte avoir une conscience fiable de l’incertitude», dit-il.

Ce travail a été soutenu, en partie, par la National Science Foundation et le Toyota Research Institute par le biais du Centre commun de recherche Toyota-CSAIL.