Le « quoi » de l’IA explicable
Bahador Khaleghi Bahador Khaleghi
3 septembre 12 min

Le « quoi » de l’IA explicable

Dans l’article précédent, nous avons expliqué l’importance de l’IA explicable. Passons maintenant à la signification réelle de l’explication d’un modèle d’IA. Il s’avère que c’est une question compliquée. Il n’existe pas de définition commune de l’IA explicable et de ce qu’elle signifie en théorie et en pratique. Ceci est notre tentative de rassembler la plupart des explications contradictoires et d’expliquer le « quoi » de l’IA explicable.

Qu’est-ce qu’« expliquer l’IA » signifie vraiment?

La signification “d’expliquer un modèle” peut varier considérablement selon le rôle et le niveau de sophistication de l’utilisateur final, ainsi que les contraintes spécifiques d’un environnement d’application donné. Par exemple, un développeur qui crée un modèle d’IA peut préférer des explications qui décrivent le fonctionnement interne du modèle pour faciliter le débogage. D’un autre côté, un utilisateur non professionnel qui examine l’équité d’un modèle d’IA pourrait préférer des explications qui établissent un lien entre les données en entrée et la sortie du modèle (prédictions, recommandations, etc.).

Tomsett et coll. décrivent un modèle destiné à cibler divers rôles d’agents dans un écosystème d’apprentissage machine. Ils définissent six rôles différents, à savoir les créateurs, les sujets de données, les opérateurs, les exécuteurs, les examinateurs et les sujets de décision. Les créateurs sont des agents qui mettent en œuvre ou possèdent le système d’apprentissage machine. Les sujets de données sont des agents dont les données personnelles ont été utilisées pour entraîner les modèles d’apprentissage machine. Les opérateurs sont des agents qui interagissent directement avec le système d’apprentissage machine tandis que les exécuteurs sont des agents qui prennent des décisions en étant informés par les opérateurs. Les agents qui vérifient le système d’apprentissage machine sont des examinateurs. Enfin, les mandataires qui sont touchés par la ou les décisions prises par les exécuteurs sont des sujets de décision. En s’appuyant sur cette catégorisation, les auteurs présentent plusieurs exemples de scénarios et discutent des besoins spécifiques d’explicabilité de chacun de ces rôles.

La communauté de l’IA explicable (IAX) n’est pas encore parvenue à un cconsensus sur la définition de l’explicabilité de l’IA. L’IAX peut être définie comme le développement de modèles qui sont intrinsèquement plus faciles à comprendre, à savoir l’explicabilité du modèle. On peut aussi définir l’IAX comme le processus d’extraction d’une certaine forme d’explications à partir de modèles complexes prédéveloppés qui, en retour, sont difficiles (voire impossibles) à comprendre, à savoir l’explicabilité post-hoc.

Grâce à l’explicabilité d’un modèle ou l’explicabilité post-hoc, les utilisateurs peuvent être en mesure de comprendre comment un modèle fait ses prédictions. Pourtant, ils pourraient encore être incapables de comprendre le système d’IA dans son ensemble si la représentation des données utilisée par le modèle sous-jacent ne leur est pas explicable. Par exemple, si les caractéristiques d’entrée utilisées par le modèle sont calculées à l’aide de formules mathématiques complexes sans signification intuitive. Autrement dit, pour qu’un système d’IA puisse être explicable, son pipeline de traitement de données sous-jacent doit être passablement explicable.

L’absence de définition de l’IAX mentionnée ci-dessus est une conséquence directe du fait qu’il s’agit d’un ensemble de problèmes interdépendants plutôt que d’un problème unique. Tous ces problèmes ont en commun l’objectif de rendre compréhensible pour les utilisateurs certains éléments de la chaîne de traitement des données.

Qu’est-ce qu’« expliquer l’IA » signifie vraiment?
Illustration de divers rôles dans un écosystème d’apprentissage machine, chacun ayant un besoin d’explicabilité potentiellement différent. Par exemple, les examinateurs de modèles ont souvent besoin d’explications qui relient les données en entrée du modèle à ses résultats, alors que les créateurs de modèles peuvent avoir besoin d’explications qui décrivent le fonctionnement interne du modèle.

Explicabilité du modèle

Dans son article charnière sur l’interprétabilité des modèles, Zack Lipton propose une taxonomie de l’explicabilité des modèles selon les trois niveaux auxquels la transparence (pour l’utilisateur) est atteinte : la simulabilité, la décomposabilité, et la transparence algorithmique.

Un modèle est simulable si un utilisateur humain peut comprendre l’ensemble du modèle. Cela signifie généralement qu’un modèle est assez simple, soit en matière de taille (par exemple, des modèles linéaires clairsemés), soit en matière de calculs nécessaires pour effectuer des prédictions (par exemple, des arbres de décision peu profonds).

Un modèle est décomposable si chacune de ses composantes, dont les entrées, les paramètres et les calculs, admettent une explication intuitive. Par exemple, les paramètres de coefficient d’un modèle linéaire peuvent être expliqués comme représentant la force d’association entre chaque caractéristique d’entrée et la sortie du modèle (résultats) du modèle.

Enfin, la transparence algorithmique signifie que le processus de formation utilisé pour développer un modèle est bien compris. Par exemple, on sait que l’entraînement de modèles linéaires converge vers une solution unique. En revanche, les procédures d’optimisation heuristique utilisées pour former des modèles profonds modernes ne possèdent pas d’une telle transparence algorithmique.

Explicabilité du modèle IA.
Trois niveaux de transparence du modèle, comme proposé par Z. Lipton : Simulabilité, décomposabilité et transparence algorithmique.

Explications complètes versus interprétables

Gilpin et coll. décrivent certains des concepts fondamentaux de l’explicabilité de l’IA et les utilisent pour classer la documentation. En particulier, ils soulignent un compromis entre l’exhaustivité et l’interprétabilité des explications. Idéalement, nous voulons que les explications d’un modèle décrivent son fonctionnement le plus précisément possible (exhaustivité) tout en étant compréhensibles pour les humains (interprétabilité). Ces deux objectifs semblent souvent en contradiction l’un avec l’autre, car une meilleure interprétabilité exige souvent des explications plus simples qui, par définition, sont moins en mesure de décrire fidèlement des modèles complexes.

Les auteurs mettent en garde contre une trop grande dépendance à l’égard de l’évaluation humaine des explications, car elle pourrait conduire à préférer des explications interprétables à des explications complètes. Autrement dit, le simple fait qu’une explication fournie pour une prédiction de modèle semble persuasive à un utilisateur ne signifie pas nécessairement qu’elle reflète ce que le modèle fait.

Explications complètes versus interprétables.
Compromis des explications de l’interprétabilité versus l’exhaustivité : souvent, plus une explication est interprétable par l’humain, moins elle est fidèle à la description du fonctionnement du modèle.

En effet, une étude approfondie des méthodes d’explicabilité des réseaux neuronaux profonds corrobore l’idée de méthodes d’explicabilité générant des explications incomplètes. Les auteurs montrent la faisabilité de ce qu’ils appellent des « attaques contradictoires duales ». Il s’agit d’attaques antagonistes spéciales où les données d’entrée du modèle sont manipulées pour produire des prédictions invalides tout en conservant intactes les explications générées pour ces prédictions. Les auteurs spéculent que la raison pour laquelle de telles attaques sont possibles est que les explications générées pour la prédiction du modèle ne décrivent que partiellement comment le modèle fonctionne. Ce manque d’exhaustivité des explications est à son tour causé par « la dépendance excessive à l’égard de l’évaluation visuelle (par les humains) » pour évaluer la qualité des explications.

Une façon d’atténuer le problème de la dépendance excessive à l’égard de l’évaluation humaine des explications pourrait être de séparer les tâches d’extraction des explications descriptives et persuasives. Par exemple, on peut d’abord utiliser un arbre de décision de profondeur de 40 comme explication descriptive d’un réseau neuronal profond. Ensuite, l’arbre de décision peut être tronqué, en supprimant les nœuds plus profonds que 10, pour obtenir une explication convaincante.

Un exemple d’entrées bénignes, contradictoires et contradictoires duales.
Un exemple d’entrées bénignes, contradictoires et contradictoires duales générées pour le classificateur d’images RESNET et la méthode d’expliquabilité CAM. Les attaques contradictoires duales génèrent des entrées qui manipulent la prédiction d’un modèle tout en gardant son explication intacte.

Une définition formelle possible de l’explicabilité

Le cadre proposé par Dhurandhar et coll. présente un formalisme d’explicabilité. Les auteurs proposent de définir l’explicabilité relative à un modèle cible appliqué à une tâche donnée, par opposition à un concept absolu. En particulier, l’explicabilité est définie comme un processus par lequel certaines informations sont extraites d’un modèle complexe et communiquées à un modèle cible, qui est souvent un humain, pour améliorer les performances. Plus précisément, une procédure P est définie comme étant δ-explicable si elle dérive et communique des informations I d’un modèle complexe (inexplicable) à un modèle cible qui résulte en une erreur attendue du modèle cible (pour une tâche donnée) à améliorer d’un facteur δ, autrement dit, plus le δ est petit, plus la procédure P est explicable. Fait intéressant, cette définition ne requiert pas que le modèle cible soit nécessairement un humain. Dans la pratique, il peut également s’agir de tout modèle considéré comme explicable par l’humain, par exemple un modèle linéaire ou un arbre de décision. Un autre avantage de ce cadre est qu’il permet de comparer facilement différentes méthodes d’explicabilité en fonction de leur gain de performance relatif au modèle cible. Enfin, les auteurs montrent la souplesse de leur cadre en l’élargissant pour tenir compte de la robustesse du modèle.

Une définition formelle possible de l’explicabilité IA.
Représentation d’une procédure explicable δ où l’information I est dérivée d’un modèle complexe et communiquée à un modèle cible (souvent un humain) pour améliorer sa performance par un facteur de δ.

Études d’explicabilité au-delà de la communauté de l’IA

Alan Cooper, l’un des pionniers de la conception d’interactions logicielles, affirme dans son livre The Inmates Are Running the Asylum (Les détenus dirigent l’asile) que la principale raison de la mauvaise expérience utilisateur des logiciels est que les programmeurs les conçoivent pour eux-mêmes plutôt que pour leur public cible. Ce phénomène donne son titre au livre et Cooper préconise le design en tenant compte des besoins de l’utilisateur final.

Faisant des analogies avec le travail de Cooper, Tim Miller et coll. avertissent la communauté de l’IAX que leur domaine risque le même sort que l’industrie du développement logiciel. Ils soulignent que la plupart du travail sur l’IAX, y compris sa définition et ses objectifs, est mené que par des chercheurs en IA, bien que la notion d’explicabilité ait été largement étudiée par d’autres communautés de recherche, dont les sciences sociales et comportementales. Les auteurs soutiennent que cette ignorance a conduit au développement d’agents explicatifs pour les chercheurs en IA, plutôt que pour les utilisateurs humains. Par conséquent, ils exhortent la communauté de l’IAX à infuser plus d’apprentissages du vaste corpus de recherche en sciences sociales afin de mieux comprendre comment les biais cognitifs et les attentes sociales des humains influencent leur perception des explications.

Par exemple, l’un des principaux enseignements des études en sciences sociales sur les explications humaines est qu’elles sont souvent contrastives, à savoir décrire ce qui a causé un résultat donné plutôt qu’un autre résultat contre-factuel. C’est à la fois un défi et une occasion pour l’IAX. C’est un défi parce que souvent le résultat contre-factuel n’est seulement qu’implicite et doit donc être déterminé en premier. C’est aussi une occasion, car il serait sans doute plus facile de fournir une explication contrastive, plutôt qu’une explication causale complète, sur le plan du calcul. La notion d’explications contre-factuelles est fortement liée à la nature contrastive des explications. Les explications contre-factuelles décrivent la plus petite modification des valeurs de caractéristiques requises pour modifier la prédiction en une sortie prédéfinie.

Et ensuite?

Pour que le domaine de l’IAX progresse de manière plus significative, il faut plus de travail pour définir d’un commun accord ses notions fondamentales. Notre examen de la documentation montre que la signification d’expliquer un modèle d’IA dépend du contexte et de l’utilisation. Cela dit, il serait peut-être possible de définir plus formellement les explications relatives à une utilisation. Enfin, la communauté de l’IA devrait élargir sa compréhension de l’explicabilité en s’inspirant de la vaste documentation connexe en sciences sociales et comportementales.

Nous invitons le public plus technique et toute personne intéressée à mieux comprendre l’IAX, à consulter le blogue de cet auteur pour une série en trois parties sur le « comment » de l’IAX. Cette série présente un examen systématique de certaines des méthodologies de l’IAX les plus influentes qui peuvent être appliquées avant, pendant et après, l’étape de modélisation du développement de l’IA.