Imitation visuelle avec apprentissage par renforcement utilisant des réseaux comparatifs récurrents
Glen Berseth Glen Berseth
15 juillet 7 min

Imitation visuelle avec apprentissage par renforcement utilisant des réseaux comparatifs récurrents

Nous aimerions qu’un agent ou un robot logiciel vivant dans une simulation puisse observer une seule démonstration d’un comportement souhaité et reproduire ce comportement. En utilisant une nouvelle façon de formuler des fonctions de distance spatio-temporelle, nous pouvons maintenant former des agents basés sur l’apprentissage par renforcement pour reproduire des démonstrations d’experts en regardant un seul exemple vidéo.

L’exemple ci-dessus est un agent qui vit dans un monde 2D, mais comme nous le montrons ci-dessous, notre méthode permet aussi à des robots humanoïdes virtuels 3D dans un environnement de simulation physique d’utiliser notre nouvelle technique d’imitation visuelle pour l’apprentissage par renforcement afin d’apprendre des politiques de contrôle de comportements complexes.

Imitation visuelle avec apprentissage.

L’apprentissage par imitation, soit la capacité de reproduire le comportement des autres, est un problème important et difficile à résoudre dans l’IA. Les humains et de nombreux animaux peuvent comprendre et apprendre à produire de nouveaux comportements simplement en observant les autres. De nombreuses techniques de pointe actuelles d’apprentissage par imitation utilisent des données supplémentaires qui ne sont pas disponibles dans le monde réel. En imitant le mouvement, par exemple, les recherches antérieures ont fourni des informations sur la puissance et d’autres actions, en plus des positions articulaires observables d’un sujet.

Dans notre récente recherche, nous décrivons un système d’apprentissage qui permet à un agent de reproduire le comportement imitatif de robots simulés en 3D, simplement en regardant une vidéo, sans aucun modèle spécialisé qui extrait explicitement des paramètres comme des positions communes de la vidéo.

Notre approche implique l’apprentissage d’un type particulier de réseau neuronal qui peut comparer la vidéo brute du comportement observé au comportement produit par l’agent d’apprentissage par renforcement. Ces progrès pourraient nous permettre de créer des robots capables d’apprendre le comportement en observant les humains, et de les instruire d’une manière plus naturelle : « Je vais te montrer comment faire ça ».

Apprentissage par renforcement

En IA, l’apprentissage par renforcement ou AR implique la formation d’agents pour maximiser les récompenses. Préciser ce que devraient être ces récompenses peut être un problème difficile. Dans notre travail, nous spécifions la fonction de récompense à l’aide d’un calcul de distance, basé sur un type particulier de réseau neuronal qui compare la perception qu’a l’agent du comportement souhaité et le comportement généré par l’agent.

Apprentissage par distance

Dans l’IA, l’imitation est souvent présentée comme un problème d’appariement de distribution où l’on veut minimiser la distance entre ce qu’un agent observe, la démonstration de l’expert, et ce que l’agent fait, son comportement réel.

Si nous avons accès aux actions de l’expert, aux résultats utilisés pour affecter l’environnement et atteindre ses objectifs, nous pouvons utiliser l’apprentissage semi-supervisé. Cependant, nous avons rarement accès à de telles données dans le monde réel. Au lieu de cela, nous utilisons des perceptions visuelles pour observer l’expert et demander à l’agent de tenter des actions jusqu’à ce que ce qu’il reproduit corresponde à ce qu’il a observé.

L’observation et l’imitation avec les données limitées disponibles dans le monde réel conduit à deux défis : apprendre cette distance importante entre le comportement de l’agent et l’expert à qui l’on a donné seulement des données vidéo, et permettre à l’agent d’apprendre les actions nécessaires pour les faire correspondre à celles de l’expert.

Bien qu’il y ait eu des recherches sur les stratégies d’imitation à partir d’images de manipulation et de robots 2D, il est important de s’attaquer aux imitations 3D à partir des vidéos. Les méthodes précédentes ont fait des progrès sur l’imitation à partir d’images en apprenant une transformation des images de telle sorte que dans cet espace transformé, des distances significatives sont disponibles. Pourtant, le problème de l’apprentissage de représentations significatives pour la planification ou l’imitation est loin d’être résolu. Le défi est aggravé par l’imitation 3D, car les vidéos ont peu d’informations.

Un aspect critique de l’imitation est qu’un mouvement possède à la fois un ordre et une vitesse. La marche utilise deux pieds, deux genoux et deux hanches, mais vous devez les déplacer dans le bon ordre et au bon rythme.

Imitation par séquences

Les méthodes d’imitation actuelles utilisent l’information spatiale pour calculer les distances entre les images. Ces méthodes ont bien fonctionné : avec suffisamment de temps et de puissance de calcul, de bonnes politiques peuvent être apprises. Cependant, ces méthodes peuvent souffrir de faux négatifs qui se produisent lorsque l’agent n’est pas synchronisé avec l’expert.

Imitation par séquences #1
Imitation par séquences #2
Imitation par séquences #3

Dans l’exemple ci-dessus, nous montrons un mouvement de marche, suivi d’un mouvement de marche joué à 1/4 de vitesse, et enfin un mouvement de chute. En raison de la limitation des méthodes de distance spatiale, une faible récompense similaire sera donnée pour ces deux derniers exemples, bien que le mouvement du milieu ressemble beaucoup plus à une marche que celui de droite.

Notre travail utilise la structure séquentielle du mouvement pour mieux informer l’apprentissage par renforcement en profondeur et aider à aborder les limites des méthodes spatiales à distance. Effectivement, nous apprenons deux fonctions de distance, l’une dans l’espace et l’autre dans le temps.

Alors que la fonction de distance spatiale est conçue pour comprendre les distances entre les images ou les poses, la fonction de distance basée sur le temps comprend si deux mouvements semblent sémantiquement similaires. Si le but de l’imitation est de marcher, le comportement de l’agent ressemble-t-il aussi à une marche? En fait, avec cette nouvelle abstraction, nous pouvons poser la question suivante : cette motion ressemble-t-elle à une marche, et non, cette motion ressemble-t-elle exactement à cette marche? Cette distinction nous permet de récompenser l’agent pour un comportement similaire à celui de l’expert et qui peut être à une vitesse ou à un moment différent. Ce type de structure de récompenses était essentiel à l’apprentissage de bonnes politiques à partir de la vidéo.

Réseaux de comparateurs

Pour apprendre ces distances, nous formons un réseau de comparateurs récurrents, appelé « réseau siamois » dans les publications sur le sujet, avec des exemples vidéo positifs et négatifs. Les exemples positifs sont similaires ou appartiennent à la même classe, et les exemples négatifs sont connus pour être différents ou appartiennent à des classes différentes. Le modèle est formé pour produire des encodages similaires lorsque deux vidéos ou images sont identiques, et des encodages différents dans le cas contraire. Des données supplémentaires provenant d’autres tâches sont incluses pour aider à la formation du réseau.

Réseaux de comparateurs.

Résultats

Récompense moyenne.

L’ajout de ces nouvelles récompenses en utilisant des distances temporelles (ainsi que quelques idées supplémentaires) a permis l’apprentissage par imitation de mouvement 3D avec une seule démonstration vidéo. Bien qu’il s’agisse là des premiers résultats de ce type, des données vidéo multivues ou d’autres données multitâches pourraient apporter une qualité supplémentaire.

Apprenissage par imitation de mouvement 3D.

Pour en savoir plus, veuillez lire notre article sur Arxiv. La vidéo ci-dessous montre notre approche en action.

Cette recherche a été menée chez Element AI par Glen Berseth, stagiaire de recherche, et Christopher Pal, chercheur scientifique principal. Glen poursuit actuellement des recherches postdoctorales à l’Université de Californie, Berkeley avec le professeur Sergey Levine au Berkeley Artificial Intelligence Laboratory.