NeurIPS 2019 - un récapitulatif
Fanny Riols Fanny Riols
14 janvier 17 min

NeurIPS 2019 - un récapitulatif

Introduction

Cette année, NeurIPS a fait un grand pas en avant! Il y avait 13 000 personnes inscrites. Le tout s’est déroulé au Centre des congrès de Vancouver et a duré 7 jours, dont une journée de l’industrie (expo), 9 tutoriels, 51 ateliers et 4 ateliers d’affinité, 200 présentations de documents, 1 428 affiches, 16 compétitions, 28 démonstrations, 15 événements sociaux, 79 rencontres et réseautage.

Nous ne pourrons pas parler de tout dans cet article, mais nous allons approfondir certains des sujets qui ont été présentés et ce qui est en vogue ces derniers temps.

Diversité, inclusion et bien-être

Il y a eu 4 ateliers d’affinité : Black in AI (Communauté noire et IA, commandité par EAI), Women in ML (Femmes et AM, commandité par EAI), LatinX in AI (Communauté latine et IA) et Queer in AI (Communauté queer et IA). Il s’agit d’ateliers techniques faisant la promotion des minorités sous-représentées. Toute personne intéressée par l’apprentissage machine est la bienvenue à ces ateliers. C’est une occasion d’apprendre, de se rencontrer, de créer des réseaux et d’échanger des idées.

Même si les noms des conférenciers de Queer in AI (Communauté queer et IA) étaient publiquement disponibles en ligne, les organisateurs de Queer in AI ont donné des autocollants rouges et bleus aux présentateurs principaux et aux participants pour valider s’ils étaient à l’aise d’être photographiés ou s’ils préféraient garder leur identité privée.

Communauté queer et IA.

Malheureusement, comme l’année dernière, trop de chercheurs se sont vu refuser leur visa et n’ont pas pu assister à la conférence. Cette année, les organisateurs de NeurIPS ont pris contact avec le gouvernement canadien et ont essayé de rendre le processus de visa plus facile, en fournissant une liste de noms de personnes invitées à assister à la conférence, mais cela n’a pas suffi. Ce problème réduit le nombre de voix africaines à la conférence dans une proportion importante. Plus d’un tiers des personnes invitées à participer à l’atelier Black in AI (Communauté noire et IA) depuis l’étranger se sont vu refuser les documents de voyage nécessaires.

De nombreux événements sociaux ont également eu lieu tout au long de la semaine, et certains ont encouragé les minorités à y participer, comme {Dis}Ability in AI ({In}validité et IA) et Women in AI Ignite (Femmes et IA Ignite).


Enfin, un événement social parrainé et co-organisé par Element AI : « Bien-être en AM » a eu lieu. C’était une occasion de sensibiliser notre communauté aux pratiques positives de bien-être lors de la conférence qui incarne sa science. Son but ultime est de fournir à la communauté des outils pour maintenir son bien-être et sa santé mentale, et de l’encourager à s’exprimer ouvertement sur ces questions. Plus de 200 personnes ont participé!

Bien-être en AM

Équité, interprétabilité, explicabilité et éthique

Les régulateurs et les législateurs, et plus largement le grand public, ne comprennent pas toutes les nuances de l'intelligence artificielle (IA). Même si le fait d’avoir plusieurs organisations standard, des cadres éthiques d’IA et une définition de l’équité peut sembler rassurant, il est en fait encore plus compliqué pour le grand public de bien comprendre ce qu’est l’IA et quels sont les risques d’avoir des systèmes d’IA. Une des premières étapes pour établir la confiance est de pouvoir expliquer vos modèles d’IA. C’est pourquoi les domaines de recherche en équité, interprétabilité, explicabilité et éthique sont si importants et deviennent de plus en plus courants, comme dans ces ateliers : Minding the Gap: Between Fairness and Ethics (Combler l’écart : entre équité et éthique), Workshop on Human-Centric Machine Learning (Atelier sur l’apprentissage machine centré sur l’humain) et Robust AI in Financial Services: Data, Fairness, Explainability, Trustworthiness, and Privacy (Une IA robuste dans les services financiers : données, équité, explicabilité, fiabilité et confidentialité.)

Articles intéressants sur ces sujets :

  • Towards Automatic Concept-based Explanations (Vers des explications automatiques basées sur les concepts) : proposer une nouvelle méthode d’explication basée sur les concepts pour extraire automatiquement les concepts visuels en ciblant les concepts de niveau supérieur qui sont significatifs pour les humains et qui sont saillants pour le modèle d’apprentissage machine (AM).
  • CXPlain: Causal Explanations for Model Interpretation under Uncertainty (CXPlain : Explications causales de l’interprétation du modèle en cas d’incertitude) : encadrer la tâche de fournir des explications pour les décisions des modèles d’AM comme une tâche d’apprentissage causal, et former des modèles d’explication causale (CXPlain) qui apprennent à estimer dans quelle mesure certaines entrées provoquent des sorties dans un autre modèle d’AM.
  • Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV) (Essais quantitatifs avec les vecteurs d’activation de concepts) : introduire les vecteurs d’activation de concepts, qui fournissent une interprétation de l’état interne d’un réseau neuronal en matière de concepts conviviaux pour l’humain. L’idée clé est de considérer l’état interne à haute dimension d’un réseau neuronal comme une aide, pas un obstacle.
  • Fairness Assessment for Artificial Intelligence in Financial Industry (Évaluation de l’équité en matière d’IA dans le secteur financier) : se concentrer sur l’évaluation de l’équité, l’une des composantes clés de la gouvernance de l’IA, à travers une optique quantitative. Les méthodes statistiques sont examinées pour le traitement des données déséquilibrées et l’atténuation des biais.
  • Eliciting and Enforcing Subjective Individual Fairness (Obtenir et faire respecter l’équité individuelle subjective) : envisager un cadre pour l’obtention d’une équité, dans lequel l’équité est indirectement spécifiée uniquement par le biais d’un échantillon de paires de personnes qui devraient être traitées (approximativement) de la même façon pour la tâche. Ce cadre fournit un moyen d’appliquer de façon algorithmique les notions subjectives d’équité.

Aussi, Facebook a publié une bibliothèque d’interprétabilité et de compréhension de modèles pour PyTorch, Captum. Cette bibliothèque propose des algorithmes d’attribution pour interpréter les modèles d’IA.

Captum insights.

Confidentialité des données, apprentissage fédéré et cryptage

Protection des renseignements personnels, en particulier l’apprentissage fédéré (Facebook/pytorch, Apple, doc.ai) et la confidentialité différentielle

Les approches d’AM standard nécessitent la centralisation des données de formation sur une machine ou dans un centre de données. Toutefois, la protection de la vie privée et la sécurité sont devenues des préoccupations essentielles ces dernières années, en particulier parce que les entreprises et les organisations recueillent de plus en plus de renseignements détaillés sur leurs produits et leurs utilisateurs. L’apprentissage fédéré (AF) est une approche d’AM qui permet aux périphériques ou aux serveurs contenant des échantillons locaux de données d’apprendre de manière collaborative un modèle de prédiction partagé tout en conservant toutes les données de formation localement, ce qui permet de découpler la capacité d’AM de la nécessité de centraliser les données de formation.

L’AF est un environnement d’AM dans lequel de nombreux clients forment un modèle en collaboration sous l’orchestration d’un serveur central, tout en gardant les données de formation décentralisées. Les questions techniques communes sont le calcul général basé sur des données décentralisées et la façon dont ces calculs peuvent être combinés avec d’autres domaines de recherche, tels que la confidentialité différentielle, le calcul multipartite sécurisé, l’efficacité du calcul, la théorie du codage, etc.

Plusieurs communications et un atelier ont été consacrés à ce domaine :

De plus, PyTorch a un cadre pour l’apprentissage machine de la préservation de la confidentialité, appelé CrypTen.

Apprentissage par renforcement

Les chercheurs d’Element AI (EAI) ont publié deux articles sur l’apprentissage par renforcement. L’un d’entre eux est intitulé Learning Reward Machines for Partially Observable Reinforcement Learning (Machines d’apprentissage de récompenses pour l’apprentissage par renforcement partiellement observable), dans lequel les auteurs montrent que vous, l’utilisateur, n’avez plus besoin de spécifier les machines de récompense : cela peut être appris par l’expérience. Dans l’autre article intitulé Real-Time Reinforcement Learning (apprentissage par renforcement en temps réel), un nouveau cadre est introduit, dans lequel les états et les actions évoluent simultanément et montrent comment il est lié à la formulation classique du processus de décision Markov (ou Markov decision process, MDP). Cette méthode surpasse l’algorithme de contrôle continu Soft Actor-Critic existant, à la fois en temps réel et en temps non réel.

La représentation successeur (ou Successor Representation, SR) a été introduite à l’origine comme une représentation définissant la généralisation des états par la similarité des états successeurs. Elle a été introduite en 1993 par Dayan. Cependant, en raison de sa relation avec l’apprentissage multitâche, elle est actuellement étudiée plus en profondeur. Deux articles intéressants sur le sujet sont A neurally plausible model learns successor representations in partially observable environments (Un modèle neuralement plausible apprend ses représentations successeur dans des environnements partiellement observables) et Better Transfer Learning with Inferred Successor Maps (Un meilleur apprentissage par transfert avec des cartes successeur inférées).

D’un point de vue plus appliqué, un autre défi de l’apprentissage par renforcement est d’attribuer correctement le crédit pour la récompense reçue au comportement antérieur. Dans Hindsight Credit Assignment (Affectation de crédits rétroactive), les auteurs tentent directement de modéliser la probabilité qu’une récompense ait été reçue sous la forme d’une distribution de probabilité estimée à partir des données.

Certains articles ont été publiés en combinant les points forts des méthodes de planification et d’apprentissage par renforcement pour résoudre efficacement des problèmes à long terme, des tâches de récompense clairsemées avec des observations à haute dimension. Dans Search on the Replay Buffer: Bridging Planning and Reinforcement Learning (Recherche sur la mémoire tampon de relecture : faire le pont entre la planification et l’apprentissage par renforcement), les auteurs utilisent la différence entre les valeurs Q des états stockés dans un tampon comme une estimation de la distance entre eux, puis font une recherche graphique pour trouver un plan. Dans la figure ci-dessous, ils font de la planification sur des images pour la navigation visuelle.

Navigation visuelle.
Navigation visuelle : Étant donné un état initial et un état de but, leur méthode trouve automatiquement une séquence de points de cheminement intermédiaires. L’agent suit alors ces points de cheminement pour atteindre le but.

Vision par ordinateur

En ce qui concerne le domaine de recherche Vision, des progrès intéressants ont été réalisés dans le domaine de la reconnaissance des objets. Dans l’article Brain-like object recognition with high-performing shallow recurrent ANNs (Reconnaissance d’objets s’apparentant au cerveau avec des ANN récurrents peu profonds à haut rendement), ils démontrent qu’un meilleur alignement anatomique sur le cerveau et une haute performance sur l’AM ainsi que des mesures neuroscientifiques ne sont pas forcément en contradiction. Ils proposent une analyse comparative BrainScore qui évalue la correspondance entre les représentations de CNN et les enregistrements du système visuel des singes. Dans l’article Unsupervised learning of object keypoints for perception and control (Apprentissage non supervisé des points clés de l’objet pour la perception et le contrôle), ils proposent une méthode capable de transporter des caractéristiques visuelles d’une image à l’autre en utilisant un goulot d’étranglement de points clés. Grâce à cette approche, les auteurs sont en mesure de suivre les objets de manière beaucoup plus efficace. De plus, un ensemble de données à grande échelle contrôlé par biais pour repousser les limites des modèles de reconnaissance d’objets, appelé ObjectNet, a été publié. Il s’agit d’un ensemble de données difficile à classer, avec des images du monde réel, avec de nombreux objets différents provenant de nouveaux points de vue sur de nouveaux arrière-plans.

L’une des pistes sur lesquelles les chercheurs d’EAI ont travaillé est celle de l’« apprentissage restreint ». Dans Adaptive Cross-Modal Few-Shot Learning (Apprentissage restreint multimodal adaptatif), ils exploitent l’information multimodale pour améliorer les méthodes d’apprentissage restreint basées sur les mesures avec un mécanisme qui peut combiner de manière adaptative l’information des deux modalités selon les nouvelles catégories d’images à apprendre. L’amélioration des performances est particulièrement importante lorsque le nombre d’itérations est très faible.

Une autre piste de recherche sur la vision qui a fait l’objet de peu d’articles est celle de la segmentation des images. Une Perte d’information mutuelle de région pour la segmentation sémantique a été développée pour modéliser les dépendances entre les pixels de façon plus simple et plus efficace. Cette méthode utilise un pixel et ses voisins pour représenter ce pixel. Les auteurs de cet article ont obtenu de grandes améliorations de performance sur les ensembles de données PASCAL VOC 2012 et CamVid. Le code est disponible ici. Dans l’article Neural Diffusion Distance for Image Segmentation (Distance de diffusion neurale pour la segmentation de l’image), les auteurs proposent une architecture profonde différenciable composée de modules d’extraction de caractéristiques et de distance de diffusion pour calculer la distance de diffusion sur l’image par un apprentissage de bout en bout. Puis, avec la distance de diffusion apprise, ils proposent une méthode de segmentation hiérarchique de l’image qui surpasse les méthodes de segmentation précédentes.

Segmentation hiérarchique d'image.
Exemple de résultats de la segmentation hiérarchique de l’image.

Il y a eu d’autres articles intéressants sur la reconstruction de représentations 3D à partir d’images 2D, sur le fait de rendre les descripteurs de caractéristiques des images invariables aux transformations d’échelle et de rotation, sur la reconstruction d’une scène à partir d’un point de vue donné, et plus encore. De plus, un nouvel ensemble de données pour le renseignement sur les documents : CORD: A Consolidated Receipt Dataset for Post-OCR Parsing (Un ensemble de données d’encaissement consolidé pour l’analyse comparative postérieure à la ROC).

Données dépendantes du temps

Le défi bien connu des données dépendantes du temps est la prévision. Dans Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting (Améliorer la localisation et briser le goulot d’étranglement de la mémoire du transformateur sur la prévision des séries chronologiques), les auteurs tentent de mieux intégrer le contexte local dans le mécanisme d’attention avec une auto-attention convolutive et d’améliorer la précision des prévisions pour les séries temporelles à granularité fine et à fortes dépendances à long terme sous budget mémoire contraint en utilisant un transformateur LogSparse avec un coût mémoire de seulement O(L(logL)2).

Un domaine d’intérêt des séries chronologiques est la quantification de l’incertitude. Dans Single-Model Uncertainties for Deep Learning (Incertitudes d’un modèle unique pour l’apprentissage profond), une modification de la fonction de perte du flipper pour estimer l’incertitude aléatoire pour tous les quantiles simultanément a été introduite ainsi qu’une méthode d’entraînement d’un classificateur sur un modèle préformé pour estimer l’incertitude épistémique. Dans Accurate Uncertainty Estimation and Decomposition in Ensemble Learning (Estimation et décomposition précises des incertitudes dans l’apprentissage d’ensemble), les auteurs modélisent toutes les différentes sources d’incertitude à l’aide d’un ensemble non paramétrique bayésien (BME), qui peut être utilisé pour concevoir des prévisions distributionnelles de modèles d’ensemble. Enfin, dans Uncertainty on Asynchronous Time Event Prediction (Incertitude sur la prédiction d’un événement temporel asynchrone), la tâche de prédiction de l’événement suivant est abordée. Deux nouvelles architectures sont présentées, dans lesquelles la combinaison des RNN avec un processus gaussien ou une décomposition de fonction permet d’exprimer une riche évolution temporelle des paramètres de la distribution, et de capturer naturellement l’incertitude. Leur cadre modèle est illustré dans la figure ci-dessous.

Données dépendantes du temps.
Le cadre du modèle : étant donné une nouvelle séquence d’événements s, le modèle génère des pseudo-points qui décrivent l’évolution temporelle de la distribution sur le simplex et fournissent une mesure de l’incertitude de leurs prédictions.

Certains articles ont été publiés sur l’apprentissage de la représentation pour les séries chronologiques. Dans Unsupervised Scalable Representation Learning for Multivariate Time Series (Apprentissage de la représentation évolutive non supervisée pour les séries chronologiques multivariées), les auteurs proposent une méthode non supervisée pour apprendre les imbrications universelles pour les séries temporelles de longueurs variables et multivariées. Et dans Learning Learning Representations for Time Series Clustering (Apprendre les représentations d’apprentissage pour le regroupement de séries chronologiques), les auteurs présentent un modèle d’apprentissage de représentation temporelle non supervisé qui améliore les structures de clusters et obtient ainsi des représentations temporelles spécifiques aux groupements.

À venir!

En 2020, NeurIPS aura également lieu à Vancouver, au Canada. La destination pour 2021 a été annoncée : Sydney, Australie.