Simplifier les licences de données
Paul Gagnon Paul Gagnon
6 mai 5 min

Simplifier les licences de données

L’outil de création de licences (montrealdatalicense.com) n’aurait pas vu le jour sans la contribution d’Ike Saunders, Minh Dao, Matt Leus, Christian Jauvin et plusieurs autres collègues d’Element AI.

Vous êtes-vous déjà retrouvé·e dans une situation où vous aviez trouvé un jeu de données facilement accessible, mais vous ne saviez pas si vous pouviez l’utiliser? C’est précisément l’enjeu abordé dans un article récent, “Towards Standardization of Data Licenses: The Montreal Data License”, accepté au groupe de travail (workshop) AI for Social Good de la conférence ICLR 2019 en Nouvelle-Orléans. Cet article détaille les tendances en matière d’acquisition de données et explique certains enjeux conceptuels ainsi que les incertitudes qui en découlent. Enfin, pour résoudre ces enjeux, l’article met de l’avant une nouvelle famille de licences d’utilisation de données: la Licence de données de Montréal.

Nous sommes une équipe d’avocats et de scientifiques - Misha Benjamin, Paul Gagnon, Negar Rostamzadeh, Chris Pal, Yoshua Bengio et Alex Shee - qui avons tenté de résoudre certains enjeux propres à l’acquisition de données en examinant les conditions d’utilisation selon lesquelles ces données sont rendues disponibles. L’inspiration pour cet article est née d’une question courante chez Element AI. En effet, une conversation typique à ce sujet va comme suit:

Chercheur : Salut! J’ai trouvé un jeu de données particulièrement intéressant, et je me demandais si je pouvais l’utiliser. Pourrais-tu vérifier les conditions d’utilisation afin de me confirmer que je puisse en faire emploi?

Avocat : Oh! Très cool, je vérifie et te reviens rapidement à ce sujet!

Cinq minutes plus tard…

Avocat : Bon… à propos de ce jeu de données. Ce n’est vraiment pas clair ce qui peut être fait ou non. Désolé si la réponse est vague, mais que veux-tu dire par “utiliser” les données?

Les conditions d’utilisation de données rendues disponibles sont très souvent ambigües. Il est difficile de déterminer l’intention des individus et des entreprises rendant disponibles ces données étant donné que le vocabulaire utilisé pour décrire les conditions d’utilisation est imprécis et sujet à interprétation. Ceci impose un fardeau aux entreprises et chercheur·e·s soucieuses et soucieux de respecter les conditions contractuelles, ainsi que l’intention de ceux ayant rendu ces données disponibles.

À titre comparatif, les conditions d’utilisation de logiciels libres (open source) sont relativement standardisées. La plupart des logiciels libres sont rendus disponible sous des licences connues telles que les licences MIT, BSD, GPL ou Apache. Il est relativement facile de savoir en un clin d’oeil quelles sont les conditions d’utilisation afférentes à ces licences puisque celles-ci sont utilisées depuis des décennies par les communautés open-source. Ces licences sont claires, standardisées et couramment utilisées.

Notre article analyse les enjeux liés aux licences d’utilisation de données, et porte une attention toute précise aux ambiguïtés présentes et enjeux posés par ces licences. L’article analyse également des jeux de données populaires afin d’en démontrer les défaillances et met de l’avant un nouveau cadre conceptuel pour améliorer l’accès et la transparence des conditions d’utilisation de données.

Identifier le problème ne suffit pas. Afin de réellement mettre de l’avant une solution, nous avons créé un outil par lequel il est possible de créer automatiquement les conditions d’utilisation des données: montrealdatalicense.com. Le générateur de licence permet à celles et ceux qui veulent rendre certaines données disponible de répondre à quelques questions afin de créer automatiquement et simplement les conditions d’utilisation correspondant aux permissions qu’elles ou ils souhaitent octroyer.

Dans le monde de l’intelligence artificielle, le contexte est important. La Licence de données de Montréal veut donc appréhender les différents contextes et situations dans lesquelles un jeu de données peut être utilisé. Le vocabulaire précis d’un point de vue technique de la Licence de données de Montréal peut faciliter les choix à faire quant aux permissions à octroyer en lien avec des données rendues disponibles. Ainsi, plutôt que de se rapporter à des termes imprécis comme “utilisation académique” ou “utilisation non-commerciale”, la Licence de données de Montréal vise à clarifier la notion d’utilisation elle-même. Un cadre modulaire et plus précis définit donc les diverses actes pouvant être posés avec des données rendues disponibles.

Les auteur·e·s invitent tout commentaire sur l’article, le générateur de licence ainsi que le vocabulaire mis de l’avant dans ce cadre. La Licence de données de Montréal propose un cadre inclusif, modulaire et visant à définir des standards.