Extraction d’information de documents 2D : une approche hybride
Olivier Nguyen Olivier Nguyen
25 mars 10 min

Extraction d’information de documents 2D : une approche hybride

Le traitement des documents est une tâche essentielle dans pratiquement tous les secteurs d’activité. C’est pourquoi Element AI développe de nouveaux outils pour accélérer et même automatiser ce processus. Nous utilisons des techniques d’apprentissage profond de pointe pour élaborer des systèmes qui peuvent extraire de l’information de documents numériques et numérisés rapidement et avec précision. Pour y parvenir, les modèles doivent pouvoir comprendre la mise en page 2D et la sémantique du texte.

L’hétérogénéité des données dans un corpus documentaire soulève de nombreux défis. Les documents diffèrent à bien des égards, et la même information est souvent exprimée dans des langues différentes. La présentation des documents peut varier de façon importante, même pour des documents propres à une organisation, et peut changer de manière imprévisible au fil du temps. Pour comprendre quelles données doivent être extraites, les systèmes doivent faire des inférences à partir de plusieurs éléments structurels, en combinant les informations glanées, par exemple, dans les entêtes, les titres de colonnes et les étiquettes de lignes. Il est donc extrêmement difficile de définir une approche de modélisation générique qui fonctionne correctement pour une grande variété de documents et de secteurs d’activité.

Approches existantes

Les approches traditionnelles de traitement du langage naturel (TLN) ont abordé ce problème au moyen de systèmes de reconnaissance des entités nommées (REN), qui consiste à classer des portions de texte dans des catégories précises, comme un nom ou une adresse. Certaines de ces techniques ont même été mises en œuvre dans des systèmes pour les entreprises.

Cependant, la REN ne tient pas compte de l’organisation spatiale du texte, qui a souvent de l’importance dans des formulaires ou d’autres types de documents structurés. Ces systèmes atteignent leurs limites lorsque les documents sont trop complexes et exigent une réflexion sur le contexte global.

Les méthodes faisant appel uniquement à la vision par ordinateur tentent, de leur côté, d’exploiter la structure 2D des documents en les traitant comme des images. À partir des valeurs brutes des pixels, elles appliquent des modèles de détection ou de segmentation pour classer l’image formée par les pixels dans un champ, comme le montrent Kai Chen et coll. et Sofia Ares Oliveira et coll.

De récentes approches qui combinent les techniques les plus récentes de TLN et de vision par ordinateur pour l’extraction dans des documents, comme BERTGrid, Attend, Copy & Parse, ainsi que des approches comme la convolution graphique ont obtenu des résultats prometteurs dans un contexte universitaire. Cependant, comme elles nécessitent de grandes quantités de données étiquetées et qu’elles sont longues à entraîner, elles ne conviennent pas à un système d’entreprise qui doit s’adapter rapidement à différents domaines et à de nouveaux types de documents et de mises en pages. Elles peuvent servir pour des documents comme des reçus, où de grandes quantités de données étiquetées peuvent facilement être obtenues, mais elles sont difficiles à utiliser dans des scénarios à forte variabilité et contenant des données sensibles tels que les formulaires d’assurance, les connaissements et les rapports d’activité.

Document Intelligence d’Element AI utilise une approche hybride fondée à la fois sur l’apprentissage profond et sur des techniques classiques d’apprentissage automatique pour effectuer l’extraction d’information. Combinant la reconnaissance optique de caractères (OCR) de pointe basée sur l’apprentissage profond, l’apprentissage par transfert à partir de modèles préentraînés de TLN ainsi que de riches représentations contextuelles de documents, cette approche permet d’obtenir un système qui apprend rapidement et continuellement et qui effectue des généralisations pour de nouveaux types de documents.

Classement des suggestions

Notre technologie d’extraction d’entités peut identifier un nombre illimité de champs dans tout type de document. Le système apprend à remplir automatiquement les champs à mesure que les utilisateurs entrent des données. Ces suggestions sont produites par notre modèle d’OCR, qui traite et lit le texte dans une image numérisée. Un menu déroulant de suggestions permet à l’utilisateur de sélectionner le meilleur choix parmi celles proposées par le modèle. Une interface conviviale associée à une rétroaction visuelle de l’endroit où s’insèrent les suggestions du système assurent que les utilisateurs comprennent bien les décisions du système et peuvent les corriger au besoin.

Dans le premier document d’un type donné, les suggestions du modèle d’OCR ne sont pas triées puisqu’aucune donnée ne permet d’indiquer la bonne solution pour une entité donnée. Cependant, avec l’apprentissage continu, les modèles s’améliorent constamment : les suggestions sont classées par ordre de probabilité et deviennent plus précises au fil du temps grâce aux commentaires des utilisateurs. Chaque fois que le système traite un document, il enregistre un nouvel exemple de ce à quoi ressemble une entité particulière, de même qu’un grand nombre d’exemples négatifs, c’est-à-dire des mots trouvés sur la page qui ne sont pas les bonnes réponses.

Cette approche n’exige pas l’élaboration manuelle de règles pour extraire les champs d’un document et demeure tolérante aux erreurs. Dans le pire des cas, le système continue d’aider l’utilisateur grâce à la saisie semi-automatique ; dans le meilleur des cas, il suggère de manière proactive la bonne réponse avant que les caractères ne soient tapés. Lorsque l’utilisateur fait davantage confiance au système d’IA, il peut passer d’une fonction de saisie semi-automatique à une fonction de génération automatique des caractères, qui inscrit automatiquement la meilleure suggestion du modèle pour un champ donné.

Apprentissage continuel

Contrairement aux solutions qui nécessitent un préentraînement exhaustif avec des données historiques, notre approche évite d’avoir à acquérir de grandes quantités de données et permet de d’entraîner les modèles à la volée. Le cycle d’apprentissage automatique comprend aussi les données fournies par les utilisateurs, ce qui signifie que nos modèles apprennent en permanence grâce au flux constant des commentaires des utilisateurs. Le système utilise l’apprentissage en ligne pour mettre rapidement à jour les modèles chaque fois qu’un nouveau document est saisi par un utilisateur.

Notre système se caractérise donc par :

  • un apprentissage rapide : il suffit de quelques exemples pour que le système apprenne un nouveau type de document ;
  • ses réglages entièrement configurables par l’utilisateur : comme il n’est pas nécessaire d’entraîner et de déployer des modèles particuliers pour chaque entité, les utilisateurs peuvent configurer l’utilisation du produit avec les documents qu’ils préfèrent. Il est ainsi plus facile pour les clients d’essayer le produit sans investissement initial important (de leur part ou de notre part) ;
  • sa résistance à la dérive des données : comme l’entraînement repose en permanence sur la rétroaction humaine, le système s’adapte aux changements du format ou des contenus des documents au fil du temps.

OCR de pointe

Notre système repose sur un modèle d’OCR de pointe basé sur l’apprentissage profond, développé à l’interne et entraîné avec de grandes quantités de textes manuscrits et imprimés provenant de situations réelles. Les ensembles de données que nous utilisons sont libres d’accès ou appartiennent à Element AI, et représentent de nombreux types de documents et de domaines, y compris des reçus, des factures, des rapports, des images prises dans la nature et des données synthétiques intelligemment conçues. Les modèles d’OCR apprennent donc de millions d’exemples, de sorte qu’ils peuvent être utilisés dans presque tous les domaines pour le traitement automatisé de documents. Notre architecture qui introduit l’humain dans le cycle d’apprentissage permet à l’utilisateur de corriger toute erreur de transcription. Ces modifications sont ensuite réintroduites dans le modèle et utilisées pour améliorer ses performances futures.

Utilisation de modèles préentraînés

Les progrès récents en TLN ont permis de perfectionner des modèles linguistiques préentraînés plus importants tels que BERT, XLNet et GPT-2 afin d’obtenir des résultats de pointe. L’impact est comparable à celui que les modèles d’apprentissage profond entraînés sur ImageNet ont eu sur la vision par ordinateur. Ces modèles ont démontré que les modèles linguistiques préentraînés à partir de grandes quantités de données peuvent fournir des performances supérieures pour une variété de tâches avec un minimum de réglages. Notre système capture la sémantique du texte d’un document en utilisant les mots et les caractères incorporés dans les modèles préentraînés pour mieux comprendre comment extraire les champs dont les significations sont similaires. Par exemple, nos systèmes peuvent apprendre que des zones de texte contenant les mots « Expéditeur » ou « De » ont la même signification et représentent des indices contextuels pour déterminer où se trouve une entité sur la page.

Création de représentations de documents

Un système qui apprend et s’améliore en permanence doit pouvoir apprendre rapidement sans oublier comment accomplir les tâches précédentes, mais aussi appliquer des généralisations à de nouveaux types de documents qu’il n’a jamais vus. Pour que l’extraction des champs soit plus robuste malgré la diversité des gabarits et des domaines, nous effectuons une représentation vectorielle de chaque document qui permet de capturer de l’information contextuelle telle que les textes qui apparaissent le plus souvent, l’emplacement du texte sur la page et les champs et renseignements à proximité. À partir de ces représentations de documents, nous pouvons regrouper des documents similaires, ce qui nous permet de détecter l’arrivée d’un échantillon plus complexe. Cela permet également de réduire la taille des échantillons d’entraînement, car nous pouvons sélectionner les données qui contribueront le plus aux performances du modèle.

Conclusion

Grâce aux techniques décrites ci-dessus, Document Intelligence d’Element AI peut apprendre rapidement à extraire de l’information pertinente de documents structurés et semi-structurés. Notre système combine différents types de modèles d’apprentissage automatique en privilégiant une approche qui intègre l’humain dans le cycle d’apprentissage pour que le système apprenne en permanence des commentaires des utilisateurs. Au fil du temps, nos algorithmes apprennent à classer les suggestions et à remplir automatiquement les champs. L’élément crucial de cette approche est une interface explicable, qui permet aux modèles d’être utiles même lorsqu'un document rare ou jamais vu apparaît dans le système.

Une fois que les utilisateurs ont réussi à extraire l’information des documents, ils peuvent se concentrer sur des tâches importantes en utilisant les données extraites. Selon les besoins, ces dernières peuvent servir à entraîner les futurs algorithmes de prévision et de prise de décision.