Document Intelligence : Traitement accéléré de tous les documents, quel que soit le secteur d’activité
Archy de Berker Archy de Berker
25 mars 10 min

Document Intelligence : Traitement accéléré de tous les documents, quel que soit le secteur d’activité

Le monde devient de plus en plus numérique, mais de nombreux processus d’affaires restent figés dans l’ère du papier. Dans tous les secteurs, les entreprises technologiquement avancées ont du mal à gérer la quantité et la complexité des documents papier qu’elles reçoivent de leurs partenaires et de leurs clients. Une étude récente a conclu que 51 % des données d’entreprise se trouvaient dans des documents papier ou des documents numériques non structurés. Les services financiers doivent composer avec des chèques et des formulaires de demande de prêt hypothécaire numérisés, les détaillants ont du mal à rapprocher les factures et à exécuter les bons de commande, et les entreprises de logistique sont inondées par les connaissements et les manifestes d’expédition provenant du monde entier.


Les documents sont des silos d’information. Vous ne pouvez pas chercher, visualiser ou analyser des données qui sont enfermées dans du papier, des documents numérisés ou des télécopies. Actuellement, la numérisation de vos documents de manière structurée, c’est-à-dire en transférant les renseignements qu’ils contiennent dans un fichier CSV ou une base de données, est un processus coûteux qui peut prendre énormément de temps. McKinsey estime qu’une institution financière mondiale type consacre 0,5 % de ses recettes à la manipulation de documents, tandis que les détaillants dépensent en moyenne 12 dollars pour le rapprochement de chaque facture. D’après ce que nous ont dit certains assureurs, environ 30 % des soumissions ne sont pas souscrites parce qu’elles n’ont pas été traitées à temps. La lenteur du traitement des documents nuit aux profits et entraîne des pertes. Il n’est donc pas étonnant que les entreprises se tournent vers l’automatisation pour résoudre ce problème toujours d’actualité.

Le défi de l’extraction de données

L’extraction de données à partir de documents est un problème complexe. Premièrement, la façon dont les gens s’expriment varie grandement d’une organisation à l’autre, et même au sein d’une même organisation. Le choix des mots et le formatage diffèrent énormément : une même date peut être écrite de 10 manières différentes, et les organisations développent leur propre vocabulaire interne au fil du temps. Deuxièmement, la façon dont l’information est organisée sur la page change d’une organisation à l’autre. Un fournisseur peut mettre son adresse en haut à gauche et la vôtre, en haut à droite, alors qu’un autre fera exactement le contraire. Troisièmement, ces deux facteurs varient de manière imprévisible dans le temps : les gens changent le format et la mise en page des documents sans avertissement.

Ces trois problèmes signifient que les solutions fondées sur des règles, c’est-à-dire qui s’appuient sur un modèle prédéterminé pour extraire les renseignements d’un champ dans un document, finissent inévitablement par échouer. Les documents du monde réel sont trop différents et changent trop souvent pour que de telles approches fonctionnent bien à grande échelle. Nombre de nos clients ont été confrontés aux difficultés que posent les formats irréguliers d’un fournisseur ou les changements apportés à une mise en page et qui rendent leur solution basée sur un modèle totalement inutile.

Depuis quelques années, des approches plus sophistiquées fondées sur l’apprentissage automatique et sur des modèles plus souples apprivoisent la complexité des données du monde réel. Bien que ces modèles aient connu un certain succès pour une forme de document très précise, comme une facture britannique, il peut être difficile de trouver suffisamment de données pour entraîner ces modèles avec succès. Lorsque les organisations disposent de grandes quantités de données adéquatement étiquetées, il est possible d’entraîner des modèles très performants. Mais les données d’entreprise sont rarement abondantes ou clairement identifiées. En fait, lorsque nous avons exploré de telles approches, nous avons constaté des problèmes persistants de dérive des données : les données historiques avec lesquelles nous entraînons nos modèles finissent par être différentes des données que les clients rencontrent au quotidien. Des effets imprévisibles et indésirables se produisent, et il faut réentraîner les modèles pour résoudre les problèmes.

Dérive des données : Le phénomène selon lequel les données changent au fil du temps. Cela peut être problématique pour les modèles d’apprentissage automatique qui ont été entraînés avec d’anciennes données et qui sont ensuite utilisés pour de nouvelles données : ce qu’ils ont appris risque de ne plus être pertinent. Par exemple, un service de classification des nouvelles entraîné avec des données des années 1990 pourrait classer les articles mentionnant Donald Trump dans la catégorie « affaires », alors qu’aujourd’hui ils correspondraient davantage à la catégorie « politique ».


Apprentissage continu

Afin de combattre la dérive des données, nous avons adopté la solution de l’apprentissage continu pour notre outil Document Intelligence. Ainsi, au lieu d’accumuler des données historiques, d’entraîner les modèles, puis de les déployer, nous utilisons un système qui apprend in situ. Cela présente plusieurs avantages pour nos clients :

  • Vous n’avez pas besoin de données historiques pour utiliser le système, car il apprend des données avec lesquelles vous travaillez au jour le jour. Cela élimine le problème de la dérive des données.
  • Nous pouvons déployer le système très rapidement – en deux semaines seulement – parce que nous n’avons pas besoin d’entraîner des modèles à l’avance. Cela facilite les tests utilisateurs et permet de confirmer rapidement l’utilité du système sans avoir à s’engager à long terme.
  • Il n’y a pas de quantité minimum de documents requis. Le système sera plus performant s’il y a plus de données, mais il fonctionne aussi bien avec des documents plus rares que les autres produits ne supportent pas.
  • Le système fonctionne avec n’importe quel type de document que traite votre organisation. Vous pouvez le configurer pour toute tâche d’extraction de données qui se présente. Comme nous n’avons pas à préentraîner des modèles, le système peut être entière configurable par l’utilisateur.
  • Avec le temps, à mesure que le degré de précision augmente, vous pouvez passer progressivement à l’automatisation, ce qui vous permet de gagner encore plus de temps.

Une nouvelle interface pour l’extraction des données

Quand nous avons compris tout le potentiel de l’apprentissage continu pour améliorer et accélérer l’extraction de données des documents, nous avons constaté que nous devions également repenser les interfaces qui permettraient cette transformation.

Pour la plupart de nos clients, l’indicateur clé de performance est le temps. Ils veulent traiter les documents plus rapidement, ce qui leur permet de se concentrer sur des choses plus importantes et de procéder plus rapidement à des tâches comme le paiement de factures, le recrutement d’un client ou l’exécution d’un virement bancaire. Après de nombreux tests utilisateurs, nous avons constaté qu’une interface de saisie semi-automatique était le moyen le plus rapide de fournir les suggestions du modèle et de faciliter le processus d’extraction des données. En fait, face à un type de document que le système n’a jamais vu auparavant, le système de saisie semi-automatique permet à lui seul d’accélérer l’extraction des données d’environ 30 %1. Au fur et à mesure que les modèles apprennent à reconnaître les différents champs qui vous intéressent dans une catégorie particulière de documents, ces gains de temps ne cessent de croître.

Autocomplete for data extraction.
Saisie semi-automatique pour l’extraction de données : En combinant un système OCR (reconnaissance optique de caractères) de pointe et une fonction de saisie semi-automatique basée sur l’apprentissage automatique, nous avons réussi à accélérer l’extraction de données dès le jour 0, tout en améliorant constamment la vitesse d’extraction à mesure que le système traite des documents.

Configurabilité par l’utilisateur

La combinaison de l’apprentissage continu et d’un système de saisie semi-automatique nous permet de fournir un produit standard qui s’adapte aux besoins de ses utilisateurs. L’un des principaux avantages est que vous pouvez choisir de configurer le système en fonction des champs importants pour votre organisation.

Nous vous proposons une configuration de base qui vous permet de choisir les champs que vous souhaitez extraire et de définir le type de données qu’ils représentent – nombres, mots, devises. Au fur et à mesure que le système apprend, des analyses vous permettent de contrôler le gain de temps que le système vous procure et la précision des suggestions proposées dans l’interface de saisie semi-automatique. Vous entraînez ainsi sans effort des modèles d’apprentissage automatique pour votre entreprise, tout en accélérant la saisie des données que vous feriez de toute façon.

Lorsque la précision des suggestions est satisfaisante, vous pouvez activer le mode de remplissage automatique et passer progressivement de la saisie accélérée des documents à une automatisation complète. Nous savons qu’il est important de gérer cette transition de manière progressive : beaucoup de nos clients ont été contrariés par des solutions qui promettaient un haut degré d’automatisation, mais qui ont produit d’énormes piles d’exceptions chronophages.

User-configurable tasks, analytics and automation levels.
Tâches configurables, analytique et degrés d’automatisation donnent suffisamment de flexibilité à Document Intelligence pour effectuer toute tâche d’extraction de données dans n’importe quel secteur d’activité.

De l’extraction des données à la valeur ajoutée

La plupart des organisations qui reçoivent des documents numérisés ne veulent pas simplement en extraire les renseignements ; elles veulent en faire quelque chose par la suite. L’extraction rapide et précise des données n’est que la première étape du processus.


Document Intelligence est conçu comme un module du système EAI OS, ce qui nous permet – à nous et à nos partenaires – de le combiner avec d’autres composants pour obtenir des retombées maximales. Dans de nombreux cas, les données extraites des documents nécessitent une validation ou un rapprochement, que ce soit la vérification du compte client sur un bon de commande, le rapprochement d’une facture avec le registre d’entrepôt ou la validation d’une demande de prêt en consultant l’historique de crédit d’un demandeur. Par exemple, notre plateforme pour les assurances comprend un module Document Intelligence ayant des capacités de validation, de priorisation et de prise de décision adaptées au domaine des assurances. Nous travaillerons avec certains de nos partenaires pour assembler des boîtes à outils similaires pour d’autres secteurs.

Conclusion

Le système Document Intelligence d’Element AI est une solution indépendante qui vous permet d’extraire des données de l’ensemble des documents traités dans votre organisation. L’utilisation de l’apprentissage continu et d’une interface de saisie semi-automatique novatrice nous permet de fournir une solution d’une rapidité fulgurante qui apprend instantanément des commentaires des utilisateurs. Elle offre aux entreprises un moyen flexible et fiable d’automatiser l’extraction de données de documents qui ne cessent d’évoluer.

1 Résultats fondés sur des tests utilisateurs internes.