Peu de domaines de l'informatique sont actuellement aussi populaires que l'apprentissage automatique (ML) et, en particulier, le traitement du langage naturel (NLP). Qui ne connaît pas l'utilisation d'un smartphone ou d'une radio via un assistant vocal (Siri, Alexa, etc.) ? N'est-il pas agréable de simplement dicter l'adresse vers laquelle on souhaite se rendre ? Même la reconnaissance automatique des demandes des clients lors du traitement automatisé du courrier est désormais possible.
Malgré l'existence d'outils d'aide et de modèles de processus et de procédures bien établis, tels que STAMP4NLP [1], la création d'une telle application reste très exigeante. Afin de pouvoir entraîner les modèles statistiques nécessaires, capables de mettre en évidence des schémas au sein des données pour l'extraction d'informations, il faut d'abord identifier et préparer des données appropriées. Cela comprend à la fois la correction des fautes d'orthographe et le balisage manuel, qui consiste à marquer des éléments dans le texte. Sur la base du corpus annoté, le modèle est entraîné pendant la phase d'apprentissage et, une fois l'optimisation terminée, intégré dans un système d'IA prêt à être utilisé en production (voir Figure 1).

La protection des données est un aspect qui occupe une place de plus en plus importante dans le développement des systèmes d'IA [2]. En raison de la grande complexité liée à la création d'applications de TALN, de nombreuses entreprises doivent faire appel à des sociétés et à des développeurs externes. Cela implique toutefois de leur communiquer des données contenant des informations sensibles en matière de protection des données, qui serviront à entraîner les nouvelles applications. C'est à ce stade que la plupart de ces entreprises renoncent jusqu'à présent à l'introduction du TALN au sein de leur propre structure, car l'anonymisation des données nécessite des efforts considérables.
C'est notamment grâce au règlement général sur la protection des données (RGPD) de l'UE que la question de l'anonymisation des données dans le respect de la protection des données a connu un regain d'intérêt [3]. En raison des sanctions sévères encourues en cas d'infraction, la protection des données constitue actuellement un obstacle majeur à l'adoption du NLP.
Les méthodes existantes, qui permettent de remplacer relativement facilement les informations sensibles par des données fictives, ne sont pas facilement applicables. Cela s'explique d'une part par le domaine d'application concerné. Dans le contexte des assurances, par exemple, les numéros de police, les noms, les dates des événements et les adresses doivent certainement être considérés comme des informations sensibles. En revanche, dans le contexte des données médicales, il convient d'accorder une attention particulière à des attributs tels que la taille, le poids, les symptômes et les diagnostics. Par conséquent, il faut d'abord identifier les attributs critiques pour chaque domaine.
Il faut également veiller à ce qu’une partie suffisante des informations soit anonymisée. Si les informations restantes, combinées à une autre source de données, permettent de remonter aux données d’origine, l’anonymisation n’est pas effective. Un exemple en est la suppression du nom et de l'adresse, tout en conservant la date de naissance et le sexe dans un rapport médical. Si l'on ajoute à cela le registre de la population et que l'on limite celui-ci à la zone de desserte de l'hôpital, l'identification de la personne concernée est possible sans grand effort [4].
D'autre part, il convient également de tenir compte du choix des méthodes disponibles. À titre d'exemple, il existe des variantes qui remplacent les noms de manière aléatoire par les 100 noms les plus courants en Allemagne. Un remplacement schématique 1:1 est toutefois également envisageable, tout comme des méthodes plus complexes. Dans ce contexte, il ne faut pas négliger l'influence de l'anonymisation sur le modèle à entraîner. Si, lors de l'exploitation en production de l'application NLP, un document comportant un nom ne figurant pas parmi les 100 plus courants apparaît, celui-ci peut, dans certaines circonstances, ne pas être reconnu. Par conséquent, il convient de prendre en compte la préservation de la variance des données au sein des attributs anonymisés.
À cela s'ajoute le fait que la préservation des liens entre les données est également importante lors de l'anonymisation. Sans cela, il est impossible de reconnaître, d'un enregistrement à l'autre, qu'il s'agit de la même personne ou que les processus décrits sont liés entre eux. Dans l'ensemble, les méthodes existantes limitent trop l'entraînement des modèles sur des données anonymisées en raison de la perte d'informations.
L'objectif est de trouver un équilibre entre le respect des règles de protection des données et la mise au point d'une application de haute qualité. Le schéma de procédure ci-dessous présente une approche possible permettant de mettre en œuvre le NLP grâce à l'anonymisation.
Aperçu de la procédure
Prenons l'exemple d'une entreprise qui communique avec ses clients via un formulaire de contact. Afin d'éviter d'avoir à traiter chaque message manuellement, ceux-ci doivent être traités de manière aussi automatique que possible.
Le développement d'une application de traitement du langage naturel (NLP) est confié à un prestataire externe spécialisé en NLP, qui demande à l'entreprise de lui transmettre les messages des clients à cette fin. Cependant, comme ces messages contiennent des données à caractère personnel relevant de la protection des données, l'entreprise n'est pas autorisée à les divulguer.

En conséquence Figure 2 On procède donc comme suit : l'entreprise commence par constituer un corpus et l'annote. Celui-ci est ensuite conservé comme référence. Le corpus doit ensuite être anonymisé. Une solution courante consiste à demander aux employés de l'entreprise de marquer les passages sensibles dans les messages et de les remplacer par des étiquettes correspondantes.

Pour ce faire, il convient tout d'abord d'identifier toutes les catégories d'informations critiques spécifiques au domaine. Prenons ici l'exemple du secteur des assurances. Il s'agit donc de remplacer le nom, la date, le numéro de client et l'adresse e-mail, ainsi que d'éventuels autres attributs (voir Figure 3).
Une fois l'anonymisation effectuée, l'ensemble de données contenant les e-mails anonymisés est envoyé au prestataire de services de TALN. Ce dernier remplace les étiquettes par des données fictives et génère ainsi un ensemble de données conforme à la protection des données, qui peut être réutilisé et constitue une référence anonymisée. Le prestataire de services entraîne ensuite un modèle statistique d'extraction d'informations et développe un service d'IA de TALN adapté.
Le service et le modèle sont ensuite remis à l'entreprise cliente, qui procède à une vérification de la qualité du traitement des e-mails. Pour ce faire, on utilise la norme de référence définie au départ. À l'aide de différents indicateurs, la précision d'extraction de l'application est mesurée par rapport aux objectifs de produit spécifiés au préalable. Si la qualité n'est pas suffisante, on évalue s'il convient d'adapter le processus d'anonymisation ou d'élargir le corpus, et l'application est alors retravaillée.
Si la qualité du traitement répond à tous les critères requis pour une mise en production, l'application est intégrée aux processus existants. Il convient de vérifier régulièrement si le traitement continue de fonctionner sans problème ou si une adaptation est nécessaire.
Une alternative au recours à des prestataires de services ?
Au lieu de faire appel à des prestataires externes, on peut opter pour des plateformes « low-code » modernes hébergées sur site. Le terme « low-code » signifie ici que même des non-initiés peuvent développer des modèles de TALN très performants. Les solutions de type plateforme ouverte, comme celle proposée par la start-up TaggingMatters de la FH-Aachen (https://taggingmatters.de/), respectent la protection des données tout en masquant la complexité des frameworks utilisés. Ainsi, les collaborateurs des entreprises n'ont pas besoin de devenir des experts des outils complexes de traitement du langage naturel (NLP) ou d'apprentissage automatique (ML), tels que spaCy ou TensorFlow, ni des mathématiques qui sous-tendent les méthodes modernes ; ils peuvent donc se concentrer sur les activités à valeur ajoutée.
Outre la préparation des données (« balisage »), ces plateformes permettent de créer de manière optimisée des modèles d'IA et de fournir des services d'IA. Cela permet de mener à bien les itérations décrites ci-dessus beaucoup plus rapidement, même sans expérience en traitement du langage naturel (NLP). Au final, l'entreprise bénéficie de coûts de développement réduits et d'un retour sur investissement plus rapide, car il ne faut pas perdre de vue l'objectif réel, à savoir l'amélioration des processus métier.
Résumé
L'existence et le renforcement des droits en matière de protection des données compliquent la mise en œuvre du NLP dans de nombreuses entreprises issues de secteurs très variés. L'anonymisation des données avant leur transmission à des éditeurs de logiciels externes ou l'utilisation d'une plateforme low-code peut remédier à cette situation. Un point critique réside dans la qualité atteignable des modèles entraînés sur des données anonymisées et dans sa mesure par l'entreprise mandante. Un processus d'optimisation itératif pour la création et l'optimisation des modèles, s'appuyant sur des retours d'information multiples, est ici indispensable.
À l'avenir, les traitements automatisés prendront de plus en plus d'importance dans le contexte numérique. En particulier en ce qui concerne la loi sur l'accessibilité en ligne (OZG), de plus en plus d'entreprises chercheront à optimiser leurs processus. Pour ce faire, un soutien externe sera de plus en plus nécessaire, ce qui pourra être mis en œuvre à l'aide du schéma de procédure présenté ici ou grâce à l'utilisation de plateformes « low-code ».
Auteurs
Prof. Dr. rer. nat. Bodo Kraft
Le professeur Bodo Kraft est le fondateur et le directeur du laboratoire Business Programming. Depuis plus de dix ans, il y mène, en collaboration avec cinq doctorants actuellement, des recherches appliquées dans le domaine de la linguistique informatique. Ces différents projets ont pour point commun de s'attaquer au défi que représente le traitement efficace et automatisé de volumes massifs de documents en langage naturel.
Il est essentiel d'adapter avec succès les solutions au domaine concerné. L'accent est également mis sur une approche agile et axée sur la qualité afin de créer des systèmes logiciels exploitables et faciles à maintenir.
Professeur Matthias Meinecke
Le professeur Matthias Meinecke (professeur de gestion des opérations, membre du comité directeur de l'Institut pour la numérisation d'Aix-la-Chapelle, Université des sciences appliquées d'Aix-la-Chapelle) enseigne, mène des recherches et fournit des conseils sur les thèmes de l'optimisation et de l'automatisation des processus métier.
En collaboration avec le professeur Kraft, il est coach de la start-up laizee.ai, qui développe des produits et des services destinés au traitement efficace et automatisé du langage humain afin d'optimiser les processus d'entreprise.
Ines Larissa Siebigteroth, titulaire d'un master
Ines Larissa Siebigteroth, titulaire d'un master en sciences, a étudié les mathématiques appliquées à l'université des sciences appliquées d'Aix-la-Chapelle et à l'université du Wisconsin-Milwaukee ; elle prépare actuellement un doctorat sous la direction du professeur Bodo Kraft. Mme Siebigteroth fait partie du laboratoire de programmation d'entreprise. Ses travaux portent principalement sur le traitement automatique du langage naturel (NLP) et, plus particulièrement, sur la création de corpus de haute qualité, dans le respect de la protection des données, destinés au traitement automatisé du langage naturel.
Références
| [1] | P. Kohl, O. Schmidts, L. Klöser, H. Werth, B. Kraft et A. Zündorf, « STAMP 4 NLP – Un cadre agile pour le développement rapide d'applications de traitement du langage naturel axées sur la qualité », [en ligne]. Disponible à l'adresse : https://link.springer.com/chapter/10.1007%2F978-3-030-85347-1_12. |
| [2] | Commission d'éthique des données, « Recommandations de la Commission d'éthique des données concernant la stratégie du gouvernement fédéral en matière d'intelligence artificielle », [en ligne]. Disponible à l'adresse : https://www.bmjv.de/SharedDocs/Downloads/DE/Ministerium/ForschungUndWissenschaft/DEK_Empfehlungen.pdf?__blob=publicationFile&v=2. |
| [3] | S. C. A. Probst Eide, « L'état actuel du développement des outils d'anonymisation des données », [en ligne]. Disponible à l'adresse : https://www.it-finanzmagazin.de/entwicklungsstand-daten-anonymisierung-73373/. |
| [4] | D. Barth-Jones, « La “réidentification” des informations médicales du gouverneur William Weld : une analyse critique des risques liés à l’identification des données de santé et des mesures de protection de la vie privée, hier et aujourd’hui », [en ligne]. Disponible sur : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2076397. [Consulté le 15 décembre 2021]. |







