1. Introduction
Les petites et moyennes entreprises (PME) reconnaissent de plus en plus le potentiel de la compréhension du langage naturel et de l'extraction de relations pour numériser leurs processus et développer de nouveaux produits logiciels. De nombreuses visions de produits prévoient l'extraction, sous forme de relations, d'ensembles de mentions de concepts de taille variable à partir de textes, les modèles de données existants définissant un ensemble d'attributs potentiels par relation. Mais la plupart des approches actuelles se concentrent sur l'extraction de relations binaires. Par exemple, le nombre de plusieurs milliers de publications scientifiques biomédicales par semaine a permis d'automatiser avec succès la découverte de connaissances (Tsujii et al., 2011 ; Kim et al., 2011a ; Kim et al., 2011b). Contrairement à de nombreux autres domaines, la contrainte structurelle de la binaire semble raisonnable en raison des relations de cause à effet. L’extraction de relations sémantiques plus complexes nécessite actuellement la construction de systèmes sophistiqués basés sur des classifications binaires. Le domaine de l’extraction d’événements couvre de telles approches. Les événements sont des relations à attributs multiples comportant ce que l’on appelle des annotations de déclenchement. Par exemple, dans le message suivant concernant une obstruction de la circulation : A1 entre Köln-Mühlheim et Köln-Dellbrück, objets sur la chaussée, les deux sens fermés. Selon (Consortium, 2005), la fermeture déclenche l’événement mais ne fournit aucune information spécifique à celui-ci. Les attributs attribués à ces déclencheurs construisent des relations d’événements. Le rôle central de l’annotation des déclencheurs entraîne des exigences de haute qualité et un effort d’annotation accru.
Cette recherche présente l'extraction de relations multi-attributs (MARE), une nouvelle définition du problème visant à simplifier l'application des méthodes d'extraction de relations dans la pratique. Relations multi-attributs :
- disposer d'un ensemble bien connu de rôles potentiels pour les attributs,
- ne pas faire de suppositions sur la multiplicité des attributs lors de la création d'une instance de relation, et
- Ne vous fiez pas au concept de « déclencheur », qui indique la présence d'une relation.
Nous proposons une approche combinant le marquage de séquences et l'étiquetage de segments pour reconnaître des entités et extraire les relations à attributs multiples entre elles au sein d'un modèle intégré. Nous analysons les performances de nos approches sur le corpus Smart-Data (Schiersch et al., 2018). Ce corpus est la seule ressource disponible pour l'extraction de relations dans des textes en allemand. Les annotations de ce corpus comprennent des entités nommées ainsi que les relations à attributs multiples entre celles-ci. Nous publions toutes les données et le code source liés à cette recherche dans un dépôt GitHub¹. Nos principales contributions peuvent être résumées comme suit :
- Nous formalisons l'extraction de relations à attributs multiples et proposons deux approches spécifiques à ce problème.
- Nous démontrons que les approches ne reposant pas sur des déclencheurs offrent généralement de meilleures performances sur les relations à attributs multiples du corpus SmartData.
- Nous présentons la première évaluation reproductible d'une méthode d'extraction de relations non binaires sur un corpus allemand.
¹https://github.com/MSLars/mare
2. Travaux connexes
L'extraction de relations consiste à analyser les liens entre les entités nommées dans les textes afin de transposer ces informations non structurées dans des schémas prédéfinis. La plupart des ensembles de données de référence ne prennent en compte que les relations binaires (Mintz et al., 2009 ; Hendrickx et al., 2010).
Les approches traditionnelles d'extraction de relations binaires recourent au marquage des parties du discours, à l'analyse syntaxique de dépendance et à d'autres étapes pour calculer les représentations d'entrée destinées aux modèles d'apprentissage automatique (Xu et al., 2013). Les modèles de pointe actuels utilisent des réseaux de transformateurs pour calculer des représentations hautement contextualisées des relations binaires candidates et les combinent avec des couches de décision spécialisées au sein d'un réseau neuronal combiné (Li et Tian, 2020 ; Eberts et Ulges, 2019).
Dans le prolongement de l'extraction de relations binaires, le domaine de l'extraction de relations n-aires vise à détecter des relations comportant un nombre fixe de n arguments. (Peng et al., 2017) ont étendu les réseaux neuronaux récurrents afin d'intégrer efficacement les liens de dépendance syntaxique pour construire des représentations contextualisées des relations. (Lai et Lu, 2021) ont présenté une approche basée sur le modèle Transformer pour le même cadre expérimental. Ces deux travaux se concentrent sur les relations 3-aires.
Les méthodes d'extraction de relations binaires et à n-aires limitent souvent la construction de relations candidates à une énumération d'ensembles d'entités prédites. Nous extrayons des relations comportant un nombre arbitraire d'attributs en évitant ce type d'énumération afin de prévenir une explosion combinatoire.
Pour étendre la contrainte de taille fixe, le domaine de l'extraction d'événements définit les événements comme des relations à attributs multiples comportant un attribut déclencheur obligatoire. Le déclencheur indique la présence d'un événement. D'autres entités peuvent être associées à des déclencheurs uniques pour former des relations d'événements (Consortium, 2005 ; Aguilar et al., 2014). Les approches d'extraction d'événements s'appuient sur ces annotations de déclencheurs (Xiang et Wang, 2019). Toutes les entités associées à un déclencheur forment une relation à attributs multiples. Cela réduit le problème à une séquence de classifications de relations binaires.
Traditionnellement, les systèmes d'extraction de relations dans le monde réel extraient les entités et leurs relations au sein d'un pipeline de traitement. Ces systèmes souffrent d'une propagation des erreurs. Le domaine de l'extraction conjointe de relations étudie des modèles qui extraient les entités et les relations au sein d'un seul et même modèle. Une méthode courante pour construire un modèle conjoint consiste à partager la couche d'encodage entre plusieurs tâches en aval. (Wadden et al., 2019) ont présenté un système qui partage des encodages pour extraire des entités nommées, construire des candidats de relations binaires et classer la relation entre ceux-ci. (Zheng et al., 2017 ; Liu et al., 2019) introduisent des schémas d'étiquetage de séquences pour extraire explicitement des attributs et leurs relations en une seule étape de classification. De la même manière, nos modèles extraient des structures plus complexes sans énumération des relations candidates. Cela évite une explosion combinatoire pour MARE. Nous appliquons un nouveau réseau de transformateurs pour recevoir des encodages de texte contextualisés (Devlin et al., 2019 ; Clark et al., 2020).
(Schiersch et al., 2018) ont présenté le corpus Smart-Data destiné à l'extraction de relations dans des textes en allemand. Les relations annotées comportent un nombre variable d'arguments obligatoires et facultatifs. La section 3 analyse ce corpus de manière très détaillée. L'article original inclut les résultats du système d'extraction de relations DARE (Xu et al., 2013). Cette évaluation ne prend en compte que les rôles d'attributs obligatoires pour chaque relation. Nous prenons également en compte les attributs facultatifs et analysons les résultats dans un cadre plus complexe. (Roller et al., 2018) étudient l'extraction d'entités nommées et de relations binaires à partir de rapports cliniques en allemand. Leur corpus n'a pas été publié.
3. Analyse des données
Nous entraînons et évaluons nos approches sur le corpus Smart-Data2 (Schiersch et al., 2018), un corpus en allemand fourni par le DFKI3. Ce corpus contient des entités et des relations issues des domaines de la circulation routière et de l'industrie, annotées manuellement, issues d'articles d'actualité, de flux RSS et de tweets.
La troisième version du corpus contient 19 116 entités et 1 264 relations réparties dans 2 322 documents, pour un total de 141 344 mots⁴. Le tableau 1 présente la répartition entre les ensembles d'entraînement et de test fournie par SmartData.
La concordance entre les annotateurs est modérée (Viera et al., 2005), avec un coefficient kappa de Cohen de 0,58 pour les entités et de 0,51 pour les relations.
Tableau 1 : Répartition entre les ensembles d'apprentissage et de test du corpus SmartData, avec le nombre de relations et la proportion de documents dans chaque sous-ensemble.

Le DFKI décrit ses étapes de prétraitement dans (Schiersch et al., 2018) et sur GitHub.

Figure 1 : Structure des instances dans le corpus SmartData. Les documents contiennent des relations et des entités. Une relation comporte au moins deux attributs obligatoires. Chaque attribut est associé à une mention d'entité. Une entité peut servir d'attribut dans une ou plusieurs relations. Par exemple, l'entité « Location » peut servir d'attribut à la fois dans les relations « Accident » et « Obstruction ».

Figure 2 : Diagramme en boîte illustrant la répartition du nombre d'attributs par relation. Par exemple, le nombre d'attributs de la relation « Obstruction » varie de deux à dix, tandis que d'autres relations, comme « Insolvabilité », ne présentent pas la même variation. Les points indiquent les valeurs aberrantes.

Figure 3 : Répartition des relations et des attributs. La taille des rectangles est proportionnelle à la fréquence de la relation ou de l'attribut. L'explicité correspond au quotient de la fréquence de l'attribut et du nombre total d'entités dont le type est adapté au rôle spécifique de cet attribut. Cet indicateur mesure dans quelle mesure un type d'entité permet de désigner de manière fiable un attribut de relation.
La figure 1 illustre le méta-modèle de données. Il convient de noter qu'une relation peut comporter un nombre variable d'attributs et n'est pas limitée à un nombre fixe. À chaque rôle d'attribut peut correspondre un ensemble fixe de types d'entités : par exemple, des types d'entités tels que « Location-Street », « Location-City » ou « Location-Route » peuvent être utilisés de manière interchangeable comme attribut ayant le rôle « Location ».
Nous présentons ci-dessous les principales caractéristiques du corpus SmartData.
Relations. Le corpus propose 15 types de relations, chacun comportant deux attributs obligatoires et des attributs facultatifs. La figure 3 illustre la répartition des relations et des attributs.
Entités. SmartData propose 16 types d'entités très détaillés. Pour la liste complète, voir (Schiersch et al., 2018). Nous introduisons l'explicité comme indicateur afin de démontrer que seuls quelques types d'entités constituent un indicateur fiable d'une relation (cf. « Jam Length » ou « Position » dans la figure 3). De ce fait, les modèles MARE doivent apprendre à considérer les combinaisons d'entités dans leur ensemble.
Nombre variable d'attributs de relation. Chaque relation contient au moins un exemplaire de chacun des attributs obligatoires. Elle peut ou non comporter d'autres attributs facultatifs. L'exemple illustrant les différences discutables de la figure 5 montre un flux RSS comportant une relation « Obstruction ». Seuls les attributs « trigger » et « location » sont obligatoires. Les attributs « StartLoc » et « EndLoc » sont facultatifs.
Déséquilibré. Les ensembles de données déséquilibrés posent le défi d'apprendre la structure essentielle tant pour les points de données sous-représentés que pour les autres points de données plus riches (Mountassir et al., 2012). L'ensemble de données est déséquilibré tant en termes de relations que d'attributs (cf. figure 3) : « Traffic Jam » apparaît environ 10 fois plus souvent que « Spin Off ». Alors que les fréquences des attributs de « Spin Off » sont assez homogènes, celles de « Traffic Jam » présentent une différence dans la distribution des attributs, qui correspond aux attributs obligatoires et facultatifs.
Déclencheurs inappropriés. Dans d’autres corpus d’extraction d’événements, les déclencheurs sont strictement définis comme un seul token ou une seule séquence obligatoire, en raison de leur rôle essentiel d’indicateur de relation (Consortium, 2005 ; Aguilar et al., 2014). SmartData ne suit pas ces contraintes : les déclencheurs sont facultatifs et ne sont pas liés à des tokens consécutifs ni à un lemme ou une catégorie grammaticale spécifique. Ainsi, ce corpus empêche l'application des approches actuelles d'extraction d'événements en raison de leur hypothèse d'un token/span déclencheur existant.
Entités liées par une relation. Un même document peut comporter plusieurs relations. Les entités associées à ces relations ne sont pas nécessairement distinctes : par exemple, les relations « Embouteillage » et « Obstruction » sont susceptibles d'apparaître ensemble et de partager des attributs de localisation.
Différents registres linguistiques. SmartData utilise différentes sources de données, ce qui se traduit par des distributions variées et des schémas que les modèles doivent apprendre à reconnaître. Alors que les articles d'actualité constituent des textes continus et riches sur le plan grammatical, les flux Twitter et RSS se composent souvent de fragments de phrases.
Le corpus SmartData contient des relations comportant un nombre variable d'attributs et ne présentant pas de définition régulière des déclencheurs, ce qui lui permet de répondre à la définition du modèle MARE. Des adaptations sont nécessaires pour appliquer les méthodes actuelles d'extraction de relations ou d'événements.
2 https://github.com/DFKI-NLP/smartdata-corpus
3 Centre allemand de recherche en intelligence artificielle (Traduction : German Research Center for Artificial Intelligence)
4 Les chiffres diffèrent de ceux de l'article original en raison des différentes versions
4. GRAND
Cette section présente officiellement le concept d'extraction de relations à attributs multiples et expose deux approches MARE. Nous décrivons notre méthodologie d'évaluation, qui comprend l'adaptation d'une approche d'extraction d'événements et de relations binaires. Nous comparons ces deux approches aux approches MARE.
4.1 Définition
Pour un texte donné t = (t1,…,tn) avec n jetons,
S = {(ti,…,tj) | pour tout i, j ∈ {1,…,n}, i ≤ j}
désigne l'ensemble de toutes les portions de texte. Soit L l'ensemble des étiquettes de relations et Al l'ensemble des rôles d'attributs pour chaque étiquette de relation l ∈ L. La tâche consiste à prédire un ensemble de relations R pour un texte donné t. Chaque instance de relation r ∈ R
r = (l, {α_i | pour tout i ∈ {1,…,m}})
se compose d'une étiquette de relation l et d'un nombre variable de
0 < m ≤ |S| attributs
αi = (s, a) ∈ S × Al pour tout i ∈ {1,…,m}.
Chaque segment s ∈ S peut contribuer à un seul attribut au maximum dans chaque relation r ∈ R. Cependant, un segment peut contribuer à des attributs dans plusieurs relations. Nous autorisons explicitement les relations comportant un seul attribut. Nous désignons les segments de texte s_(ij) par les indices i et j, qui correspondent respectivement au début et à la fin. De plus,
A = ∪₍₎₍₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎₎
est l'ensemble de tous les rôles d'attribut.
La définition formelle ne fait pas de distinction entre les attributs obligatoires et facultatifs, comme indiqué à la section 3. Nous conservons toutefois cette distinction pour l'évaluation du modèle, car une fréquence plus élevée d'un rôle d'attribut implique une meilleure performance d'extraction.
4.2 Approches
Toutes les approches, à l'exception des modèles de référence, utilisent des réseaux Transformer comme encodeurs contextuels. Ces réseaux calculent des représentations contextuelles en combinant plusieurs couches d'auto-attention et de propagation directe. Ils sont entraînés de manière non supervisée (Devlin et al., 2019). Nous utilisons une version allemande d’ELECTRA5 (May et Reißel, 2020). Ses tâches de pré-entraînement se concentrent sur la capacité des modèles à décrire la structure sémantique des textes (Clark et al., 2020). Toutes les approches utilisent la version de l’algorithme d’optimisation Adam avec décroissance des poids introduite dans (Loshchilov et Hutter, 2019).
Dans ce qui suit, nous utilisons les définitions présentées à la section 4.1.
4.2.1 Marquage de séquences
Le nombre indéterminé d'attributs dans MARE nécessite des modèles qui ne doivent pas énumérer toutes les relations candidates. (Zheng et al., 2017) ont proposé un schéma de marquage permettant de formuler l'extraction de relations binaires comme un problème de marquage de séquences.
T = {b, i} × L × A ∪ {o}
décrit notre ensemble de balises. Les balises commençant par « b » et « i » marquent les tokens comme le début ou la partie interne d'une entité. Pour les segments d'entité obtenus, l'étiquette l ∈ L détermine la relation, et a ∈ Al détermine le rôle d'attribut pour une relation définie par l. « o » marque les tokens qui n'appartiennent pas à un attribut.
À partir de chaque séquence de tokens balisés, nous extrayons un ensemble d'attributs de relations incohérentes. Ces attributs sont regroupés en instances de relations en fonction de leur étiquette de relation.
La séquence d'entrée intégrée et contextualisée sert d'entrée à une couche de type feed-forward, qui la convertit en probabilités d'étiquettes. Un champ aléatoire conditionnel détermine la perte et la séquence d'étiquettes la plus probable. (Huang et al., 2015) décrit en détail les champs aléatoires conditionnels pour le marquage de séquences.
Notre modèle de marquage de séquences évite d'énumérer tous les candidats potentiels à une relation. Cependant, cela entraîne également les deux limites suivantes :
1. Attributs communs à plusieurs relations. Plusieurs relations peuvent comporter des attributs dont les segments de texte se recoupent. Notre système de balisage ne permet d'attribuer chaque segment qu'à une seule relation au maximum.
2. Relations multiples portant le même libellé. Un échantillon peut comporter plusieurs relations portant le même libellé. Par exemple, deux descriptions d'accident dans un même échantillon. Un regroupement basé sur ce libellé permet d'obtenir une seule relation au lieu de plusieurs occurrences.
Nous introduisons une couche de logique métier pour gérer ce type de situations. Lorsque des attributs communs s'étendent sur plusieurs relations, nous vérifions si les relations actuelles comportent des attributs obligatoires manquants. Si tel est le cas, nous recherchons les types d'attributs indiquant des arguments communs. Si un tel attribut se trouve dans une relation dont la largeur maximale est de 6, nous l'utilisons pour compléter la relation.
Dans ce qui suit, nous supposons que les attributs des relations sont triés selon leurs indices de portée. Pour traiter plusieurs relations portant le même étiquette dans un même échantillon, nous divisons une relation groupée α1,…,αn à l'indice i < n si les sous-ensembles α1,…,αi et αi+1,…,αn contiennent tous les attributs obligatoires et si la distance entre αi et αi+1 dépasse la largeur maximale de la relation.

Figure 4 : Illustration de l'approche d'étiquetage par segments. La séquence d'entrée est intégrée et contextualisée. Chaque segment de texte, dans la limite d'une largeur maximale (2 dans cet exemple), est transformé en une représentation de longueur fixe, étiquetée par une combinaison « étiquette de relation » et « rôle d'argument ». Enfin, la logique métier regroupe les attributs en relations.
4.2.2 Étiquetage des travées
Notre deuxième approche s'inspire de (Liu et al., 2019). Ces auteurs ont utilisé une méthode d'étiquetage de séquences plutôt qu'un marquage de séquences. L'étiquetage permet d'attribuer plusieurs étiquettes d'attributs à chaque segment de texte. Nous adaptons cette approche pour prédire une étiquette d'attribut de relation pour chaque segment de texte possible dans un échantillon donné. Tout comme notre approche de marquage de séquences, cette méthode ne nécessite pas d'énumérer toutes les relations candidates et résout le problème des attributs communs entre les relations.
Soit T = L × A un ensemble d'étiquettes indiquant l'étiquette de relation et le rôle de l'attribut pour un segment de texte donné. Le modèle prédit une probabilité P(t|s) pour chaque étiquette t ∈ T et chaque segment s ∈ S. Un hyperparamètre de largeur maximale de segment définit le nombre maximal de tokens par segment dans S. Nous utilisons une fonction de perte d'entropie croisée binaire, qui permet d'attribuer plusieurs étiquettes à un même segment.
La figure 4 illustre l'architecture de notre modèle. Les représentations des segments sont calculées à l'aide d'un module basé sur l'auto-attention issu d'AllenNLP7. Pour un texte donné de longueur n, nous calculons des plongements contextualisés (c1,…,cn) de dimension d. Pour chaque segment sij, nous disposons de j−i+1 plongements (ci,…,cj). Afin d'obtenir une représentation de segment de longueur fixe de dimension d, nous calculons une combinaison linéaire de ces plongements. Une matrice de paramètres M ∈ Rd×1 calcule les scores d'attention globaux ai = ci ·M pour tout i ∈ {1,…,n}. Ceux-ci sont utilisés pour calculer les poids wi,…,wj pour un segment sij, avec
faille
wk = a pour tout k dans {i,…,j}.
La somme des nombres entiers compris entre i et j est
La fonction softmax garantit que la somme des poids de chaque segment est égale à 1. Les représentations finales des segments sont une combinaison linéaire de ces poids et des plongements.
Une couche de projection, associée à la fonction sigmoïde élément par élément, calcule les probabilités d'étiquette pour chaque intervalle. À l'instar de l'approche précédente, cela aboutit à un ensemble d'instances de relations regroupées. Nous appliquons la même logique métier que dans la section 4.2.1, car la contrainte liée à l'existence de plusieurs relations portant la même étiquette demeure.
4.2.3 Extraction d'événements
Pour appliquer des méthodes d'extraction d'événements, il faut définir un déclencheur d'événement pour chaque relation à attributs multiples. Comme le montre la section 3, certaines instances dans la
Le corpus SmartData ne comporte pas de telles annotations. Si la définition d'une relation ne comporte pas d'attribut de déclencheur obligatoire, nous avons défini un type d'attribut obligatoire pour chaque relation en tant que déclencheur. Dans le cas de segments de déclencheurs multiples et non conjonctifs, nous sélectionnons le premier segment comme déclencheur. Nous n'avons pas appliqué de logique plus complexe, car l'ensemble des relations comportant plusieurs déclencheurs (78 sur 1 264) est relativement restreint. La première situation d'erreur décrite à la section 4.2.1 reste sans solution si des relations partagent des déclencheurs. D'autres attributs peuvent être partagés entre les relations.
Nous utilisons Dygie++⁸ comme approche d'extraction d'événements. Comme le décrivent (Wadden et al., 2019), Dygie++ utilise des représentations de segments contextualisées, à l'instar de ce qui est présenté à la section 4.2.2. La détection des déclencheurs et la désambiguïsation des attributs s'appuient sur ces représentations de segments communes.
4.2.4 Extraction de relations binaires
De nombreuses méthodes d'extraction de relations binaires classent toutes les paires d'entités possibles comme candidates à une relation, à l'instar de SpERT (Eberts et Ulges, 2019). Associée à un étiquetage multicatégoriel, cette approche permet de résoudre les deux types d'erreurs décrits à la section 4.2.1.
Nous utilisons SpERT pour extraire des relations binaires à partir de 1 717 des 1 864 échantillons du corpus d'apprentissage qui contiennent des relations comportant exactement deux attributs obligatoires. La section suivante présente différentes stratégies d'évaluation. Nous proposons une stratégie d'extraction de relations binaires afin de comparer les performances de SpERT à celles de toutes les autres approches sur le sous-ensemble des relations binaires valides.
4.3 Montage expérimental
Nous avons utilisé AllenNLP (Gardner et al., 2017) et PyTorch pour mettre en œuvre l'approche de marquage de séquences et d'étiquetage de segments. Notre dépôt GitHub contient des versions modifiées de Dygie++ et de SpERT. Ces modifications étaient nécessaires pour intégrer ces deux approches à notre infrastructure expérimentale.
Notre dépôt GitHub contient un récapitulatif de tous les hyperparamètres et de leurs valeurs dans les modèles finaux. Tous les hyperparamètres ont été déterminés à l'aide d'Optuna9. Nous avons effectué 50 itérations d'optimisation pour chaque modèle. Nous avons fixé le taux d'apprentissage de la couche d'embedding du réseau Transformer à 5 · 10−5 et à 10−3 pour tous les autres composants du réseau. Nous avons choisi une taille de lot de 6 pour toutes les approches MARE, et une taille de lot de 1 pour SpERT et Dygie++.
Nous utilisons diverses stratégies d'évaluation pour analyser les prédictions. Ces stratégies visent à refléter les défis posés par MARE à différents niveaux de complexité.
• Reconnaissance d'attributs (AR) : l'évaluation s'effectue au niveau des attributs. Un attribut est considéré comme correct si ses limites, l'étiquette de la relation et le rôle de l'attribut sont correctement prédits, sans tenir compte de son appartenance à une relation.
• Classification (Cl) : une prédiction est correcte si l'étiquette prédite correspond à une étiquette de référence.
• Extraction obligatoire de relations (MRE) : une prédiction est considérée comme correcte si tous les attributs obligatoires et l'étiquette de la relation correspondent à l'annotation de référence. Il est donc essentiel de regrouper les attributs obligatoires au sein d'une même relation.
• L'extraction complète de relations (CRE) évalue la capacité du modèle à extraire la relation avec l'ensemble des attributs. Ainsi, une prédiction est considérée comme correcte si le modèle extrait tous les attributs et les regroupe correctement au sein d'une relation portant le libellé approprié.
• Extraction de relations binaires (BRE) : il s'agit de la stratégie MRE appliquée au sous-ensemble d'échantillons ne contenant que des relations comportant exactement deux arguments obligatoires. Cette stratégie permet de comparer SpERT à toutes les autres approches.
Nous incluons le modèle de référence (DARE) de (Schiersch et al., 2018), qui se concentre sur les arguments obligatoires et utilise des annotations d'entités de référence. Notre propre modèle de référence est une adaptation de l'approche de marquage de séquences. Nous remplaçons le réseau Transformer pré-entraîné par une combinaison de vecteurs de mots GloVe10 (Pennington et al., 2014) et d'un réseau neuronal convolutif (CNN) au niveau des caractères comme couche d'encodage. Une couche Bi-GRU contextualise les entrées.
Notre infrastructure informatique comprend deux nœuds équipés de processeurs Intel Xeon Platinum 8168, de cartes graphiques Nvidia Quadro P5000 et de 16 Go de mémoire vive, sous le système d'exploitation Ubuntu 18.04. La recherche d'hyperparamètres a duré environ 24 heures.
5 https://huggingface.co/german-nlp-group/ electra-base-german-uncased
6 La largeur maximale de la relation est un hyperparamètre et est déterminée par une recherche d'hyperparamètres. Le dépôt GitHub contient la configuration de la recherche et les valeurs finales.
7 http://docs.allennlp.org/main/api/modules/ extracteurs de segments/extracteur de segments autonome/
8 https://github.com/dwadden/dygiepp
9 https://optuna.org/
5. Résultats
Les indicateurs du tableau 2 évaluent différentes capacités nécessaires pour extraire simultanément tous les attributs, leurs rôles et l'étiquette de relation. En général, lorsque les exigences des indicateurs augmentent, leurs valeurs diminuent.
L'approche d'étiquetage par segments améliore les résultats de l'extraction d'événements de 0,06 pour l'AR et de 0,04 pour le Cl dans les scores F1. Nous constatons que les deux approches MARE obtiennent de meilleurs résultats que Dygie++ sur l'ensemble de données complet. Le score MRE similaire et l'augmentation des scores AR et CRE indiquent que les modèles MARE extraient de manière plus fiable les arguments facultatifs et potentiellement moins fréquents. Une réduction au sous-ensemble de documents comportant exactement deux arguments obligatoires conduit à des scores généraux plus élevés, mais à une augmentation bien plus importante pour Dygie++ que pour les modèles MARE. Ces deux observations indiquent que les architectures de modèles comportant moins d'hypothèses structurelles sont mieux adaptées aux caractéristiques uniques du corpus, comme décrit dans la section 3.
Tableau 2 : Évaluation du modèle sur l'ensemble de test selon différentes stratégies, voir la section 4.3. La précision, le rappel et le score F1 servent d'indicateurs de comparaison.

La différence entre la référence MARE et les deux approches MARE met en évidence l'effet positif des réseaux Transformer pré-entraînés. Malgré les performances globalement moins bonnes de DARE, qui utilise un ensemble de règles sélectionnées automatiquement, la référence originale affiche le score de précision MRE le plus élevé. Cela indique une grande fiabilité des relations extraites, mais aussi un nombre élevé de faux négatifs en raison du faible score de rappel.
L'évaluation de SpERT montre une nette amélioration par rapport à notre modèle de référence MARE. SpERT obtient également de meilleurs résultats que nos modèles MARE sur le corpus BRE.

Le tableau 3 montre l'impact des annotations de déclencheurs sur les performances des modèles MARE. Les évaluations réalisées sur l'ensemble réduit d'attributs non déclencheurs des modèles MARE, entraînés avec ou sans annotations de déclencheurs, ne révèlent pas de différence significative au niveau des scores AR et MRE. Les performances de nos modèles sans annotations de déclencheurs sont comparables à celles des techniques de pointe en matière d'extraction d'événements sur des relations multi-attributs issues du corpus Smart-Data. Le score AR des modèles MARE est supérieur à celui de Dygie++. Cela prouve la capacité de MARE à extraire des attributs facultatifs et moins fréquents.
Par rapport au tableau 2, les scores AR diminuent, ce qui indique que les modèles extraient les attributs déclencheurs de manière fiable. En l'absence d'attributs déclencheurs, de nombreuses relations à attribut unique subsistent. Cela simplifie la tâche de MRE et entraîne une augmentation des scores MRE.
L'extraction de relations étant une tâche de haut niveau sémantique et les annotations de référence de SmartData présentant un certain degré d'incohérence, nous procédons à une analyse manuelle des erreurs afin de mieux comprendre les caractéristiques de prédiction de nos modèles.
5.1 Contrôle des erreurs
Nous avons procédé à une comparaison manuelle des différences entre les annotations de référence et les prédictions des modèles. Notre examen manuel a permis de mettre en évidence les classes d'équivalence d'erreurs suivantes. Tous les exemples mentionnés dans la liste ci-dessous se réfèrent à la figure 5.
1. Différences discutables Les prédictions des modèles sont souvent plausibles, même lorsque les données de référence contiennent des annotations divergentes. L'exemple illustre une relation d'« obstruction », dans laquelle le marathon représente la « cause de l'obstruction ». L'annotation de référence ne reflète pas cette situation. Ces différences discutables indiquent que nos modèles ont appris certains concepts sémantiques. Certaines généralisations dans les prédictions entraînent des faux positifs qui font baisser les indicateurs d'évaluation.
2. Classes de relations dépendantes sur le plan sémantique Certaines classes de relations, telles que « Accident » et « Obstruction », présentent un lien sémantique étroit. Par conséquent, les instances de ces relations sont souvent imbriquées et partagent des étendues d'entités en tant qu'attributs. Les annotations de ces attributs partagés sont souvent erronées. L'exemple montre une Obstruction causée par une Catastrophe. L'annotation de référence contient deux relations distinctes et n'exprime pas cette dépendance. Le déclencheur de la Catastrophe pourrait également être interprété comme la cause de l'Obstruction. Cette distinction pose un défi pour les modèles.

Figure 5 : Exemples de classes d'erreurs. Les encadrés colorés indiquent les relations et leurs attributs. Le rôle des attributs est annoté sous forme de texte. Prédictions issues de l'approche par étiquetage de segments.
3. Mentions de relations contextualisées De nombreuses instances de relation supposées apparaissent dans un contexte de présomption. Des mots tels que « prétendument » indiquent des suppositions plutôt que des faits. L'exemple illustre une présomption concernant la direction d'une organisation. Dans bon nombre de ces cas, les modèles ont prédit des instances de relation.
4. Prédictions incohérentes L'exemple illustre une relation d'obstruction, dans laquelle le modèle a correctement prédit tous les rôles. L'étiquette de relation pour la « destination finale » appartient à une relation sémantique similaire. Si les attributs manquants ne sont pas obligatoires, de telles situations ne peuvent pas être résolues par la logique métier.
5. Autres erreurs De nombreuses relations ne sont pas reconnues par les modèles. Ces erreurs surviennent souvent dans des phrases dont la structure grammaticale est moins rigoureuse, ou dans des phrases contenant de nombreux caractères spéciaux tels que « @ », « # » ou des expressions-clés typiques qui ne correspondent à aucune relation. L’exemple montre une catastrophe qu’aucun modèle n’avait prédite.
Les résultats indiquent que les approches actuelles d'extraction d'événements ou de relations binaires surpassent les modèles MARE pour la tâche d'extraction de relations binaires. Cependant, à mesure que l'on assouplit les contraintes structurelles, les modèles MARE prennent le dessus. Les approches MARE présentées permettent d'extraire des relations complexes à attributs multiples à partir de texte brut sans avoir à énumérer toutes les relations candidates. Les limites de nos approches, décrites à la section 4.2, n'ont pas eu d'impact significatif sur le corpus de données intelligentes.
10 https://deepset.ai/german-word-embeddings
6. Conclusion
Nous avons introduit l'extraction de relations à attributs multiples et avons distingué cette définition de la terminologie actuelle, à savoir l'extraction de relations n-aires et l'extraction d'événements. Notre définition du problème permet de simplifier les approches d'extraction de relations comportant un nombre arbitraire d'attributs, en évitant le recours à l'énumération des candidats et au concept de déclencheur.
Les modèles MARE s'avèrent plus performants lorsque les relations ne s'inscrivent pas dans un schéma binaire ou événementiel. Ils échappent aux contraintes structurelles et obtiennent de meilleurs résultats que les approches actuelles de pointe en matière d'extraction de relations et d'événements sur le corpus SmartData.
Nous prévoyons d'intégrer les résultats de l'analyse manuelle dans l'élaboration de nouvelles approches MARE à l'avenir. Notre objectif principal est de remédier aux limites des approches MARE existantes et de prendre en compte le contexte propre à chaque relation.
7. Références
Aguilar, J., Beller, C., McNamee, P., Van Durme, B., Strassel, S., Song, Z. et Ellis, J. (2014). Comparaison des événements et des relations entre les normes d'annotation ACE, ERE, TAC-KBP et FrameNet. Dans les Actes du deuxième atelier sur les ÉVÉNEMENTS : définition, détection, coréférence et représentation, pages 45–53, Baltimore, Maryland, États-Unis. Association for Computational Linguistics.
Clark, K., Luong, M.-T., Le, Q. V. et Manning, C. D. (2020). ELECTRA : pré-entraînement des encodeurs de texte en tant que discriminateurs plutôt qu'en tant que générateurs. arXiv:2003.10555 [cs]. arXiv: 2003.10555.
Consortium, L. D. (2005). Ace (extraction automatique de contenu) : directives d'annotation en anglais pour les événements. page 77.
Devlin, J., Chang, M.-W., Lee, K. et Toutanova, K. (2019). BERT : Pré-entraînement de transformateurs bidirectionnels profonds pour la compréhension du langage. arXiv:1810.04805 [cs]. arXiv: 1810.04805.
Eberts, M. et Ulges, A. (2019). Extraction conjointe d'entités et de relations basée sur les segments avec pré-entraînement sur Transformer. arXiv:1909.07755 [cs]. arXiv: 1909.07755.
Gardner, M., Grus, J., Neumann, M., Tafjord, O., Dasigi, P., Liu, N. F., Peters, M., Schmitz, M. et Zettlemoyer, L. S. (2017). Allennlp : une plateforme de traitement sémantique profond du langage naturel.
Hendrickx, I., Kim, S. N., Kozareva, Z., Nakov, P., O’Seaghda, D., Pado, S., Pennacchiotti, M., Romano, L. et Szpakowicz, S. (2010). SemEval-2010 Tâche 8 : Classification multidirectionnelle des relations sémantiques entre paires de noms. Dans les Actes du 5e Atelier international sur l'évaluation sémantique, pages 33–38, Uppsala, Suède. Association for Computational Linguistics.
Huang, Z., Xu, W. et Yu, K. (2015). Modèles LSTM-CRF bidirectionnels pour le marquage de séquences. arXiv:1508.01991 [cs]. arXiv: 1508.01991.
Kim, J.-D., Pyysalo, S., Ohta, T., Bossy, R., Nguyen, N. et Tsujii, J. (2011a). Aperçu de la tâche collaborative BioNLP 2011. Dans les Actes de l'atelier BioNLP Shared Task 2011, p. 1-6, Portland, Oregon, États-Unis. Association for Computational Linguistics.
Kim, J.-D., Wang, Y., Takagi, T. et Yonezawa, A. (2011b). Présentation générale de l'épreuve « Genia » dans le cadre du BioNLP Shared Task 2011. Dans les Actes de l'atelier BioNLP Shared Task 2011, pages 7-15, Portland, Oregon, États-Unis. Association for Computational Linguistics.
Lai, P.-T. et Lu, Z. (2021). BERT-GT : extraction de relations n-aires entre phrases à l'aide de BERT et du Graph Transformer. Bioinformatics.
Li, C. et Tian, Y. (2020). Conception d'un modèle en aval à partir d'un modèle linguistique pré-entraîné pour la tâche d'extraction de relations. arXiv:2004.03786 [cs]. arXiv: 2004.03786 version : 1.
Liu, Y., Li, A., Huang, J., Zheng, X., Wang, H., Han, W. et Wang, Z. (2019). Extraction conjointe d'entités et de relations basée sur la classification multi-étiquettes. Dans : 4e Conférence internationale IEEE 2019 sur la science des données dans le cyberespace (DSC), pages 106–111.
Loshchilov, I. et Hutter, F. (2019). Régularisation par décroissance des poids découplée. arXiv:1711.05101 [cs, math]. arXiv: 1711.05101.
May, P. et Reißel, P. (2020). German Electra : une police sans empattement.
Mintz, M., Bills, S., Snow, R. et Jurafsky, D. (2009). Supervision à distance pour l'extraction de relations sans données étiquetées. Dans les Actes de la Conférence conjointe de la 47e réunion annuelle de l'ACL et de la 4e Conférence internationale conjointe sur le traitement du langage naturel de l'AFNLP : Volume 2 – ACL-IJCNLP ’09, volume 2, page 1003, Suntec, Singapour. Association for Computational Linguistics.
Mountassir, A., Benbrahim, H. et Berrada, I. (2012). Étude empirique sur le problème des ensembles de données déséquilibrés dans la classification des sentiments. Dans : Conférence internationale IEEE 2012 sur les systèmes, l'homme et la cybernétique (SMC), pages 3298–3303.
Peng, N., Poon, H., Quirk, C., Toutanova, K. et Yih, W.-t. (2017). Extraction de relations n-aires entre phrases à l'aide de réseaux LSTM graphiques. Transactions of the Association for Computational Linguistics, 5:101–115.
Pennington, J., Socher, R. et Manning, C. (2014). GloVe : vecteurs globaux pour la représentation des mots. Dans Actes de la Conférence 2014 sur les méthodes empiriques en traitement du langage naturel (EMNLP), pages 1532–1543, Doha, Qatar. Association for Computational Linguistics.
Roller, R., Rethmeier, N., Thomas, P., Hübner, M., Uszkoreit, H., Staeck, O., Budde, K., Halleck, F. et Schmidt, D. (2018). Détection d’entités nommées et de relations dans les rapports cliniques en allemand. Dans Rehm, G. et Declerck, T., éditeurs, Language Technologies for the Challenges of the Digital Age, Lecture Notes in Computer Science, pages 146–154, Cham. Springer International Publishing.
Schiersch, M., Mironova, V., Schmitt, M., Thomas, P., Gabryszak, A. et Hennig, L. (2018). Un corpus allemand pour la reconnaissance fine des entités nommées et l'extraction de relations concernant les événements liés au trafic et à l'industrie. page 8.
Tsujii, J., Kim, J.-D. et Pyysalo, S., sous la direction de (2011). Actes de l'atelier BioNLP Shared Task 2011, Portland, Oregon, États-Unis. Association for Computational Linguistics.
Viera, A. J., Garrett, J. M., et al. (2005). Comprendre la concordance interobservateurs : la statistique kappa. Fam med, 37(5):360–363.
Wadden, D., Wennberg, U., Luan, Y. et Hajishirzi, H. (2019). Extraction d’entités, de relations et d’événements à l’aide de représentations contextuelles de segments. Dans les Actes de la Conférence 2019 sur les méthodes empiriques en traitement du langage naturel et de la 9e Conférence internationale conjointe sur le traitement du langage naturel (EMNLP-IJCNLP), pages 5784–5789, Hong Kong, Chine. Association for Computational Linguistics.
Xiang, W. et Wang, B. (2019). Étude sur l'extraction d'événements à partir de textes. IEEE Access, 7:173111–173137. Nom de la conférence : IEEE Access.
Xu, F., Uszkoreit, H., Li, H., Adolphs, P. et Cheng, X. (2013). Extraction de relations adaptative au domaine pour le Web sémantique.
Zheng, S., Wang, F., Bao, H., Hao, Y., Zhou, P. et Xu, B. (2017). Extraction conjointe d'entités et de relations à partir d'un nouveau schéma de balisage. arXiv:1706.05075 [cs]. arXiv: 1706.05075.







