Annotation et analyse syntaxique de corpus hétérogènes : le cas du français médiéval

Mathilde Regnault

Résumé

Medieval French is an umbrella term for Old French (9th-13h c.) and Middle French (14th-15th c.). We have annotated data for these stages, including a dependency treebank of Old French (Stein et Prévost 2013). However, obtaining more treebanks is difficult, because there are few experts of Medieval French and we do not have yet a dedicated parser for the whole period of Medieval French. A dedicated tool would make it easier to annotate new corpora and it would enable to control the quality of the annotation. Nevertheless, it is not a trivial task, because the states of language are subjected to variation. It comes from several sources, including the absence of standard spelling, dialects, flexible word order, evolution of morphology and syntax over seven centuries, with seminal phenomena like the transition from a SOV language to a SVO language. Text genres do also evolve as the number of literature writings rises and Latin is replaced by French for official texts such as treaties, contracts and chronicles. The data available for Medieval French are therefore heterogeneous, which makes it difficult to annotate them automatically.We chose to adapt the French Metagrammar (FRMG, Villemonte de la Clergerie (2005)) in order to develop a parser for Medieval French. Even if the differences between Medieval French and Contemporary French are striking, there are enough similarities to obtain a satisfactory parser. The main changes ensure the word order is properly analysed (ex. major constituents, noun modifiers, position of clitics). In order to annotate a new corpus, adapting the lexicon OFrLex (Sagot 2019) is mandatory: new entries as well as new syntactic and semantic information were added.

Le français médiéval couvre les états de langue d’ancien français (9e-13e s.) et de moyen français (14e-15e s.). Nous disposons de données annotées pour ces états de langue, dont un corpus arboré d’ancien français (Stein et Prévost 2013). Il est cependant difficile d’obtenir plus de données annotées syntaxiquement, car les spécialistes sont peu nombreux et qu’il n’existe pas encore d’outil dédié pour l’ensemble de la période. Développer ce genre d’outil permet d’obtenir des annotations plus facilement et d’en contrôler la qualité. Cependant, ce n’est pas une tâche simple parce que les différents états de langue sont soumis à la variation, due à plusieurs facteurs, notamment l’absence de norme graphique, la variation dialectale, la souplesse de l’ordre des mots, l’évolution de la morphologie et de la syntaxe (sur sept siècles), qui fait passer le français d’une langue SOV à une langue SVO. La nature des écrits se diversifie aussi à mesure que la littérature évolue et que le latin est délaissé au bénéfice du français comme langue administrative et juridique. Les données à analyser sont donc hétérogènes, ce qui rend difficile le traitement automatique.Pour obtenir un parseur du français médiéval, nous proposons d’adapter la métagrammaire du français contemporain FRMG (Villemonte de la Clergerie 2005). Bien que les différents états de langue présentent des différences manifestes, les points communs sont suffisants pour rendre possible la modification d’un système existant pour obtenir un outil dédié. Les changements concernent essentiellement l’ordre des mots (constituants majeurs, modifieurs du nom, position des pronoms conjoints). Pour utiliser cet outil sur corpus, il est nécessaire d’enrichir le lexique d’ancien français (Sagot 2019), d’une part pour obtenir une couverture lexicale satisfaisante sur les textes, et, d’autre part, pour y intégrer des informations syntaxiques et sémantiques nécessaires à l’analyse syntaxique.

Syntactic Analysis and Parsing of Heterogeneous Corpora : the Case of Medieval French

Annotation et analyse syntaxique de corpus hétérogènes : le cas du français médiéval

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager