Données authentiques : un grand corpus de SMS en français - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Données authentiques : un grand corpus de SMS en français

Résumé

Qu’est-ce que la donnée écrite en sciences du langage ? Trois types se distinguent : 1) la donnée lexicale, qui se présente essentiellement sous forme d’une entrée lexicale, regroupant un ensemble de propriétés ; 2) » le nom spécifique de la donnée observable en linguistique est l’exemple » et renvoie à « un énoncé qui pourrait être effectivement prononcé, même s’il ne l’est pas dans les faits » (Milner 1989, p. 51-52) ; 3) la donnée en tant que texte brut, i.e. le corpus. En linguistique(s) de corpus, il s’agit d’analyser les productions authentiques contenues dans le corpus. Dans certaines écoles linguistiques, au contraire, l’étude du corpus tout-venant n’a pas lieu d’être. Ainsi, perdure le débat concernant l’opposition (ou, tout au moins, la différenciation) entre exemples linguistiques (éventuellement « fabriqués ») et productions authentiques relevées dans des corpus (cf. entre autres, pour le français, Bilger et al. 2000, Cori et al. 2008, Habert et al.1997, Péry-Woodley 1995). En vingt ans, notre propre approche a évolué : d’une analyse linguistique-informatique basée sur l’exemple (Panckhurst 1994, p. 39), nous sommes passée à une analyse de la donnée authentique figurant dans des corpus (Panckhurst 2013, p. 97, Panckhurst et al. 2014). Pour nous, cette mutation s’explique, d’une part, par l’évolution de l’accès aux données, et, d’autre part, par le discours électronique médié (Panckhurst 1997, 2006), circulant entre individus se servant d’outils électroniques (ordinateurs, tablettes, téléphones portables, etc.), qui induit des pratiques et des usages émergents. En deux décennies, la constitution de corpus numérisés ou nativement numériques est devenue monnaie courante, et cette accessibilité massive constitue en soi une nouveauté. Les données authentiques existant sous la forme de courriels, forums, chats, blogs, réseaux sociaux, et, plus récemment de SMS, facilement exploitables par les chercheurs, permettent l’observation, la fouille et l’analyse des pratiques et des usages (novateurs ou non) des scripteurs. Dans le cadre de cette communication, nous expliquerons ce cheminement, en nous focalisant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé « 88milSMS » (consultable sur la grille de services d’Huma-Num : http://88milsms.huma-num.fr/).
Fichier principal
Vignette du fichier
panckhurst_roche_lopez_SHESL_HTL2015-13-10-2014.pdf (134.59 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

lirmm-01184561 , version 1 (16-08-2015)

Identifiants

  • HAL Id : lirmm-01184561 , version 1

Citer

Rachel Panckhurst, Mathieu Roche, Cédric Lopez. Données authentiques : un grand corpus de SMS en français. SHESL-HTL, Jan 2015, Paris, France. pp.33-35. ⟨lirmm-01184561⟩
495 Consultations
456 Téléchargements

Partager

Gmail Facebook X LinkedIn More