Skip to Main content Skip to Navigation
Conference papers

Données authentiques : un grand corpus de SMS en français

Résumé : Qu’est-ce que la donnée écrite en sciences du langage ? Trois types se distinguent : 1) la donnée lexicale, qui se présente essentiellement sous forme d’une entrée lexicale, regroupant un ensemble de propriétés ; 2) » le nom spécifique de la donnée observable en linguistique est l’exemple » et renvoie à « un énoncé qui pourrait être effectivement prononcé, même s’il ne l’est pas dans les faits » (Milner 1989, p. 51-52) ; 3) la donnée en tant que texte brut, i.e. le corpus. En linguistique(s) de corpus, il s’agit d’analyser les productions authentiques contenues dans le corpus. Dans certaines écoles linguistiques, au contraire, l’étude du corpus tout-venant n’a pas lieu d’être. Ainsi, perdure le débat concernant l’opposition (ou, tout au moins, la différenciation) entre exemples linguistiques (éventuellement « fabriqués ») et productions authentiques relevées dans des corpus (cf. entre autres, pour le français, Bilger et al. 2000, Cori et al. 2008, Habert et al.1997, Péry-Woodley 1995). En vingt ans, notre propre approche a évolué : d’une analyse linguistique-informatique basée sur l’exemple (Panckhurst 1994, p. 39), nous sommes passée à une analyse de la donnée authentique figurant dans des corpus (Panckhurst 2013, p. 97, Panckhurst et al. 2014). Pour nous, cette mutation s’explique, d’une part, par l’évolution de l’accès aux données, et, d’autre part, par le discours électronique médié (Panckhurst 1997, 2006), circulant entre individus se servant d’outils électroniques (ordinateurs, tablettes, téléphones portables, etc.), qui induit des pratiques et des usages émergents. En deux décennies, la constitution de corpus numérisés ou nativement numériques est devenue monnaie courante, et cette accessibilité massive constitue en soi une nouveauté. Les données authentiques existant sous la forme de courriels, forums, chats, blogs, réseaux sociaux, et, plus récemment de SMS, facilement exploitables par les chercheurs, permettent l’observation, la fouille et l’analyse des pratiques et des usages (novateurs ou non) des scripteurs. Dans le cadre de cette communication, nous expliquerons ce cheminement, en nous focalisant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé « 88milSMS » (consultable sur la grille de services d’Huma-Num : http://88milsms.huma-num.fr/).
Complete list of metadatas

Cited literature [11 references]  Display  Hide  Download

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01184561
Contributor : Mathieu Roche <>
Submitted on : Sunday, August 16, 2015 - 5:52:48 AM
Last modification on : Thursday, July 2, 2020 - 1:58:41 PM
Long-term archiving on: : Tuesday, November 17, 2015 - 10:11:26 AM

File

panckhurst_roche_lopez_SHESL_H...
Files produced by the author(s)

Identifiers

  • HAL Id : lirmm-01184561, version 1

Citation

Rachel Panckhurst, Mathieu Roche, Cédric Lopez. Données authentiques : un grand corpus de SMS en français. SHESL-HTL, Jan 2015, Paris, France. pp.33-35. ⟨lirmm-01184561⟩

Share

Metrics

Record views

743

Files downloads

593