Données authentiques : un grand corpus de SMS en français

Résumé : Qu’est-ce que la donnée écrite en sciences du langage ? Trois types se distinguent : 1) la donnée lexicale, qui se présente essentiellement sous forme d’une entrée lexicale, regroupant un ensemble de propriétés ; 2) » le nom spécifique de la donnée observable en linguistique est l’exemple » et renvoie à « un énoncé qui pourrait être effectivement prononcé, même s’il ne l’est pas dans les faits » (Milner 1989, p. 51-52) ; 3) la donnée en tant que texte brut, i.e. le corpus. En linguistique(s) de corpus, il s’agit d’analyser les productions authentiques contenues dans le corpus. Dans certaines écoles linguistiques, au contraire, l’étude du corpus tout-venant n’a pas lieu d’être. Ainsi, perdure le débat concernant l’opposition (ou, tout au moins, la différenciation) entre exemples linguistiques (éventuellement « fabriqués ») et productions authentiques relevées dans des corpus (cf. entre autres, pour le français, Bilger et al. 2000, Cori et al. 2008, Habert et al.1997, Péry-Woodley 1995). En vingt ans, notre propre approche a évolué : d’une analyse linguistique-informatique basée sur l’exemple (Panckhurst 1994, p. 39), nous sommes passée à une analyse de la donnée authentique figurant dans des corpus (Panckhurst 2013, p. 97, Panckhurst et al. 2014). Pour nous, cette mutation s’explique, d’une part, par l’évolution de l’accès aux données, et, d’autre part, par le discours électronique médié (Panckhurst 1997, 2006), circulant entre individus se servant d’outils électroniques (ordinateurs, tablettes, téléphones portables, etc.), qui induit des pratiques et des usages émergents. En deux décennies, la constitution de corpus numérisés ou nativement numériques est devenue monnaie courante, et cette accessibilité massive constitue en soi une nouveauté. Les données authentiques existant sous la forme de courriels, forums, chats, blogs, réseaux sociaux, et, plus récemment de SMS, facilement exploitables par les chercheurs, permettent l’observation, la fouille et l’analyse des pratiques et des usages (novateurs ou non) des scripteurs. Dans le cadre de cette communication, nous expliquerons ce cheminement, en nous focalisant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé « 88milSMS » (consultable sur la grille de services d’Huma-Num : http://88milsms.huma-num.fr/).
Type de document :
Communication dans un congrès
SHESL-HTL'15 "Corpus et constitution des savoirs linguistiques", Jan 2015, Paris, France. pp.33-35, 2015, 〈http://shesl-htl2015.sciencesconf.org〉
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01184561
Contributeur : Mathieu Roche <>
Soumis le : dimanche 16 août 2015 - 05:52:48
Dernière modification le : jeudi 24 mai 2018 - 15:59:25
Document(s) archivé(s) le : mardi 17 novembre 2015 - 10:11:26

Fichier

panckhurst_roche_lopez_SHESL_H...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-01184561, version 1

Citation

Rachel Panckhurst, Mathieu Roche, Cédric Lopez. Données authentiques : un grand corpus de SMS en français. SHESL-HTL'15 "Corpus et constitution des savoirs linguistiques", Jan 2015, Paris, France. pp.33-35, 2015, 〈http://shesl-htl2015.sciencesconf.org〉. 〈lirmm-01184561〉

Partager

Métriques

Consultations de la notice

513

Téléchargements de fichiers

368