. Dans, Les expérimentations menées sur des jeux de données issus de la retroconversion d'OCR produisent de bonnes performances de classification Les perspectives à ce travail sont nombreuses Tout d'abord, même si nous ne l'avons pas expérimenté dans nos travaux , l'application de connaissances sémantiques (par exemple, l'utilisation de dictionnaires spécialisés pour enrichir les descripteurs linguistiques sélectionnés) pourrait améliorer les performances . Cependant, de tels dictionnaires ne sont pas disponibles pour tous les domaines. L'autre perspective envisagée est liée aux techniques de classification, en d'autres termes, nous souhaitons expérimenter d'autres types d'algorithmes. Nous souhaitons également appliquer l'approche à d'autres types de corpus bruités afin de conforter la pertinence de notre approche dans un tel contexte, Nous pouvons enfin appliquer notre approche pour une tâche de classification de données d'opinion

T. Bayes, AN ESSAY TOWARDS SOLVING A PROBLEM IN THE DOCTRINE OF CHANCES, Biometrika, vol.45, issue.3-4, pp.370-418, 1763.
DOI : 10.1093/biomet/45.3-4.296

I. Bayoudh, N. Béchet, and E. M. Roche, Blog Classification: Adding Linguistic Knowledge to Improve the K-NN Algorithm, Intelligent Information Processing, pp.68-77, 2008.
DOI : 10.1007/978-0-387-87685-6_10

URL : https://hal.archives-ouvertes.fr/lirmm-00336580

F. Benamara, C. Cesarano, A. Picariello, D. Reforgiato, and E. V. Subrahmanian, Sentiment analysis : Adjectives and adverbs are better than adjectives alone, IADIS Applied Computing, pp.203-206, 2007.

D. Bourigault, LEXTER un Logiciel d'EXtraction de TERminologie Application à l'extraction des connaissances à partir de textes, Thèse en mathématiques, informatique appliquée aux sciences de l'homme, École des hautes Études en sciences sociales, 1994.

W. Cavnar, J. Et, and . Trenkle, N-gram-based text categorization, Proceedings of SDAIR- 94, 3rd Annual Symposium on Document Analysis and Information Retrieval, pp.161-175, 1994.

G. Cormack, J. Hidalgo, and E. E. Sánz, Spam filtering for short messages, Proceedings of the sixteenth ACM conference on Conference on information and knowledge management , CIKM '07, pp.313-320, 2007.
DOI : 10.1145/1321440.1321486

M. Genereux, M. Et, and . Santini, Defi: classification de textes francais subjectifs, In: 3eme DEfi fouille de textes, 2007.

T. Gonçalves, P. Et, and . Quaresma, Evaluating preprocessing techniques in a Text Classification problem, 2005.

E. Greevy, A. F. Et, and . Smeaton, Classifying racist texts using a support vector machine, Proceedings of the 27th annual international conference on Research and development in information retrieval , SIGIR '04, pp.468-469, 2004.
DOI : 10.1145/1008992.1009074

R. Jalam, J. Et, and . Chauchat, Pourquoi les n-grammes permettent de classer des textes ? recherche de mots-clefs pertinents à l'aide des n-grammes caractéristiques, 6th International Conference on Textual Data Statistical Analysis, pp.381-390, 2002.

R. Jalam, O. Et, and . Teytaud, Identification de la langue et catégorisation de textes basées sur les n-grammes, EGC, pp.227-238, 2001.

T. Joachims, Text categorization with Support Vector Machines: Learning with many relevant features, Proceedings of ECML-98, 10th European Conference on Machine Learning, Number 1398, pp.137-142, 1998.
DOI : 10.1007/BFb0026683

M. Junker, R. Et, and . Hoch, Evaluating OCR and non-OCR text representations for learning document classifiers, Proceedings of the Fourth International Conference on Document Analysis and Recognition, pp.1060-1066, 1997.
DOI : 10.1109/ICDAR.1997.620671

U. S. Kohomban, W. S. Et, and . Lee, Optimizing classifier performance in word sense disambiguation by redefining sense classes, IJCAI, pp.1635-1640, 2007.

B. Lemaire, Limites de la lemmatisation pour l'extraction de significations, 9th International Conference on the Statistical Analysis of Textual Data, pp.725-732, 2008.
URL : https://hal.archives-ouvertes.fr/hal-00385750

D. D. Lewis, Naive (Bayes) at forty: The independence assumption in information retrieval, pp.4-15, 1998.
DOI : 10.1007/BFb0026666

M. Mansur, N. Uzzaman, and E. M. Khan, Analysis of n-gram based text categorization for bangla in a newspaper corpus, Proc. of 9th International Conference on Computer and Information Technology, 2006.

D. Memmi, Le modèle vectoriel pour le traitement de documents. Cahiers Leibniz, 2000.

C. Nobata, S. Sekine, and E. H. Isahara, Evaluation of features for sentence extraction on different types of corpora, Proceedings of the ACL 2003 workshop on Multilingual summarization and question answering -, pp.29-36, 2003.
DOI : 10.3115/1119312.1119316

P. Náther, N-gram based text categorization, institute of informatics, 2005.

F. Paradis, J. Et, and . Nie, Filtering Contents with Bigrams and Named Entities to Improve Text Classification, AIRS, pp.135-146, 2005.
DOI : 10.1007/11562382_11

V. Pisetta, H. Hacid, F. Bellal, and E. G. Ritschard, Traitement automatique de textes juridiques, Semaine de la Connaissance, 2006.

J. C. Platt, Fast training of support vector machines using sequential minimal optimization, pp.185-208, 1999.

B. Pouliquen, D. Delamarre, and P. L. Beux, Indexation de textes médicaux par extrac- S, 2002.

J. Quinlan, Induction of decision trees, Machine Learning, vol.1, issue.1, pp.81-106, 1986.
DOI : 10.1007/BF00116251

S. Robertson, S. Et, and . Walker, Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval, SIGIR '94: Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.232-241, 1994.
DOI : 10.1007/978-1-4471-2099-5_24

M. Roche, Y. Et, and . Kodratoff, Choix du taux d'élagage pour l'extraction de la terminologie . une approche fondée sur les courbes roc. Revue RNTI (Revue des Nouvelles Technologies de l'Information) numéro spécial conférence EGC, pp.6-6, 2006.

G. Salton, C. Et, and . Buckley, Term-weighting approaches in automatic text retrieval, Information Processing & Management, vol.24, issue.5, pp.513-523, 1988.
DOI : 10.1016/0306-4573(88)90021-0

G. Salton, A. Wong, and C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, vol.18, issue.11, pp.613-620, 1975.
DOI : 10.1145/361219.361220

H. Schmid, Improvements in Part-of-Speech Tagging with an Application to German, Proceedings of the ACL SIGDAT-Workshop, 1995.
DOI : 10.1007/978-94-017-2390-9_2

F. Sebastiani, A tutorial on automated text categorisation, Proceedings of the 1st Argentinian Symposium on Artificial Intelligence (ASAI'99), pp.7-35, 1999.

M. Sjöblom, Le choix de la lemmatisation. différentes méthodes appliquées à un même corpus, JADT : 6es Journées internationales d'Analyse statistique des Données Textuelles, 2002.

C. Tan, Y. Wang, and E. C. Lee, The use of bigrams to enhance text categorization, Information Processing & Management, vol.38, issue.4, pp.529-546, 2002.
DOI : 10.1016/S0306-4573(01)00045-0

B. V. Vardhan, L. P. Reddy, and E. A. Vinaybabu, Text categorization using trigram technique for telugu script, Journal of Theoretical and Applied Information Technology, vol.3, pp.1-2, 2007.

R. Vinot, N. Grabar, and E. M. Valette, Application d'algorithmes de classification automatique pour la détection des contenus racistes sur l'internet, actes du colloque TALN 2003, pp.11-14, 2003.

I. Witten, E. Frank, L. Trigg, M. Hall, G. Holmes et al., Weka: Practical machine learning tools and techniques with java implementations, Proc ICONIP/ANZIIS/ANNES'99 Int. Workshop: Emerging Knowledge Engineering and Connectionist-Based Info. Systems, pp.192-196, 1999.

Y. Yang, An evaluation of statistical approaches to text categorization, Information Retrieval, vol.1, issue.1/2, pp.69-90, 1999.
DOI : 10.1023/A:1009982220290

Y. Yang, X. Et, and . Liu, A re-examination of text categorization methods, Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval , SIGIR '99, pp.42-49, 1999.
DOI : 10.1145/312624.312647