Semantic-Based Multilingual Document Clustering via Tensor Modeling

Salvatore Romeo; Andrea Tagarelli; Dino Ienco

doi:10.3115/v1/D14-1065

Communication Dans Un Congrès Année : 2014

Semantic-Based Multilingual Document Clustering via Tensor Modeling

(1) , (1) , (2, 3)

1
2
3

Salvatore Romeo

Fonction : Auteur correspondant
PersonId : 973605

Connectez-vous pour contacter l'auteur

Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica [Calabria]

Andrea Tagarelli

Fonction : Auteur

Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica [Calabria]

Dino Ienco

Fonction : Auteur
PersonId : 6226
IdHAL : dino-ienco
ORCID : 0000-0002-8736-3132
IdRef : 172688183

Territoires, Environnement, Télédétection et Information Spatiale

ADVanced Analytics for data SciencE

Résumé

A major challenge in document clustering research arises from the growing amount of text data written in different languages. Previous approaches depend on language-specific solutions (e.g., bilingual dictionaries, sequential machine translation) to evaluate document similarities, and the required transformations may alter the original document semantics. To cope with this issue we propose a new document clustering approach for multilingual corpora that (i) exploits a large-scale multilingual knowledge base, (ii) takes advantage of the multi-topic nature of the text documents, and (iii) employs a tensor-based model to deal with high dimensionality and sparseness. Results have shown the significance of our approach and its better performance w.r.t. classic document clustering approaches, in both a balanced and an unbalanced corpus evaluation.

Domaines

Recherche d'information [cs.IR] Apprentissage [cs.LG] Base de données [cs.DB]

Fichier principal

585_Paper.pdf (407.84 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Dino Ienco : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-01239231

Soumis le : lundi 7 décembre 2015-15:23:53

Dernière modification le : dimanche 12 mai 2024-22:56:03

Archivage à long terme le : mardi 8 mars 2016-14:23:05

Dates et versions

lirmm-01239231 , version 1 (07-12-2015)

Identifiants

HAL Id : lirmm-01239231 , version 1
DOI : 10.3115/v1/D14-1065

Citer

Salvatore Romeo, Andrea Tagarelli, Dino Ienco. Semantic-Based Multilingual Document Clustering via Tensor Modeling. EMNLP: Empirical Methods in Natural Language Processing, Oct 2014, Doha, Qatar. pp.600-609, ⟨10.3115/v1/D14-1065⟩. ⟨lirmm-01239231⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CIRAD AGROPARISTECH CNRS IRSTEA ADVANSE LIRMM TETIS MIPS UNIV-MONTPELLIER INRAE INRAEOCCITANIEMONTPELLIER MATHNUM

231 Consultations

379 Téléchargements

Semantic-Based Multilingual Document Clustering via Tensor Modeling

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager