Subset Modelling: A Domain Partitioning Strategy for Data-efficient Machine-Learning

Vitor Ribeiro; Eduardo Pena; Raphael Saldanha; Reza Akbarinia; Patrick Valduriez; Falaah Arif; Julia Stoyanovich; Fabio Porto

doi:10.5753/sbbd.2023.232829

Communication Dans Un Congrès Année : 2023

Subset Modelling: A Domain Partitioning Strategy for Data-efficient Machine-Learning

(1) , (2) , (3) , (3) , (3) , (4) , (4) , (1)

1
2
3
4

Vitor Ribeiro

Fonction : Auteur

Laboratorio Nacional de Computação Cientifica [Rio de Janeiro]

Eduardo Pena

Fonction : Auteur

Universidade Tecnológica Federal do Paraná [Curitiba, Brasil] = Federal Technological University of Paraná [Curitiba, Brazil] = Université technologique fédérale du Paraná [Curitiba, Brésil]

Raphael Saldanha

Fonction : Auteur
PersonId : 1349409
ORCID : 0000-0003-0652-8466

Scientific Data Management

Reza Akbarinia

Fonction : Auteur
PersonId : 172647
IdHAL : reza-akbarinia
ORCID : 0000-0002-7098-0361
IdRef : 119863421

Scientific Data Management

Patrick Valduriez

Fonction : Auteur
PersonId : 172604
IdHAL : patrick-valduriez
ORCID : 0000-0001-6506-7538
IdRef : 028314417

Scientific Data Management

Falaah Arif

Fonction : Auteur

New York University [New York]

Julia Stoyanovich

Fonction : Auteur
PersonId : 940682

New York University [New York]

Fabio Porto

Fonction : Auteur
PersonId : 932292

Laboratorio Nacional de Computação Cientifica [Rio de Janeiro]

Résumé

The success of machine learning (ML) systems depends on data availability, volume, quality, and efficient computing resources. A challenge in this context is to reduce computational costs while maintaining adequate accuracy of the models. This paper presents a framework to address this challenge. The idea is to identify "subdomains" within the input space, train local models that produce better predictions for samples from that specific subdomain, instead of training a single global model on the full dataset. We experimentally evaluate our approach on two real-world datasets. Our results indicate that subset modelling (i) improves the predictive performance compared to a single global model and (ii) allows data-efficient training.

Mots clés

Machine learning Model training

Domaines

Informatique [cs]

Fichier principal

Data_clustering_for_training_in_domain_ML_Models__Falaah_edit_ (2).pdf (341.34 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Patrick Valduriez : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-04264125

Soumis le : lundi 30 octobre 2023-09:04:03

Dernière modification le : mardi 9 avril 2024-10:52:03

Archivage à long terme le : mercredi 31 janvier 2024-18:15:53

Dates et versions

lirmm-04264125 , version 1 (30-10-2023)

Identifiants

HAL Id : lirmm-04264125 , version 1
DOI : 10.5753/sbbd.2023.232829

Citer

Vitor Ribeiro, Eduardo Pena, Raphael Saldanha, Reza Akbarinia, Patrick Valduriez, et al.. Subset Modelling: A Domain Partitioning Strategy for Data-efficient Machine-Learning. SBBD 2023 - Simpósio Brasileiro de Banco de Dados, SBC, Sep 2023, Belo Horizonte, Brazil. pp.318-323, ⟨10.5753/sbbd.2023.232829⟩. ⟨lirmm-04264125⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA ZENITH LIRMM INRIA2 UNIV-MONTPELLIER INRIA-BRASIL

32 Consultations

32 Téléchargements

Subset Modelling: A Domain Partitioning Strategy for Data-efficient Machine-Learning

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager