en
Proceedings chapter
Open access
French

Données déséquilibrées, entropie décentrée et indice d'implication

Published inNouveaux apports théoriques à l'analyse statistique implicative et applications, ASI4, Editors Gras, R. and P. Orús and B. Pinaud and P. Gregori, p. 315-327
Presented at Castellón de la Plana (España), 18-21 octubre 2007
Publication date2007
Abstract

Cet article porte sur l'induction d'arbres de classification pour des données déséquilibrées, c'est-à-dire lorsque certaines catégories de la variable à prédire sont beaucoup plus rares que d'autres. Plus particulièrement nous nous intéressons à deux aspects: d'une part, à définir des critères de construction de l'arbre qui exploitent efficacement la nature déséquilibrée des données, et d'autre part la pertinence de la conclusion à associer aux feuilles de l'arbre. Nous avons récemment abordé cette problématique sous deux angles indépendants: l'un était axé sur le recours à des entropies décentrées, l'autre s'appuyant sur des mesures d'intensités d'implication issues de l'ASI. Nous nous proposons ici de comparer et d'établir les similarités entre ces deux approches. - This paper is concerned with the induction of classification trees for imbalanced data, i.e. for the case where some categories of the target variable are much less frequent than other ones. More specifically, we address two aspects. On the one hand, we look for growing criteria that efficiently take into account the specific imbalanced nature of the data. On the other hand, we deal with the relevance of the conclusion that should be assigned to the leaves of a grown tree. We have recently considered two independent ways for dealing with these issues. The first one consisted in defining and using out centered entropies, and the second one on relying on measures of implication strength derived from implicative statistics. The aim of this paper is to compare and establish the relationship between these two approaches.

Citation (ISO format)
RITSCHARD, Gilbert, ZIGHED, Djamel A., MARCELLIN, Simon. Données déséquilibrées, entropie décentrée et indice d’implication. In: Nouveaux apports théoriques à l’analyse statistique implicative et applications, ASI4. Castellón de la Plana (España). [s.l.] : [s.n.], 2007. p. 315–327.
Main files (1)
Proceedings chapter
accessLevelPublic
Identifiers
  • PID : unige:4548
559views
584downloads

Technical informations

Creation12/01/2009 3:28:17 PM
First validation12/01/2009 3:28:17 PM
Update time03/14/2023 3:19:11 PM
Status update03/14/2023 3:19:11 PM
Last indexation05/02/2024 11:24:48 AM
All rights reserved by Archive ouverte UNIGE and the University of GenevaunigeBlack