Cours 2018-2019

Aspects statistiques de la classification [SMATM124]

  • 6 crédits
  • 30h+30h
  • 2e quadrimestre
Langue d'enseignement: Français
Enseignant: Hardy André

Acquis d'apprentissage

Ce cours a pour objectif d'introduire les principales méthodes de classification automatique (classification non supervisée, clustering) et de validation de ces méthodes, tout d'abord pour des données classiques et ensuite pour des données symboliques.

Contenu

On abordera dans ce cours les notions suivantes: les méthodes de classification hiérarchiques, les méthodes de partitionnement, l'admissibilité des méthodes de classification, les méthodes de détermination du nombre de classes, les données symboliques, les méthodes de classification symboliques, les méthodes de détermination du nombre de classes symboliques. On apportera une attention toute particulière aux méthodes de classification et de détermination du nombre de classes utilisant des outils statistiques (modèles statistiques basés sur les processus de Poisson homogène et non homogène, méthodes d'estimation du maximum de vraisemblance, tests du quotient de vraisemblance généralisé, tests de permutation...). L'analyse des données symboliques sera détaillée dans un cours spécifique de la finalité approfondie en Master 2 en sciences mathématiques (SMAT M223 - Analyse des données symboliques).

Table des matières

Le cours comporte huit chapitres. I. Introduction. II. Méthodes hiérarchiques de classification. III. Méthodes de partitionnement. IV. Admissibilité des méthodes de classification. V. La détermination du nombre de classes. VI. Les données symboliques. VII. Les méthodes de classification symboliques. VIII. Les méthodes de détermination du nombre de classes symboliques.

Description des exercices

Les exercices se focaliseront tout d'abord sur l'analyse de données générées possédant une structure connue, afin de mettre en évidence les caractéristiques et les biais des différentes méthodes de classification et de détermination du nombre de classes (classiques ou symboliques). Des données réelles seront également analysées. Pour ce qui concerne les logiciels, on utilisera principalement le module de classification du logiciel statistique SAS, ainsi que le logiciel d'analyse des données symboliques SODAS 2.


Méthodes d'enseignement

Il s'agit d'un cours magistral. Des slides de type "powerpoint" sont projetés. Ces slides sont disponibles sur le site webcampus du cours.

Mode d'évaluation

L'évaluation se fait essentiellement sur la base du texte et de la défense orale d'un travail relatif au cours. Ce travail comporte deux parties. D'une part l'analyse d'un ensemble de données réelles classiques en utilisant le logiciel statistique SAS (ou tout autre logiciel: R, matlab...), et d'autre part en l'analyse d'un jeu de données dites symboliques, à l'aide du logiciel SODAS 2. Ce travail utilisera bien évidemment les méthodes de classification et de détermination du nombre de classes vues au cours, mais aussi toute autre méthode statistique utile pour l'analyse, la visualisation ou l'interprétation des données ou des classes obtenues.

Sources, références et supports éventuels

"Cluster Analysis", B.S. Everitt, Arnold, 1993

"Classification", A.D. Gordon, Chapman & Hall, 1999

"Classification Automatique des Donnée", G. Celeux et al, Dunod, 1989

"Analysis of Symbolic Data", H.H. Bock et E. Diday (Eds), Springer, 2000

"Symbolic Data Analysis and the Sodas Software", E. Diday et Monique Noirhomme-Fraiture (Eds), Wiley, 2008

 

Langue d'enseignement

Français

Lieu de l'activité

NAMUR

Faculté organisatrice

Faculté des sciences
Rue de Bruxelles, 61
5000 NAMUR

Cycle

Etudes de 2ème cycle