Introduction - Statistiques

Cette fiche récapitulative présente les notions de base en statistiques. Elle est destinée aux étudiants de première année de licence.

Pour illustrer cette fiche récapitulative, nous allons prendre comme exemple une population composée de 10 individus avec pour variables :

  • Cancer (bool) : La présence ou non d’un cancer chez l’individu
  • Age (entier) : L’âge de l’individu
  • Revenu (entier) : Le revenu de l’individu
  • Loyer (entier) : Le loyer de l’individu

Notions de base

Variable

Une variable est une caractéristique d’un échantillon pouvant prendre plusieurs valeurs. Dans le cas de notre exemple, les variables sont Cancer, Age et Revenu.

Type d’une variable

  • Variable qualitative : Une variable qualitative (ou catégorique) est une variable qui prend des valeurs discrètes. Exemple : Cancer est une variable qualitative car elle prend les valeurs oui ou non. Masculin Féminin, Bleu… sont des variables qualitatives.
  • Variable quantitative : Une variable quantitative (ou numérique) est une variable qui prend des valeurs continues. Exemple : Age et Revenu sont des variables quantitatives car elles prennent des valeurs entières. Un numéro tel qu’un numéro de téléphone n’est pas une variable quantitative car elle ne représente pas vraiment une quantité, il n’est pas possible de faire une moyenne dessus par exemple.
  • Variable nominale: Une variable nominale est une variable qualitative qui ne possède pas d’ordre. Exemple : Cancer est une variable nominale car elle n’est pas associé à un ordre. Oui n’est pas plus grand que non.
  • Variable ordinale: Une variable ordonnée (ordinale) est une variable qualitative qui possède un ordre. Exemple : Bronze, Argent, Or sont associées à un ordre.
  • Variable discrète vs Variable continue: Une variable discrète est une variable qui peut prendre un nombre fini de valeurs. Exemple : Cancer est une variable discrète car elle peut prendre deux valeurs. Une variable continue est une variable qui peut prendre un nombre infini de valeurs. Exemple : Age est une variable continue car elle peut prendre un nombre infini de valeurs. Une note sur 20 peut prendre 21 valeurs différentes, elle est donc discrète (si 0.5 est autorisé, elle reste discrète, il y aura seulement 41 valeurs différentes).

Unité statistique

Une unité statistique est l’objet d’étude d’une enquête statistique. Dans notre exemple, l’unité statistique est l’individu.

Mesures

Soit $D$ un échantillon de taille $n$. On appelle mesure une fonction qui associe à une ou plusieurs variables une valeur.

Reprenons notre exemple avec les variables Cancer, Age, Revenu, Loyer.

CancerAgeRevenuLoyer
non20800500
oui403000900
non302200700
oui5050001600
oui601500600
non20800500
oui401800600
oui8032001000
non302200700
non502000500

Moyenne

La moyenne est la mesure la plus utilisée en statistique. Elle est définie par la formule suivante :

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

Pour cet exemple, la moyenne de l’âge est :

$\bar{x}_{age} = \frac{1}{10} \sum_{i=1}^{10} age_i = \frac{20 + 40 + 30 + 50 + 60 + 20 + 40 + 80 + 30 + 50}{10} = 42$

Variance

La variance est une mesure de dispersion des données. Elle est définie par la formule suivante :

$$\sigma^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

Pour cet exemple, la variance de l’âge est :

$$\sigma^2_{age} = \frac{1}{9} \sum_{i=1}^{10} (age_i - \bar{x}_{age})^2 = \frac{(20-42)^2 + (40-42)^2 + (30-42)^2 + (50-42)^2 + (60-42)^2 + (20-42)^2 + (40-42)^2 + (80-42)^2 + (30-42)^2 + (50-42)^2}{9} = 135.6 $$

Ecart-type

L’écart-type est la racine carrée de la variance. Il est défini par la formule suivante :

$$\sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}$$

Pour cet exemple, l’écart-type de l’âge est :

$$\sigma_{age} = \sqrt{\frac{1}{9} \sum_{i=1}^{10} (age_i - \bar{x}_{age})^2} = \sqrt{135.6} = 11.65$$

Médiane

La médiane est la valeur qui partage un ensemble de données en deux parties de même taille. Elle est définie par la formule suivante :

$$M = \frac{x_{(n+1)} + x_{(n/2)}}{2}$$

Pour cet exemple, la médiane de l’âge est :

$$M_{age} = \frac{x_{(10+1)} + x_{(10/2)}}{2} = \frac{50 + 40}{2} = 45$$

La modal est la valeur la plus fréquente dans un jeu de données. Elle est définie par la formule suivante :

$$M_{modal} = \max_{x \in D} (f(x))$$

Pour cet exemple, la modal de l’âge est :

$$M_{age} = \max_{x \in D} (f(x)) = 40$$

Conclusion

En résumé, la statistique est une méthode pour étudier un ensemble de données et décrire leur comportement. Pour cela, on utilise des mesures comme la moyenne, la variance, l’écart-type, la médiane et la modal. Ces mesures sont définies à partir des variables qualitatives ou quantitatives qui composent un jeu de données. Cet article n’était qu’une légère introduction (ou rappel du lycée) à la statistique et il existe de nombreuses autres mesures et techniques statistiques que nous n’avons pas abordées ici. Je vous invite à en apprendre davantage si vous souhaitez approfondir le sujet.