# L'approche fréquentiste des probabilités - Un échec (?)

Marc Lorenzi

20 mai 2021

In [None]:
import matplotlib.pyplot as plt
import random
import math
import time

## 1. Expériences, univers

### 1.1 C'est quoi ?

On réalise une **expérience** (physique, mathématique, informatique, artistique, littéraire ou autre, peu importe). Les résultats de l'expérience (que l'on appelle les **issues** de cette expérience) appartiennent à un ensemble $\Omega$ qui est appelé **l'univers**.

La première étape de l'application de la théorie des probabilités à un problème concret est le **choix de l'univers**. Ce choix est loin d'être unique, mais certains choix sont plus heureux que d'autres.

Nous allons, dans cette introduction assez peu standard, représenter en Python une expérience par une « fonction » qui ne prend pas de paramètre et qui renvoie un élément de $\Omega$. Nous avons ici une fonction au sens **informatique** du terme ! En effet, en maths, une telle « fonction » ne pourrait pas exister. Plus exactement, ce serait une fonction $\emptyset\to\Omega$ et son graphe serait donc ... vide.

### 1.2 Exemple : lancer de pièce

On lance une pièce de monnaie. Un choix possible d'univers est $\Omega=\{P,F\}$. Insistons là-dessus, le choix d'un univers n'est pas unique ! Ici, ce choix est sans doute justifié si ce qui nous intéresse est de savoir de quel côté est tombée la pièce. Maintenant, si nous nous intéressons au temps mis par la pièce pour s'immobiliser, ce choix est absurde. Moralité :

**Le choix de l'univers dépend de l'expérience réalisée.**

In [None]:
def lancer_piece():
    p = random.randint(0, 1)
    if p == 0: return 'P'
    else: return 'F'

In [None]:
lancer_piece()

Remarquons que la « fonction » `lancer_piece` utilise la « fonction » `random.randint`, que nous manipulerons comme une **boîte noire** ... pour l'instant !

Après avoir étudié les chapitres de proba, et seulement après, ce que fait **réellement** la fonction `random.randint` pourra être compris.

### 1.3 Exemple : lancer deux dés

On lance deux dés. À moins que notre expérience s'intéresse à la température des dés, un bon choix d'univers est peut-être $\Omega=[1,6]\times[1, 6]$.

In [None]:
def lancer_des():
    return (random.randint(1, 6), random.randint(1, 6))

In [None]:
lancer_des()

### 1.4 Exemple : choisir deux parties d'un ensemble

On choisit deux parties d'un ensemble $E$. L'univers est, par exemple, $\Omega=\mathcal P(E)^2$.

La fonction `parties` prend en paramètre un ensemble $E$ (représenté en Python par la liste de ses éléments) et renvoie l'ensemble des parties de $E$.

In [None]:
def parties(E):
    if E == []: return [[]]
    else:
        a = E[-1]
        E1 = E[:-1]
        P = parties(E1)
        return P + [A + [a] for A in P]

In [None]:
print(parties(list(range(4))))

Notons `ps` l'ensemble des parties de $[0, 19]$, qui possède environ 1 million d'éléments.

In [None]:
ps = parties(list(range(20)))

In [None]:
len(ps)

La « fonction » `choisir_ensembles` modélise l'expérience de tirage au sort de deux éléments de `ps`. Elle utilise la boîte noire `random.choice`.

In [None]:
def choisir_ensembles():
    return (random.choice(ps), random.choice(ps))

In [None]:
choisir_ensembles()

## 2. Événements

### 2.1 C'est quoi ?

Soit $\Omega$ un univers. Un **événement** est une **partie** de $\Omega$. Si $\Omega$ est de cardinal $n$, il existe donc $2^n$ événements.

Soit $E$ un événement. On dit qu'une issue $\omega$ de l'expérience (c'est à dire $\omega\in\Omega$) **réalise**  l'événement $E$ lorsque $\omega\in E$. Puisqu'on parle la langue française, on dit aussi, en mettant la phrase à la voix passive, que l'événement $E$ est réalisé par $\omega$.

ici aussi, nous allons modéliser en Python de façon non standard un événement $E$ par une fonction $e:\Omega\to \{False, True\}$. En fait $e$ est quasiment $\mathbb 1_E$, la fonction indicatrice de l'événement $E$.

La fonction `reussir` prend en paramètres une expérience et un événement. Elle renvoie 1 si l'issue de l'expérience réalise l'événement, et 0 sinon.

In [None]:
def reussir(experience, evenement):
    if evenement(experience()): return 1
    else: return 0

**Remarque orthographique.** Le mot « événement » peut aussi, depuis la réforme de l'orthographe de 1990, s'écrire « évènement », avec un accent grave sur le second e. Il convient d'être cohérent, de faire un choix, et de l'écrire tout le temps de la même façon. Je m'en tiendrai à la version avec un accent aigu.

### 2.2 Exemple : lancer une pièce

Rappelons que $\Omega=\{P, F\}$. Voici l'événement « Pile ».

In [None]:
def pile(p):
    return p == 'P'

In [None]:
reussir(lancer_piece, pile)

### 2.3 Lancer deux dés

Rappelons que $\Omega=[1,6]^2$. Voici l'événement « la somme des dés est 7 ».

In [None]:
def faire7(d):
    return d[0] + d[1] == 7

In [None]:
reussir(lancer_des, faire7)

Et voici l'événement « l'un au moins des dés est tombé sur 6 ».

In [None]:
def faire_au_moins_un6(d):
    return d[0] == 6 or d[1] == 6

In [None]:
reussir(lancer_des, faire_au_moins_un6)

### 2.4 Choisir deux parties d'un ensemble

Rappelons que $\Omega=\mathcal P([0,19])^2$. Voici l'événement « les ensembles sont disjoints ».

In [None]:
def disjoints(AB):
    A, B = AB
    return [x for x in A if x in B] == []

In [None]:
reussir(choisir_ensembles, disjoints)

## 3. Approche fréquentiste des probabilités

La théorie nous manque, alors ce qui va suivre ne sera pas exposé de façon rigoureuse. C'est normal. Bien entendu, une fois le cours de probas étudié, il s'agira de reformuler tout ceci.

### 3.1 Fréquences de réalisation d'un événement

On réalise une expérience $n$ fois, et on obtient successivement des éléments $\omega_1,\ldots,\omega_n$ de l'univers $\Omega$. Soit $E$ un événement. La **fréquence de réalisation de $E$** est

$$f_n=\frac 1 n \sum_{k=1}^n \mathbb 1_E(\omega_k)$$

La fonction `frequences` renvoie la liste $[f_1,\ldots, f_n]$.

In [None]:
def frequences(n, exp, evt):
    s = [reussir(exp, evt)]
    for k in range(1, n):
        s.append(s[-1] + reussir(exp, evt))
    return [s[k] / (k + 1) for k in range(len(s))]

In [None]:
print(frequences(10, lancer_des, faire_au_moins_un6))

###  3.2 Tracer les fréquences de réalisation d'un événement

In [None]:
def tracer_freq(n, exp, evt, pmax):
    xs = range(1, n + 1)
    s = frequences(n, exp, evt)
    plt.xlim(1, n)
    plt.ylim(0, pmax)
    plt.plot(xs, s, 'k')
    plt.grid()

In [None]:
plt.rcParams['figure.figsize'] = (12, 6)

Choisissons mille fois une partie $A$ de $[0, 19]$ et regardons l'évolution des fréquences de réalisation de l'événement « les ensembles sont disjoints ».

In [None]:
tracer_freq(30000, choisir_ensembles, disjoints, 0.01)

À chaque fois que l'on évalue la cellule ci-dessus, on obtient une courbe différente.

**Néanmoins, il semble que asymptotiquement on ait une limite des fréquences égale à ... un certain nombre, TOUJOURS le même nombre.** Ne pourrions-nous pas dire **définir** la probabilité de notre événement comme étant le nombre en question ? 

Dans notre exemple, ce nombre serait-il ...

In [None]:
(3 / 4) ** 20

Pour les curieux et les sceptiques, le cardinal de l'événement qui nous préoccupe est, comme il a été vu en TD, $3^{20}$. Et le cardinal de $\Omega$ est $\left(2^{20}\right)^2=4^{20}$. **Bon, et alors** ?

## 4. L'échec de l'approche fréquentiste

### 4.1 Un gros souci

Le **TOUJOURS** ci-dessus est bien téméraire. Il ne faut jamais dire jamais, ou alors on le dit **et** on le **prouve**. Combien de fois ai-je exécuté la cellule ci-dessus ? 10 fois ? 20 fois ? 20 fois, c'est « toujours » ??? Et si je l'exécute 10 milliards de fois ???

Prenons l'exemple du tirage à pile ou face, plus simple sans doute à comprendre que nos histoires d'ensembles disjoints.

In [None]:
tracer_freq(1000, lancer_piece, pile, 1)

À chaque fois que l'on évalue la cellule ci-dessus, on obtient une courbe qui « tend vers $\frac 1 2$ ». Et si j'évalue la cellule encore une fois ? Est-ce que ce sera toujours vrai ? Je lance, ça marche. Et si j'évalue encore une fois ? 

Voici un dialogue entre le **Maître** et le **Disciple**.

M : Imaginons que j'aie beaucoup, beaucoup, beaucoup, de chance. Je ferai pile à chaque fois, et mes fréquences seront constantes égales à 1. La limite ne sera donc pas $\frac 1 2$ mais 1.

D : Cela ne peut pas arriver !

M : Si, Cela peut arriver ! La suite $(P,P,P,\ldots)$ n'est pas plus impossible que la suite $(P,F,P,F,P,F,\ldots)$, ou que la suite dont le $n$ième terme est $P$ si $n$ est un nombre premier et $F$ sinon, ou que n'importe quelle autre suite. Selon ton affirmation, aucune suite de lancers ne serait possible ? Il est donc impossible de lancer une pièce en l'air ???

D : Bon, d'accord, c'est possible. Mais cela n'a quasiment aucune chance d'arriver.

M : Précise ta pensée.

D : Il est quasi-certain que que cela n'arrivera pas.

M : Précise ...

D : Cela ne peut arriver qu'avec une probabilité nulle.

M, lapidaire : Je ne comprends pas ce que tu dis. Nous étions précisément en train d'essayer de définir le concept de probabilité.

**ÉCHEC**. L'approche « fréquentiste » est une mauvaise approche de la théorie des probabilités, en tout cas au niveau élémentaire qui est le nôtre. La bonne approche est l'approche **axiomatique**, élaborée par Kolmogorov dans les années 1950 qui consiste à **définir** ce que l'on appelle une **probabilité**. En voici la définition, en tout cas pour un univers fini.

### 4.2 Qu'est-ce qu'une probabilité ?

**Définition.** Soit $\Omega$ un univers fini. Une probabilité sur $\Omega$ est une fonction $\mathbb P : \mathcal P(\Omega)\to [0,1]$ vérifiant les propriétés :

- $(P_1)\quad \mathbb P(\Omega)=1$
- $(P_2)\quad$ Pour tous événements $A$ et $B$ **disjoints**, $\mathbb P(A\cup B)=\mathbb P(A)+\mathbb P(B)$ 

Au lieu de « disjoints », les probabilistes disent « **incompatibles** »

**Définition.** Un **espace probabilisé** est un couple $(\Omega, \mathbb P)$ où $\Omega$ est un univers (fini) et $\mathbb P$ est une probabilité sur $\Omega$.

Une probabilité sur l'univers $\Omega$ est donc une **fonction** qui associe à tout événement de $\Omega$ un nombre réel, compris entre 0 et 1. Cette fonction est **censée** mesurer d'une certaine façon le « degré de certitude » d'un événement.

- L'événement $\Omega$ étant réalisé par toutes les issues de l'expériences, cet événement est **certain**. Voilà pourquoi $\mathbb P(\Omega)=1$.
- Si deux événements $A$ et $B$ sont disjoints, l'amour du mathématicien pour les morphismes lui suggère d'assigner à $A\cup B$ la probabilité $\mathbb P(A)+\mathbb P(B)$. En réalité, il y a d'autres raisons que l'amour, mais nous nous contenterons de celle-là.

En étant un tout petit peu réducteur et court d'esprit :

**La théorie des probabilités est l'étude des fonctions $\mathbb P$ vérifiant les propriétés $(P_1)$ et $(P_2)$.**

Voici le théorème zéro de la théorie des probabilités !

**Proposition.** Soit $(\Omega, \mathbb P)$ un espace probabilisé. On a $\mathbb P(\emptyset)=0$.

**Démonstration.** $\emptyset \cup \emptyset=\emptyset$. Comme $\emptyset$ et $\emptyset$ sont disjoints, on a par la propriété $(P_2)$ :

$$\mathbb P(\emptyset)=\mathbb P(\emptyset\cup \emptyset)=\mathbb P(\emptyset) + \mathbb P(\emptyset)=2\mathbb P(\emptyset)$$

d'où le résultat. $\square$

L'événement $\emptyset$ est appelé **l'événement impossible**. Remarquons toutefois que rien n'empêche des événements **non vides** d'avoir une probabilité **nulle**.

### 4.2 Les succès de l'approche axiomatique

Maintenant que le concept de probabilité est défini, la théorie des probabilités devrait permettre de **PROUVER** la dernière affirmation du disciple. Et elle le fait. Le théorème en question s'appelle la **loi forte des grands nombres**, et il est loin d'être trivial. Sa preuve est bien au-delà de ce que vous verrez en prépa. Nous en verrons une version « faible » dans le chapitre sur les variables aléatoires, qui sera un corollaire de **l'inégalité de Bienaymé-Tchebychev**.

> **Théorème [Loi forte des grands nombres].** Soit $(\Omega, \mathbb P)$ un espace probabilsé. Soit $(X_n)_{n\ge 1}$ une suite de variables aléatoires réelles définies sur $\Omega$, **indépendantes** et **de même loi**. Soit $\mu$ la valeur commune des espérances des $X_n$. Pour tout $n\ge 1$, soit
>
>$$Y_n=\frac 1 n \sum_{k=1}^n X_k$$
>
>Alors, la suite $(Y_n)_{n\ge 1}$ tend **presque sûrement** vers $\mu$. Dit autrement,
>
>$$\mathbb P(Y_n\underset{n\to\infty}{\longrightarrow}\mu)=1$$

>**Théorème [Loi faible des grands nombres].** Soit $(\Omega, \mathbb P)$ un espace probabilsé. Soit $(X_n)_{n\ge 1}$ une suite de variables aléatoires réelles définies sur $\Omega$, **indépendantes**  et **de même loi**. Soit $\mu$ la valeur commune des espérances des $X_n$. Pour tout $n\ge 1$, soit
>
>$$Y_n=\frac 1 n \sum_{k=1}^n X_k$$
>
>Alors, pour tout $\varepsilon >0$, 
>
>$$\mathbb P(|Y_n-\mu|\ge \varepsilon) \underset{n\to\infty}{\longrightarrow} 0$$