# Le bogo-tri

Marc Lorenzi

7 juillet 2022

In [None]:
import random
import math
import matplotlib.pyplot as plt

In [None]:
plt.rcParams['figure.figsize'] = (10, 6)

$$\newcommand\N{\mathbb N}$$
$$\newcommand\too{\longrightarrow}$$
$$\newcommand\Pr{\mathbb P}$$
$$\renewcommand\epsilon{\varepsilon}$$

## 1. L'algorithme

### 1.1 C'est quoi le bogo-tri ?

Le bogo-tri, appel√© aussi tri stupide, tri du singe, etc., est un algorithme de tri. Il fonctionne de la fa√ßon suivante. Soit $s$ une liste √† trier.

**Algorithme** : tant que $s$ n'est pas tri√©e, m√©langer $s$.

On peut difficilement faire plus simple. On peut aussi difficilement faire pire.

### 1.2 Le code Python

La fonction `est_triee` prend en param√®tre une liste $s$ (disons une liste d'entiers). Elle renvoie `True` si la liste est tri√©e et `False` sinon. Pour une liste $s$ de longueur $n$, la fonction effectue au plus $n-1$ comparaisons d'√©l√©ments de la liste.

In [None]:
def est_triee(s):
    n = len(s)
    for k in range(n - 1):
        if s[k] > s[k + 1]: return False
    return True

La fonction `melanger` prend en param√®tre une liste $s$ et m√©lange la liste sur place. Cette fonction utilise l'algorithme de Fisher-Yates que nous ne d√©crirons pas ici. Toutes les permutations de la liste $s$ sont obtenues avec la m√™me probabilit√©. La fonction `melanger` effectue $n$ √©changes d'√©l√©ments de liste sur une liste de longueur $n$.

In [None]:
def melanger(s):
    n = len(s)
    for k in range(n):
        i = random.randint(k, n - 1)
        s[k], s[i] = s[i], s[k]

Pour pouvoir faire des tests, voici une fonction `random_list` qui prend un entier $n$ en param√®tre et renvoie une permutation al√©atoire des entiers entre 0 et $n-1$.

In [None]:
def random_list(n):
    s = list(range(n))
    melanger(s)
    return s

In [None]:
print(random_list(10))

Voici enfin le bogo-tri. La fonction `bogo_tri` prend en param√®tre une liste $s$ et trie cette liste sur place. La fonction renvoie le nombre de m√©langes effectu√©s.

In [None]:
def bogo_tri(s):
    cpt = 0
    while not(est_triee(s)):
        cpt += 1
        melanger(s)
    return cpt

Testons.

In [None]:
s = random_list(6)
print(bogo_tri(s))
print(s)

## 2. Un peu de th√©orie

Dans toute la suite, $n\in\N$ est un entier naturel fix√©. On s'int√©resse au bogo-tri de listes de longueur $n$. Dans notre ¬´ analyse ¬ª, nous supposerons que les √©l√©ments des listes sont distincts deux √† deux.

### 2.1 Une variable al√©atoire

Nous nous int√©resserons exclusivement ici au nombre de m√©langes n√©cessaires pour trier une liste. Un m√©lange de la liste $s$ de longueur $n$ trie la liste avec une probabilit√©

$$p=\frac 1 {n!}$$

On peut mod√©liser le bogo-tri par une suite $(M_k)_{k\in\N}$ de variables de Bernoulli ind√©pendantes de param√®tre $p$, d√©finies sur un m√™me espace probabilis√© $(\Omega,\mathcal T,\Pr)$. La variable al√©atoire qui nous int√©resse est la v.a. $T:\Omega\too\N\cup\{+\infty\}$, d√©finie pour tout $\omega\in\Omega$ par

$$T(\omega)=\min\{k\in\N:M_k(\omega)=1\}$$

en convenant que ce minimum est $+\infty$ si l'ensemble est vide.

La v.a. $T$ suit une *loi g√©om√©trique* de param√®tre $p$. Plus pr√©cis√©ment, pour tout $k\in\N$, on a

$$\{T=k\}=\{M_0=0,M_1=0,\ldots,M_{k-1}=0,M_k=1\}$$

Par l'ind√©pendance des $M_i$,

$$\Pr(T=k)=\Pr(M_0=0)\Pr(M_1=0)\ldots\Pr(M_{k-1}=0)\Pr(M_k=1)=(1-p)^kp$$

Il nous reste √† d√©terminer $\Pr(T=+\infty)$. Remarquons que

$$\sum_{k=0}^\infty \Pr(T=k)=p\sum_{k=0}^\infty(1-p)^k=\frac p{1-(1-p)}=1$$

Ainsi,

$$\Pr(T=+\infty)=1-\sum_{k=0}^\infty \Pr(T=k)=1-1=0$$

Ceci est rassurant. La fonction de bogo-tri **peut** ne pas terminer. Dit plus lapidairement, sa complexit√© en pire cas est $+\infty$. Cela dit, la probabilit√© que la fonction ne termine pas est 0.

Pour parler savamment, l'algorithme du bogo-tri est un *algorithme probabiliste*. Il peut ne pas terminer (avec, certes, une probabilit√© nulle), mais si il termine alors il renvoie la bonne r√©ponse. Nous avons l√† un *algorithme de Las Vegas*.

Voyons maintenant quelle est la complexit√© en moyenne du bogo-tri, en termes de nombre de m√©langes. En clair, d√©terminons l'esp√©rance de $T$.

### 1.2 L'esp√©rance de $T$

La *s√©rie g√©n√©ratrice* de $T$ est

$$F(x)=\sum_{k=0}^\infty \Pr(T=k)x^k=p\sum_{k=0}^\infty(1-p)^kx^k$$

Nous avons l√† une s√©rie enti√®re qui a pour rayon de convergence 

$$R=\frac 1 {1-p}>1$$

On reconna√Æt dans $F(x)$ une s√©rie g√©om√©trique de raison $(1-p)x$. On a donc pour tout $x\in ]-R,R[$,

$$F(x)=\frac p{1-x(1-p)}$$

De l√†, par une d√©rivation terme √† terme (le lecteur ouvrira son cours sur les s√©ries enti√®res),

$$F'(x)=\sum_{k=1}^\infty k\Pr(T=k)x^{k-1}$$

Remarquons maintenant que

$$F'(1)=\sum_{k=1}^\infty k\Pr(T=k)=\sum_{k=0}^\infty k\Pr(T=k)=E(T)$$

On a aussi, en prenant l'expression simplifi√©e de $F(x)$,

$$F'(x)=\frac {p(1-p)}{(1-x(1-p))^2}$$

et donc

$$E(T)=\frac 1 p - 1=n!-1$$

Imaginons que nous soyons capables de faire un milliard de m√©langes par seconde. En combien de temps pouvons-nous esp√©rer bogo-trier une liste de taille 20 ?

In [None]:
(math.factorial(20) - 1) / 1e9 / 3600 / 365

Il nous faudra attendre 1850 ans. 

### 2.3 La variance de $T$

Une nouvelle d√©rivation de $F'(x)$ (cours sur les s√©ries enti√®res !) donne 

$$F''(x)=\sum_{k=2}^\infty k(k-1)\Pr(T=k)x^{k-2}$$

De l√†,

$$F''(1)=\sum_{k=2}^\infty k(k-1)\Pr(T=k)=\sum_{k=0}^\infty k(k-1)\Pr(T=k)=E(T^2)-E(T)$$

Ainsi, en nous souvenant que $F'(1)=E(T)$,

$$V(T)=E(T^2)-E(T)^2=F''(1)+F'(1)-F'(1)^2$$

En d√©rivant l'expression simplifi√©e de $F'(x)$, il vient

$$F''(x)=\frac{2p(1-p)^2}{(1-x(1-p))^3}$$

et donc

$$F''(1)=2\left(\frac 1 p - 1\right)^2$$

d'o√π, facilement,

$$V(T)=\frac 1 p\left(\frac 1 p - 1\right)=n!(n!-1)$$

### 2.4 Le vrai temps d'attente

L'espoir c'est bien, mais qu'en est-il dans la r√©alit√© ? Remarquons que l'√©cart-type de $T$, $\sigma(T)$, vaut

$$\sigma(T)=\sqrt{n!(n!-1)}>n!-1=E(T)$$

Un √©cart-type plus grand que l'esp√©rance, c'est le signe que notre variable al√©atoire $T$ est vraiment tr√®s al√©atoire. Tentons un petit calcul.

Soit $t\in\N$. Quelle est la probabilit√© que $T$ soit au moins √©gal √† $t$ ? On a

$$\Pr(T\ge t)=\sum_{k=t}^\infty \Pr(T=k)=p\sum_{k=t}^\infty(1-p)^k=p(1-p)^t$$


Soit maintenant $\epsilon>0$. Pour quelles valeurs de $t$ a-t-on $\Pr(T\ge t)\le\epsilon$ ? Dit autrement, en prenant par exemple $\epsilon=\frac 1 {100}$, pour quelles valeurs de $t$ a-t-on 99% de chances de trier notre liste en moins de $t$ m√©langes ?

C'est le cas si et seulement si $p(1-p)^t\le\epsilon$, c'est √† dire, en passant aux logarithmes,

$$t\ge\frac{\ln \epsilon -\ln p}{\ln(1-p)}$$

Ou encore, en nous souvenant que $p=1/n!$,

$$t\ge\frac¬†{\ln\epsilon+\ln n!}{\ln\left(1-\frac 1 {n!}\right)}$$

In [None]:
def phi(n, eps):
    f = math.factorial(n)
    return (math.log(eps) - math.log(f)) / math.log(1 - 1 / f)

Le graphique ci-dessous nous confirme que le bogo-tri est un *tr√®s mauvais* algorithme. En noir, le nombre de m√©langes n√©cessaires pour trier avec 99% de chances de r√©ussite. En rouge, l'esp√©rance, forc√©ment d√©√ßue.

In [None]:
eps = 0.01
xs = range(2, 15)
ys = [phi(x, eps) for x in xs]
zs = [math.factorial(x) - 1 for x in xs]
plt.semilogy(xs, ys, 'k')
plt.semilogy(xs, zs, 'r')
plt.grid()

## 3. Une exp√©rience statistique

### 3.1 Une simulation

La fonction `stats` effectue $m$ bogo-tris sur une liste al√©atoire de longueur $n$. Elle renvoie un dictionnaire dont les cl√©s sont les nombres de m√©langes constat√©s lors des $m$ bogo-tris et les valeurs sont, pour chacun de ces nombres, le nombre moyen de bogo-tris ayant n√©cessit√© ce nombre de m√©langes.

In [None]:
def stats(n, m):
    st = {}
    for i in range(m):
        s = list(range(n))
        melanger(s)
        c = bogo_tri(s)
        if c in st: st[c] += 1
        else: st[c] = 1
    for x in st:
        st[x] = st[x] / m
    return st

Juste pour v√©rifier la correction des calculs faits plus haut ...

In [None]:
def moment(st, k):
    s = 0
    for x in st:
        s += st[x] * x ** k
    return s

In [None]:
def esperance(st): return moment(st, 1)
def variance(st): return moment(st, 2) - moment(st, 1) ** 2

In [None]:
st = stats(4, 1000)

In [None]:
print(esperance(st))
print(variance(st))

In [None]:
f = math.factorial(4)
print(f - 1)
print(f * (f - 1))

Nos statistiques s'accordent pas trop mal avec la th√©orie.

### 3.2 Repr√©sentation graphique

Il nous reste √† afficher graphiquement tout cela. Ci-dessous, les points noirs sont les moyennes constat√©es. La courbe rouge est la courbe th√©orique des probabilit√©s $\Pr(T=k)$.

Nos calculs th√©oriques nous incitent √† la prudence. Nous allons donc bogo-trier des listes de taille 4.

In [None]:
n = 4
f = math.factorial(n)
p = 1 / f
print('Esp√©rance  : %d' % (f - 1))
print('√âcart-type : %.3f' % (math.sqrt(f * (f - 1))))
st = stats(n, 10000)
xs = [x for x in st]
xs.sort()
ys = [st[x] for x in xs]
zs = [(1 - p) ** x * p for x in xs]
plt.plot(xs, ys, 'ok')
plt.plot(xs, zs, 'r')
plt.grid()

**Conclusion.** √âvitez d'utiliser le bogo-tri. Parce que franchement, faire 150 comparisons pour trier 4 objets c'est un peu beaucoupüòÄ.

**Bibliographie**

- H. Gruber, M. Holzer, O. Ruepp, Sorting the Slow Way: An Analysis of Perversely Awful Randomized Sorting Algorithms. Volume 4475 of Lecture Notes in Computer Science, pages 183-197, Springer, 2007.
- A. Broder, J. Stolfi, Pessimal Algorithms. SIGACT News, 16(3):49-53, 1984.