CME 106 - Probabilités et statistiques de l'ingénieur

Pense-bête de statistiques
Star

Estimation de paramètre

Définitions

Échantillon aléatoire Un échantillon aléatoire est une collection de $n$ variables aléatoires $X_1, ..., X_n$ qui sont indépendantes et identiquement distribuées avec $X$.

Estimateur Un estimateur est une fonction des données qui est utilisée pour trouver la valeur d'un paramètre inconnu dans un modèle statistique.

Biais Le biais d'un estimateur $\hat{\theta}$ est défini comme étant la différence entre l'espérance de la distribution de $\hat{\theta}$ et de la valeur vraie, i.e. :

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Remarque : un estimateur est dit non biaisé lorsque l'on a $E[\hat{\theta}]=\theta$.

Estimer la moyenne

Moyenne empirique La moyenne empirique d'un échantillon aléatoire est utilisée pour estimer la valeur vraie $\mu$ d'une distribution, est notée $\overline{X}$ et est définie de la manière suivante :

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Remarque : la moyenne empirique est non-biaisée, i.e. $E[\overline{X}]=\mu$.

Fonction charactéristique pour la moyenne empirique La fonction caractéristique pour la moyenne empirique est notée $\psi_{\overline{X}}$ et est telle que :

\[\boxed{\psi_{\overline{X}}(\omega)=\psi_{X}^n\left(\frac{\omega}{n}\right)}\]

Théorème de la limite centrale Soit un échantillon aléatoire $X_1, ..., X_n$ suivant une distribution donnée de moyenne $\mu$ et de variance $\sigma^2$. On a :

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]

Estimer la variance

Variance empirique La variance empirique d'un échantillon aléatoire est utilisée pour estimer la variance vraie $\sigma^2$ d'une distribution, est souvent notée $s^2$ ou $\hat{\sigma}^2$ et est définie de la manière suivante :

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Remarque : la variance empirique est non-biaisée, i.e. $E[s^2]=\sigma^2$.

Relation du $\chi^2$ avec la variance empirique Soit $s^2$ la variance empirique d'un échantillon empirique. On a :

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]

Intervalles de confiance

Définitions

Niveau de confiance Un intervalle de confiance de niveau $1-\alpha$ est tel que durant $1-\alpha$ du temps, la vraie valeur est contenue dans l'intervalle de confiance.

Intervalle de confiance Un intervalle de confiance $CI_{1-\alpha}$ de niveau $1-\alpha$ d'un paramètre $\theta$ est tel que :

\[\boxed{P(\theta\in CI_{1-\alpha})=1-\alpha}\]

Intervalle de confiance pour la moyenne

Lorsque l'on doit déterminer un intervalle de confiance pour une moyenne $\mu$, on doit choisir quel test statistique calculer en fonction de la situation dans laquelle on se trouve. Le tableau suivant résume les différents cas.

Distribution de $X_i$	Taille $n$	Variance $\sigma^2$	Test statistique	Niveau de confiance de $\small 1-\alpha$
$X_i\sim\mathcal{N}(\mu, \sigma)$	tous cas	connu	$\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$	$\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution	grand	connu	$\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$	$\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution	grand	inconnu	$\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim\mathcal{N}(0,1)$	$\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$
$X_i\sim\mathcal{N}(\mu, \sigma)$	petit	inconnu	$\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t_{n-1}$	$\left[\overline{X}-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution	petit	connu ou inconnu	Rien à faire !	Rien à faire !

Remarque : dans le cas où la variance est connue, un tutoriel pour estimer la moyenne est détaillé ici.

Intervalle de confiance pour la variance

Le tableau ci-dessous résume les tests statistiques qu'il faut calculer pour déterminer un intervalle de confiance dans le cadre de l'estimation de la variance.

Distribution de $X_i$	Taille $n$	Moyenne $\mu$	Test statistique	Niveau de confiance de $\small 1-\alpha$
$X_i\sim\mathcal{N}(\mu,\sigma)$	tous cas	connu ou inconnu	$\displaystyle\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2$	$\left[\frac{s^2(n-1)}{\chi_2^2},\frac{s^2(n-1)}{\chi_1^2}\right]$

Remarque : un tutoriel pour estimer la variance est détaillé ici.

Tests d'hypothèses

Définitions générales

Erreur de type I Dans un test d'hypothèse, l'erreur de type I, souvent notée $\alpha$ et aussi connu sous le nom de "fausse alarme" ou niveau de signification, est la probabilité de rejeter l'hypothèse nulle lorsque l'hypothèse nulle est vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :

\[\boxed{\alpha=P(T\in R|H_0{\small\textrm{ vraie})}}\]

Erreur de type II Dans un test d'hypothèse, l'erreur de type II, souvent notée $\beta$ et aussi connu sous le nom d'"alarme manquée", est la probabilité de ne pas rejeter l'hypothèse nulle lorsque l'hypothèse nulle n'est pas vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :

\[\boxed{\beta=P(T\notin R|H_0{\small\textrm{ pas vraie})}}\]

p-value Dans le cadre d'un test d'hypothèse, la $p$-value est la probabilité d'avoir un test statistique $T$ qui a une valeur au moins aussi extrême que celui qu'on a observé $T_0$, lorsque l'hypothèse nulle est vraie. On a :

\[{\small\textrm{(côté gauche)}}\quad\boxed{p\textrm{-value}=P(T\leqslant T_0|H_0{\small\textrm{ vraie})}}\quad\quad\quad{\small\textrm{(côté droit)}}\quad\boxed{p\textrm{-value}=P(T\geqslant T_0|H_0{\small\textrm{ vraie})}}\]

\[{\small\textrm{(deux côtés)}}\quad\boxed{p\textrm{-value}=P(|T|\geqslant |T_0||H_0{\small\textrm{ vraie})}}\]

Test non-paramétrique Un test non-paramétrique est un test dans lequel on ne suppose rien de la distribution de l'échantillon que l'on observe.

Différence de deux moyennes

Le tableau ci-dessous récapitule le test statistique qu'il faut calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :

\[H_0\quad:\quad\mu_X-\mu_Y=\delta\]

Distribution de $X_i, Y_i$	Taille $n_X, n_Y$	Variance $\sigma_X^2, \sigma_Y^2$	Test statistique sous $H_0$
Gaussienne	tous cas	connu	$\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$
Gaussienne	grand	inconnu	$\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$
Gaussienne	petit	inconnu avec $\sigma_X=\sigma_Y$	$\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{s\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\underset{H_0}{\sim}t_{n_X+n_Y-2}$

Moyenne d'un échantillon pairé

On suppose ici que les $X_i$ et $Y_i$ sont pairés deux à deux. En notant $D_i=X_i-Y_i$, le tableau ci-dessous résume le test statistique à calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :

\[H_0\quad:\quad\overline{D}=\delta\]

Distribution de $X_i, Y_i$	Taille $n=n_X=n_Y$	Variance $\sigma_X^2, \sigma_Y^2$	Test statistique sous $H_0$
Gaussienne, pairé	tous cas	inconnu	$\displaystyle\frac{\overline{D}-\delta}{\frac{s_D}{\sqrt{n}}}\underset{H_0}{\sim}t_{n-1}$

Médiane

Médiane d'une distribution On définit la médiane $m$ d'une distribution de la manière suivante :

\[\boxed{P(X\leqslant m)=P(X\geqslant m)=\frac{1}{2}}\]

Test des signes Le test des signes est un test non-paramétrique utilisé pour déterminer si la médiane d'un échantillon est égal à la médiane initialement supposée.

En notant $V\underset{H_0}{\sim}\mathcal{B}(n,p=\frac{1}{2})$ le nombre d'observations tombant à droite de la médiane initialement supposée, on a les deux cas suivants :

$―$ Si $np\geqslant5$, on utilise le test statistique suivant :

\[\boxed{Z=\frac{V-\frac{n}{2}}{\frac{\sqrt{n}}{2}}\underset{H_0}{\sim}\mathcal{N}(0,1)}\]

$―$ Si $np < 5$, on utilise le fait suivant :

\[\boxed{V\underset{H_0}{\sim}\mathcal{B}\left(n,p=\frac{1}{2}\right)}\]

$\chi^2$ test

Test de qualité d'ajustement Soit $k$ tiroirs tels que dans chaque tiroir $i$, on a $Y_i$ observations. Notre hypothèse nulle est que $Y_i$ suit une distribution binomiale de probabilité $p_i$ pour chaque tiroir.

On veut tester si le modèle, mentionné ci-dessus, décrit de manière raisonnable la réalité. On effectue le test d'hypothèse suivant pour vérifier cela :

\[\boxed{H_0:\textrm{good fit}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{not good fit}}\]

Test statistique du $\chi^2$ Pour effectuer un test de qualité d'ajustement, on a besoin de calculer un test statistique et de le comparer à une distribution de référence. En notant $k$ le nombre de tiroirs, $n$ le nombre total d'observations, et dans le cas où l'on a $np_i\geqslant5$, le test statistique $T$ défini ci-dessous nous permet d'effectuer le test d'hypothèse :

\[\boxed{T=\sum_{i=1}^k\frac{(Y_i-np_i)^2}{np_i}\underset{H_0}{\sim}\chi_{df}^2}\quad\textrm{avec}\quad\boxed{df=(k-1)-{\small\#(\textrm{paramètres estimés}})}\]

Tendances

Nombre de transpositions Dans une séquence donnée, on définit le nombre de transpositions, noté $T$, comme étant le nombre de fois qu'un nombre plus grand précède un nombre plus petit.

Exemple: la séquence $\{1,5,4,3\}$ contient $T=3$ transpositions parce que $5>4, 5>3$ et $4>3$

Test de tendances arbitraires Étant donné une séquence, le test de tendances arbitraires est un test non-paramétrique, dont le but est de déterminer si les données suggèrent la présence d'une tendance croissante :

\[\boxed{H_0:\textrm{pas de tendance}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{il y a une tendance croissante}}\]

Si l'on note $x$ le nombre de transpositions d'une séquence, la $p$-value est calculée par :

\[\boxed{p\textrm{-value}=P(T\leqslant x)}\]

Remarque : le test pour une tendance décroissante d'une séquence donnée est équivalent à un test pour une tendance croissante avec la même séquence, mais inversée.

Analyse de régression

Dans la section suivante, on note $(x_1, Y_1), ..., (x_n, Y_n)$ une collection de $n$ observations.

Modèle linéaire simple Soit $X$ une variable déterministe et $Y$ une variable aléatoire dépendante. Dans le contexte d'un modèle linéaire simple, on suppose que $Y$ est lié à $X$ par le biais de coefficients de régression $\alpha, \beta$ et d'une variable aléatoire $e\sim\mathcal{N}(0,\sigma)$, où $e$ est l'erreur. On a :

\[\boxed{Y=\alpha+\beta X+e}\]

Estimation de régression Lors de l'estimation des coefficients de régression $\alpha, \beta$ par $A, B$, on obtient les predictions $\hat{Y}_i$ de la manière suivante :

\[\boxed{\hat{Y}_i=A+Bx_i}\]

Somme de erreurs au carré En gardant les mêmes notations, on définit la somme des erreurs au carré, aussi appelé SSE, par :

\[\boxed{SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\sum_{i=1}^n(Y_i-(A+Bx_i))^2}\]

Méthode des moindres carrés La méthode des moindres carrés est utilisée pour trouver des estimations $A,B$ des coefficients de régression $\alpha,\beta$ en minimisant la SSE. En d'autres mots, on a :

\[\boxed{A, B = \underset{\alpha, \beta}{\textrm{arg min}}\sum_{i=1}^n(Y_i-(\alpha+\beta x_i))^2}\]

Notations Soit $n$ observations $(x_i, Y_i)$, on définit $S_{XY},S_{XX}$ et $S_{YY}$ de la manière suivante :

\[\boxed{S_{XY}=\sum_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y})\quad\textrm{et}\quad S_{XX}=\sum_{i=1}^n(x_i-\overline{x})^2\quad\textrm{et}\quad S_{YY}=\sum_{i=1}^n(Y_i-\overline{Y})^2}\]

Estimations des moindres carrés Lors de l'estimation des coefficients $\alpha, \beta$ avec la méthode des moindres carrés, on obtient $A, B$ définis par :

\[\boxed{A=\overline{Y}-\frac{S_{XY}}{S_{XX}}\overline{x}\quad\textrm{et}\quad B=\frac{S_{XY}}{S_{XX}}}\]

Somme des erreurs au carré revisité La somme des erreurs au carrés définie ci-dessus peut aussi être exprimée en terme de $S_{YY}$, $S_{XY}$ et $B$ de la manière suivante :

\[\boxed{SSE=S_{YY}-BS_{XY}}\]

Résultats principaux

Lorsque $\sigma$ n'est pas connue, ce paramètre est estimé par l'estimateur non-biaisé $s^2$ défini par :

\[\boxed{s^2=\frac{S_{YY}-BS_{XY}}{n-2}}\]

L'estimateur $s^2$ a la propriété suivante :

\[\boxed{\frac{s^2(n-2)}{\sigma^2}\sim\chi_{n-2}^2}\]

Le tableau ci-dessous récapitule les propriétés des estimations $A, B$ dans les cas où $\sigma$ est connu ou pas :

Coefficient	Estimation	$\sigma$	Statistique	Intervalle de confiance $1-\alpha$
$\alpha$	$A$	connu	$\frac{A-\alpha}{\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim\mathcal{N}(0,1)$	$\left[A-z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$
$\beta$	$B$	connu	$\frac{B-\beta}{\frac{\sigma}{\sqrt{S_{XX}}}}\sim\mathcal{N}(0,1)$	$\left[B-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}},B+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}}\right]$
$\alpha$	$A$	inconnu	$\frac{A-\alpha}{s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim t_{n-2}$	$\left[A-t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$
$\beta$	$B$	inconnu	$\frac{B-\beta}{\frac{s}{\sqrt{S_{XX}}}}\sim t_{n-2}$	$\left[B-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}},B+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}}\right]$

Analyse de corrélation

Coefficient de corrélation Le coefficient de corrélation de deux variables aléatoires $X$ et $Y$ est noté $\rho$ et est défini de la manière suivante :

\[\boxed{\rho=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{E[(X-\mu_X)^2]E[(Y-\mu_Y)^2]}}}\]

Coefficient de corrélation empirique Le coefficient de corrélation est estimé en pratique par le coefficient de corrélation empirique, souvent noté $r$ ou $\hat{\rho}$, défini par :

\[\boxed{\displaystyle r=\hat{\rho}=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}}\]

Test de corrélation Dans le but d'effectuer un test d'hypothèse où $H_0$ considère qu'il n'y a pas de corrélation entre $X$ et $Y$, on utilise la statistique suivante :

\[\boxed{\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\underset{H_0}{\sim}t_{n-2}}\]

Transformation de Fisher La transformation de Fisher transformation est souvent utilisée pour construire des intervalles de confiance encadrant la corrélation estimée. Elle est notée $V$ et est définie par :

\[\boxed{V=\frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)}\]

En notant $V_1=V-\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$ et $V_2=V+\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$, le tableau ci-dessous récapitule les résultats principaux autour de l'estimation de la corrélation :

Taille de l'échantillon	Test statistique	$1-\alpha$ confidence interval for $\rho$
grand	$\displaystyle\frac{V-\frac{1}{2}\ln\left(\frac{1+\rho}{1-\rho}\right)}{\frac{1}{\sqrt{n-3}}}\underset{n\gg1}{\sim}\mathcal{N}(0,1)$	$\displaystyle\left[\frac{e^{2V_1}-1}{e^{2V_1}+1},\frac{e^{2V_2}-1}{e^{2V_2}+1}\right]$

Pense-bête de statistiques Star

Estimation de paramètre

Définitions

Estimer la moyenne

Estimer la variance

Intervalles de confiance

Définitions

Intervalle de confiance pour la moyenne

Intervalle de confiance pour la variance

Tests d'hypothèses

Définitions générales

Différence de deux moyennes

Moyenne d'un échantillon pairé

Médiane

$\chi^2$ test

Tendances

Analyse de régression

Résultats principaux

Analyse de corrélation

Pense-bête de statistiques
Star