Pense-bête de statistiques
Estimation de paramètre
Définitions
Échantillon aléatoire Un échantillon aléatoire est une collection de $n$ variables aléatoires $X_1, ..., X_n$ qui sont indépendantes et identiquement distribuées avec $X$.
Estimateur Un estimateur est une fonction des données qui est utilisée pour trouver la valeur d'un paramètre inconnu dans un modèle statistique.
Biais Le biais d'un estimateur $\hat{\theta}$ est défini comme étant la différence entre l'espérance de la distribution de $\hat{\theta}$ et de la valeur vraie, i.e. :
\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]
Remarque : un estimateur est dit non biaisé lorsque l'on a $E[\hat{\theta}]=\theta$.
Estimer la moyenne
Moyenne empirique La moyenne empirique d'un échantillon aléatoire est utilisée pour estimer la valeur vraie $\mu$ d'une distribution, est notée $\overline{X}$ et est définie de la manière suivante :
\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]
Remarque : la moyenne empirique est non-biaisée, i.e. $E[\overline{X}]=\mu$.
Fonction charactéristique pour la moyenne empirique La fonction caractéristique pour la moyenne empirique est notée $\psi_{\overline{X}}$ et est telle que :
\[\boxed{\psi_{\overline{X}}(\omega)=\psi_{X}^n\left(\frac{\omega}{n}\right)}\]
Théorème de la limite centrale Soit un échantillon aléatoire $X_1, ..., X_n$ suivant une distribution donnée de moyenne $\mu$ et de variance $\sigma^2$. On a :
\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]
Estimer la variance
Variance empirique La variance empirique d'un échantillon aléatoire est utilisée pour estimer la variance vraie $\sigma^2$ d'une distribution, est souvent notée $s^2$ ou $\hat{\sigma}^2$ et est définie de la manière suivante :
\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]
Remarque : la variance empirique est non-biaisée, i.e. $E[s^2]=\sigma^2$.
Relation du $\chi^2$ avec la variance empirique Soit $s^2$ la variance empirique d'un échantillon empirique. On a :
\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]
Intervalles de confiance
Définitions
Niveau de confiance Un intervalle de confiance de niveau $1-\alpha$ est tel que durant $1-\alpha$ du temps, la vraie valeur est contenue dans l'intervalle de confiance.
Intervalle de confiance Un intervalle de confiance $CI_{1-\alpha}$ de niveau $1-\alpha$ d'un paramètre $\theta$ est tel que :
\[\boxed{P(\theta\in CI_{1-\alpha})=1-\alpha}\]
Intervalle de confiance pour la moyenne
Lorsque l'on doit déterminer un intervalle de confiance pour une moyenne $\mu$, on doit choisir quel test statistique calculer en fonction de la situation dans laquelle on se trouve. Le tableau suivant résume les différents cas.
Distribution de $X_i$ | Taille $n$ | Variance $\sigma^2$ | Test statistique | Niveau de confiance de $\small 1-\alpha$ |
$X_i\sim\mathcal{N}(\mu, \sigma)$ | tous cas | connu | $\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ | $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$ |
$X_i\sim$ toute distribution | grand | connu | $\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ | $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$ |
$X_i\sim$ toute distribution | grand | inconnu | $\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ | $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$ |
$X_i\sim\mathcal{N}(\mu, \sigma)$ | petit | inconnu | $\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t_{n-1}$ | $\left[\overline{X}-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$ |
$X_i\sim$ toute distribution | petit | connu ou inconnu | Rien à faire ! | Rien à faire ! |
Remarque : dans le cas où la variance est connue, un tutoriel pour estimer la moyenne est détaillé ici.
Intervalle de confiance pour la variance
Le tableau ci-dessous résume les tests statistiques qu'il faut calculer pour déterminer un intervalle de confiance dans le cadre de l'estimation de la variance.
Distribution de $X_i$ | Taille $n$ | Moyenne $\mu$ | Test statistique | Niveau de confiance de $\small 1-\alpha$ |
$X_i\sim\mathcal{N}(\mu,\sigma)$ | tous cas | connu ou inconnu | $\displaystyle\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2$ | $\left[\frac{s^2(n-1)}{\chi_2^2},\frac{s^2(n-1)}{\chi_1^2}\right]$ |
Remarque : un tutoriel pour estimer la variance est détaillé ici.
Tests d'hypothèses
Définitions générales
Erreur de type I Dans un test d'hypothèse, l'erreur de type I, souvent notée $\alpha$ et aussi connu sous le nom de "fausse alarme" ou niveau de signification, est la probabilité de rejeter l'hypothèse nulle lorsque l'hypothèse nulle est vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :
\[\boxed{\alpha=P(T\in R|H_0{\small\textrm{ vraie})}}\]
Erreur de type II Dans un test d'hypothèse, l'erreur de type II, souvent notée $\beta$ et aussi connu sous le nom d'"alarme manquée", est la probabilité de ne pas rejeter l'hypothèse nulle lorsque l'hypothèse nulle n'est pas vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :
\[\boxed{\beta=P(T\notin R|H_0{\small\textrm{ pas vraie})}}\]
p-value Dans le cadre d'un test d'hypothèse, la $p$-value est la probabilité d'avoir un test statistique $T$ qui a une valeur au moins aussi extrême que celui qu'on a observé $T_0$, lorsque l'hypothèse nulle est vraie. On a :
\[{\small\textrm{(côté gauche)}}\quad\boxed{p\textrm{-value}=P(T\leqslant T_0|H_0{\small\textrm{ vraie})}}\quad\quad\quad{\small\textrm{(côté droit)}}\quad\boxed{p\textrm{-value}=P(T\geqslant T_0|H_0{\small\textrm{ vraie})}}\]
\[{\small\textrm{(deux côtés)}}\quad\boxed{p\textrm{-value}=P(|T|\geqslant |T_0||H_0{\small\textrm{ vraie})}}\]
Test non-paramétrique Un test non-paramétrique est un test dans lequel on ne suppose rien de la distribution de l'échantillon que l'on observe.
Différence de deux moyennes
Le tableau ci-dessous récapitule le test statistique qu'il faut calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :
\[H_0\quad:\quad\mu_X-\mu_Y=\delta\]
Distribution de $X_i, Y_i$ | Taille $n_X, n_Y$ | Variance $\sigma_X^2, \sigma_Y^2$ | Test statistique sous $H_0$ |
Gaussienne | tous cas | connu | $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$ |
Gaussienne | grand | inconnu | $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$ |
Gaussienne | petit | inconnu avec $\sigma_X=\sigma_Y$ | $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{s\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\underset{H_0}{\sim}t_{n_X+n_Y-2}$ |
Moyenne d'un échantillon pairé
On suppose ici que les $X_i$ et $Y_i$ sont pairés deux à deux. En notant $D_i=X_i-Y_i$, le tableau ci-dessous résume le test statistique à calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :
\[H_0\quad:\quad\overline{D}=\delta\]
Distribution de $X_i, Y_i$ | Taille $n=n_X=n_Y$ | Variance $\sigma_X^2, \sigma_Y^2$ | Test statistique sous $H_0$ |
Gaussienne, pairé | tous cas | inconnu | $\displaystyle\frac{\overline{D}-\delta}{\frac{s_D}{\sqrt{n}}}\underset{H_0}{\sim}t_{n-1}$ |
Médiane
Médiane d'une distribution On définit la médiane $m$ d'une distribution de la manière suivante :
\[\boxed{P(X\leqslant m)=P(X\geqslant m)=\frac{1}{2}}\]
Test des signes Le test des signes est un test non-paramétrique utilisé pour déterminer si la médiane d'un échantillon est égal à la médiane initialement supposée.
En notant $V\underset{H_0}{\sim}\mathcal{B}(n,p=\frac{1}{2})$ le nombre d'observations tombant à droite de la médiane initialement supposée, on a les deux cas suivants :
$―$ Si $np\geqslant5$, on utilise le test statistique suivant :
\[\boxed{Z=\frac{V-\frac{n}{2}}{\frac{\sqrt{n}}{2}}\underset{H_0}{\sim}\mathcal{N}(0,1)}\]
$―$ Si $np < 5$, on utilise le fait suivant :
\[\boxed{V\underset{H_0}{\sim}\mathcal{B}\left(n,p=\frac{1}{2}\right)}\]
$\chi^2$ test
Test de qualité d'ajustement Soit $k$ tiroirs tels que dans chaque tiroir $i$, on a $Y_i$ observations. Notre hypothèse nulle est que $Y_i$ suit une distribution binomiale de probabilité $p_i$ pour chaque tiroir.
On veut tester si le modèle, mentionné ci-dessus, décrit de manière raisonnable la réalité. On effectue le test d'hypothèse suivant pour vérifier cela :
\[\boxed{H_0:\textrm{good fit}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{not good fit}}\]
Test statistique du $\chi^2$ Pour effectuer un test de qualité d'ajustement, on a besoin de calculer un test statistique et de le comparer à une distribution de référence. En notant $k$ le nombre de tiroirs, $n$ le nombre total d'observations, et dans le cas où l'on a $np_i\geqslant5$, le test statistique $T$ défini ci-dessous nous permet d'effectuer le test d'hypothèse :
\[\boxed{T=\sum_{i=1}^k\frac{(Y_i-np_i)^2}{np_i}\underset{H_0}{\sim}\chi_{df}^2}\quad\textrm{avec}\quad\boxed{df=(k-1)-{\small\#(\textrm{paramètres estimés}})}\]
Tendances
Nombre de transpositions Dans une séquence donnée, on définit le nombre de transpositions, noté $T$, comme étant le nombre de fois qu'un nombre plus grand précède un nombre plus petit.
Exemple: la séquence $\{1,5,4,3\}$ contient $T=3$ transpositions parce que $5>4, 5>3$ et $4>3$
Test de tendances arbitraires Étant donné une séquence, le test de tendances arbitraires est un test non-paramétrique, dont le but est de déterminer si les données suggèrent la présence d'une tendance croissante :
\[\boxed{H_0:\textrm{pas de tendance}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{il y a une tendance croissante}}\]
Si l'on note $x$ le nombre de transpositions d'une séquence, la $p$-value est calculée par :
\[\boxed{p\textrm{-value}=P(T\leqslant x)}\]
Remarque : le test pour une tendance décroissante d'une séquence donnée est équivalent à un test pour une tendance croissante avec la même séquence, mais inversée.
Analyse de régression
Dans la section suivante, on note $(x_1, Y_1), ..., (x_n, Y_n)$ une collection de $n$ observations.
Modèle linéaire simple Soit $X$ une variable déterministe et $Y$ une variable aléatoire dépendante. Dans le contexte d'un modèle linéaire simple, on suppose que $Y$ est lié à $X$ par le biais de coefficients de régression $\alpha, \beta$ et d'une variable aléatoire $e\sim\mathcal{N}(0,\sigma)$, où $e$ est l'erreur. On a :
\[\boxed{Y=\alpha+\beta X+e}\]
Estimation de régression Lors de l'estimation des coefficients de régression $\alpha, \beta$ par $A, B$, on obtient les predictions $\hat{Y}_i$ de la manière suivante :
\[\boxed{\hat{Y}_i=A+Bx_i}\]
Somme de erreurs au carré En gardant les mêmes notations, on définit la somme des erreurs au carré, aussi appelé SSE, par :
\[\boxed{SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\sum_{i=1}^n(Y_i-(A+Bx_i))^2}\]
Méthode des moindres carrés La méthode des moindres carrés est utilisée pour trouver des estimations $A,B$ des coefficients de régression $\alpha,\beta$ en minimisant la SSE. En d'autres mots, on a :
\[\boxed{A, B = \underset{\alpha, \beta}{\textrm{arg min}}\sum_{i=1}^n(Y_i-(\alpha+\beta x_i))^2}\]
Notations Soit $n$ observations $(x_i, Y_i)$, on définit $S_{XY},S_{XX}$ et $S_{YY}$ de la manière suivante :
\[\boxed{S_{XY}=\sum_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y})\quad\textrm{et}\quad S_{XX}=\sum_{i=1}^n(x_i-\overline{x})^2\quad\textrm{et}\quad S_{YY}=\sum_{i=1}^n(Y_i-\overline{Y})^2}\]
Estimations des moindres carrés Lors de l'estimation des coefficients $\alpha, \beta$ avec la méthode des moindres carrés, on obtient $A, B$ définis par :
\[\boxed{A=\overline{Y}-\frac{S_{XY}}{S_{XX}}\overline{x}\quad\textrm{et}\quad B=\frac{S_{XY}}{S_{XX}}}\]
Somme des erreurs au carré revisité La somme des erreurs au carrés définie ci-dessus peut aussi être exprimée en terme de $S_{YY}$, $S_{XY}$ et $B$ de la manière suivante :
\[\boxed{SSE=S_{YY}-BS_{XY}}\]
Résultats principaux
Lorsque $\sigma$ n'est pas connue, ce paramètre est estimé par l'estimateur non-biaisé $s^2$ défini par :
\[\boxed{s^2=\frac{S_{YY}-BS_{XY}}{n-2}}\]
L'estimateur $s^2$ a la propriété suivante :
\[\boxed{\frac{s^2(n-2)}{\sigma^2}\sim\chi_{n-2}^2}\]
Le tableau ci-dessous récapitule les propriétés des estimations $A, B$ dans les cas où $\sigma$ est connu ou pas :
Coefficient | Estimation | $\sigma$ | Statistique | Intervalle de confiance $1-\alpha$ |
$\alpha$ | $A$ | connu | $\frac{A-\alpha}{\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim\mathcal{N}(0,1)$ | $\left[A-z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$ |
$\beta$ | $B$ | connu | $\frac{B-\beta}{\frac{\sigma}{\sqrt{S_{XX}}}}\sim\mathcal{N}(0,1)$ | $\left[B-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}},B+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}}\right]$ |
$\alpha$ | $A$ | inconnu | $\frac{A-\alpha}{s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim t_{n-2}$ | $\left[A-t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$ |
$\beta$ | $B$ | inconnu | $\frac{B-\beta}{\frac{s}{\sqrt{S_{XX}}}}\sim t_{n-2}$ | $\left[B-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}},B+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}}\right]$ |
Analyse de corrélation
Coefficient de corrélation Le coefficient de corrélation de deux variables aléatoires $X$ et $Y$ est noté $\rho$ et est défini de la manière suivante :
\[\boxed{\rho=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{E[(X-\mu_X)^2]E[(Y-\mu_Y)^2]}}}\]
Coefficient de corrélation empirique Le coefficient de corrélation est estimé en pratique par le coefficient de corrélation empirique, souvent noté $r$ ou $\hat{\rho}$, défini par :
\[\boxed{\displaystyle r=\hat{\rho}=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}}\]
Test de corrélation Dans le but d'effectuer un test d'hypothèse où $H_0$ considère qu'il n'y a pas de corrélation entre $X$ et $Y$, on utilise la statistique suivante :
\[\boxed{\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\underset{H_0}{\sim}t_{n-2}}\]
Transformation de Fisher La transformation de Fisher transformation est souvent utilisée pour construire des intervalles de confiance encadrant la corrélation estimée. Elle est notée $V$ et est définie par :
\[\boxed{V=\frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)}\]
En notant $V_1=V-\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$ et $V_2=V+\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$, le tableau ci-dessous récapitule les résultats principaux autour de l'estimation de la corrélation :
Taille de l'échantillon | Test statistique | $1-\alpha$ confidence interval for $\rho$ |
grand | $\displaystyle\frac{V-\frac{1}{2}\ln\left(\frac{1+\rho}{1-\rho}\right)}{\frac{1}{\sqrt{n-3}}}\underset{n\gg1}{\sim}\mathcal{N}(0,1)$ | $\displaystyle\left[\frac{e^{2V_1}-1}{e^{2V_1}+1},\frac{e^{2V_2}-1}{e^{2V_2}+1}\right]$ |