Notes de Cours d'Inférence Statistique
Table des matieres
1 Introduction#
1.1 Evaluation#
- CC Examen.
- Répartition : partiel, Interro (prévue le 26/01).
1.2 Modèle Statistique#
Un modèle statistique est un espace de probabilité où est une famille de lois de probabilité .
- Si : modèle paramétrique.
- Sinon : modèle non paramétrique.
Exemple 1 (Familles de lois).
- Lois de Poisson : .
- Densité régulière : .
Une observation est une variable aléatoire (v.a.) dont la loi appartient à . Notre observation aura une structure de -échantillons i.i.d. (indépendants et identiquement distribués) de loi commune .
est de loi . L’échantillon contient toute l’information sur , donc sur .
Un modèle est identifiable si et seulement si (ssi) l’application est injective.
1.3 Estimateurs#
Hypothèse : On observe i.i.d. de loi commune (modèle paramétrique identifiable). Soit la vraie valeur inconnue telle que .
Un estimateur de est une fonction de l’échantillon mesurable et indépendante de (calculable à partir des données).
Notation : . C’est une variable aléatoire.
Exemples : , , etc.
Questions fondamentales :
- Comment définir un bon estimateur ?
- Comment construire un bon estimateur ?
1.4 Risque quadratique#
Idée : En moyenne, doit être proche de . On regarde .
Définition 5 (Biais).
Le biais de est défini par :
On dit que est sans biais si .
Définition 6 (Risque quadratique / MSE).
C’est la Mean Squared Error (MSE) en anglais.
On dit que est meilleur que ssi .
1.4.1 Exemple : Modèle de Poisson#
Soit de loi de Poisson, . On cherche un estimateur de .
Proposons : .
Calcul du Biais :
Donc , est l’estimateur sans biais.
Calcul du Risque :
Théorème 1 (Décomposition Biais-Variance du risque).
Preuve 1.
1.5 Consistance#
Propriété asymptotique. On ne considère que des estimateurs consistants.
Définition 7 (Consistance).
Soit i.i.d. de loi . Soit . est un estimateur consistant (ou convergent) de ssi :
est fortement consistant ssi .
1.5.1 Exemple : Retour au modèle de Poisson#
, .
- On peut invoquer la Loi des Grands Nombres (LGN) : .
-
Via le risque quadratique :
D’après l’inégalité de Bienaymé-Tchebychev :
1.5.2 Méthode « Plug-in »#
Soit i.i.d. Poisson. On veut estimer .
est consistant pour estimer .
Si , alors pour toute fonction continue .
2 Estimateurs#
2.1 Cadre paramétrique#
2.1.1 Modèle statistique paramétrique#
On dispose d’une observation (), un échantillon de variable aléatoire i.i.d (indépendantes, identiquement distribuées) de loi commune appartenant à une famille de lois de probabilités paramétrée .
Si espace de dimension infinie modèle non-paramétré.
Estimer c’est estimer .
, , , loi de densité
,
Loi de
Définition 8 (Estimateur).
Définition 9 (Qualité).
-
Risque
-
Consistance
Définition 10 (Modèle identifiable).
2.2 Méthode des moments#
Définition 11.
On appelle moment théorique de la loi de d’ordre :
Définition 12.
On appelle moment empirique de la loi des d’ordre :
Par la loi des grands nombres .
La méthode des moments: si on peut écrire ou paramètre d’intérêt comme une fonction des premiers moments théoriques.
alors l’estimateur
est obtenu par la méthode.
Exemple 3 (Des calculs des estimateurs en utilisant la méthode des moments).
-
à valeurs 0-1,
-
, , par la méthode des moments,
-
i.i.d. de la loi de densité
Méthode des moments:
2.3 Rendu sur le L.A.C.#
(L.A.C = lemme des applications continues) suite de variables aléatoires. Si converge vers , que peut-on dire de ? Si continue, LAC.
- si alors
- si alors
Remarque 4 (Condition suffisante).
si , le LAC est vrai.
Exemple 4.
- LGN:
- LAC:
LAC pour des couples de suites de variables aléatoires:
- si , alors , si ou continue
- si , alors
Exemple 5.
LGN:
donc
constant de , continue sauf en de mesure nulle.
Mais c’est faux pour une converge en loi.
Proposition 1 (Convergence de couples).
Preuve 2.
- alors LAC continue donc et
-
convergence du couple?
Cette réciproque est fausse pour la converge en loi!
2.3.1 Variance empirique#
Si la admettent une esperance et une variance , on appelle variance empirique
estimateur des moments:
On remplace les moments théoriques par les moments empiriques
Consistance: ,
Exemple 6.
- calculer le biais de
- calculer le risque de
2.4 Méthode de maximum de vraisemblance#
2.4.1 Modèle donné#
est donné s’il existe une mesure (positive définie à valeurs dans , avec finie) telle que admet une densité par rapport à .
2.4.2 En pratique#
-
soit au plus dénombrable: = mesure de comptage. Si tq , alors avec mesure de dirac.
Exemple 7.
, , probas On écrira - soit , alors est la densité usuelle
densité de
Définition 13.
On appelle vraisemblance de l’échantillon la fonction
Définition 14.
Un estimateur du max de vraisemblance est définie par:
On travaille souvent avec la log-vraisemblance
Remarque 5.
est une variable aléatoire
Exemple 8.
-
, , à valeurs 0-1
Equation de vraisemblance:
le point critique, est-il un maximum?
- La dérivée change de signe en on a bien un max
- Condition du 2nd ordre, si pour tout est concave max global
3 Information de Fisher, efficacité#
Soit , (identifiable, donnée). On note densité de
Étant donné , i.i.d. de loi et la vraisemblance de l’échantillon. Sur on peut calculer
Objectif: que peut-on avoir de « mieux » comme estimateur? modèle régulier
3.1 Modèle régulier#
Définition 15.
Le modèle est dit régulier si
- est un ouvert et est
- ne dépend pas de :
-
Pour tout , l’application
est intégrable et l’intégrale
est continue sur .
On note la dérivée de par rapport à : La quantité est appelée Information de Fisher du modèle.
Exemple 9.
-
densité par rapport à
est sur ,
continue sur
Exemple 10.
, , , , densité par rapport à
Pour tout , est
continue sur
modèle non régulier
3.2 Score et Information de Fisher#
i.i.d de loi de
On appelle score ou vecteur de score la dérivée de la log vraisemblance
, , , donc
Remarque 6.
Hyp supplémentaire de régularité: pour tout estimateur et tout , les intégrales suivantes existent et sont égales:
Remarque 7.
condition d’application du thm de dérivation de Lebesgue.
Proposition 3.
Sous , le score est centré ,
Définition 17.
L’information de Fisher associé à
Exemple 13.
,
Proposition 4.
en effet,
Exemple 14.
i.i.d ,
3.3 Information de Fisher et derivée seconde#
Proposition 5.
En ajoutant que est et que vrai pour alors l’info de Fisher s’écrit encore
si EMV,
Si courbe très « piqué » en l’EMV (i.e. info. Fisher est grande) alors l’EMV est localisé de façon précise
3.4 Inégalité de Cramer - Rao#
Soit le paramètre d’intérêt où
Proposition 6.
Sous les hypothèses d’un modèle régulier, si pour tout , , alors pour tout estimateur sans biais, , on a
Preuve 3.
Inégalité de Cauchy-Schwarz pour avec et centrées
Si réalise l’égalité, alors est dit efficace.
4 Étude asymptotique des estimateurs#
Dans un moddèle paramétrique régulier, si estimateur de , alors
si sans biais, est efficace efficace
Asymptotique: ,
4.1 Convergences#
suite de variables aléatoires réelles
- convergence en loi: ssi en tout point de continuité de .
Lemme 2 (lemme de Portmanteau).
Caractérisations équivalentes:
-
Pour toute fonction continue bornée ,
la convergence en loi est stable par passage aux fonctions continues (LAC) MAIS il est en général faux que si et alors
Cela est vrai dans 3 cas:
- (Lemme de Slutsky) (le plus important)
en appliquant le LAX,
4.2 Consistance des estimateurs#
Définition 19.
asymptotiquement sans biais si et seulement si
Remarque 8.
La convergence en proba n’implique pas la convergence des espérances.
Si , , alors par convergence dominée dans
Exemple 15.
estimateur des moments de
Consistance de ?
Outils pour montrer la consistance:
- LGN
- si alors consistant car convergence convergence en probas
- revenir à la définition de convergence en probas
-
si sont i.i.d., alors est i.i.d.
LGN:
- (LGN), LAC avec :
- Donc
- LAC
Donc
4.3 Normalité asymptotique#
pour .
Question: quelle est la vitesse de convergence de vers ?
i.i.d., d’espérance , de variance
TLC quelle que soit la loi des
Définition 20.
est un estimateur asymptotiquement normal si et seulement si
- vitesse de convergence en
- convergence en loi
-
loi limite est normale
Exemple 16.
est-elle asymptotiqument normale ?
i.i.d. d’espérance , de variance
-
TLC: si i.i.d., alors les sont i.i.d. d’esperance ,
- TLC:
Donc est un estimateur asymptotiqument normal
Remarque 9.
Application du lemme de Slutsky: si est un estimateur consistant de , alors on a encore
Preuve 4.
4.4 -méthode#
estimateur asymptotiqument normal: quelle est la loi asymptotique de ?
Lemme 3 (méthode délta).
Soit suite de variables aléatoires réelles t.q.
Soit une fonction dérivable, . Sous ces hypothèses, on a
A-t-on ?
5 Fonction de répartition empirique#
échantillon i.i.d. à valeurs réelles de loi inconnue.
Définition 21.
La fonction de répartition empirique associée à est définie par:
est une variable aléatoire, estimateur de .
Loi empirique est une loi discrète uniforme sur .
Représentation graphique
Conditionnelement
Proposition 7 (Propriétés immédiats).
- suit la loi binomiale
- donc
- ou bien LGN: estimateur consistant de .
-
On a un résultat de convergence uniforme :
.2
-
est-il asymptotiqument normal?
TLC: les sont i.i.d., donc les sont i.i.d.
5.1 Estimation empirique#
« plug-in » ou méthode de substitution, paramètre d’intérêt , la méthode empirique définit , estimateur impirique en remplaçant par .
Exemple 17.
si distinctes
5.2 Inverse généralisé#
Définition 23.
On définit l’inverse généralisé de par:
Si est strictement croissante, tel que , si est la fonction d’une loi discrète.
Exemple 18.
Vocab:
- s’appelle aussi la fonction quantile
- quantile d’ordre , de la loi
- 1er quantile
- médiane
- 3eme quantile
variable aléatoire sur , f.r., alors est une variable aléatoire de loi
-
Si bijective:
- Si discrète: inverse généralisé:
5.3 Quantile empirique#
Définition 24.
On définit le quantile empirique (sample quantile) d’ordre , comme étant le quantile de :
Proposition 8.
-
On peut montrer que où est l’echantillon ordoné des
Exemple 19.
, ,
-
Consistance
si , si est strictement croissante au voisinage de
6 Intervalles de confiance#
6.1 Définitions#
i.i.d. de loi , on s’interesse à ou .
Un intervalle de confiance pour , de niveau de confiance est un intervalle dont les bornes sont aléatoires, fonctions de l’échantillon et ne dépend PAS des paramètres inconnus du modèle et tel que
- Un IC est calculable à partir des données
- si l’inégalité est une égalité niveau de confiance est exact.
- si on a , niveau est asymptotique.
- en général
6.2 Interprétation#
6.3 Méthode pivotale#
i.i.d. d’espérance , de variance . Soit , asymptotiqument normal:
Par définition des quantiles gaussiens, où f.r. de
-
pivot ou statistique pivotale = statistique centrée réduite issue de , où estimé par , consistant pour estimer .
Si c’est le cas,
-
on en déduit
Remarque 10 (pourquoi ?).
On peut observer que les quantiles dans (1) sont d’ordre et . Pour comprendre pourquoi, il suffit d’effectuer un calcul simple. D’abord, on note .
7 Compléments (avant partiel)#
- Retour sur normalité asymptotique
- Exemple
- Pivot asymptotique
- Exemple 2
7.1 Propriétés asymptotiques d’une suite d’estimateurs#
- Consistance
- Normalité asymptotique, s’il existe
De façon générale, s’il existe
On dit que converge à la vitesse
Remarque 11.
Si asymptotiqument normal consistant
-méthode
Si dérivable en ,
-méthode
g dérivable en
donc (LAC)
Exemple 20.
de loi de densité
estimé par efficace?
sans biais et . Donc est efficace.
TLC: variance de la loi gausienne asymptotique
a pour loi asymptotique
-
autre paramétrisation: i.i.d.
Remarque 12.
cd TD1:
est asymptotiqument efficace
asymptotiqument normal (TLC). sur , méthode delta:
7.2 Pivot (asymptotique) ou statistique pivotale#
Statistique dont la loi ne dépend pas de paramètres inconnus
Exemple 21.
i.i.d. avec :
méthode pivotale pour IC: On estime par « plug-in » par le LAC avec , estimateur consistant de
Exemple 22.
de densité .
EMV?
max global
TLC:
et quantiles de
8 Estimation dans les échnatillons gaussiens#
- Loi normale et lois dérivées
- Loi des estimateurs empririques
- IC des paramètres
- Exercice
8.1 TL&DR#
des variables aléatoires i.i.d. qui suivent et ,
8.2 Loi normale et lois dérivées#
Définition 26.
est dite gauissienne (normale) centrée réduite si sa loi admet pour densité
On note .
est dite de loi normale de paramètres et ssi
notée
Autres caractérisations de la loi normale:
-
par densité
-
par la fonction génératrice des moments
Remarque 13.
- presque surement
- si , et , alors
Moments centrés: densité symétrique par rapport à
moments centrés:
- tous les moments centrés d’ordre impaire sont nuls
-
échantillon i.i.d. . La loi de est appelée loi du (chi 2) à degrés de liberté (ddl) (degrees of freedom (df)).
Corollaire 1.
-
si de loi , ,
- support
- ,
si et indépendantes, la loi de est appelée loi de Student à ddl.
Remarque 14.
si , la loi de Student converge vers la loi
donc (LAC)
par le Lemme de Slutsky
On introduit i.i.d. où et paramètres inconnus.
Soit non biaisé
8.3 Loi des estimateurs empritiques#
Théorème 2 (loi de et ).
- et sont des variables aléatoires indépendantes
- et
- et sont indépendantes
Preuve 5.
qui caractérise la loi
donc indépendantes
8.4 IC des paramètres#
Pivot.
IC ,
IC
Remarque 15.
et
8.5 Exercice#
- Montrez que sont les EMV de et
- où représente une risque
9 Introduction aux tests statistiques#
9.1 Exemple#
9.1.1 Contrôle de qualité: industriel.#
Produit des « pièces »
- de bonne qualité
- défectueuses
Pour l’industriel, on suppose acceptable une proportion de de pièces déféctueuses.
Pour contrôler: prélever « au hasard » pièces, vérifiées ()
9.1.2 Modélisation#
pièce
on prélève pièces et on observe un échantillon dont les valeurs obsérvées sont .
Que vaut ? on éstime
- proportion empirique
On observe ,
On procède avec un intervalle de confiance pour . On définie , TLC:
on estime l’écart-type par (consistant). Lemme de Slutsky:
de niveau asymptotique .
ex: , , ,
Question: est-ce que ou bien ?
9.2 Principe d’un test#
. On veut tester si ou .
sous-ensembles disjoints.
On teste : , contre : ,
Conclusion:
- Soit on conserve : ()
- Soit on rejet (on conclut )
Définition 29.
Un test de contre est défini par la construction d’une région de rejet de ,
- si , on rejette (au profit de )
- si , on conserve
Souvent
- : statistique de test (à valeur réelle)
- : seuil du test
la décision d’un test est aléatoire (dépend de aléatoire)
Comment relier aux hypothèses testées ?
9.3 Risque d’erreur#
Définition 30.
Erreure de espèce ou risque de type I est la fonction définie sur
Le test est dit de niveaux si
erreur de premiere espece
Définition 31.
L’erreure de seconde espèce est la fonction définie sur risque de type II
erreur de sconde espèce est
puissance du test: = 1-erreur 2nde espèce
Choix: les 2 erreurs ne peuvent pas être minimiser simultanément. En général augmente quand diminue.
Test: On choisit de contrôler l’erreur de espèce ( l’erreur de seconde espèce est inconnue en général)
9.4 Construction d’un test#
Principe: déterminer tel que erreur de première espèce (si on a plusieurs tests, on choisira (point de vue théorique) celui dont l’erreur de seconde espèce est la plus petite (ou de puissance la plus grande)). Basé sur une dissymétrie de et dans la construction.
Exemple 23.
contre ()
- inconnu donc on l’estime
- idée: sous , prend de plus grandes valeurs que sous
du type avec tel que ? (calcul? loi limite du paramètre ?)
a pour loi approché
On veut que
le sup est atteint en
Trouver tel que
-
rejet de ssi
A.N. , , ,
Conclusion: on conserve (on ne connaît pas le risque associé)
10 Tests d’hypothèse (sur un paramètre)#
10.1 Formalisme d’un test#
10.1.1 Introduction#
Définition 32 (test statistique).
Un test d’hypothèse est une fonction (mesurable) de l’échantillon à valeurs dans .
- est acceptée si
- est rejetée si
Le domaine est la région de rejet du test, est la région d’acceptation. On peut écrire:
Très souvent, est construite à partir de statistique de test Définition 32, elle-même basée sur un estimateur de , paramètre d’intérêt.
La question est: comment construire ?
10.1.2 Risques d’erreur d’un test#
Risque de espèce.
De manière générale, on testera
Si on considère une partition , , alors hypothèses sont: : contre :
Remarque 18 (Vocabulaire).
-
Test bilatère
- est une hypothèse simple.
- , est une hypothèse bilatère
-
Test unilatère
- si et et sont unilatères
contre : Test unilatère
Définition 33 (erreur de espèce).
– celle que l’on veut contrôler
-
niveau ssi
où pour
Définition 34 (erreur de espèce).
Définition 35 (Fonctions de puissance).
- si :
- si :
10.2 Exemple#
i.i.d. de loi . Hypothèses à tester:
Comme est inconnue, on l’estime avec .
- Première idée: rejet de si
Soit ,
Quelle est la loi de ?
car toute combinaison linéaire de variables aléatoires gaussiennes est une gaussienne.
,
reflexe: centrer et réduire la loi normale:
Où est une fonction de répartition de la loi
Alors, on a une chance sur 2 de se tromper – ce qui n’est pas acceptable !
on souhaite petit: :
- ()
- valeur de telle que
Condition de niveau:
Trouver telle que
On a construit un test de niveau avec
application numérique:
expérience réalisation de sur mes données
- si on ne rejette pas
- si rejet de
10.3 Construction d’un test#
-
- Définire les hypothèse et
- Identifier le paramtètre d’intérêt
-
- définir la forme de , forme de forme de ou bien
- trouver une statistique de test
- version normalisée de
- Trouver le seuil pour voir un test de niveau
§11
11.1 Résumé de la construction#
i.i.d. de loi
- Préciser les hypothèses testées:
-
Statistique de test: : sous calculable. La loi de sous permet de distinguer et .
(sous , si la … de s’écarte de vers la droite), (si : , si test bilatère )
-
Règle de décision niveau fixé,
-
Condition de niveau:
-
-
Application numérique:
- calcul du seuil
-
calcul de la réalisation de si réalisation de dans notre expérience
- si alors on rejette , avec un risque de se tromper de .
- si , on conserve , avec un risque de se tromper de inconnu (en général)
Le test de : contre : , est le même que le test de : contre : ,
11.2 -valeur#
Exemple 24.
i.i.d. de loi ; test : , contre :
où condition de niveau
rejet de
rejette-t-on à ? ? ?
A.N , , ,
Définition 36.
Si i.i.d., . Pour une réalisation de , on appelle -valeur du test de région de :
pvalue () - niveau de significativité probabilité critique
La Définition 36 peut sembler assez abstraite mais elle a une application assez intuitive. dépend de notre échantillon observée et dépend de la loi (sous ) et de (important: indépendant des données observée).
Une propriétée improtante est que est croissante en fonction de . Finalement, on calcule , on cherche le plus petit alpha (équivalent à chercher le plus grand tel que ). Puis d’après Définition 36.
Pvaleur nous dit: quelle est la probabilité d’avoir telles données aussi loin de notre région où on conserve . Plus est petit, moins des valeurs extrêmes ( observées), donc plus est la tendance à rejetter .
Exemple 25.
11.2.1 Généralisation(formule de calcul d’une p-valeur).#
statistique de test
- , alors -valeur
- , alors -valeur
- , -valeur
11.2.2 Remarques#
Remarque 20.
Sur l’exemple
la -valeur du test bilatère est le double de la -valeur du test unilatère.
Si la loi de sous est discrète.
11.2.3 Règle de décision avec la -valeur#
Exemple 26.
, contre ,
-
: contre : ,
, quelle est la règle de décision?
calcul de avec la condition de niveau quantile
- Si -valeur - on rejet
- Si -valeur - on conserve
-
: contre : , inconnu donc on l’estime
- sans biais
- EMV
par le théorème de la loi des estimateurs dans le modèle gaussien
On calcule : on rejette ssi ou
Quelle est la -valeur?
-valeur
12 Test de Student (t-test)#
Soient i.i.d. , i.i.d. . De plus, on suppose que les deux échantillons sont indépendants. Hypothèse supplémentaire: . On veut tester : contre
contre qui diminue le taux de cholestérol.
12.1 Statistique de test#
? idée:
- On estime par
- Loi de
et indépendantes donc CL de gaussiennes indépendantes =
- par linéarité de l’espérance + et i.d.
Si connue:
Proposition 9.
Sous les hypothèses de notre modèle
- 2 échantillons gaussiens indépendants
alors est un estimateur sans biais de et
a pour loi exacte la loi
admise
12.2 Région de rejet#
12.3 Règle de decision#
2 façcon équivalents:
- calcul du seuil: fixé (condition de niveau)
- Calcul de la p-valeur
où de loi
Exemple 28 (Application numérique).
, , , , ,
,
donc on ne rejette pas
- on ne rejette pas , les 2 échantillons n’ont pas des moyennes différentes.
- 1EMV = Estimateur de Maximum de Vraisemblance
- 2Thm de Glivenko-Cantelli: https://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Glivenko-Cantelli
- 3 pour borne inférieure et pour borne supérieure