class: center, middle, inverse, title-slide .title[ # Chapitre 5 : Hypothèses du modèle de RLM ] .subtitle[ ## Économétrie (ECON0212) ] .author[ ### Malka Guillot ] .date[ ### HEC Liège ] --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Aujourd'hui - Inférence statistique ## Hypothèses du ***modèle classique de régression*** 1. Linéarité en les paramètres 2. Échantillonnage aléatoire 3. Indépendance de la moyenne 4. Homoscédasticité - Relacher cette hypothèse = hétéroscedasticité 5. Erreurs normalement distribuées --- layout: false class: title-slide-section-red, middle # Le Modèle de régression classique (=MRC) --- # Le Modèle de régression classique * Que l'inférence soit faite à partir de la théorie ou de simulations, certaines hypothèses doivent être satisfaites pour que cette inférence soit valide. * L'ensemble des hypothèses nécessaires définit le *Modèle de régression classique* (MRC). `$$y_i = \beta_0 + \beta_1 x_{1,i} + ... + \beta_k x_{k,i} + \varepsilon_i$$` -- * Modifications mineures mais importantes par rapport aux cours [*2-regression-univariee*]() & [*4-regression-multivariee*]()) -- * Distinction entre l'estimation de l'échantillon `\(b_k\)` (ou `\(\hat{\beta_k}\)`) et le paramètre de population `\(\beta_k\)`. - `\(b_k=\hat{\beta_k}\)` : estimation de `\(\beta_k\)` à partir d'un échantillon -- * Distinguons entre : - `\(e\)`, l'erreur d'échantillonnage (*résiduelle*) - `\(\varepsilon\)`, le terme d'erreur du vrai modèle de population --- # Définition du modèle de régression classique [MRC] *Objectif* = étudier la relation entre - une variable dépendante `\(\color{green}{y}\)` - un ensemble de variables indépendantes `\(\color{purple}{x_1, x_2, \dots, x_k}\)` -- Le **MRC** suppose que la relation suivante est vérifiée dans la population: $$ \color{green}{y} = \color{blue}{\beta_0} + \color{blue}{\beta_1}\color{purple}{x_1} + \color{blue}{\beta_2}\color{purple}{x_2} + \cdots + \color{blue}{\beta_k}\color{purple}{x_k} + \color{orange}{\varepsilon} $$ -- - Remarques : - `\(\color{blue}{\beta_0}\)` est la constante et `\(\color{blue}{\beta_1, \dots, \beta_k}\)` sont les pentes - Le terme d’erreur `\(\color{orange}{\varepsilon}\)` capture les autres variables non incluses - `\(\color{green}{y}\)`, `\(\color{purple}{x_1, \dots, x_k}\)`, `\(\color{orange}{\varepsilon}\)` sont des *variables aléatoires* - Le modèle reflète une relation dans la **population** - On utilise un **échantillon** pour estimer les `\(\color{blue}{\beta}\)` --- # Hypothèses du MRC - <span class="alert">[H1] Linéaire</span>en termes de paramètres, - Dans la population, la relation entre `\(y\)` et les variables explicatives est linéaire : $$ y = \beta_0 + \beta_1x_1+ \beta_2x_2+ \cdots + \beta_kx_k + \varepsilon$$ -- - <span class="alert">[H2] Échantillonnage aléatoire</span>: les données sont tirées d'un **échantillon aléatoire** de taille `\(n\)` - `\((x_i,y_i)\)` vient de la même distribution que, et est **indépendante** de `\((x_j,y_j)\)`, `\(\forall i\neq j\)`. - ***i.i.d = indépendantes et identiquement distribuées*** -- - La violation de cette hypothèse rend l'échantillon moins représentatif de la population sous-jacente. - `\(\rightarrow\)` estimations **biaisées** de `\(\beta_k\)`. --- # Hypothèses du MRC - <span class="alert">[H3] Independance de la moyenne</span>: `\(E[\varepsilon|x] = 0\)`, *ie.* la moyenne des résidus conditionnelle à `\(x\)` doit être nulle. - Cela signifie également que `\(Cov(\varepsilon,x) = 0\)`, c'est-à-dire que les erreurs et notre (nos) variable(s) explicative(s) doivent être *non corrélées*. -- * La violation de cette hypothèse conduira à des estimations **biaisées** de `\(\beta_k\)`. --- # [H3] Indépendance de la moyenne des erreurs : ### `\(E[\epsilon | small] =\)` ? <img src="5-rlm-hypotheses_files/figure-html/unnamed-chunk-1-1.svg" style="display: block; margin: auto;" /> ??? --- # [H3] Indépendance de la moyenne des erreurs : ### `\(E[\epsilon | small] =\)` ? <img src="5-rlm-hypotheses_files/figure-html/unnamed-chunk-2-1.svg" style="display: block; margin: auto;" /> --- # [H3] Indépendance de la moyenne des erreurs : ## `\(=\)` Hypothèse d'exogénéité L'hypothèse H3 du MRC est aussi appelée **hypothèse d'exogénéité** (stricte) . * Lorsque cette hypothèse n'est pas respectée, notre estimation `\(\hat \beta\)` ( `\(b\)` ) sera une estimation <span class="alert">biaisée</span>de `\(\beta\)`, c'est-à-dire `\(\mathop{\mathbb{E}}[\hat \beta] \neq \beta\)`. -- * *Exemple* : on s'intéresse à l'effet de l'éducation sur les salaires. `$$\text{wage}_i = \beta_0 + \beta_1 \text{education}_i + \varepsilon_i$$` * Sous l'hypothèse d'exogénéité, `\(\beta_1\)` représente l'effet causal de l'éducation dans la population. -- * Supposons qu'il existe une capacité (*ability*) non observée `\(a_i\)`. * Une capacité élevée signifie un salaire plus élevé. * Cela signifie également que l'école est plus facile et que `\(i\)` est donc sélectionné pour suivre une scolarité plus longue. --- # [H3] Hypothèse d'exogénéité * Étant donné que la capacité est **non observée**, `\(a_i\)` entre dans l'erreur `\(\varepsilon_i\)`. -- * Notre hypothèse *ceteris paribus* (toutes choses égales par ailleurs ou TCEPA) ne tient pas. -- * En régressant le salaire sur l'éducation, nous attribuerons à l'éducation une partie de l'effet sur les salaires qui est en fait *causé* par la capacité `\(a_i\)` ! -- * Rappelez-vous la formule du **biais de la variable omise** (OVB) : `$$\text{OVB} = \text{coefficient de la régression multivariée sur la variable omise} \times \frac{Cov(x,z)}{Var(x)}$$` -- * Ainsi, nous avons : $$ \mathbb{E}(\hat \beta_1) = \beta_1 + OVB > \beta_1$$ * *Interprétation* : en prenant des échantillons répétés de la population et en calculant `\(b_1\)` à chaque fois, nous surestimerions **systématiquement** l'effet de l'éducation sur le salaire. --- # Hypothèses du MRC - <span class="alert">[H4] Les variables ne peuvent pas être parfaitement colinéaires</span>. - Dans l'échantillon (et donc dans la population): - Aucune des variables indépendantes n'est constante: `$$x_j\neq c$$` - Il n'existe pas de relations linéaires exactes entre les variables indépendantes `\(x_j\)` . --- # Propriétés statistiques de l'estimateur MCO 1. <span class="alert">Estimateur non biaisé</span>: `\(E(\hat \beta_1)=\beta_1\)` et `\(E(\hat \beta_0)=\beta_0\)` - Les **hypothèses H1-4** sont nécessaires 2. <span class="alert">Estimateur convergent</span>en probabilité vers la vraie valeur du paramètre 3. <span class="alert">Estimateur efficace</span>: la variance de l'estimateur est la plus faible (parmi les estimateurs non biaisés) - Hypothèse additionelle **[H5] : homoscédasticité**, ie. la variance de l'erreur est constante. - Si **[H5]** ne tient pas, il peut être possible de trouver un estimateur plus efficace que l'estimateur MCO. ??? Outre le fait de savoir que les estimateurs des MCO sont sans biais, il est intéressant de savoir dans quelle mesure on peut s'attendre à ce que les estimateurs soient proches de leurs vraies valeurs. La mesure de l'écart dans la distribution des estimateurs des MCO la plus facile à utiliser est la variance. Pour calculer la variance d'échantillonnage, il faut faire l'hypothèse supplémentaire suivante hypothèse supplémentaire suivante : --- # [H5] Homoscédasticité *Peut-on s'attendre à l'estimateur soit loin de sa valeur vraie?* On s'intéresse à la distribution des estimateurs des MCO, et en particulier à sa variance. On a besoin d'une hypothèse supplémentaire : **H5 :** la variance du terme d'erreur `\(\varepsilon\)` est la même pour chaque valeur des `\(x\)` : __$$Var(\varepsilon|x_1, x_2, \cdots, x_k) = \sigma^2$$__ On a alors: `$$Var(y|X)=Var(b_0+b_1x1+ b_2x_2+ \cdots + b_kx_k + \epsilon)=Var(\epsilon|X)=\sigma^2$$` Quand `\(Var(\epsilon|X)\)` dépend de `\(X\)`, on dit que le terme d'erreur `\(\epsilon\)` est hétéroscédastique. On a alors aussi : `\(Var(y|X)\)` qui dépend de `\(X\)`. --- # Homoscédasticité du MRC <img src="../img/content/2.8-wooldridge.png" width="50%" style="display: block; margin: auto;" /> Les variables explicatives ne contiennent pas d'information qui permettrait d'expliquer la variance des facteurs non observés ( `\(\varepsilon\)` ) ??? La variabilité induite par ce qui n'est pas observé ne dépend pas de la valeur de la variable explicative --- # Le Modèle de régression classique - 5 Hypothèses Le modèle de régression classique s'applique aux **régressions linéaires correctement spécifiées**. Le modèle doit satisfaire les hypothèses suivantes: - [H1] ***linéaire*** en termes de paramètres: `\(y = \beta_0 + \beta_1x_1+ \beta_2x_2+ \cdots + \beta_kx_k + \varepsilon\)` - [H2] ***Échantillonnage aléatoire***:$(x_i,y_i)$ vient de la même distribution que, et est **indépendante** de `\((x_j,y_j)\)`, `\(\forall i\neq j\)`. - [H3] ***Independance de la moyenne***: `\(E[\varepsilon|x] = 0\)`. - Si H3 est vérifiée, les `\(x\)` sont dits **exogènes** (sinon, *endogènes**) - [H4] les variables ***ne peuvent pas être parfaitement colinéaires***. - [H5] ***Homoscédasticité***: `\(Var(\varepsilon|x_1, x_2, \cdots, x_k) = \sigma^2\)` --- # Relâcher H5: hétéroscédasticité - Si __[H5]__ n'est pas vérifiée, nous sommes en présence d'__hétéroscédasticité__ - L'hétéroscédasticité signifie que la variance des erreurs n'est pas constante entre les observations : `$$Var(\varepsilon_i|x_{i1}, x_{i2}, \cdots, x_{ik}) = \sigma_i^2\neq\sigma,\ i=1, \dots, n$$` * Vous pouvez toujours obtenir des estimations non biaisées de `\(\beta_k\)`. * L'estimation de `\(\widehat{\textrm{SE}}(b_k)\)` sera biaisée, ce qui affectera la statistique de test et la `\(p-value\)`. --- # H5: homoscédasticité <img src="../img/content/2.8-wooldridge.png" width="60%" style="display: block; margin: auto;" /> --- # Relâcher H5: hétéroscédasticité <img src="../img/content/2.9-wooldridge.png" width="60%" style="display: block; margin: auto;" /> ??? La variance des déterminants non observés du salaire augmente avec le niveau d'éducation --- # [Exemples] Quand l'homoscédasticité n'est pas plausible... - Données sur des **unités de taille différente** (villes, États, pays). - L'ordre de grandeur des variables omises peut être plus important pour les villes, les États ou les pays les plus peuplés. - Par conséquent, la variance du terme d'erreur peut varier en fonction de la taille de l'unité - Données sur les **individus ou les ménages confrontés à des restrictions plus ou moins fortes de leur comportement** : - *Enquêtes de consommation* : les niveaux de dépenses des ménages à hauts revenus sont généralement plus plus variés que ceux des ménages à faibles revenus. - De même, les taux d'épargne d'épargne des personnes plus riches varient davantage que ceux des personnes individus plus pauvres --- layout: false class: slide-question-comprehension # [Exemple] Quand l'homoscédasticité n'est pas plausible... Comment la présence d'hétéroscédasticité dans une régression du salaire horaire en fonction du niveau d'éducation pourrait s'expliquer ? ??? - Données en coupe sur les salaires (horaires) : - les individus plus éduqués ou ayant plus d'expérience gagnent souvent des salaires dont la distribution a une plus grande variance comparée à celle des personnes moins éduquées ou ayant moins d'expérience --- # [Exemple] Hétéroscédasticité <img src="../img/content/heteroskedasticite-ex.png" width="60%" style="display: block; margin: auto;" /> `$$Var(\varepsilon_i|\textrm{Year of schooling}_i) = \sigma_i^2\neq\sigma,\ i=1, \dots, n$$` --- # [Exemple] Hétéroscédasticité <img src="../img/content/heteroskedasticite-ex.png" width="60%" style="display: block; margin: auto;" /> `$$Var(\varepsilon_i|\textrm{Year of schooling}_i) = \sigma_i^2\neq\sigma,\ i=1, \dots, n$$` --- # Conséquences de l'hétéroscédasticité pour les MCO - L'hétéroscédasticité : - n'entraîne pas de biais ou la convergence - n'affecte pas l'interprétation de `\(R^2\)` ## Problèmes - L'hétéroscédasticité conduit à une inférence incorrecte - les t-statistiques, les intervalles de confiance et les *p-values* ne sont plus valides. - Les MCO ne sont plus l'estimateur le plus efficace, c'est-à-dire qu'il peut y avoir d'autres estimateurs, comme les MCO, qui sont plus efficaces. --- # Conséquences de l'hétéroscédasticité pour les MCO ## Solution : erreurs standards ***robustes*** en présence d'hétéroscédasticité - Utiliser des erreurs standards, des t-statistiques, intervalles de confiance et *p-value* ***robustes*** ## En Stata : - Il suffit d'ajouter `,robust` à la commande OLS. <!-- Note that the robust test statistics are only asymptotically valid. That means that in small samples, the normal test statistics are preferred in the absence of heteroskedasticity. --> --- ## En Stata avec `, robust` <img src="../img/content/reg-robust.png" width="50%" style="display: block; margin: auto;" /> --- ## Autre visualisation: dispersion de `\(y\)` en fonction de `\(x\)` <img src="../img/content/log_wage.png" width="70%" style="display: block; margin: auto;" /> --- ## Autre visualisation: dispersion de `\(e= y - \hat y\)` en fonction de `\(x\)` <img src="../img/content/residu.png" width="70%" style="display: block; margin: auto;" /> --- # Homoscédasticité .pull-left[ <img src="../img/content/sample1_residuals_vs_predicted.png" width="95%" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="../img/content/sample1_y_vs_x.png" width="95%" style="display: block; margin: auto;" /> ] --- # Heteroscédasticité .pull-left[ <img src="../img/content/sample2_residuals_vs_predicted.png" width="95%" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="../img/content/sample2_y_vs_x.png" width="95%" style="display: block; margin: auto;" /> ] --- # Une 6e hypothèses du MRC - <span class="alert">[H6] Erreurs normalement distribuées</span>: le terme d'erreur est normalement distribué, i.e. `\(\varepsilon \sim \mathcal{N}(0,\sigma^2)\)` -- * Pas strictement nécessaire, mais rend l'inférence possible même avec des échantillons de petite taille. -- 👉 *Takeaway*: **si les hypothèses ne sont pas respectées, l'inférence n'est pas valide!** ??? Conditionnellement aux variables indépendantes `\(x\)`, la distribution d'échantillonnage des estimateurs MCO dépend de celle des erreurs. --- # Où en sommes nous de notre quête de la causalité ✅ Comment gérer les données? Lisez-les, ordonnez-les, visualisez-les... ✅ Comment résumer une relation entre plus sieurs variables? Régression linéaire univariée... ✅ Qu'est ce que la causalité ? ✅ Comment faire si nous n'observons qu'une partie de la population ? Échantillonage ! ❌ Nos résultats sont ils uniquement dus au hasard? Intervalle de confiance, test d'hypothèse et inférence ❌ Comment trouver de l'exogénéité en pratique ? --- class: title-slide-final, middle background-image: url(../img/logo/logo_hec) background-size: 250px background-position: 9% 19% # À LA SEMAINE PROCHAINE ! <a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a> # MERCI À <a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides)