class: center, middle, inverse, title-slide .title[ # Chapitre 2 : Régression Linéaire Simple (RLS) ] .subtitle[ ## Économétrie (ECON0212) ] .author[ ### Malka Guillot ] .date[ ### HEC Liège ] --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> ---
−
+
04
:
00
# Recap - Analyse de données ## Wooclap <img src="wooclap1-qrcode.png" width="25%" style="display: block; margin: auto;" /> <div style="text-align: center;"> <a href="https://app.wooclap.com/BLPXQI">lien de participation</a> (code : `BLPXQI`) </div> --- # Aujourd'hui - on commence l'économétrie ✌️ * Introduction au modèle de ***Régression Linéaire Simple*** et à l'estimation par ***Moindres Carrés Ordinaires (MCO)***. * Application empirique : *taille de la classe* et *performance des élèves*. * Gardez à l'esprit que nous sommes intéressés à découvrir des relations **causales**. ??? --- layout: false class: title-slide-section-red, middle # Plan du cours ## 1. Introduction: l'intuition derrière la droite de régression ## 2. Estimation par moindres carrés ordinaires ## 3. Le modèle de régression linéaire simple (et hypothèses) ## 4. Estimation en Stata ## 5. Propriétés algébriques l'estimateur des MCO --- layout: false class: title-slide-section-grey, middle # Plan du cours <h2 style="color: #154E55 ;">1. Introduction: l'intuition derrière la droite de régression</h2> ## 2. Estimation par moindres carrés ordinaires ## 3. Le modèle de régression linéaire simple (et hypothèses) ## 4. Estimation en Stata ## 5. Propriétés algébriques l'estimateur des MCO --- # Taille de la classe et performance des élèves ### <span class="alert">Quelles politiques *conduisent* à une amélioration de l'apprentissage des élèves ?</span> : * La **réduction de la taille des classes** a été au cœur des débats politiques depuis des *décennies*. -- ### Application avec données issues d'un célèbre article de [Joshua Angrist et Victor Lavy (1999)](https://economics.mit.edu/files/8273) <!-- - Obtenues à partir du cours de [Raj Chetty et Greg Bruich](https://opportunityinsights.org/course/). --> - **Contexte** - Classes d'élèves de 10-11 ans des écoles élémentaires publiques juives en Israël en 1991 - **Variables** - Les tests (nationaux) : - Compétences en *mathématiques* et en (hébreu) *lecture*. - Les scores bruts sont échelonnés de 1 à 100. - Caractéristiques des classes. --- class:: inverse # Exercice 1 : découvrir les données
−
+
05
:
00
1. Ouvrir la base `grades5.dta` - Dans le dossier Exercice de ce chapitre de cours. 1. Examiner les ensembles de données : * Quelle est l'unité (l'entité) d'observation, c'est-à-dire à quoi correspond chaque ligne ? * Combien d'observations y a-t-il ? * Regardez la base de données. Quelles variables avons-nous ? À quoi correspondent les variables `avgmath` et `avgverb` ? 2. Avez-vous un *a priori* sur la relation réelle (linéaire) entre la taille des classes et les résultats des élèves ? Que feriez-vous pour obtenir un premier aperçu ? --- # Taille de la classe et performance des élèves ## Scatter plot .pull-left[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-3-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-4-1.svg" style="display: block; margin: auto;" /> ] * Suggère une association plutôt positive. --- # Taille de la classe et performance des élèves : ## Binned Scatter plot [score moyen par taille de classe] .pull-left[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-5-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-6-1.svg" style="display: block; margin: auto;" /> ] <!-- --- --> <!-- # Taille de la classe et performance des élèves : --> <!-- ### Binned Scatter plot --> * Focus sur les résultats en mathématiques. --- # Taille de la classe et performance des élèves ### Droite de régression Comment visualiser la relation : **une droite passant par le nuage de points** -- .left-wide[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-8-1.svg" style="display: block; margin: auto auto auto 0;" /> ] -- .right-thin[ <br> * Une *droite* ! Super. Mais **quelle** droite ? Celle-ci ? * C'est une droite *horizontale*. Mais le score moyen en mathématiques semble *croître* avec la taille de la classe 😩 ] --- # Taille de la classe et performance des élèves ### Droite de régression Comment visualiser la relation : **une droite passant par le nuage de points** .left-wide[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-9-1.svg" style="display: block; margin: auto auto auto 0;" /> ] .right-thin[ <br> * Celle-**ci** ? * Un peu mieux! Elle a une **pente** et une **ordonnée à l'origine** 😐 * On a besoin d'une règle de décision ! ] --- # Regression Linéaire Simple ### Formalisation Nous nous intéressons à la relation entre deux variables : * Une <span class="alert">variable expliquée</span> - Egalement appelée __variable dépendante__, variable de résultat, variable prédite, variable endogène: - *Score moyen en mathématiques* `\((y)\)` * Une <span class="alert">variable explicative</span> - Egalement appelée __variable indépendante__ ou __régresseur__, variable prédictive, variable exogène, variable de contrôle) - *Taille de la classe* `\((x)\)` -- * Pour chaque classe `\(i\)`, nous observons à la fois `\(x_i\)` et `\(y_i\)`, ce qui nous permet de représenter la *distribution jointe* de la taille de la classe et du score moyen en mathématiques. --- # Regression Linéaire Simple ### Formalisation - Pour estimer le modèle de régression, on a besoin de données. - Echantillon *aléatoire* de `\(n\)` observations : - `\((x_1, y_1) \longleftarrow\)` Observation `\(1\)` - `\((x_2, y_2) \longleftarrow\)` Observation `\(2\)` - `\(\cdots\)` - `\((x_n, y_n) \longleftarrow\)` Observation `\(n\)` - De manière équivalente : $$ \\{ (x_i, y_i):i=1,\cdots n \\}$$ --- # Regression Linéaire Simple * Nous résumons cette relation avec une droite (pour l'instant). * L'équation d'une telle droite avec une ordonnée à l'origine `\(b_0\)` et une pente `\(b_1\)` est : $$ \widehat{y}_i = b_0 + b_1 x_i $$ -- * `\(\widehat{y}_i\)` est notre *prédiction* pour `\(y\)` à l'observation `\(i\)` `\((y_i)\)` donnée notre modèle i.e la droite). ??? ## different names used interchangeably, - `\(y\)` is called the dependent variable, the explained variable, the response variable, the predicted variable, or the regressand; - `\(x\)` is called the independent variable, the explanatory variable, the control variable, the predictor variable, or the regressor. - (The term covariate is also used for x.) - The terms “dependent variable” and “independent variable” are frequently used in econometrics. --- # [Rappel] Qu'est-ce qu'une droite ? <img src="2-regression-univariee_files/figure-html/unnamed-chunk-10-1.svg" style="display: block; margin: auto;" /> --- # Régression linéaire simple : Résidus * Si tous les points étaient __sur__ la droite, alors `\(\widehat{y}_i = y_i\)`. <img src="2-regression-univariee_files/figure-html/unnamed-chunk-11-1.svg" style="display: block; margin: auto;" /> * Il n'y a pas d'erreur de prédiction : le modèle explique **parfaitement** les observations --- # Régression linéaire simple : Résidus * Si tous les points étaient __sur__ la droite, alors `\(\widehat{y}_i = y_i\)`. * Dans la plupart des cas, la *variable dépendante* `\((y)\)` n'est pas *parfaitement* expliquée par la *variable indépendante* choisie `\((x)\)` : `$$\widehat{y}_i \neq y_i$$` - Nous commettons une __erreur__ `\(\Rightarrow\)` correspond au<span class="alert">résidu</span> -- * Au point `\((x_i,y_i)\)`, on note ce résidu `\(e_i\)`. $$ e_i = y_i - \widehat{y}_i$$ -- * Les *données réelles* `\((x_i, y_i)\)` peuvent donc être écrites comme *prédiction + résidu* : $$ y_i = \widehat y_i + e_i = b_0 + b_1 x_i + e_i $$ ??? ## Residus : - variable `\(u\)`, called the error term or disturbance in the relationship, represents factors other than `\(x\)` that affect `\(y\)` - You can usefully think of u as standing for “unobserved.” --- # Régression linéaire simple : Graphiquement <img src="2-regression-univariee_files/figure-html/unnamed-chunk-12-1.svg" style="display: block; margin: auto;" /> --- # Facteurs observables et inobservables * Le modèle économétrique vise à expliquer `\(y\)` en fonction de * `\(x\)` `\(\Rightarrow\)` **observé** * Facteurs affectant `\(y\)` et différents de `\(x\)` `\(\Rightarrow\)` **inobservables** `$$y_i = \underbrace{a + b\,x_i}_{\hat{y}_i=\text{observé}}+ \underbrace{e_i}_{\text{inobservé}}$$` * Ce qui n'est pas observé est regroupé dans le terme d'erreur `\(e\)`. * `\(e\)` représente l'ensemble des variables **non observées**. - Ex: l'âge de l'enseignant peut aussi expliquer les performances des élèves ? --- # Régression linéaire simple : Graphiquement <img src="2-regression-univariee_files/figure-html/unnamed-chunk-13-1.svg" style="display: block; margin: auto;" /> --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Introduction: l'intuition derrière la droite de régression <h2 style="color: #154E55 ;">2. Estimation par moindres carrés ordinaires</h2> ## 3. Le modèle de régression linéaire simple ## 4. Estimation en Stata ## 5. Propriétés l'estimateur des MCO --- # Régression linéaire simple : Graphiquement .left-wide[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-14-1.svg" width="100%" style="display: block; margin: auto;" /> ] -- .right-thin[ <br> <br> <p style="text-align: center; font-weight: bold; font-size: 35px; color: #d90502;">Quel critère de minimisation doit (peut) être utilisé ? ?</strong> ] --- # Estimation par **M**oindres **C**arrés **O**rdinaires (MCO) In English: **O**rdinary **L**east **S**quares (OLS) -- * Les erreurs de signes différents `\((+/-)\)` s'annulent, nous considérons donc les **résidus au carré** `$$\forall i \in [1,N], e_i^2 = (y_i - \widehat y_i)^2 = (y_i - b_0 - b_1 x_i)^2$$` * Choisir `\((b_0,b_1)\)` de manière à ce que `\(\sum_{i = 1}^N e_1^2 + \dots + e_N^2\)` soit **aussi petit que possible**, ie. `$$\min_{\beta_0, \beta_1} \sum_{i=1}^n e_i^2$$` Ou bien `\(\min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i - b_0 - b_1 x_i)^2\)` * C'est **UN** critère parmi d'autres --- # Estimation par **M**oindres **C**arrés **O**rdinaires (MCO) * Les erreurs de signes différents `\((+/-)\)` s'annulent, nous considérons donc les **résidus au carré** `$$\forall i \in [1,N], e_i^2 = (y_i - \widehat y_i)^2 = (y_i - b_0 - b_1 x_i)^2$$` * Choisir `\((b_0,b_1)\)` de manière à ce que `\(\sum_{i = 1}^N e_1^2 + \dots + e_N^2\)` soit **aussi petit que possible**. <img src="2-regression-univariee_files/figure-html/unnamed-chunk-15-1.svg" style="display: block; margin: auto;" /> --- # Estimation par **M**oindres **C**arrés **O**rdinaires (MCO) * Les erreurs de signes différents `\((+/-)\)` s'annulent, nous considérons donc les **résidus au carré** `$$\forall i \in [1,N], e_i^2 = (y_i - \widehat y_i)^2 = (y_i - b_0 - b_1 x_i)^2$$` * Choisir `\((b_0,b_1)\)` de manière à ce que `\(\sum_{i = 1}^N e_1^2 + \dots + e_N^2\)` soit **aussi petit que possible**. <img src="2-regression-univariee_files/figure-html/unnamed-chunk-16-1.svg" style="display: block; margin: auto;" /> --- # Estimation par **M**oindres **C**arrés **O**rdinaires (MCO) <div style="position:relative;padding-top:56.25%;"> <iframe src="https://gustavek.shinyapps.io/reg_simple/" style="position:absolute;top:0;left:0;width:100%;height:100%;border:none;"> </iframe> </div> --- # **M**oindres **C**arrés **O**rdinaires (MCO) : formule de coefficients * **MCO** : méthode d'*estimation* consistant à minimiser la somme des résidus au carré. * Fournit des solutions __uniques__ à ce problème de minimisation. * Alors, quelles sont les formules pour `\(b_0\)` (constante) et `\(b_1\)` (la pente) ? -- * Dans le cas où nous n'avons qu'une seule variable indépendante : > ### __Pente: `\(b_1^{OLS} = \frac{cov(x,y)}{var(x)}\)` `\(\hspace{1.6cm}\)`__ soit `\(\hspace{1cm}\)`__ `\(b_1^{OLS} = \frac{\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y) }{\sum_{i=1}^n (x_i-\bar x)^2 }\)`__ > ### __Constante: `\(b_0^{OLS} = \bar{y} - b_1\bar{x}\)` `\(\hspace{.1cm}\)`__ soit `\(\hspace{1cm}\)`__ `\(b_0^{OLS} = \bar{y} - \hat b_1\bar{x}\)`__ -- * *Démonstration* : résolution du problème de la minimisation du carré des erreurs. Cf. [video](https://www.youtube.com/watch?v=Hi5EJnBHFB4). ??? `\(\hat b_1\)` est le ratio entre la covariance échantillonnale entre `\(x\)` et `\(y\)` et la variance échantillonnale de `\(x\)`. --- # **M**oindres **C**arrés **O**rdinaires (MCO) ## Interpretation *Pour l'instant*, supposons que les variables dépendante `\((y)\)` et indépendante `\((x)\)` sont numériques. -- > Ordonnée à l'origine `\((b_0)\)` : **Valeur prédite de `\(y\)` `\((\widehat{y})\)` lorsque `\(x = 0\)`** (ou constante). -- > Pente `\((b_1)\)` : **Le changement prédit, en moyenne, dans la valeur de `\(y\)` *associé* à une augmentation d'une unité de `\(x\)`.** `$$\frac{\Delta y}{\Delta x}=b_1$$` - Ie. <span class="alert">de combien la variable dépendante change-t-elle si la variable indépendante augmente d'une unité?</span> -- * Les unités de `\(x\)` auront de l'importance pour l'interprétation (et la magnitude !) de `\(b_1\)`. - Vous devez être explicite sur l'**unité de `\(x\)`** --- # **M**oindres **C**arrés **O**rdinaires (MCO) ## Interpretation causale ? ⚠️ Nous utilisons le terme *associé*, **en évitant clairement d'interpréter `\(b_1\)` comme l'impact causal de `\(x\)` sur `\(y\)`**. Pour faire une telle affirmation, certaines conditions spécifiques doivent être remplies. (La semaine prochaine !) --- layout: false class: slide-question-comprehension # Question de compréhension [groupe de 2]
−
+
06
:
00
**Formulez une question, à laquelle vous pourriez répondre en utilisant une régression univariée.** Pour ce faire, vous devez précisez : .left-wide[ - **Motivation** - Expliquez brièvement pourquoi cette question est intéressante à étudier - La relation que vous supposez entre ces variables - **Variables** - La variable dépendante (celle que vous cherchez à expliquer) - La variable indépendante (facteur explicatif) - **Données** - Le niveau d'observation (individus, ménages, entreprises, etc.) - L'échantillon souhaité (taille, nature des données) ] .right-thin[ <img src="digipad2-qrcode.png" width="80%" style="display: block; margin: auto;" /> <div style="text-align: center;"> <a href="https://digipad.app/p/1355136/d8fbb26b788a4">lien</a> </div> ] --- layout: false class: slide-question-comprehension # Question de compréhension [groupe de 2] <iframe src="https://digipad.app/p/1355136/d8fbb26b788a4" frameborder="0" width="100%" height="500"></iframe> --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Introduction: l'intuition derrière la droite de régression ## 2. Estimation par moindres carrés ordinaires <h2 style="color: #154E55 ;">3. Le modèle de régression linéaire simple (et hypothèses) </h2> ## 4. Estimation en Stata ## 5. Propriétés algébriques l'estimateur des MCO --- # [Définition] Modèle de la régression linéaire simple ### **Modèle économétrique** `$$y_i = b_0 + b_1 x_i + e_i$$` - `\(y_i\)` : variable dépendante / expliquée / de résultat / endogène - `\(x_i\)` : variable indépendante / explicative / de contrôle / exogène / covariate - `\(e_i\)` : terme d'erreur / résidu / inobservé ### Chemin de pensée - *Intuition* « on ajuste une droite aux données ». - *Démonstration* : dérivations algèbrique pour obtenir `\(a\)` et `\(b\)` - **<div style="color: #154E55 ;">Hypothèses du modèle </div>** - Nécessaires à la démonstration des propriétés de l'estimateur des MCO. - *Propriétés algébriques* des estimateurs (aujourd'hui) - *Propriétés statistiques* des estimateurs (chapitre 5) ??? - `\(x\)` : variable explicative / indépendante / de contrôle / covariate - Garder `\(u\)` constant est important : nous devons faire des hypothèses quand à la relation entre `\(u\)` et `\(x\)` pour estimer `\(b_0\)` et `\(b_1\)`. --- # [Hypothèse 1] Linéarité en les paramètres `$$y_i = b_0 + b_1 x_i + e_i$$` <ru-blockquote ><font size="5">[H1] Modèle ***linéaire*** en ses paramètres. </font> </ru-blockquote> Intuition: - Sans `\(e_i\)`, c'est l'équation d'une droite Illustration : - `\(y_i = b_0 + b_1 \sqrt{x_i} + e_i\)` et `\(y_i = b_0 + b_1 x_i^2 + e_i\)` sont aussi linéaires --- # Hypothèses de linéarité : visualiser les données ! * La covariance, la correlation et la régression simple par OLS ne mesurent que des **relations linéaires** entre deux variables * 2 variables ayant des corrélations et droites de régression *identiques* peuvent avoir un aspect *massivement* different. -- * Comment est-ce possible ? <img src="https://media.giphy.com/media/5aLrlDiJPMPFS/giphy.gif" height = "200" align = "middle" /> --- # Hypothèse de linéarité: Anscombe * Francis Anscombe (1973) propose 4 bases de données ayant des statistiques identiques. Mais regardez! .left-wide[ <img src="2-regression-univariee_files/figure-html/unnamed-chunk-18-1.svg" style="display: block; margin: auto;" /> ] -- .right-thin[ </br> </br> <table class="table table-striped" style="font-size: 20px; color: black; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:right;"> dataset </th> <th style="text-align:right;"> cov </th> <th style="text-align:right;"> var(y) </th> <th style="text-align:right;"> var(x) </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 1 </td> <td style="text-align:right;"> 5.501 </td> <td style="text-align:right;"> 4.127 </td> <td style="text-align:right;"> 11 </td> </tr> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 5.500 </td> <td style="text-align:right;"> 4.128 </td> <td style="text-align:right;"> 11 </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:right;"> 5.497 </td> <td style="text-align:right;"> 4.123 </td> <td style="text-align:right;"> 11 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 5.499 </td> <td style="text-align:right;"> 4.123 </td> <td style="text-align:right;"> 11 </td> </tr> </tbody> </table> ] --- # Relations non linéaires dans les données ? .pull-left[ * Nous pouvons prendre en compte les relations non linéaires dans les régressions. * Il suffit d'ajouter un terme *d'ordre supérieur* comme ceci : $$ y_i = b_0 + b_1 x_i + b_2 x_i^2 + e_i $$ * C'est alors une __régression multivariée__ (prochain cours !) ] -- .pull-right[ <!-- * Par exemple, supposons que nous ayons ces données et adaptions le modèle de régression précédent : --> <img src="2-regression-univariee_files/figure-html/non-line-cars-ols2-1.svg" style="display: block; margin: auto;" /> ] --- # [Hypothèse 2] Échantillon aléatoire - Dans notre **échantillon** : `\(y_i = b_0 + b_1 x_i + e_i\)` - Dans la **population** : `\(y_i = \beta_0 + \beta_1 x_i + \epsilon_i\)` - Le modèle reflète une relation dans la ***population***. - On utilise un ***échantillon*** de la population pour ***estimer*** les paramètres de la population <ru-blockquote ><font size="5">[H2] `\({(x_i,y_i):i=1, \cdots n}\)` où `\((x_i, y_i)\)` sont indépendants et identiquement distribués. </font> </ru-blockquote> Cela signifie que: - Chaque paire `\((x_i,y_i)\)` est <span class="alert">indépendante</span> de `\((x_j,y_j)\)` pour `\(i\neq j\)`. - Chaque observation est aléatoirement tirée de la même distribution de probabilité `\(\Rightarrow\)` utilisée pour obtenir la consistance et les propriétés asymptotiques --- # [Hypothèse 3] Indépendance de la moyenne des erreurs `$$y_i = b_0 + b_1 x_i + e_i$$` - Du fait de l'inclusion de la constante `\(b_0\)`, on fait l'hypothèse que $$ E(e)=0$$ En conséquence : <ru-blockquote ><font size="5">[H3] La moyenne des erreurs est indépendante de `\(x\)` (en moyenne): `\(E(e|x)=E(e)=0\)` </font> </ru-blockquote> ??? Hypothèse bien plus forte que d'avoir `\(e\)` et `\(x\)` non corrélée (ie. `\(E(ex)=0\)`): on fait l'hypothèse que les 2 variables ne sont pas linéairement reliées (mais il peut y avoir une relation non linéaire entre `\(x\)` et `\(u\)`) --- # [Exemple] Et si `\(E(e|x)\neq 0\)` ? `$$\textrm{salaire}_i = b_0 + b_1 \textrm{education}_i + e_i$$` - Il faut penser à ce qui pourrait être contenu dans `\(e\)`. - `\(E(e|x)=0\)` implique par exemple : $$ E(e|\textrm{décrocheur scolaire})=E(e|\textrm{diplomé d'un master})$$ où `\(e\)` peut correspondre à : - ambition, intelligence, condition du marché du travail local, santé ... Donc `\(E(e|x)\neq 0\)` peut signifier qu'en moyenne, l'ambition ou l'intelligence d'une personne varie selon le niveau d'éducation. `\(\Rightarrow\)` **Cette hypothèse garantit que les MCO sont non biaisés.** --- # [Hypothèses] Régression linéaire simple `$$y_i = b_0 + b_1 x_i + e_i$$` - [H1] Modèle ***linéaire*** en ses paramètres -- - [H2] Echantillon aléatoire: `\({(x_i,y_i):i=1, \cdots n}\)` où `\((x_i, y_i)\)` sont i.i.d. -- - [H3] Moyenne conditionnelle nulle: `\(E(e|x)=0\)` -- - [H4] Il y a de la variation échantillonale dans `\(x\)`: `\(x_i\neq c\)` - On ne peut pas estimer l'effet de `\(x\)` sur `\(y\)` s'il n'y a pas de variation en `\(x\)` dans l'échantillon -- `\(\Rightarrow\)` On utilise ces hypothèses pour garantir que les paramètres estimés, `\(b_0\)` et `\(b_1\)` ont des propriétés statistiques *satisfaisantes* --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Introduction: l'intuition derrière la droite de régression ## 2. Estimation par moindres carrés ordinaires ## 3. Le modèle de régression linéaire simple <h2 style="color: #154E55 ;">4. Estimation en Stata</h2> ## 5. Propriétés algébriques l'estimateur des MCO --- # MCO avec `Stata` * En `Stata`, les régressions OLS sont estimées à l'aide de la fonction `regress` (`reg`). * Voici comment cela fonctionne : ``` stata regress dependent_variable independent_variable ``` --- ## Taille de la classe et performance des élèves Estimons le modèle suivant par MCO: `\(\textrm{average math score}_i = b_0 + b_1 \textrm{class size}_i + e_i\)` ``` stata /* import data */ *use "https://www.dropbox.com/s/wwp2cs9f0dubmhr/grade5.dta?dl=1", replace *collapse (mean) avgmath_cs=avgmath avgverb_cs=avgverb, by(classize) ``` ``` stata /* OLS regression of class size on average maths score */ regress avgmath_cs classize ``` -- <img src="rls0.png" width="60%" style="display: block; margin: auto;" /> --- # **M**oindres **C**arrés **O**rdinaires (MCO) : Prédiction -- Impliquant (Sans l'index `\(_i\)` par simplicité): $$ `\begin{aligned} \widehat y &= \hat b_0 + \hat b_1 x \\ \widehat {\text{average math score}} &= \hat b_0 + \hat b_1 \cdot \text{class size} \\ \widehat {\text{average math score}} &= 61.11 + 0.19 \cdot \text{class size} \end{aligned}` $$ --- # **M**oindres **C**arrés **O**rdinaires (MCO) : Prédiction Quel est le score moyen prévu pour une classe de 15 élèves ? $$ `\begin{aligned} \widehat {\text{average math score}} &= 61.11 + 0.19 \cdot 15 \\ \widehat {\text{average math score}} &= 63.98 \\ \end{aligned}` $$ -- <img src="../img/content/data-grade-pred.png" width="60%" style="display: block; margin: auto;" /> --- class: inverse # Exercice 2 : Régression par MCO
−
+
10
:
00
Après avoir aggréger les données au niveau de la taille de la classe avec le code suivant: ``` r collapse (mean) avgmath_cs=avgmath avgverb_cs=avgverb, by(classize) ``` 1. Regresser le score moyen en lecture (*verbal*) (variable dependente) sur la taille de la classe (variable independante). Interpreter les coéfficients. 2. Calculer les coefficients OLS `\(b_0\)` et `\(b_1\)` de la régression précédente en utiliser les formules du slide 31. (*Indice:* vous devez utiliser les commandes `cov` et `summarize`.) 3. Quel est le score de lecture moyen prédit quand la taille de la classe est égale à `\(0\)`? (est ce que ce chiffre a du sens?!) 4. Quel est le score de lecture moyen prédit quand la taille de la classe est égale à `\(30\)`? --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Introduction: l'intuition derrière la droite de régression ## 2. Estimation par moindres carrés ordinaires ## 3. Le modèle de régression linéaire simple ## 4. Estimation en Stata <h2 style="color: #154E55 ;">5. Propriétés algébriques l'estimateur des MCO</h2> --- # Propriétés de l'estimateur MCO - L'estimateur MCO possède des propriétés algébriques de base. - Ces propriétés ne dépendent pas d'hypothèses concernant les propriétés statistiques de `\(y\)`, `\(x\)` ou `\(e\)`. <!-- - Nous allons utiliser ces propriétés à maintes reprises pour --> <!-- trouver d'autres propriétés de l'estimateur MCO. --> A partir de l'estimation par MCO, nous pouvons calculer: > __Valeur prédite: `\(\hat y_i = b_0+ b_1x_i\)`__ > __Résidus estimés: `\(\hat e_i = y_i - b_0- b_1x_i = y_i - \bar y + b_1 \bar x - b_1 x_i\)`__ > __Droite de régression: `\(\hat y = b_0+ b_1x\)`__ ??? Attention à ne pas confondre les résidus et le terme d'erreur --- # Prédictions et résidus : propriétés algébriques .pull-left[ * __La moyenne de `\(\widehat{y}_i\)` est égale à `\(\bar{y}\)`.__ `$$\begin{align} \frac{1}{N} \sum_{i=1}^N \widehat{y}_i &= \frac{1}{N} \sum_{i=1}^N (b_0 + b_1 x_i) \\ &= b_0 + b_1 \bar{x} = \bar{y} \end{align}$$` * __La moyenne (ou somme) des résidus est 0.__ `$$\begin{align} \frac{1}{N} \sum_{i=1}^N e_i &= \frac{1}{N} \sum_{i=1}^N (y_i - \widehat y_i) \\ &= \bar{y} - \frac{1}{N} \sum_{i=1}^N \widehat{y}_i \\\ &= 0 \end{align}$$` ] -- .pull-right[ * __ Variable indépendante et résidus sont non corrélés (par définition).__ `$$Cov(x_i, e_i) = 0$$` * __Prédiction et résidus sont non corrélés.__ `$$\begin{align} Cov(\widehat y_i, e_i) &= Cov(\hat b_0 + \hat b_1x_i, e_i) \\ &= \hat b_1Cov(x_i,e_i) \\ &= 0 \end{align}$$` Car `\(Cov(a + bx, y) = bCov(x,y)\)`. ] <!-- --- --> <!-- # Analyse de Variance --> <!-- * Rappel: `\(y_i = \widehat{y}_i + e_i\)`. --> <!-- * On peut décomposer de la manière suivante : --> <!-- `$$\begin{align} Var(y) &= Var(\widehat{y} + e)\\&= Var(\widehat{y}) + Var(e) + 2 Cov(\widehat{y},e)\\&= Var(\widehat{y}) + Var(e)\end{align}$$` --> <!-- * Car: --> <!-- * `\(Var(x+y) = Var(x) + Var(y) + 2Cov(x,y)\)` --> <!-- * `\(Cov(\hat{y},e)=0\)` --> <!-- * __Total variation (SST) = Model explained (SSE) + Unexplained (SSR)__ --> --- # Qualité d'ajustement (*Goodness of Fit*): Coefficient de détermination * Au niveau individuel `\(i\)`: `\(y_i = \hat y_i + e_i\)`. On en déduit la décomposition suivante : * __Variation totale (SCT) `\(=\)` Expliquée par le model (SCE) `\(+\)` Non expliquée par le modèle (SCR)__ - Car `\(\sum_{i=1}^n e_i=0\)` (une des conditions du 1e ordre du programme d'optimisation) --- # Qualité d'ajustement (*Goodness of Fit*) * Au niveau individuel `\(i\)`: `\(\color{blue}{y_i} = \hat y_i + e_i\)`. On en déduit la décomposition suivante : * <span style="color:blue"> Variation totale (SCT) </span> `\(=\)` Expliquée par le model (SCE) `\(+\)` Non expliquée par le modèle (SCR) - <span style="color:blue"> `\(SCT=\textrm{Somme des Carrés Totaux}=\sum_{i=1}^n (y_i -\bar y )^2\)` </span> - Mesure le degré de dispersion des `\(y_i\)`, dans l'échantillon. - `\(Var(y)=SCT/(n-1)\)` --- # Qualité d'ajustement (*Goodness of Fit*) * Au niveau individuel `\(i\)`: `\(y_i = \color{green}{\hat y_i} + e_i\)`. On en déduit la décomposition suivante : * Variation totale (SCT) `\(=\)` <span style="color:green">Expliquée par le modèle (SCE)</span> `\(+\)` Non expliquée par le modèle (SCR) - `\(SCT=\textrm{Somme des Carrés Totaux}=\sum_{i=1}^n (y_i -\bar y )^2\)` - Mesure le degré de dispersion des `\(y_i\)`, dans l'échantillon. - `\(Var(y)=SCT/(n-1)\)` - <span style="color:green"> `\(SCE=\textrm{Somme des Carrés Expliqués}=\sum_{i=1}^n (\hat y_i -\bar y )^2\)` </span> - Mesure le degré de dispersion des `\(\hat y_i\)`, dans l'échantillon. - `\(Var(\hat y)=SCE/(n-1)\)` --- # Qualité d'ajustement (*Goodness of Fit*) * Au niveau individual `\(i\)`: `\(y_i = \hat y_i + \color{orange}{e_i}\)`. On en déduit la décomposition suivante : * Variation totale (SCT) `\(=\)` Expliquée par le modèle (SCE) `\(+\)` <span style="color:orange">Non expliquée par le modèle (SCR)</span> - `\(SCT=\textrm{Somme des Carrés Totaux}=\sum_{i=1}^n (y_i -\bar y )^2\)` - Mesure le degré de dispersion des `\(y_i\)`, dans l'échantillon. - `\(Var(y)=SCT/(n-1)\)` - `\(SCE=\textrm{Somme des Carrés Expliqués}=\sum_{i=1}^n (\hat y_i -\bar y )^2\)` - Mesure le degré de dispersion des `\(\hat y_i\)`, dans l'échantillon. - `\(Var(\hat y)=SCE/(n-1)\)` - <span style="color:orange"> `\(SCR=\textrm{Somme des Carrés des Résidus}=\sum_{i=1}^n \hat e_i ^2\)` </span> --- # Minimiser le carré de la somme des résidus <div style="position:relative;padding-top:56.25%;"> <iframe src="https://gustavek.shinyapps.io/SSR_cone/" style="position:absolute;top:0;left:0;width:100%;height:100%;border:none;"> </iframe> </div> --- # Qualité d'ajustement (*Goodness of Fit*) * Le __ `\(R^2\)` __ mesure de l’ __adéquation du modèle aux données__ -- - Fraction de la variation de `\(y\)` qui est expliquée par `\(x\)` au sein de l'échantillon. $$ R^2 = \frac{\text{Variance expliquée}}{\text{Variance totale}} = \frac{SCE}{SCT} = 1 - \frac{SCR}{SCT} \in[0,1] $$ Avec `\(SCE=\sum_{i=1}^n(\hat y_i-\bar y)^2\)` et `\(SCT =\sum_{i=1}^n (y_i-\bar y)^2\)` -- * `\(R^2\)` proche de `\(1\)` indique un __***très haut*** pouvoir explicatif__ du modèle. * `\(R^2\)` proche de `\(0\)` indique un __***très faible*** pouvoir explicatif__ du modèle. -- * *Interpretation:* un `\(R^2\)` de 0.5, par exemple, signifie que la variation de `\(x\)` "explique" 50% de la variation de `\(y\)`. ??? On considère les cas où `\(SCT\neq0\)`. Ce qui est vrai, sauf dans des cas dénué d'intérêt (variable constante) --- # Qualité d'ajustement (*Goodness of Fit*) & causalité * *Interpretation:* un `\(R^2\)` de 0.5, par exemple, signifie que la variation de `\(x\)` "explique" 50% de la variation de `\(y\)`. * ⚠️ Un `\(R^2\)` faible __NE__ signifie __PAS__ que le modèle est inutile ! - Rappel: l'économétrie s'intéresse aux méchanismes causaux, et pas uniquement aux prédictions! -- * ⚠️ Le `\(R^2\)` n'indique __PAS__ si la relation est causale! --- class: inverse # Exercice 3: `\(R^2\)` et qualité d'ajustement
−
+
10
:
00
1. Regresser `avgmath_cs` sur `classize`. Quel est le `\(R^2\)` ? 2. Calculer la valeur prédite de `avgmath_cs` (et appelez là `avgmath_cs_pred`) et le terme d'erreur du modèle (`erreur`). Quelle est la valeur moyenne du terme d'erreur ? 3. Calculer la variance expliquée et la variance totale pour cette régression. En déduire le `\(R^2\)`. 4. Calculer le carré de la corrélation entre `classize` et `avgmath_cs`. Quelle proporiété reliant le `\(R^2\)` et la corrélation dans une régression univariée ? 5. Répéter 1 pour `avgverb_cs`. Pour quelle matière la variance de la taille de la classe explique le plus la variance du score des étudiants? <!-- For which exam does the variance in class size explain more of the variance in students' scores? --> --- # Concepts à retenir 1. Comment écrire le modèle de régression simple. 2. Le problème de minimisation duquel l'estimateur des MCO est une solution. 5. Les hypothèses statistiques de base du modèle. 3. Les propriétés algébriques de l'estimateur des MCO. 4. Le concept du `\(R^2\)`, ainsi que les notions de SCT (somme des carrés totaux), SCE (somme des carrés expliqués) et SCR (somme des carrés résiduels). <!-- 6. Les hypothèses additionnelles pour démontrer l'efficacité. --> --- # Où en sommes nous de notre quête de la causalité ✅ Comment gérer les données? Ouvrez-les, ordonnez-les, visualisez-les... 🚧 **Comment résumer une relation entre plusieurs variables?** Régression linéaire simple... *to be continued* ❌ Qu'est ce que la causalité ? ❌ Comment faire si nous n'observons qu'une partie de la population ? ❌ Nos résultats sont ils uniquement dus au hasard? ❌ Comment trouver de l'exogénéité en pratique ? --- class: title-slide-final, middle background-size: 250px background-position: 9% 19% # À LA SEMAINE PROCHAINE ! <a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a> # MERCI À <a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides)