class: center, middle, inverse, title-slide .title[ # Chapitre 6 : Régression linéaire – Extensions ] .subtitle[ ## Économétrie (ECON0212) ] .author[ ### Malka Guillot ] .date[ ### HEC Liège ] --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Aujourd'hui – Régression linéraire : Extensions En fonction des données et des relations entre les variables d'intérêt, il peut être nécessaire de s'éloigner du modèle de base. -- Nous allons nous intéresser à **3 variations importantes** : 1. <span class="alert">Relations non linéaires</span>: modèles logarithmiques et polynomiaux 1. <span class="alert">Interactions</span>entre les variables 1. <span class="alert">Régression standardisée</span> -- Dans chaque cas, la manière dont nous estimons ces coefficients ne change pas (i.e. MCO). -- **Applications empiriques** : * (i) Frais de scolarité et revenu potentiel * (ii) Salaire, éducation et genre * (iii) Taille des classes et performance des élèves --- layout: false class: title-slide-section-red, middle # Plan du cours ## 1. Relations non linéaires ## 2. Interactions entre les variables ## 3. Régression Standardisée --- layout: false class: title-slide-section-grey, middle # Plan du cours <h2 style="color: #154E55 ;">1. Relations non linéaires</h2> <h3 style="color: #154E55 ;">1.1 Modèles ***logarithmiques*** </h3> ### 1.2. Modèles ***polynomiaux*** ## 2. Interactions entre les variables ## 3. Régression Standardisée --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # 1. Modèles logarithmiques Les modèles que nous avons vus jusqu'à présent peuvent être appelés modèle ***lin-lin*** ou ***niveau-niveau***. - Les variables dépendantes et indépendantes ont été mesurées en niveau. * *Niveau* : euros, années, nombre d'élèves,... * ***lin - lin*** : `\(\quad y_i = b_0 + b_1 x_{1,i} + ... + e_i\)` -- * Prendre le logarithme *naturel* de la ou des variables dépendantes et/ou indépendantes nous amène à définir 3 autres types de régressions * ***Log - lin*** : `\(\quad \log(y_i) = b_0 + b_1 x_{1,i} + ... + e_i\)` * ***Lin - log*** : `\(\quad \textrm{y}_i = b_0 + b_1 \log(x_{1,i}) + ... + e_i\)` * ***Log - log*** : `\(\quad \log(y_i) = b_0 + b_1 \log(x_{1,i}) + ... + e_i\)` -- (Abus de notation : `\(\ln(x) = \log_{e}(x)=\log(x)\)`): --- # La fonction logarithmique (naturel): Une intro 😉 <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-1-1.svg" style="display: block; margin: auto;" /> --- # La fonction logarithmique (naturel) : Une intro 😉 La [fonction log naturel](https://en.wikipedia.org/wiki/Natural_logarithm) est la fonction inverse de la fonction exponentielle. , i.e. `\(\log(\exp(x))=x\)` -- `\(\rightarrow\)` puisque pour tout `\(x\)`, `\(\exp(x)>0 \implies\)` la fonction log naturel n'est définie que pour des ***valeurs strictement positives*** ! (Il n'est pas défini en 0 !) -- ⚠️ Vous pouvez prendre le logarithme de vos variables que si elles ne prennent pas 0 ou des valeurs négatives ! Pensez-y toujours lorsque vous prenez le log de vos variables dépendantes ou indépendantes. --- # La fonction logarithmique (naturel) : Une intro 😉 Si vous avez des distributions très ***asymétriques***, prendre le log la rendra plus ***normalement distribuée*** -- .pull-left[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-2-1.svg" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-3-1.svg" style="display: block; margin: auto;" /> ] --- # Modèles log : interprétations simplifiées | Spécification | Modèle | Interprétation de `\(b_1\)` | |--------------------|:---------:|:-----------------------------------:| | Lin - Lin | `\(y = b_0 + b_1 x + e\)` | .small[Une augmentation **d'une unité**] de `\(x\)` .small[ est associée, en moyenne, à une **variation**] de y de `\(b_1\)` unités | | Log - Lin | `\(\log(y) = b_0 + b_1 x + e\)` | .small[Une augmentation d'**une unité** de ] `\(x\)` .small[ est associée, en moyenne, à un **changement en pourcentage** de y de] `\(b_1 \times 100\)` | | Lin - Log | `\(y = b_0 + b_1 \log(x) + e\)` | .small[Une augmentation **d'un pourcent ** de] `\(x\)` .small[est associée, en moyenne, à un **changement en unité**] de y de `\(b_1 / 100\)` | | Log - Log | `\(\log(y) = b_0 + b_1 \log(x) + e\)` |.small[Une augmentation **d'un pourcent** de] `\(x\)` .small[est associée, en moyenne, à un **changement en pourcentage** de y] de `\(b_1\)`| -- * ⚠️ ces interprétations ne sont vraies que pour les ***petits*** changements de `\(x\)` et/ou des petits `\(b_1\)`. Que se passe-t-il si nous voulons connaître la variation de `\(y\)` pour des changements importants de `\(x\)` ou lorsque `\(b_1\)` est grand ? -- --- name: gen_log # Modèles log : interprétations générales Pour ***toute augmentation de `\(x\)`, `\(\Delta x,\)` et tout `\(b_1\)`*** `\((\Delta x = 5\% = 0.05 \implies 1 + \Delta x = 1.05)\)`: | Spécification | Modèle | Interprétation de `\(b_1\)` | |--------------------|:---------:|:-----------------------------------:| | Lin - Lin | `\(y = b_0 + b_1 x + e\)` | .small[une augmentation **d'une unité**] de `\(x\)` .small[ est associée, en moyenne, à une **variation**] de y de `\(b_1\)` unités | | | Log - Lin | `\(\log(y) = b_0 + b_1 x + e\)` | .small[Une augmentation d'**une unité** de ] `\(x\)` .small[ est associée, en moyenne, à **changement en pourcentage** de y de] `\((e^{b_1} - 1) \times 100\)` | | Lin - Log | `\(y = b_0 + b_1 \log(x) + e\)` | .small[Une augmentation de ] ** `\(\Delta x\)`** .small[**en pourcent** de ] `\(x\)` .small[ est associée, en moyenne, avec un **changement en unité** de y] de `\(b_1 \times \log(1 + \Delta x)\)` | | Log - Log | `\(\log(y) = b_0 + b_1 \log(x) + e\)` | .small[Une augmentation de ] ** `\(\Delta x\)`** .small[**en pourcent** de ] `\(x\)` .small[ est associée, en moyenne, à un **changement en pourcentage** de y de ] `\(((1 + \Delta x)^{b_1} - 1) \times 100\)` | ([*Appendix:*](#log_approx) Pourquoi les approximations présentées précédemment sont-elles vraies ?) --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. -- .pull-left[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-4-1.svg" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-5-1.svg" style="display: block; margin: auto;" /> ] --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. .pull-left[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-6-1.svg" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-7-1.svg" style="display: block; margin: auto;" /> ] --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. ***Modèle lin-log*** : `\(y = b_0 + b_1 \log(x) + e\)` <img src="chapter_regext_files/figure-html/lin_log2.png" width="1156" style="display: block; margin: auto;" /> --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. ***Modèle log-lin*** : `\(\log(y) = b_0 + b_1 x + e\)` <img src="chapter_regext_files/figure-html/log_lin2.png" width="1096" style="display: block; margin: auto;" /> --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. ***Modèle log-log*** : `\(\log(y) = b_0 + b_1 \log(x) + e\)` <img src="chapter_regext_files/figure-html/log_log2.png" width="1176" style="display: block; margin: auto;" /> --- # Quand devriez-vous utiliser les modèles log ? 1. Si la relation entre `\(x\)` et `\(y\)` ressemble à une fonction logarithmique ou exponentielle. 1. Pour interpréter facilement les coefficients comme <a href="https://en.wikipedia.org/wiki/Elasticity_(economics)">***élasticités***</a> qui jouent un rôle central dans la théorie économique. ***Élasticité de `\(y\)` par rapport à `\(x\)` :*** variation en pourcentage de `\(y\)` suite à une augmentation de 1 % de `\(x\)`. --- # Avantages et limites de l'utilisation du logarithme ## Avantages - Interprétation en termes de pourcentatges, et donc d'élasticités - Permet de diminuer la sensibilité du modèle aux valeurs extrêmes (*outliers*) - Parfois utile pour retrouver les hypothèses de normalité des résidus [H6] et d'homoscédasticité [H5] ## Limites - Pas possible si les variables prennent des valeurs négatives ou nulles - Certaines variables mesurées en unités naturelles ou en points de pourcentages ne peuvent pas être transformées en logarithme (ex: années) --- # Modèle log-log ## Prix d'un logement en fonction de la polution de l'air `$$\log(\text{prix}) = \beta_0 + \beta_1 + \log(\text{nox}) + \epsilon$$` On interpète `\(\beta_1\)` comme l'effet d'une augmentation de 1% de la pollution de l'air sur le prix du logement, car $$ \frac{\Delta \log(\text{prix})}{\Delta \log(\text{nox})} = \frac{\%\Delta\text{prix}}{\%\Delta\text{nox}} = \beta_1$$ --- # Autres types de relations non linéaires Et si la relation entre `\(x\)` et `\(y\)` n'était pas exponentielle/logarithmique ? -- `\(\rightarrow\)` Régressions ***polynomiales*** : prenez simplement une fonction polynomiale du régresseur ! --- layout: false class: title-slide-section-grey, middle # Plan du cours <h2 style="color: #154E55 ;">1. Relations non linéaires</h2> ### 1.1. Modèles ***logarithmiques*** <h3 style="color: #154E55 ;">1.2 Modèles ***polynomiaux*** </h3> ## 2. Interactions entre les variables ## 3. Régression Standardisée --- # Polynomiale ? .pull-left[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-11-1.svg" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-12-1.svg" style="display: block; margin: auto;" /> ] --- # Régressions polynomiales Qu’est-ce que cela signifie en pratique ? -- `\(\rightarrow\)` ajouter un ordre supérieur du régresseur à la régression, en fonction de la relation visuelle (ou attendue) -- .pull-left[ ***degré 2:*** <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-13-1.svg" style="display: block; margin: auto;" /> ] -- .pull-left[ ***degré 3:*** <img src="6-rlm-extensions_files/figure-html/unnamed-chunk-14-1.svg" style="display: block; margin: auto;" /> ] --- # Régressions polynomiales ## Exemple : équation de salaire `$$\textrm{Salaire} = b_0 + b_1 \textrm{Expérience} + b_2 \textrm{Expérience}^2 + e$$` Effet marginal de l'expérience: `$$\frac{\Delta \textrm{Salaire}}{\Delta \textrm{expérience}} = b_1 + 2b_2 \textrm{expérience}$$` <img src="chapter_regext_files/figure-html/reg_salaire_exp.png" width="50%" style="display: block; margin: auto;" /> --- # Régressions polynomiales ## Exemple : équation de salaire $$\frac{\Delta \textrm{Salaire}}{\Delta \textrm{expérience}} = 0,298 - 2*0,0061 \times \textrm{expérience} $$ .pull-left[ <img src="chapter_regext_files/figure-html/reg_salaire_exp_small.png" width="50%" style="display: block; margin: auto;" /> ] -- .pull-right[ - La première année d'expérience augmente le salaire d'environ `\(0,30\)`, - La 2e année de `\(0,298 - 2*0,0061 \times 1 = 0,2928\)` - et ainsi de suite. ] - L'effet de l'expérience diminue avec le temps --- <img src="chapter_regext_files/figure-html/curve_fitting.png" width="378px" height="600px" style="display: block; margin: auto;" /> --- class:inverse # Exercice 1 : Relations non linéaires
−
+
10
:
00
1. Chargez la base de données `college_tuition_income.dta`, qui se trouve dans le dossier du cours. Cette base de données contient des informations sur les frais de scolarité et les revenus estimés des diplômés des universités américaines. Pour plus de détails voir [ici](https://github.com/rfordatascience/tidytuesday/blob/master/data/2020/2020-03-10/readme.md). 2. Créez un nuage de points (`scatter plot`) du salaire estimé à mi-carrière (`mid_career_pay`) (axe des `\(y\)`) en fonction des frais de scolarité hors de l'État (`out_of_state_tuition`) (axe des `\(x\)`). Diriez-vous que la relation est globalement linéaire ou plutôt non linéaire ? Ensuite sur le scatter plot ajoutez une régression linéaire et une régression polynomiale du second degré. Cette fois-ci, laquelle vous semble la plus appropriée ? 3. Créez une variable égale aux frais de scolarité en dehors de l'État divisés par 1 000. Régressez le salaire à mi-carrière sur les frais de scolarité en dehors de l'État divisé par 1 000. Interprétez le coefficient. 4. Régressez le salaire à mi-carrière sur les frais de scolarité hors État divisé par 1 000 et son carré. Qu’implique le signe positif sur le terme au carré ? --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Relations non linéaires <h2 style="color: #154E55 ;">2. Interactions entre les variables</h2> ## 3. Régression Standardisée --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Interaction des regresseurs * Nous faisons une interaction entre deux régresseurs lorsque nous pensons que ***l'effet de l'un dépend de la valeur de l'autre***. * *Exemple :* L'effet de l'éducation sur le salaire varie selon le sexe. -- * En pratique, si nous faisons interagir `\(x_1\)` et `\(x_2\)`, nous écririons notre modèle comme ceci : `$$y_i = b_0 + b_1 x_{1,i} + b_2 x_{2,i} + \color{#d96502}{b_3}x_{1,i} \times x_{2,i} + ... + e_i$$` -- * L'interprétation de `\(b_1\)`, `\(b_2\)` et `\(\color{#d96502}{b_3}\)` dépendra de `\(x_1\)` et `\(x_2\)`. -- * Concentrons-nous sur les cas où un régresseur est une variable ***binaire*** et l'autre est ***continue***. * Cela vous donnera l'intuition pour les autres cas : * Les deux regresseurs sont des variables binaires * Les deux regresseurs sont des variables continues --- # Interaction des regresseurs Retournons aux données *STAR* -- Comment l’effet d’être dans une petite ou moyenne classe varie-t-il en fonction de l’expérience de l’enseignant ? -- Notre modèle de régression devient : $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i \times \textrm{experience}_i + e_i$$ -- Effet d'une petite classe avec un professeur ayant 10 ans d'expérience ? -- `\(\mathbb{E}[\textrm{score}_i | \textrm{small}_i = 1 \textrm{ & experience}_i = 10] = \color{#d96502}{b_0} + \color{#027D83}{b_1} + \color{#02AB0D}{b_2}*10 + \color{#d90502}{b_3}*10\)` -- `\(\mathbb{E}[\textrm{score}_i | \textrm{small}_i = 0 \textrm{ & experience}_i = 10] = \color{#d96502}{b_0} + \color{#02AB0D}{b_2}*10\)` -- `\(\begin{split} \mathbb{E}[\textrm{score}_i &| \textrm{small}_i = 1 \textrm{ & experience}_i = 10] - \mathbb{E}[\textrm{score}_i | \textrm{small}_i = 0 \textrm{ & experience}_i = 10] \\ &= \color{#d96502}{b_0} + \color{#027D83}{b_1} + \color{#02AB0D}{b_2}*10 + \color{#d90502}{b_3}*10 - (\color{#d96502}{b_0} + \color{#02AB0D}{b_2}*10) \\ &= \color{#027D83}{b_1} + \color{#d90502}{b_3}*10 \end{split}\)` --- # Interaction des regresseurs .pull-left[ En faisant la regression suivante nous obtenons : ```r gen small_experience = small * experience reg math small experience small_experience ``` ] .pull-right[ <img src="chapter_regext_files/figure-html/regression_math.png" width="373" style="display: block; margin: auto;" /> ] -- ***Interprétation :*** -- * Le terme d'interaction permet de calculer l'effet d'être dans une petite classe en fonction de l'expérience de l'enseignant. -- * En particulier, on observe un ***impact positif d'être dans une petite classe*** sur les résultats en mathématiques, * mais cet ***effet diminue avec l'expérience de l'enseignant***. --- # Interaction des regresseurs : Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_base.png" width="90%" style="display: block; margin: auto;" /> --- # Interaction des regresseurs : Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_reg.png" width="90%" style="display: block; margin: auto;" /> --- # Interaction des regresseurs : Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_reg_b0.png" width="90%" style="display: block; margin: auto;" /> --- # Interaction des regresseurs : Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_reg_b0_b1.png" width="90%" style="display: block; margin: auto;" /> --- # Interaction des regresseurs : Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_reg_b0_b1_b2.png" width="90%" style="display: block; margin: auto;" /> --- # Interaction des regresseurs: Visuellement $$ \textrm{score}_i = \color{#d96502}{b_0} + \color{#027D83}{b_1} \textrm{small}_i + \color{#02AB0D}{b_2} \textrm{experience}_i + \color{#d90502}{b_3} \textrm{small}_i * \textrm{experience}_i + e_i$$ <img src="chapter_regext_files/figure-html/graph_reg_b0_b1_b2_b3.png" width="90%" style="display: block; margin: auto;" /> --- class:inverse # Exercice 2 : Salaires, éducation et genre en 1985
−
+
10
:
00
1. Chargez la base de données CPS1985.dta, qui se trouve dans le dossier du cours. 1. Créez la variable `log_wage` égale au log de `wage`. 1. Régressez `log_wage` sur `sex` et `education`. Interprétez chaque coefficient. 1. Régressez `log_wage` sur `sex`, `education` et leur interaction `sex*education`. Interprétez chaque coefficient. L’écart salarial entre hommes et femmes diminue-t-il avec l’éducation ? 1. Créez un graphique montrant cette interaction. --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Relations non linéaires ## 2. Interactions entre les variables <h2 style="color: #154E55 ;">3. Régression standardisée</h2> --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Régression Standardisée Définissons ce que signifie *standardiser* une variable. > ***standardiser*** une variable `\(z\)`: *soustraire sa moyenne* et diviser par son écart type : $$ z_i^{stand} = \frac{z_i - \bar z}{\sigma(z)}$$ où `\(\bar z\)` est la moyenne de `\(z\)` et `\(\sigma(z)\)` est l'écart type de `\(z\)`, c'est-à-dire , `\(\sigma(z) = \sqrt{\textrm{Var}(z)}\)`. -- `\(z^{stand}\)` a maintenant une moyenne de 0 et un écart type de 1, c'est-à-dire `\(\overline{z^{stand}} = 0\)` et `\(\sigma(z^{stand}) = 1\)` --- # Régression Standardisée Intuitivement, la standardisation ***met les variables sur la même échelle*** afin que nous puissions les comparer. -- Dans notre exemple de taille de classe et de performance des élèves, cela aidera à interpréter : * L' **ampleur** des effets, * L' **importance relative de chaque variable**. --- # Régression Standardisée : Graphiquement .pull-left[ <img src="chapter_regext_files/figure-html/graph_before.png" width="3200" style="display: block; margin: auto;" /> ] -- .pull-right[ <img src="chapter_regext_files/figure-html/graph_after.png" width="3200" style="display: block; margin: auto;" /> ] --- # Régression Standardisée : Interprétation Si la variable ***dépendante*** `\(y\)` est standardisée, c'est-à-dire que le modèle est `\(\color{#d90502}{y^{stand}} = b_0 + \sum_{k=1}^Kb_kx_k +e\)`: -- * Par définition, `\(b_k\)` mesure le changement prévu de ** `\(y^{stand}\)` ** associé à une augmentation d'une unité de `\(x_k\)`. * Si `\(y^{stand}\)` augmente de un, cela signifie que `\(y\)` augmente d'un écart type. Ainsi, `\(b_k\)` mesure la variation de `\(y\)` **en part de l'écart type de `\(y\)`**. -- Si le ***régresseur*** `\(x_k\)` est standardisé, c'est-à-dire que le modèle est `\(y = b_0 + \sum_{k=1}^Kb_k\color{#d90502}{x_k^{stand}} +e\)`: -- * Par définition, `\(b_k\)` mesure la variation prévue de `\(y\)` associée à une augmentation d'une unité de ** `\(x_k^{stand}\)` **. * Si `\(x_k^{stand}\)` augmente d'une unité, cela signifie que `\(x_k\)` augmente d'un écart type. Ainsi, `\(b_k\)` mesure la variation prévue de `\(y\)` **associée à une augmentation de `\(x_k\)` d'un écart type**. --- class:inverse # Exercice 3 : Régression Standardisée
−
+
07
:
00
Chargez la base de données grade5.dta, qui se trouve dans le dossier du cours 1. Régressez `avgmath` sur `classize`, `disadvantaged`, `school_enrollment`, `female` et `religious` 1. Créez une nouvelle variable « avgmath_stand » égale au score mathématique standardisé. 1. Régressez le modèle complet en utilisant comme variable dépendante le résultat du test de mathématiques standardisé. Interprétez les coefficients et leur ampleur. 1. Créez les variables standardisées pour chaque régresseur *continu*. * Serait-il judicieux de standardiser la variable « religieuse » ? 5. Régressez `avgmath_stand` sur l'ensemble complet des régresseurs standardisés et `religious`. Discutez de l’influence relative des régresseurs. --- class: title-slide-final, middle background-image: url(../img/logo/logo_hec) background-size: 250px background-position: 9% 19% # À LA SEMAINE PROCHAINE ! <a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a> # MERCI À <a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides) --- name: log_approx # Log Modèle: Approximations Pourquoi les approximations présentées précédemment sont-elles vraies ? -- ***Log-Lin*** *Interprétation générale:* Une augmentation d'**une unité** de `\(x\)` est associée, en moyenne, à un **changement en pourcentage** de y de `\((e^{b_1} - 1) \times 100\)` *Interprétation simplifiée:* Une augmentation d'**une unité** de `\(x\)` est associée, en moyenne, à un **changement en pourcentage** de y de `\(b_1 \times 100\)` -- C'est parce que, pour un petit `\(b_1\)`, `\(e^{b_1} \approx 1+ b_1 \iff b_1 \approx e^{b_1} - 1\)` -- `\(\rightarrow\)` pour `\(b_1 = \color{#d90502}{0.04}\)`, `\(e^{b_1} - 1 = e^{0.04} - 1 = 0.0408\)` -- `\(\rightarrow\)` pour `\(b_1 = \color{#d90502}{0.5}\)`, `\(e^{b_1} - 1 = e^{0.5} - 1 = 0.6487\)` --- # Log Modèle: Approximations Pourquoi les approximations présentées précédemment sont-elles vraies ? ***Lin-Log*** *Interprétation générale:* Une augmentation de ** `\(\Delta x\)`** **en pourcent** de `\(x\)` est associée, en moyenne, à un **changement en unité** de y de `\(b_1 \times \log(1 + \Delta x)\)` *Interprétation simplifiée:* Une augmentation **d'un pourcent ** de `\(x\)` est associée, en moyenne, à un **changement en unité** de y de `\(b_1 / 100\)` -- C'est parce que, pour un petit `\(\Delta x\)`, `\(log(1 + \Delta x) \approx \Delta x\)` -- `\(\rightarrow\)` pour `\(\Delta x = \color{#d90502}{1\%}=0.01\)`, `\(log(1+\Delta x) = log(1.01) = 0.01\)` (d'où le `\(/100\)` dans l'interprétation simplifiée) -- `\(\rightarrow\)` pour `\(\Delta x = \color{#d90502}{20\%}=0.20\)`, `\(log(1+\Delta x) = log(1.20) = 0.18\)` --- # Log Modèle: Approximations ***Log-Log*** *Interprétation générale:* Une augmentation de ** `\(\Delta x\)`** **en pourcent** de `\(x\)` est associée, en moyenne, à un **changement en pourcentage** de y de `\(((1 + \Delta x)^{b_1} - 1) \times 100\)` *Interprétation simplifiée:* Une augmentation **d'un pourcent** de `\(x\)` est associée, en moyenne, à un **changement en pourcentage** de y de `\(b_1\)` -- C'est parce que, pour un petit `\(|b_1|\times \Delta x\)`, `\((1 + \Delta x)^{b_1} \approx 1 + b_1 \times \Delta x \iff b_1 \times \Delta x \times 100 \approx ((1 + \Delta x)^{b_1} - 1) \times 100\)` -- `\(\rightarrow\)` pour `\(\Delta x = \color{#d90502}{1\%}=0.01\)` et `\(b_1 = \color{#d90502}{0.5}\)`, `\(((1+\Delta x)^{b_1} - 1) \times 100 = (1.01^{0.5} - 1) \times 100 = 0.5\)` -- `\(\rightarrow\)` pour `\(\Delta x = \color{#d90502}{10\%}=0.10\)` et `\(b_1 = \color{#d90502}{10}\)`, `\(((1+\Delta x)^{b_1} - 1) \times 100= (1.1^{10} - 1) \times 100 = 159.37\)` [back](#gen_log) <!-- decktape 7-regression-extension.html 7-regression-extension.pdf --chrome-arg=--disable-web-security -->