class: center, middle, inverse, title-slide .title[ # Chapitre 3 : Causalité. Une introduction ] .subtitle[ ## Économétrie (ECON0212) ] .author[ ### Malka Guillot ] .date[ ### HEC Liège ] --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Recap - Régression linéaire simple (RLS) ## Wooclap <img src="wooclap2-qrcode.png" width="25%" style="display: block; margin: auto;" /> <div style="text-align: center;"> <a href="https://app.wooclap.com/ITBNUT">lien de participation</a> </div> --- # Aujourd'hui - Introduction à l'inférence causale * ***Causalité*** versus ***corrélation*** * Les ***réalisations potentielles*** et le ***modèle de Rubin*** * ***Expérimentations aléatoires contrôlées*** (*Randomized controlled trials* `\(=\)` RCTs) * Retour sur l'application empirique qui associe la *taille d'une classe* à *la performance des élèves* --- layout: false class: title-slide-section-red, middle # Plan du cours ## 1. Qu'est ce que la causalité ? ## 2. Inférence causale ## 3. Expérimentations aléatoires (RCT) ## 4. Conclusion --- layout: false class: title-slide-section-grey, middle # Plan du cours <h2 style="color: #154E55 ;">1. Qu'est ce que la causalité ?</h2> ## 2. Inférence causale ## 3. Expérimentations aléatoires (RCT) ## 4. Conclusion --- # Causalité et Economie - Identifier la causalité à partir des données peut être considéré comme un **avantage comparatif** des économistes parmi les sciences sociales ! - De nombreux domaines utilisent les statistiques. Mais très peu en font une formation standard pour que leurs étudiants comprennent la causalité. - Les efforts des économistes pour établir des relations causales sont également ce qui nous rend utiles : - Dans le secteur privé - Ex: les entreprises technologiques - Dans le secteur public - Ex: conseil en politique publique <!-- -- --> <!-- - Ok, that's enough preaching 😅 --> --- # Le concept de causalité __Causalité__: de quoi parle-t-on? - On dit que `X` *cause* `Y` -- - Si nous devions intervenir et *changer* la valeur de `X` ***sans rien d'autre ne change***... -- - Alors `Y` changerait également ***en conséquence***. -- - Le point clé ici est le ***sans rien d'autre ne change*** - Souvent appelé l'**hypothèse ceteris paribus (🤓) = *toutes choses égales par ailleurs***. -- - ⚠️ Cela ne signifie **PAS** que `X` est le seul facteur qui cause `Y`. --- # Corrélation vs Causalité ***Corrélation n'implique pas causalité*** est devenu une mantra omniprésente, mais pouvez-vous dire pourquoi c'est vrai ? -- Certaines corrélations n'impliquent évidemment pas de causalité ([par exemple, site web des corrélations fallacieuses](https://www.tylervigen.com/spurious-correlations)). -- <img src="../img/photos/spurious.png" width="800px" style="display: block; margin: auto;" /> --- # Corrélation vs Causalité: Fumer et cancer du poumon Toutes les corélations ne sont pas faciles à écarter -- ***Le tabagisme provoque-t-il le cancer du poumon ?*** -- .pull-left[ - Aujourd'hui, nous savons que la réponse est *OUI*! - Mais revenons aux années 1950: - Nous sommes au début d'une forte augmentation des décès dus au cancer du poumon... - ... qui survient après une croissance rapide de la consommation de cigarettes ] -- .pull-right[ <img src="../img/photos/Smoking_lung_cancer.png" width="400px" style="display: block; margin: auto;" /> ] -- - Très tentant de conclure du graphique que fûmer provoque le cancer du poumon. --- # Corrélation vs Causalité: Fumer et cancer du poumon À l'époque, de nombreuses personnes étaient encore sceptiques, y compris certains statisticiens célèbres : -- .pull-left[ ***Facteurs de confusion macro*** : D'autres facteurs pouvant causer le cancer ont également changé entre 1900 et 1950 : - Revêtement des routes, - Inhalation de gaz d'échappement des moteurs (fumées d'essence plombée), - Pollution de l'air générale accrue. ] -- .pull-right[ ***Auto-sélection*** : Les fumeurs et les non-fumeurs peuvent être différents dès le départ : - __Sélection sur des caractéristiques observables__ : - âge, éducation, revenu, etc. - __Sélection sur des caractéristiques non observables__ : - gènes (l'hypothèse de la théorie du génome de confusion hypothétique de [Fisher](https://en.wikipedia.org/wiki/Ronald_Aylmer_Fisher)). ] --- # Corrélation vs Causalité : Autres exemples > Pourquoi la corrélation observée entre le ***nombre d'années d'éducation*** et ***le revenu*** pourrait-elle ne pas refléter l'effet causal de l'éducation ? -- *Les individus qui choisissent d'obtenir plus d'éducation sont susceptibles de différer de ceux qui n'en ont pas : peut-être ont-ils une plus grande capacité innée, ils apprécient l'éducation et sont doués pour cela* `\(\rightarrow\)` **auto-sélection** -- > Pourquoi la corrélation observée entre le ***taux d'emploi*** et le ***niveau du salaire minimum*** pourrait-elle ne pas refléter l'effet causal du salaire minimum ? -- *Les décideurs politiques peuvent augmenter le salaire minimum lorsque le taux d'emploi est élevé* `\(\rightarrow\)` **causalité inverse / simultanéité** -- > Pourquoi la corrélation observée entre la ***croissance économique*** et le ***développement financier*** pourrait-elle ne pas refléter l'effet causal du secteur financier ? -- *Encore une fois, la croissance économique peut entraîner le développement financier et non l'inverse* `\(\rightarrow\)` **causalité inverse / simultanéité** --- # Lien avec la théorie économique * La théorie économique nous dit que les individus agissent pour ***maximiser leur utilité*** * Par conséquent, ils ne choisissent pas d'agir de manière ***aléatoire*** `\(\rightarrow\)` nous disons que le comportement des individus est ***endogène*** * Nous devrions être ***suspicieux*** de toute corrélation trouvée dans les données -- - Comment pouvons-nous faire des ***affirmations causales*** alors ? - On s'appuie sur un cadre de pensée : les **réalisations potentielles**. --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Qu'est ce que la causalité <h2 style="color: #154E55 ;">2. Inférence causale</h2> <h3 style="color: #154E55 ;">2.1 Réalisations potentielles</h3> ### 2.2 Effet moyen du traitement ## 2. Réalisations potentielles ## 3. Expérimentations aléatoires (RCT) ## 4. Conclusion --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Réalisations potentielles (*Potential Outcomes Framework*) Souvent appelé le**<span class="alert">Modèle Causal de Rubin</span>** - en l'honneur du statisticien **Donald Rubin** qui a généralisé et formalisé ce modèle dans les années 1970. -- ***Idée clef*** : Chaque individu peut être exposé à **plusieurs états de traitement alternatifs**. - fumer des cigarettes, fumer des cigares ou ne pas fumer, - grandir dans un quartier pauvre, un quartier de classe moyenne ou un quartier riche, - être dans une petite ou une grande classe. -- .pull-left[ Considérons que cette variable de traitement `\(D_i\)` est une variable binaire : $$ D_i = \begin{cases} 1 \textrm{ si l'individu `\(i\)` est traité} \\\\ 0 \textrm{ si l'individu `\(i\)` n'est pas traité} \end{cases} $$ ] -- .pull-right[ ***Groupe de traitement*** tous les individus tels que `\(D_i = 1\)`. ***Groupe de contrôle*** tous les individus tels que `\(D_i = 0\)`. ] --- <!-- # The Potential Outcomes Framework --> # Réalisations potentielles (*Potential Outcomes Framework*) * Dans ce cadre, chaque individu a deux ***réalisations potentielles***, mais une seule ***réalisation observée*** `\(Y_i\)` : - `\(Y_i^1\)` : *réalisation potentielle si l'individu `\(i\)` reçoit le traitement* `\((D_i = 1)\)`, - `\(Y_i^0\)` : *réalisation potentielle si l'individu `\(i\)` ne reçoit pas le traitement* `\((D_i = 0)\)`. -- * Dans la vie réelle, nous n'observons que `\(Y_i\)`, qui peut être écrit comme suit : `$$Y_i = D_i \times Y_i^1 + (1- D_i) \times Y_i^0$$` -- `\(\rightarrow\)` <span class="alert"> Problème Fondamental de l'Inférence Causale</span> : - Pour n'importe quel individu `\(i\)`, nous n'observons qu'une seule des réalisations potentielles [(Holland, 1986)](http://people.umass.edu/~stanek/pdffiles/causal-holland.pdf). --- <!-- # The Potential Outcomes Framework --> # Réalisations potentielles (*Potential Outcomes Framework*) * La réalisation potentielle qui n'est pas observé existe en principe, il est appelé le ***résultat contrefactuel***. -- Groupe | `\(Y_i^1\)` | `\(Y_i^0\)` --------|:---------:|:---------: Groupe de traitement `\((D_i = 1)\)` | Observé en tant que `\(Y_i\)` | Contrefactuel Groupe de contrôle `\((D_i = 0)\)` | Contrefactuel | Observé en tant que `\(Y_i\)` -- * À partir de ces éléments, nous pouvons définir l'***effet individuel du traitement*** `\(\delta_i\)` : $$ \delta_i = Y_i^1 - Y_i^0$$ * `\(\delta_i\)` mesure l'**effet causal du traitement `\((D_i)\)`** sur la variable expliquée `\(Y\)` pour l'individu `\(i\)`. -- * Étant donné que l'effet du traitement ne peut pas être observé au niveau individuel, nous estimons des moyennes sur la population. --- # Note : Espérance et Espérance Conditionnelle Supposons que vous ayez un dé équilibré et que vous le lanciez un nombre infini de fois. Quelle est la moyenne du nombre obtenu ? * Si `\(X\)` est une variable aléatoire contenant le nombre obtenu, nous écrivons : $$ \mathop{\mathbb{E}}(X) = \frac{1}{6} \times 1 + \frac{1}{6} \times 2 + \frac{1}{6} \times 3 + \frac{1}{6} \times 4 + \frac{1}{6} \times 5 + \frac{1}{6} \times 6 = 3,5 $$ * L'opérateur `\(\mathop{\mathbb{E}}(.)\)` représente l'**espérance** ou *la moyenne de la population*. * L'opérateur `\(\mathop{\mathbb{E}}(.)\)` est linéaire, en d'autres termes, `\(\mathop{\mathbb{E}}(X+Y) = \mathop{\mathbb{E}}(X) + \mathop{\mathbb{E}}(Y)\)` avec `\(X\)` et `\(Y\)` étant deux variables aléatoires. --- # Note : Espérance et Espérance Conditionnelle Supposons maintenant que vous disposiez de deux dés équilibrés et que vous les lanciez un nombre infini de fois. - Quelle est la somme moyenne des nombres obtenus, à condition que l'un d'entre eux soit toujours égal à 5 ? * Si `\(X\)` est une variable aléatoire contenant le numéro du dé 1 et `\(Y\)` une variable aléatoire contenant le numéro du dé 2, on écrit : $$ `\begin{align} \mathop{\mathbb{E}}(X+Y|Y = 5) &= \mathop{\mathbb{E}}(X|Y = 5) + \mathop{\mathbb{E}}(Y|Y = 5) \\ &= \mathop{\mathbb{E}}(X) + 5 \\ &= 3.5 + 5 \\ &= 8.5 \end{align}` $$ * L'opérateur `\(\mathop{\mathbb{E}}(.|D = x)\)` représente **l'espérance conditionnelle**. C'est l'espérance pour une sous catégorie de la population totale, celle qui satisfait la condition `\(D = x\)`. --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Qu'est ce que la causalité <h2 style="color: #154E55 ;">2. Inférence causale</h2> <h3 style="color: #154E55 ;">2.1 Réalisations potentielles</h3> <h3 style="color: #154E55 ;">2.2 Effet moyen du traitement</h3> ## 2. Réalisations potentielles ## 3. Expérimentations aléatoires (RCT) ## 4. Conclusion --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- name: ate # L’effet moyen du traitement En anglais : *Average Treatment Effect*, ou ATE C'est l'effet moyen le plus large possible : `\begin{align} ATE &= \mathop{\mathbb{E}}(\delta_i) \\ &= \mathop{\mathbb{E}}(Y_i^1 - Y_i^0) \\ &= \mathop{\mathbb{E}}(Y_i^1) - \mathop{\mathbb{E}}(Y_i^0) \end{align}` * L'ATE mesure simplement l'***effet moyen du traitement sur la population totale***. <!-- ([*Appendix:*](#attandatu) Average Treatment on the Treated and Average Treatment on the Untreated) --> --- # Exemple : petit vs. grand nombre d'élève dans une classe Réalisations potentielles de la note (0-10) pour les élèves qui sont dans un petite `\((Y^1)\)` ou une grande `\((Y^0)\)` : .pull-left[ Student | `\(Y^1\)` | `\(Y^0\)` | `\(\delta\)` -----------|:---------:|:---------:|:---------:| 1 | 5 | 2 | 3 2 | 6 | 4 | 2 3 | 3 | 6 | -3 4 | 5 | 4 | 1 5 | 10 | 8 | 2 6 | 2 | 4 | -2 7 | 5 | 2 | 3 8 | 6 | 4 | 2 9 | 2 | 9 | -7 10 | 8 | 2 | 6 Average | 5.2 | 4.5 | 0.7 ] -- .pull-right[ $$ `\begin{align} \color{#d90502}{\text{ATE}} &= \mathbb{E}(\delta) \\ &=\mathbb{E}(Y^1) - \mathbb{E}(Y^0) \\ &= 5.2 - 4.5 \\ &= 0.7 \end{align}` $$ `\(\rightarrow\)` la ***moyenne*** de l'effet causal d'être dans une classe avec un petit nombre d'élèves par rapport à être dans une classe avec un grand nombre d'élève est de 0.7 points. ⚠️ tous les étudiants ne bénéficient pas du traitement à égalité! ] --- # Le problème de l'inférence cause * En pratique, on a le même problème de **données manquantes** pour calculer l'ATE que pour `\(\delta_i\)`. - Soit `\(Y_i^1\)`, soit `\(Y_i^0\)` est manquant pour chaque `\(i\)`. -- * À partir des données, on peut calculer la **S**imple **D**ifférence des moyenens **R**éalisaions (***SDR***) pour chaque groupe : $$ `\begin{align} SDR &= \mathop{\mathbb{E}}(Y_i^1|D_i=1) - \mathop{\mathbb{E}}(Y_i^0|D_i=0) \\ &= \underbrace{\frac{1}{N_T}\sum_{i=1}^{N_T}(Y_i|D_i=1)}_{\text{Moyenne des réalisations pour le groupe traité}} - \underbrace{\frac{1}{N_C}\sum_{i=1}^{N_C}(Y_i|D_i=0)}_{\text{Moyenne des réalisations pour le groupe contrôle}} \end{align}` $$ --- # Le problème de l'inférence cause Elève | `\(Y^1\)` | `\(Y^0\)` | `\(\delta\)` | `\(Y\)` | `\(D\)` -----------|:---------:|:---------:|:---------:|:-----------:|:---------:|:---------: 1 | 5 | . | | 5 | 1 2 | 6 | . | | 6 | 1 3 | . | 6 | | 6 | 0 4 | 5 | . | | 5 | 1 5 | 10 | . | | 10 | 1 6 | . | 4 | | 4 | 0 7 | 5 | . | | 5 | 1 8 | 6 | . | | 6 | 1 9 | . | 9 | | 9 | 0 10 | 8 | . | | 8 | 1 ***Seulement `\(Y\)` peut être observé***. `\(\delta\)` ne peut ête calculé pour chaque individu. --- # Simple différence de moyenne des réalisations : un exemple Maintenant, imaginons qu'un·e directeur·ice d'école assigne les élèves au traitement qui maximise leur note -- Elève | `\(Y^1\)` | `\(Y^0\)` | `\(\delta\)` | `\(Y\)` | `\(D\)` -----------|:---------:|:---------:|:---------:|:-----------:|:---------:|:---------: 1 | 5 | 2 | 3 | | 2 | 6 | 4 | 2 | | 3 | 3 | 6 | -3 | | 4 | 5 | 4 | 1 | | 5 | 10 | 8 | 2 | | 6 | 2 | 4 | -2 | | 7 | 5 | 2 | 3 | | 8 | 6 | 4 | 2 | | 9 | 2 | 9 | -7 | | 10 | 8 | 2 | 6 | | --- # Simple différence de moyenne des réalisations : un exemple Maintenant, imaginons qu'un·e directeur·ice d'école assigne les élèves au traitement qui maximise leur note Elève | `\(Y^1\)` | `\(Y^0\)` | `\(\delta\)` | `\(Y\)` | `\(D\)` -----------|:---------:|:---------:|:---------:|:-----------:|:---------:|:---------: 1 | 5 | 2 | 3 | 5 | 1 2 | 6 | 4 | 2 | 6 | 1 3 | 3 | 6 | -3 | 6 | 0 4 | 5 | 4 | 1 | 5 | 1 5 | 10 | 8 | 2 | 10 | 1 6 | 2 | 4 | -2 | 4 | 0 7 | 5 | 2 | 3 | 5 | 1 8 | 6 | 4 | 2 | 6 | 1 9 | 2 | 9 | -7 | 9 | 0 10 | 8 | 2 | 6 | 8 | 1 --- # Simple différence de moyenne des réalisations : un exemple .pull-left[ Elève | `\(Y\)` | `\(D\)` | `\(\delta\)` -----------|:---------:|:---------:|:---------: 1 | 5 | 1 | 3 2 | 6 | 1 | 2 3 | 6 | 0 | -3 4 | 5 | 1 | 1 5 | 10 | 1 | 2 6 | 4 | 0 | -2 7 | 5 | 1 | 3 8 | 6 | 1 | 2 9 | 9 | 0 | -7 10 | 8 | 1 | 6 Moyenne | | | 0.7 ] .pull-right[ La simple difference des réalisations moyennes : $$ `\begin{align} SDR &= \frac{5+6+5+10+5+6+8}{7} - \frac{6+4+9}{3} \\ &\approx 6.43 - 6.33 \approx 0.1 \end{align}` $$ * La SDR est bien inféreure à l'ATE ( `\(0.1<0.7\)`) ! * Une telle différence **échoue** (presque toujours) **à capturer l'effet causal du traitement** * Note: ce type de comparaison "naive" est souvent faite par des journalistes, politiciens, mauvais scientifiques (mais pas vous 😉) ] --- name: naive_comp # Problème des comparaisons naïves Réécrivons la SDR pour faire apparaitre l'effet individuel du traitement `\((\delta_i)\)` dans l'équation. `\begin{align} SDR &= \mathop{\mathbb{E}}(Y_i^1|D_i=1) - \mathop{\mathbb{E}}(Y_i^0|D_i=0) \\ &= \mathop{\mathbb{E}}(Y_i^0 + \delta_i | D_i = 1) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 0) \end{align}` -- Pour simplifier, on suppose que **l'effet du traitement est constant** entre les idividus: pour tout `\(i, \delta_i = \delta\)`. -- Alors, $$ SDR = \delta + \mathop{\mathbb{E}}(Y_i^0 | D_i = 1) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 0) $$ Et car `\(ATE = \mathop{\mathbb{E}}(\delta_i) = \mathop{\mathbb{E}}(\delta) = \delta\)` (par hypothèse), on obtient : `\begin{equation} SDR = ATE + \underbrace{\mathop{\mathbb{E}}(Y_i^0 | D_i = 1) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 0)}_\text{Biais de sélection} \end{equation}` ([*Annexe*](#naive_comp_extended): quand on relache l'hypothèse du traitement constant, un autre biais apparaît.) --- class:inverse # Exercice 1 : SDR, ATE et randomisation
−
+
10
:
00
Calculons ces quantités et biais à partir de données fictives. 1. Importer les données `toy_data_2.csv` à l'aide de la commande `import delimited "toy_data_2.csv", clear`. - `group` : variable qui indique si un individua a été traité ou non - `Y0`: réalisation potentielle si l'individu ne reçoit pas le traitement `\((Y_i^0)\)` while - `Y1` : réalisation potentielle si l'individu reçoit le traitement `\((Y_i^1)\)`. 2. Créer des nouvelles variables contenant - les réalisations observées `\((Y_i)\)` and - l'effet individuel du traitement `\((\delta_i)\)`. - Pour mémoire: `\(Y_i = D_i \times Y_i^1 + (1 - D_i) \times Y_i^0\)`, `\(\delta_i = Y_i^1 - Y_i^0\)`. 3. Calculer l' ***ATE*** et la ***SDR***. Y a-t-il un *biais* ? Est-il grand ? --- # La randomisation résoud le problème de l'inférence causale ! * ***Expérimentation aléatoire*** : vous assignez les individus ***aléatoirement*** à un groupe de traitement et de contrôle. * Dans ce cas, le traitement est **indépendant** des réalisations potentielles. -- * En particulier, pas de raison pour que `\(\mathop{\mathbb{E}}(Y_i^0 | D_i = 1)\)` soit différent de `\(\mathop{\mathbb{E}}(Y_i^0 | D_i = 0)\)` * Dans ce cas, le ***bias de sélection est égal à 0***. -- * Avec une assignation aléatoire, on a : $$ SDR = \mathop{\mathbb{E}}(Y_i^1|D_i=1) - \mathop{\mathbb{E}}(Y_i^0|D_i=0) = ATE$$ 👉 On peut directement estimer le ATE à partir des données ! --- class:inverse # Exercice 2 : SDR, ATE et randomisation
−
+
05
:
00
Calculons ces quantités et biais à partir de données fictives. 1. Dans une nouvelle base de données (`toy_data_random.csv`), nous avons assigné les individus aux groupes de traitement et de contrôle de manière aléatoire. - Importer ces données 2. Calculer la ***SDR avec randomisation***. - Rappel: il faut recalculer `\(Y_i\)` car le traitement a changé - Si le code est correct, le biais devrait être très proche de 0. Pourquoi n'est il pas 0 exactement ? 3. *Optionnel*: Calculer la valeur du ***biais de sélection*** et du ***biais d'effet de traitement hétérogène*** et vérifier que `\(SDR = ATE + \text{biais de sélection} + \text{Biais d'effet de traitement hétérogène}\)` --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Qu'est ce que la causalité ## 2. Inférence causale <h2 style="color: #154E55 ;">3. Expérimentations aléatoires (RCT)</h2> ## 4. Conclusion --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Experimentations aléatoires - Souvent appelées "**R**andomized **C**ontrolled **T**rials" (RCT). - Les premières RCTs sont menées en médecine (18e & 19e siècle) - Popularisées au début du 20e sièce par les statisticiens **J. Neyman** or **R.A. Fisher**. - Depuis, méthode de plus en plus influentes, progressivement devenue une [méthode d'évaluation des politique publiques](https://www.povertyactionlab.org/fr) - En économie, le **Prix Nobel 2019** a été attribué aux 3 promoteurs des RCTs, [Abhijit Banerjee, Esther Duflo et Michael Kremer](https://www.economist.com/finance-and-economics/2019/10/17/a-nobel-economics-prize-goes-to-pioneers-in-understanding-poverty), "for their experimental approach to alleviating global poverty". --- # Retour sur la taille de la classe et les performances des élèves Au dernier cours, on a régressé la note moyenne en mathématique ou en lecture sur la taille de la classe. `$$\textrm{Note en math}_i = b_0 + b_1 \textrm{taille de la classe}_i + e_i$$` Nous avons brièvement discuté pourquoi `\(b_1^{OLS}\)` ne pouvait établir qu'une ***corrélation*** et non une ***relation de causalité***. 3 sources de biais : 1. **Tri des élèves** 2. **Tri des enseignants** 3. **Effet de localisation** --- # Retour sur la taille de la classe et les performances des élèves 1. **Tri des élèves** : Il y a une sélection dans les écoles avec des classes de différentes tailles. - Supposons que les parents aient une idée préconçue selon laquelle les classes plus petites sont meilleures, ils essaieront de faire inscrire leurs enfants dans ces écoles. -- 2. **Tri des enseignants** : ils/elles peuvent choisir les écoles avec des classes `\(+\)` petites - parce qu'il est plus facile d'enseigner à une classe petite plutôt qu'à une grande - s'il y a de la concurrence pour ces places, les enseignants de meilleure qualité auront un avantage. -- 3. **Effet de localisation** : - Les grandes classes peuvent être plus courantes dans les villes `\(+\)` riches et `\(+\)` grandes, - Les petites classes sont plus susceptibles d'être présentes dans les zones rurales `\(+\)` pauvres. -- Une RCT prendrait en compte tous ces biais ! --- # The Project STAR Experiment Tennessee **S**tudent/**T**eacher **A**chievement **R**atio Experiment (cf. [Krueger (1999)](http://piketty.pse.ens.fr/files/Krueger1999.pdf)) * Financé par l'état du Tennessee pour un coût total d'environ $12 millions. * L'expérience a débuté lors de l'année scolaire 1985-1986 et a duré quatre ans. -- * 11 600 étudiants et leurs enseignants ont été **assignés au hasard** à l'un des trois groupes suivants, de la maternelle à la 1e primaire : 1. ***Petite classe*** : 13 à 17 élèves par enseignant, 2. ***Classe normale*** : 22 à 25 élèves, 3. ***Classe normale avec aide*** : 22 à 25 élèves avec un enseignant à temps plein en tant qu'**aide**. -- * La randomisation des classes a eu lieu au sein des écoles. * Les compétences en mathématiques et en lecture des élèves ont été testées vers le mois de mars chaque année. --- class:inverse # Exercice 3: données STAR
−
+
10
:
00
1. Importer les données *STAR* - La documentation [ici](https://rdrr.io/cran/AER/man/STAR.html) permet de comprendre ce à quoi correspondent les variables. (Note: les données ont été *reformatées*, ne pas considérer les "k", "1", etc. dans les noms de variables) 2. Quelle est l'unité d'observations ? Quelle variable contient : (i) l'affectation (aléatoire) de la classe, (ii) le niveau de la classe de l'étudiant, (iii) la variable d'intérêt? 3. Combien y a-t-il d'observations ? Pourquoi autant si `\(11\ 598\)` élèves ont particpé ? Pourquoi y a-t-il autant de valeurs manquantes ? À quoi correspondent-elles ? 4. Ne gardez que les observations pour lesquelles il n'y a pas de valeur manquantes pour read ou math 5. Vérifions que la randomisation a été bien faite en construisant une table de ***balancing checks***. Calculons les pourcentages par groupe de niveau et de traitement des filles, afro-américains, "free lunch qualifiers" --- # Le projet d'expérimentation STAR Nous venons de voir que dans une RCT, l'effet moyen du traitement (ATE) est obtenu en calculant les différences de résultats entre le groupe de traitement et le groupe de contrôle. Concentrons-nous uniquement sur : - Un groupe de traitement : **petites classes**, - Un groupe de contrôle : **classes normales**, - Une classe : **maternelle** (k). -- grade | test | mean regular | mean small | ATE --------|---------|:---------:|:---------:|:---------: k | math | 484.45 | 493.34 | 8.9 k | read | 435.76 | 441.13 | 5.37 Quelle est l'interprétation de ces ATE ? -- C'est bien, mais ne pouvons-nous pas le mettre sous forme de régression ? --- layout: false class: slide-question-comprehension # Question de compréhension [groupe de 2]
−
+
06
:
00
** Choisissez une [question posée la semaine dernière](https://digipad.app/p/1355136/d8fbb26b788a4), et proposez une expérience aléatoire pour y répondre**. Pour ce faire, vous devez : .left-wide[ 1. Formuler une **hypothèse testable**. 2. Décrir comment vous pourriez concevoir une expérience aléatoire contrôlée (RCT) pour tester cette hypothèse. Il faut préciser : - Le "traitement" qui est randomisé - La variable dépendante - La population étudiée ] .right-thin[ <img src="digipad3-qrcode.png" width="80%" style="display: block; margin: auto;" /> <div style="text-align: center;"> <a href="https://digipad.app/p/1369195/3fe4fdf70a7ee">lien</a> </div> ] <!-- <iframe src="https://digipad.app/p/1293503/225382e7ed869" frameborder="0" width="100%" height="500"></iframe> --> --- # RCT sous forme de régression $$ Y_i = D_i Y_i^1 + (1 - D_i) Y_i^0 $$ -- En factorisant par `\(D_i\)` et en remplaçant `\(Y_i^1 - Y_i^0\)` par `\(\delta_i\)`, on obtient: `$$\begin{align} Y_i &=Y_i^0 +D_i (Y_i^1 - Y_i^0) \\ &= Y_i^0 +D_i \delta_i \end{align}$$` -- En supposant `\(\delta_i = \delta\)`, pour tout `\(i\)`, `$$Y_i = Y_i^0 + D_i \delta$$` -- En ajoutant `\(\mathbb{E}[Y_i^0] - \mathbb{E}[Y_i^0] = 0\)` à l'expression de droite: `$$\begin{align} Y_i &= \mathbb{E}[Y_i^0] + D_i \delta + Y_i^0 - \mathbb{E}[Y_i^0] \\ &= b_0 + \delta D_i + e_i \end{align}$$` où `\(b_0 = \mathbb{E}[Y_i^0]\)` et `\(e_i = Y_i^0 - \mathbb{E}[Y_i^0]\)` --- # Le projet d'expérimentation STAR La dernière équation ressemble exactement au modèle de régression simple que nous avons vu la semaine dernière ! (avec `\(\delta = b_1\)`) Nous voulons donc estimer l'ATE d'être affecté à une petite taille de classe sur les scores de mathématiques. -- Nous voulons estimer le modèle suivant : `\(\text{score en math}_i = b_0 + \delta \text{petite}_i + e_i\)`, avec -- $$ \text{small}_i = \begin{cases} 1 \textrm{ if assigned to a small class} \\\\ 0 \textrm{ if assigned to a regular class} \end{cases} $$ .pull-left[ ] .pull-left[ ] --- # Le projet d'expérimentation STAR : Régression Modèle de régression à estimer : `\(\text{math score}_i = b_0 + \delta \text{small}_i + e_i\)` <img src="../img/content/star-reg-k-math-small.png" width="80%" style="display: block; margin: auto;" /> --- # Le projet d'expérimentation STAR : Régression <img src="../img/content/star-reg-k-math-small-coef.png" width="80%" style="display: block; margin: auto;" /> ### Rappel .pull-left[ `\(b_0 = \mathbb{E}[Y_i^0]\)` <img src="../img/content/star-b0.png" width="80%" style="display: block; margin: auto;" /> ] .pull-right[ `\(\delta = \mathbb{E}[Y_i | D_i = 1] - \mathbb{E}[Y_i | D_i = 0]\)` <img src="../img/content/star-delta.png" width="80%" style="display: block; margin: auto;" /> ] --- # Régression avec une variable binaire : graphiquement Contrairement au cours précédant, le régresseur est maintenant une ***variable binaire*** (*dummy variable*) , i.e. une variable qui n'a que 2 valeurs: TRUE/FALSE ou 1/0 . <img src="3-causalite_files/figure-html/unnamed-chunk-17-1.svg" style="display: block; margin: auto;" /> --- # Régression avec une variable binaire : graphiquement Contrairement au cours précédant, le régresseur est maintenant une ***variable binaire*** (*dummy variable*) , i.e. une variable qui n'a que 2 valeurs: TRUE/FALSE ou 1/0 . <img src="3-causalite_files/figure-html/unnamed-chunk-18-1.svg" style="display: block; margin: auto;" /> --- # Régression avec une variable binaire : graphiquement Contrairement au cours précédant, le régresseur est maintenant une ***variable binaire*** (*dummy variable*) , i.e. une variable qui n'a que 2 valeurs: TRUE/FALSE ou 1/0 . <img src="3-causalite_files/figure-html/unnamed-chunk-19-1.svg" style="display: block; margin: auto;" /> --- # Régression avec une variable binaire : graphiquement Contrairement au cours précédant, le régresseur est maintenant une ***variable binaire*** (*dummy variable*) , i.e. une variable qui n'a que 2 valeurs: TRUE/FALSE ou 1/0 . <img src="3-causalite_files/figure-html/unnamed-chunk-20-1.svg" style="display: block; margin: auto;" /> --- # Régression avec une variable binaire : formellement Rappel du modèle de régression : `\(\text{math score}_i = b_0 + \delta \text{small}_i + e_i\)` `\(\begin{align} \mathbb{E}[\textrm{math score} | \text{small}_i = 0]&= \mathbb{E}[b_0 + \delta \text{small}_i + e_i | \text{small}_i = 0] \\ &= b_0 + \delta \mathbb{E}[\text{small}_i| \text{small}_i = 0] + \mathbb{E}[e_i|\text{small}_i = 0] \\ &= b_0 \end{align}\)` -- `\(\begin{align} \mathbb{E}[\textrm{math score} | \text{small}_i = 1]&= \mathbb{E}[b_0 + \delta \text{small}_i + e_i | \text{small}_i = 1] \\ &= b_0 + \delta \mathbb{E}[\text{small}_i| \text{small}_i = 1] + \mathbb{E}[e_i|\text{small}_i = 1] \\ &= b_0 + \delta \end{align}\)` -- `\(\begin{align} ATE &= \mathbb{E}[\textrm{math score} | \text{small}_i = 1] - \mathbb{E}[\textrm{math score} | \text{small}_i = 0] \\ &= b_0 + \delta - b_0 \\ &= \delta \end{align}\)` -- Nous le savions déjà, mais nous comprenons maintenant pourquoi c'est vrai ✌️ --- class:inverse # Exercice 4
−
+
10
:
00
1. Sélectionner les élèves qui sont en classe 1 (*first grader*) dans une classe de taille classes petite ou normale. 2. Calculer la note moyenne en mathématiques pour les classes de taille normale et petite, et la différence entre les deux. 3. Créer une variable binaire `treatment` égale à `\(1\)` si l'élève est dans le groupe de traiteemnt (i.e petite classe) et à `\(0\)` si l'élève est dans le groupe de contrôle (i.e classe normale). 4. Régresser la note en mathématiques sur la variable de traitement. Est ce que les résultats sont cohérents avec la question 2 ? 5. Comment interpréter les coefficients ? --- layout: false class: title-slide-section-grey, middle # Plan du cours ## 1. Qu'est ce que la causalité ## 2. Inférence causale ## 3. Expérimentations aléatoires (RCT) <h2 style="color: #154E55 ;">4. Conclusion </h2> --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Limites des expérimentations aléatoires RCTs ont une forte ***validité interne***, i.e; la méthode permet d'établir le lien causal de manière très convaincante. Elles présentent toutefois certaines limites : * RCTs sont souvent **infaisables** : * **Coûteuses**, * Il peut y avoir des **questions éthiques**: certains *traitements* ne peuvent simplement pas être donnés, * RCTs prennent du temps. -- * **Interprétation** des résultats : * ***Validité externe*** : Dans quelle mesure les résultats d'une RCT peuvent être généralisés à d'autres contextes ? (Pays, populations,...)? * Il peut être difficile de mettre au jour les mécanismes en jeu, * Randomisation imparfaite, attrition, ... --- # Références - [Ted Talk](https://www.ted.com/talks/esther_duflo_social_experiments_to_fight_poverty?subtitle=en&lng=fr&geo=fr) par Esther Duflo sur les expérimentations contrôlées - *Introduction to Econometrics with R*, de Florian Oswald, [Chapitre 7](https://scpoecon.github.io/ScPoEconometrics/causality.html#rct) --- # La suite ? * On ne peut pas toujours s'appuyer sur des RCTs pour se simplifier la vie, `\(\Rightarrow\)` il faut trouver un manière de faire de l'inférence causale à partir de ***données réelles*** (et non des ***données expérimentales***). -- 2 sources de sélection : * **Charactéristiques observables** : *régression multivariée* (prochain cours !) * **Charactéristiques non observables**: *regression discontinuity design* ou *différence-de-différences* (master en économie !) --- # Où en sommes nous de notre quête de la causalité ✅ Comment gérer les données? Lisez-les, ordonnez-les, visualisez-les... 🚧 Comment résumer une relation entre plusieurs variables? Régression linéaire simple... *to be continued* ✅ **Qu'est ce que la causalité ?** ❌ Comment faire si nous n'observons qu'une partie de la population ? ❌ Nos résultats sont ils uniquement dus au hasard? ❌ Comment trouver de l'exogénéité en pratique ? --- <br> <br> .center[ <img src="../img/photos/correlation_funny.png" width="1000px" style="display: block; margin: auto;" /> ] --- class: title-slide-final, middle background-image: url(../img/logo/logo_hec) background-size: 250px background-position: 9% 19% # À LA SEMAINE PROCHAINE ! <a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a> # MERCI À <a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides) --- layout: false class: title-slide-section-red, middle # Annexe --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- name: attandatu # Average Treatment on the Treated and on the Untreated Other ***conditional*** average treatment effects may be of interest: .pull-left[ **A**verage **T**reatment on the **T**reated (***ATT***) `\begin{align} ATT &= \mathop{\mathbb{E}}(\delta_i | D_i = 1) \\ &= \mathop{\mathbb{E}}(Y_i^1 - Y_i^0 | D_i = 1) \\ &= \mathop{\mathbb{E}}(Y_i^1 | D_i = 1) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 1) \end{align}` The ATT measures the ***average treatment effect conditional on being in the treatment group***. *Example:* the effect of participating in a training program (*treatment*) for those who participated (*treatment group*). ] .pull-right[ **A**verage **T**reatment on the **U**ntreated (***ATU***) `\begin{align} ATU &= \mathop{\mathbb{E}}(\delta_i | D_i = 0) \\ &= \mathop{\mathbb{E}}(Y_i^1 - Y_i^0 | D_i = 0) \\ &= \mathop{\mathbb{E}}(Y_i^1 | D_i = 0) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 0) \end{align}` The ATU measures the ***average treatment effect conditional on being in the control group***. *Example:* the effect of attending a private school (*treatment*) for students from a public school (*control group*). ] *Note:* In the majority of cases, ATE `\(\neq\)` ATT `\(\neq\)` ATU! <span> </span> [*back*](#ate) --- name: naive_comp_extended # Problèmes des comparaisons naïves On relache maintenant l'hypothèse que les effets du traitement sont constants pour tous les individus. Après [de longs calculs](https://mixtape.scunning.com/potential-outcomes.html#simple-difference-in-means-decomposition) que l'on peut passer, la SDR peut être décomposée ainsi : `\begin{align} SDR &= ATE + \underbrace{\mathop{\mathbb{E}}(Y_i^0 | D_i = 1) - \mathop{\mathbb{E}}(Y_i^0 | D_i = 0)}_\text{Biais de sélection} \\ & \quad \quad \quad \quad + \underbrace{(1-\pi)(ATT - ATU)}_\text{Effet hétérogène du traitement} \end{align}` où `\(1 - \pi\)` correspond à la part des individus dans le groupe de contrôle. Nouvelle source de biais venant d'un potentiel ***hetérogénéité de l'effet individual du traitement*** `\(\delta_i\)`. * ***Biais de sélection***: ceux qui vont à l'université sont susceptibes d'avoir de meilleure performance cognitives de base (i.e. qu'ils aillent ou non à l'univesrité). * ***Heterogénéité de l'effet du traitement***: ceux qui vont à l'université sont susceptibes amélioreraient plus leurs compétances cognitives en étudiant à l'université que les autres car plus motivés. <span> </span> [back](#naive_comp)