class: center, middle, inverse, title-slide .title[ # Chapitre 1 : Analyse de données ] .subtitle[ ## Économétrie (ECON0212) ] .author[ ### Malka Guillot ] .date[ ### HEC Liège ] --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Utiliser des données * Les `données` sont centrales en économétrie. <img src="img/data_science_pipeline.png" width="400px" style="display: block; margin: auto;" /> -- * Selon un [article du New York Times de 2014](https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html), "les data scientists [...] passent de ***50 % à 80 % de leur temps*** plongés dans ce travail plus prosaïque de collecte et de préparation de données numériques rebelles, avant de pouvoir les explorer" * Aujourd'hui : les basiques de l'analyse de données - préparation, visualisation et statistiques descriptives --- layout: false class: title-slide-section-red, middle # Au menu de cette séance ## Stata 101 ## Nettoyer les données ## Transformations avancées (aggrégations, combinaisons...) ## Visualisation ## Statistiques descriptives --- layout: false class: title-slide-section-grey, middle <a id="stata"></a> # Au menu de cette séance <h2 style="color: #154E55 ;">Stata 101 *Là où les choses sérieuses commencent*</h2> ## Nettoyer les données ## Transformations avancées (aggrégations, combinaisons...) ## Visualisation ## Statistiques descriptives --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- class: inverse # Installation de `Stata`
−
+
05
:
00
Cf. [guide sur lola](https://lola.hec.uliege.be/mod/page/view.php?id=46247) ### 1. Téléchargement depuis DOX - Mot de passe = stata19hec - Version Windows : https://dox.uliege.be/index.php/s/dXvpvWNjR7KXSkX - Version Mac : https://dox.uliege.be/index.php/s/Fp5rXKnrcfYR05C - Attention, il faut installer la version stata SE ### 2. Installation - Lancer l'installateur et choisir la version Stata/SE19. - Ensuite encoder les autorisations et numéros de séries indiqués sur la [page lola](https://lola.hec.uliege.be/mod/page/view.php?id=46247) --- # Interface utilisateur de `Stata` <img src="img/stata-interface.png" width="900px" style="display: block; margin: auto;" /> --- # Glossaire - `Stata`: le nom du logiciel -- - Une ***commande*** : donnée fournie par l'utilisateur.rice que `Stata` comprend - Exemples: ouvrir une base de donnée, créer une variable, calculer une moyenne... - ⚠️ Une seule commande par ligne -- - Un ***dofile*** : une liste de commandes, contenues dans un fichier texte (extension=`.do`) - Chaque commande doit être séparée par une nouvelle ligne - L'ordre des commandes dans le script correspond à leur ordre de lecture - Ouvrir un dofile : <img src="img/start-dofile.png" width="200px" style="display: block; margin: auto;" /> -- - Pour lancer une commande dans un dofile : - Sélectionner la ligne à lancer et taper `Ctrl`+`D` (Windows) ou `Ctrl`+ `Maj`+`D` (mac) - Appuyer sur `Do` --- class: inverse # Exercice 1
−
+
05
:
00
1. Créer un nouveau dofile (File `\(\rightarrow\)` New `\(\rightarrow\)` Do-file). Sauvegarder quelque part sous le nom `1-analyse-de-donnees`. 1. Ecrire le code suivant dans le dofile et compiler (`Ctrl`+`D` or `Ctrl`+`Maj`+`D`). (Vous pouvez surligner le code à compliler, ou compiler sur tout le dofile) ``` stata set obs 10 /* Génère 10 observations */ gen x = 1 /* crée une variable nommée x et égale à 1 */ ``` Bravo ! Vous avez créé votre première variable ! 2. Créer une nouvelle variable `y` égale à `\(x^2\)`. --- # Trouver de l'aide - **Directement** dans `Stata` : ``` stata help command ``` - *Limite* : il faut connaître le nom de la `commande` - Par exemple: `help regress ` - Sur **internet** : - Parfois plus efficace - Il vaut mieux faire une recherche en anglais pour avoir plus de réponses - Renvoie souvent sur la documentation officielle - **Intelligence articifielle** (ChatGPT, Prodigy...) : - Potentiellement encore plus efficace ! - Surtout utile quand on a déjà une idée de ce qu'on fait - [Example d'utilisation](https://datafordev.com/how-to-analyze-data-in-stata-with-the-help-of-chatgpt/) --- # Collaborer ! <img src="img/gator_error.jpg" alt="Gator collaboration" width="900" style="display: block; margin-left: auto; margin-right: auto"/> <!-- # Stata Packages --> --- # Quand ça tourne mal .pull-left[ **Du rouge ?** C'est une erreur ! Que faire ? 1. <span class="alert">La lire</span> `\(\rightarrow\)` souvent, la source de l'erreur est expliquée 2. La rechercher sur internet car `\(P(\textrm{Quelqu'un a déjà eu cette erreur}) >99\%)\)` ] .pull-right[ <img src="../img/content/mug15-back.png" width="80%" style="display: block; margin: auto;" /> ] --- # Importer des données ## `stata` peut importer des données depuis différents formats : - Format stata : extension `.dta` ``` stata use dataset_name.dta, replace ``` -- - Format Excel : extension `.xls` ou `.xlsx` ``` stata import excel using dataset_name.xlsx, firstrow replace ``` - Attention au format du fichier excel: une ligne est une observation, une colonne une variable -- - Format csv : extension `.csv` ``` stata import delimited using dataset_name.txt, delimiters(",") replace ``` - Chaque élément est séparé de l'ensemble des données par un `delimiter` qui peut être : une tabulation, une virgule, un point virgule... --- # Inspecter des données Une fois l'ensemble de données chargé, vous pouvez commencer à l'explorer : - `browse` : Examinez vos données dans la fenêtre d'exploration. - `edit` : Produit une liste de toutes les variables, leur type de données et leur étiquette - `sum nom_de_la_variable` : Donne le nombre d'observations, moyenne, min et max des variables spécifiées après `sum` - `sum nom_de_la_variable, detail` : Donne un résumé plus détaillé de la variable spécifiée - `tab nom_de_la_variable` : produit un tableau de fréquences qui donne le nombre d'occurrences pour chaque valeur de la variable --- ## Ouvrir une base de données (absolu vs relatif) ### 1️⃣ Chemin absolu - **Définit l’emplacement complet depuis la racine du disque**. - Fonctionne quel que soit le répertoire de travail actuel. ```stata * Exemple sous Windows use "C:\Data\Projet\analyse\mydata.dta", clear * Exemple sous macOS / Linux use "/Users/alice/Data/Projet/analyse/mydata.dta", clear ``` ⚠️ Attention aux guillemets et aux slashs (Windows: `\` ; macOS/Linux: `/`) --- ### 2️⃣ Chemin relatif - Part du répertoire de travail (`cd`) courant. ```stata * Placer le répertoire de travail au niveau du projet cd "C:\Data\Projet\analyse" // Windows cd "/Users/alice/Data/Projet/analyse" // macOS/Linux * Charger le fichier avec un chemin relatif use "mydata.dta", clear // même dossier que le cwd use "..\raw\rawdata.dta", clear // dossier parent \raw (Windows) use "../raw/rawdata.dta", clear // dossier parent /raw (macOS/Linux) ``` --- class: inverse # Exercice 2
−
+
05
:
00
1. **Importez** la base `gapminder.dta` en format dta (disponible sur lola). - Cette base contient ds données sur l'espérance de vie et le PIB par habitant de nombreux pays. 1. **Quelles variables** contiennent les données ? Vous pouvez utiliser `codebook` ou `describe`. 1. **Inspectez visuellement** les données. Plusieurs solutions pour ouvrir la base de donnée grâce à `browse` 1. Naviguer dans le menu: `data, data Editor` 2. Bouton `browse` 3. Commande : `browse [varlist] [if]` dans la fenêtre de commande ou un dofile A quoi correspond la variable `pop` ? --- # Types de variables - **Numérique** (`float`, `int`) : - Exemple: age `\(\rightarrow\)` `int`; revenu `\(\rightarrow\)` `float` - **Texte** (`string`) : - Exemple: pays, nom `\(\rightarrow\)` `string` - **Catégorielle** : - Exemple: genre, - Une variable numérique avec un label pour chaque valeur - `1="female"`; `2="male"` --- # Modifier le types de la variable - texte `\(\rightarrow\)` numérique ``` r destring nom_de_la_variable, replace ``` - numérique `\(\rightarrow\)` texte ``` r tostring nom_de_la_variable, replace ``` - texte `\(\rightarrow\)` catégoriel ``` r encode nom_de_la_variable, gen(variable_encodee) ``` --- # Modifier des données existantes (variables) - Supprimer une variable (ou une liste de variables) ``` stata drop variable_1 variable_2 ``` - Sélectioner une variable (ou une liste de variables) [ce qui supprimer les autres] ``` stata keep variable_1 variable_2 ``` - Renommer une variable : ``` stata rename ancien_nom nouveau_nom ``` - Créer un label : ``` stata label var nom_de_la variable "Label de la variable" ``` --- # Créer des variables - On génère une nouvelle variable en lui donnant un nom et en définissant ses valeurs dans une `EXPRESSION` ``` stata gen nouvelle_variable = EXPRESSION ``` - Une `EXPRESSION` peut être : - Mathématique, par exemple : ``` stata gen variable1 = 200 gen variable2 = variable1*2 ``` - Du texte (`string` en `stata`), par exemple : ``` stata gen variable1 = "coucou" ``` - Une fonction de variables existantes: ``` stata gen variable3 = (variable1 + variable2)/2 ``` --- # Modifier la valeur d'une variable - On peut remplacer la valeur d'une variable (très similaire à `gen`) - Une fonction de variables existantes: ``` stata replace une_variable_qui_existe = EXPRESSION ``` - Remplacement conditionnel : ``` stata replace age_category = "old" if age > 70 ``` --- # Expressions logiques - Expressions qui peuvent être utilisées pour préciser la condition : - `==` : égal à - `!=` : non égal à - `<=` : inférieur ou égal à - `>=` : supérieur ou égal à - `<` : strictement inférieur ou égal à - `>` : strictement supérieur ou égal à - Pour combiner ces conditions, on utilise `&` ou `|`: - `&` = *et*: si les 2 conditions doivent être vérifiées toutes les 2 ``` stata gen age_category = "old" if age > 70 & age < 110 ``` - `|` = *ou*: si une des conditions seulement doit être vérifiée ``` stata gen etudiant_hec = "bac" if filiere=="IG" | filiere=="SEG" ``` ??? Faire un WOOCLAP pour tester le fonctionnement : J'ai une variable `age` (en année), et je veux créer une nouvelle catégorie "jeune adulte" pour les individus agés de 18 à 30 ans. Quel code fonctionnera ? ``` stata replace age_category = "young" if age < 30 & age < 18 replace age_category = "young" if age < 30 | age < 18 replace age_category = "young" if age <= 30 & age <= 18 gen age_category = "young" if age <= 30 & age <= 18 replace age_category = "young" if inrange(age , 18, 30) ``` --- # Sélection d'observations - Garder ou supprimer les observations sous certaines conditions ``` r keep if CONDITION drop if CONDITION ``` - Par exemple: ``` stata /* Sélectionne les pays du continent américain */ keep if continent=="Americas" /* Supprime les pays américains sauf l'Argentine */ drop if continent=="Americas" & country!="Argentina" ``` ⚠️ Comme c'est le cas dans de nombreux logiciels, l'expression logique s'écrit `==` --- class: inverse # Exercice 3
−
+
07
:
00
1. Combien d'**observations** y a-t-il dans la base de données ouverte précédement (`gapminder`)? 1. Combien de **variables** ? De quel type ? 1. Ne gardez que les observations correspondant au continent `Asia`. 4. Chargez à nouveau la base, puis créez la variable `gdppercap` égale au PIB par habitant grâce au code suivant : ``` stata gen gdppercap = gdp / population ``` *Félicitation, vous avez créé votre première variable !* Utilisez la commande `browse` pour la voir dans la base. --- # Syntaxe de stata La plupart des commandes ont la syntaxe suivante : <img src="img/stata-command-anatomy.png" width="70%" style="display: block; margin: auto;" /> où `[..]` correspond à des options. *Exemples* : - `summarize` ou juste `sum` - Statistiques descriptives pour toutes les variables - `summarize gdp` - Statistiques descriptives pour le `gdp` uniquement - `summarize gdp if year == 1960` - Statistiques descriptives pour le `gdp` en 1960 --- layout: false class: title-slide-section-grey, middle # Au menu de cette séance ## Stata 101 <h2 style="color: #154E55 ;">Nettoyer les données</h2> ## Transformations avancées (aggrégations, combinaisons...) ## Visualisation ## Statistiques descriptives --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Valeurs manquantes * Quand une valeur est maquante, elle est indiquée - `.` pour un variable numérique - `""` pour un variable string * `Stata` propage les manquantes au fur et à mesure: ``` r display . + 10 ``` * `Stata` assigne la valeur `\(+\infty\)` à une missing : ``` r display . > 5 ``` -- * Attention à la propagation des valeurs manquantes: <img src="../img/content/gapminder-missing-example.png" width="70%" style="display: block; margin: auto;" /> --- layout: false class: title-slide-section-grey, middle # Au menu de cette séance ## Stata 101 ## Nettoyer les données <h2 style="color: #154E55 ;">Transformations avancées (aggrégations, combinaisons...)</h2> <ul> <li style="color: #154E55;"><strong>Aggréger des données:</strong> <code>collapse</code></li> <li style="color: #154E55;"><strong>Combiner des données:</strong> <code>merge</code> & <code>append</code></li> <li style="color: #154E55;"><strong>Reformater des données:</strong> <code>reshape</code></li> </ul> ## Visualisation ## Statistiques descriptives --- # Aggrégation des données `collapse` La commande collapse transforme la base de données en mémoire en statistiques essentielles sur celle-ci (`sum`=somme ; `mean`=moyenne ; `sd`=ecart-type; `median`=médiane). <img src="../img/content/collapse-illustration.png" width="80%" style="display: block; margin: auto;" /> * Attention, `collapse` remplace les données en mémoire --- # Combiner des bases de données : `append` <img src="img/stata-append.png" width="60%" style="display: block; margin: auto;" /> -- ``` stata use economy2004.dta, replace append using economy2005.dta ``` --- # Combiner des bases de données : `merge` <img src="img/stata-merge-11.png" width="70%" style="display: block; margin: auto;" /> -- ``` stata use economy2004.dta, replace merge 1:1 country using economy2005.dta ``` --- # Formats wide et long et transposition des données : `reshape` <img src="../img/content/reshape-illustration.png" width="80%" style="display: block; margin: auto;" /> -- * Long -> Wide ``` r reshape (wide) lifeexp, i(year) j(country) ``` * Wide -> Long ``` r reshape (long) lifeexpA lifeexpB lifeexpC, i(year) j(country) ``` --- class: inverse # Exercice 4 : Nettoyage des données
−
+
07
:
00
On utilise la base `gapminder` précédement importée. 1. Quelles années ont des valeurs manquantes pour le PIB ? 2. Quel pays a l'éspérance de vie la plus élevée pour une population de plus d'un milliard en 2007 ? 3. Quelle est la moyenne de l'espérance de vie par continent et par an ? (Vous pouvez utiliser la fonction `collapse`) *Syntaxe de collapse* : `collapse (mean) VAR1 VAR2 VAR3, by(VAR_CATEGORIELLE)` --- layout: false class: title-slide-section-grey, middle # Au menu de cette séance ## Stata 101 ## Nettoyer les données ## Transformations avancées (aggrégations, combinaisons...) <h2 style="color: #154E55 ;">Visualisation</h2> ## Statistiques descriptives --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Visualiser des données <img src="../img/content/stata-type-graphs.png" width="70%" style="display: block; margin: auto;" /> -- **<p style="text-align: center;">Comment choisir la représentation graphique adaptée ? </p>** Ca dépend des variables étudiées, et notamment : - 1 2 (ou 3) variables - Continue ou discrète ??? - The histogram (top left): `histogram mpg`. - The two-way scatterplot (second column, first row): `scatter price mpg`. - The scatterplot matrix (third column, first row): `graph matrix mpg turn trunk length`. - The box-and-whisker plot (upper-right corner): `graph box weight, over(foreign, total)`. - The bar chart: `graph bar rep1-rep5`. - The horizontal-bar chart: `typing graph hbar (mean) mpg, over(manuf)`. - The dot chart : `graph dot (mean) mpg, over(manuf)`. - The line graph : `line weight mpg, sort`. --- # Visualiser des données - 1 variable ## Variable continue - ***Histogramme*** : visualiser la distribution d'une variable ``` stata histogram variable_1 ``` - ***Densité*** : visualiser la distribution d'une variable ``` stata kdensity variable_1 ``` --- # Visualiser des données - 1 variable ## Discrète - ***Diagramme *en bâton* *** (*bar chart*): variable - Si la variable discrete est numérique: ``` stata hist variable_qualitative, discrete ``` - Sinon, la transformer en numérique 😉. --- # Visualiser des données - 2 variables - ***Scatter plot*** : montrer les valeurs d'une variable en fonction de l'autre: ``` stata twoway scatter variable_1 variable_2 ``` - ***Diagramme *en bâton* *** (*bar chart*): variable quantitative selon les valeurs d'une variable qualitative (ou catégorielle) ``` stata graph bar (mean) variable_quantitative, over(variable_qualitative) ``` --- # Une base de donnée "propre" 1. Chaque ***colonne*** correspond à une variable 1. Chaque ***ligne*** correspond à une observation -- ### Avant de procéder à la visualisation, il faut se demander : 1. Quelle information veux-je représenter ? - Faire en particulier attention à la présence de potentielles variables manquantes 1. Est ce que les données contiennent cette information telle que ***une colonne/ligne*** correspond à ce que je veux représenter ? - Eventuellement utiliser `collapse` et ou `reshape` pour transformer les données --- # Types de visualisation Quelques exemples des types de graphiques les plus utilisés: - Commande `twoway` + type de graphique | Type | Function | |:----:|:--------:| | Point | `scatter` | | Line | `line`, `connected` | | Histogram | `histogram` | | Density | `kdensity` | - Commande `graph` + type de graphique | Type | Function | |:----:|:--------:| | Bar | `bar` | | Boxplot | `box` | --- class: inverse # Exercice 6 : Premiers graphiques
−
+
07
:
00
On utilise les données `gapminder`. 1. L'histogramme des espérances de vie en 2007. Ensuite, précisez la couleur en ajoutant l'option `color(green)` (*il faut mettre les options après une virgule*). 2. Un **scatter plot** du taux de fertilité (y-axis) vs. pib par habitant (x-axis) en 2007. Ensuite, spécifiez les titres des axes. 3. [CHALLENGE] Représentez l'évolution de l'espérance de vie au cours du temps par continent. * Il va falloir aggréger les données au niveau continent X year => vous pouvez faire cela avec une commande `collapse` * Il est ensuite plus simple de changer la forme des données pour les transformer de "long" en "wide" en utilisant un `reshape` --- layout: false class: title-slide-section-grey, middle # Au menu de cette séance ## Stata 101 ## Nettoyer les données ## Transformations avancées (aggrégations, combinaisons...) ## Visualisation <h2 style="color: #154E55 ;">Statistiques descriptives</h2> --- layout: true <div class="my-footer"><img src="../img/logo/logo_hec.png" style="height: 60px;"/></div> --- # Synthétiser les données * En général, on apprend à connaître ses données par des visualisations + calculs de statistiques descriptives -- * C'est l'heure des **statistiques descriptives** ! - Utilisées pour décrire les données et simplifier l'information à partir de différentes mesures, tableaux et graphiques - (VS. ***statistiques inférentielles*** qui permettent ensuite de généraliser les résultats à la population d’intérêt.) -- * En particulier, nous nous intéressons aux **tendances centrales** et à la **dispersion**. --- # Tendances centrales .pull-left[ `mean(x)`: la moyenne de toutes less valeurs de `x`. `$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$` ``` r set obs 100 gen y = rnormal() egen y_mean=mean(y) ``` ] -- .pull-right[ `Médiane`: la valeur de `\(x_j\)` qui partage les observations en 2 parties égales (50% au dessus, 50% en dessous). `\(m\)` est la médiane si `$$\Pr(X \leq m) \geq 0.5 \text{ and } \Pr(X \geq m) \geq 0.5$$` La médiane est robuste à la présence de valeurs *extrêmes*. ``` r egen y_p50=median(y) ``` ] --- # Dispersion .pull-left[ Une autre caractéristique intéressante est la mesure de l'écart d'une variable par rapport à son centre (la moyenne dans ce cas). La *variance* est une telle mesure. `$$Var(X) = \frac{1}{N} \sum_{i=1}^N(x_i-\bar{x})^2$$` Soit deux `distributions normales` ayant une moyenne égale à `0`: ] -- .pull-right[ <img src="1-analyse-de-donnees_files/figure-html/unnamed-chunk-52-1.svg" style="display: block; margin: auto;" /> Commande : ``` r var(x) ``` ] --- # Statistiques descriptives : les commandes stata ## Variables numériques La commande `summarize` (`sum`) permet d’afficher des statistiques de base sur une ou plusieurs variables numériques de la base de données : - la moyenne, l’écart-type et les valeurs extrêmes (min et max). - L’option `detail` permet d’afficher des statistiques plus précises sur la distribution de la ou des variables: médiane et les autres centiles. ``` r summarize gdp population, detail ``` --- # Statistiques descriptives : les commandes stata ## Variable discrète `tabulate` (`tab`) permet d'afficher les tableaux de fréquences (i.e., la distribution) des variables numériques catégorielles ou des variables textuelles : ``` r tabulate country ``` --- # Statistiques croisées ## Deux variables catégorielles Dans le cas où il y a 2 variables spécifiées, `table` produit une table de contingence : ``` r table year country ``` ## Deux variables : catégorielle vs. quantitative ``` r tabstat fertility, by(year) ``` --- # Comment `\(x\)` et `\(y\)` sont associées ? Covariance et corrélation <img src="1-analyse-de-donnees_files/figure-html/x-y-corr-1.svg" style="display: block; margin: auto;" /> On s'intéresse principalement à 2 statistiques pour caractériser la relation entre `\(x\)` et `\(y\)`: 1. Covariance 2. Corrélation --- # Covariance * La covariance est une mesure de la __variabilité jointe__ de deux variables. `$$Cov(x,y) = \frac{1}{N} \sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})$$` -- * Difficile à interpréter car sensible à la dispersions des variables par rapport à la moyenne. --- # Corrélation * La corrélation est une mesure de la force de l' __association linéaire__ entre deux variables. `$$Cor(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)}\sqrt{Var(y)}}$$` -- * La fonction `cor` calcule la corrélation: ``` r cor infant_mortality fertility ``` * On ajoute l'option `cov` si on veut la covariance ``` r cor infant_mortality fertility, cov ``` --- # Corrélation * La **Corrélation est toujours entre -1 et 1!** -- <img src="img/correlation.svg" width="100%" style="display: block; margin: auto;" /> .footnote[ *Source: [mathisfun](https://www.mathsisfun.com/data/correlation.html)* ] --- class: inverse # Exercice 7: statistiques descriptives
−
+
07
:
00
1. Quelle est la moyenne du PIB en 2011 ? 2. La médiane ? 3. Calculez la moyenne de l'espérance de vie par année. 3. Calculez la corrélation entre la fertilité et la mortalité infantile en 2015. --- # [À retenir] Utiliser des do files Dofile = un script contenant une suite de commandes stata .pull-left[ - **Commande vs. script** - Ligne de commande: pratique pour tester - Script de commandes (= `dofile`) : - permet à l'analyse d'être reproductible - Commenter ses dofiles: `//` ``` stata di 1+1 // commentaire sur une ligne /* Commentaire sur plusieurs lignes */ ``` `\(\Rightarrow\)` **toujours** utiliser un script ] -- .pull-right[ - Organiser son travail en **plusieurs dofiles** - ayant une suite logique : - créer la base de donnée `\(\rightarrow\)` statistiques descriptives `\(\rightarrow\)` analyse graphique - ayant des noms significatifs : - `1-construction-data.do` `\(\rightarrow\)` `2-stat-des.do` `\(\rightarrow\)` `3-graph.do` ] --- # [À retenir] Commandes principales en stata | **Tâches** | **Commandes** | |----------------------------|----------------------| | Obtenir de l'aide | `help`, `findit`, `lookfor` | | Utiliser les données Stata | `use`, `save`, `append`, `merge` | | Data management | `reshape`, `collapse` | | Gérer variables | `replace`, `rename`, `encode`, `sort`, `keep`, `drop` | | Gérer observations | `keep if `, `drop if` | | Créer/modifier des variables | `generate`, `replace`, `egen` | | Visualiser les données | `describe`, `list`, `tabulate`, `summarize` | | Calculatrice | `display` | --- layout: false class: slide-question-comprehension # Question de comprehension [Groupe de 2]
−
+
10
:
00
**Choisissez un graphique issu d’un média grand public (article, journal, site internet, rapport) qui concerne une statistique ou une donnée économique.** Précisez les éléments suivant: .left-wide[ - La source et le contexte du graphique. - Une description de ce que représente ce graphique. - Ce que vous trouvez pertinent ou problématique dans ce graphique. - Comment ce graphique peut être interprété ou discuté du point de vue de l’analyse économique et statistique. - Suggérez une analyse statistique complémentaire ] .right-thin[ <img src="digipad1-qrcode.png" width="80%" style="display: block; margin: auto;" /> <div style="text-align: center;"> <a href="https://digipad.app/p/1337346/b590508eec85d">lien</a> </div> ] <div style="clear: both;"></div> <!-- Pour "casser" le flot des colonnes --> [Liste de sources](https://malkaguillot.github.io/econ0212/data-sources.html) --- # Où en sommes nous de notre quête de la causalité ✅ **Comment gérer les données?** Regardez-les, ordonnez-les, visualisez-les... ❌ Comment résumer une relation entre plusieurs variables? ❌ Qu'est ce que la causalité ? ❌ Comment faire si nous n'observons qu'une partie de la population ? ❌ Nos résultats sont ils uniquement dus au hasard? ❌ Comment trouver de l'exogénéité en pratique ? --- class: title-slide-final, middle background-size: 250px background-position: 9% 19% # À LA SEMAINE PROCHAINE ! <a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a> # MERCI À <a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides)