Chapitre 1 : Analyse de données

.title[
# Chapitre 1 : Analyse de données
]
.subtitle[
## Économétrie (ECON0212)
]
.author[
### Malka Guillot
]
.date[
### HEC Liège
]

---

---

# Utiliser des données

* Les `données` sont centrales en économétrie.

* Selon un [article du New York Times de 2014](https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html), "les data scientists [...] passent de ***50 % à 80 % de leur temps*** plongés dans ce travail plus prosaïque de collecte et de préparation de données numériques rebelles, avant de pouvoir les explorer"

* Aujourd'hui : les basiques de l'analyse de données
    - préparation, visualisation et statistiques descriptives

---

# Au menu de cette séance

## Stata 101
## Nettoyer les données
## Transformations avancées (aggrégations, combinaisons...)
## Visualisation
## Statistiques descriptives

---

# Au menu de cette séance

<h2 style="color: #154E55 ;">Stata 101 *Là où les choses sérieuses commencent*</h2>
## Nettoyer les données
## Transformations avancées (aggrégations, combinaisons...)
## Visualisation
## Statistiques descriptives

---

---

# Installation de `Stata`

Cf. [guide sur lola](https://lola.hec.uliege.be/mod/page/view.php?id=46247)

### 1. Téléchargement depuis DOX

-	Mot de passe = stata19hec 
-	Version Windows : https://dox.uliege.be/index.php/s/dXvpvWNjR7KXSkX
-	Version Mac : https://dox.uliege.be/index.php/s/Fp5rXKnrcfYR05C
-	Attention, il faut installer la version stata SE

### 2.	Installation

-	Lancer l'installateur et choisir la version Stata/SE19.
-	Ensuite encoder les autorisations et numéros de séries indiqués sur la [page lola](https://lola.hec.uliege.be/mod/page/view.php?id=46247)

---

# Interface utilisateur de `Stata`
<img src="img/stata-interface.png" width="900px" style="display: block; margin: auto;" />

---

# Glossaire

- `Stata`: le nom du logiciel

- Une ***commande*** : donnée fournie par l'utilisateur.rice que `Stata` comprend
    - Exemples: ouvrir une base de donnée, créer une variable, calculer une moyenne... 
    - ⚠️ Une seule commande par ligne

- Un ***dofile*** : une liste de commandes, contenues dans un fichier texte (extension=`.do`)
    - Chaque commande doit être séparée par une nouvelle ligne
    - L'ordre des commandes dans le script correspond à leur ordre de lecture
    - Ouvrir un dofile :
    
<img src="img/start-dofile.png" width="200px" style="display: block; margin: auto;" />

- Pour lancer une commande dans un dofile :
    - Sélectionner la ligne à lancer et taper `Ctrl`+`D` (Windows) ou `Ctrl`+ `Maj`+`D` (mac)
    - Appuyer sur `Do`

---

# Exercice 1

1. Créer un nouveau dofile (File `$\rightarrow$` New `$\rightarrow$` Do-file). Sauvegarder quelque part sous le nom `1-analyse-de-donnees`.

1. Ecrire le code suivant dans le dofile et compiler (`Ctrl`+`D` or `Ctrl`+`Maj`+`D`). (Vous pouvez surligner le code à compliler, ou compiler sur tout le dofile)

``` stata
set obs 10 /* Génère 10 observations */
gen x = 1 /* crée une variable nommée x et égale à 1 */
```
Bravo ! Vous avez créé votre première variable !

2. Créer une nouvelle variable `y` égale à `$x^2$`.

---

# Trouver de l'aide

- **Directement** dans `Stata` : 
    
    ``` stata
    help command
    ```

- *Limite* : il faut connaître le nom de la `commande`
    - Par exemple: `help regress `
    
- Sur **internet** : 
    - Parfois plus efficace
    - Il vaut mieux faire une recherche en anglais pour avoir plus de réponses
    - Renvoie souvent sur la documentation officielle

- **Intelligence articifielle** (ChatGPT, Prodigy...) :
    - Potentiellement encore plus efficace !
        - Surtout utile quand on a déjà une idée de ce qu'on fait
    - [Example d'utilisation](https://datafordev.com/how-to-analyze-data-in-stata-with-the-help-of-chatgpt/)

---

# Collaborer !

---

# Quand ça tourne mal

.pull-left[
**Du rouge ?** C'est une erreur ! Que faire ? 
1. <span class="alert">La lire</span>  `$\rightarrow$` souvent, la source de l'erreur est expliquée

2. La rechercher sur internet car
    `$P(\textrm{Quelqu'un a déjà eu cette erreur}) >99\%)$`
]

.pull-right[
<img src="../img/content/mug15-back.png" width="80%" style="display: block; margin: auto;" />
]

---

# Importer des données

## `stata` peut importer des données depuis différents formats :

- Format stata : extension `.dta`
    
    ``` stata
    use dataset_name.dta, replace
    ```
--

- Format Excel : extension `.xls` ou `.xlsx`
    
    ``` stata
    import excel using dataset_name.xlsx, firstrow replace
    ```
    - Attention au format du fichier excel: une ligne est une observation, une colonne une variable
--
    
- Format csv : extension `.csv`
    
    ``` stata
    import delimited using dataset_name.txt, delimiters(",") replace
    ```
    - Chaque élément est séparé de l'ensemble des données par un `delimiter` qui peut être : une tabulation, une virgule, un point virgule...

---

# Inspecter des données

Une fois l'ensemble de données chargé, vous pouvez commencer à l'explorer :

- `browse` : Examinez vos données dans la fenêtre d'exploration.

- `edit` : Produit une liste de toutes les variables, leur type de données et leur étiquette

- `sum nom_de_la_variable` : Donne le nombre d'observations, moyenne, min et max des variables spécifiées après `sum`

- `sum nom_de_la_variable, detail` : Donne un résumé plus détaillé de la variable spécifiée

- `tab nom_de_la_variable` : produit un tableau de fréquences qui donne le nombre d'occurrences pour chaque valeur de la variable

---

## Ouvrir une base de données (absolu vs relatif)

### 1️⃣ Chemin absolu  
- **Définit l’emplacement complet depuis la racine du disque**.  
- Fonctionne quel que soit le répertoire de travail actuel.

```stata
* Exemple sous Windows
use "C:\Data\Projet\analyse\mydata.dta", clear

* Exemple sous macOS / Linux
use "/Users/alice/Data/Projet/analyse/mydata.dta", clear
```

⚠️ Attention aux guillemets et aux slashs (Windows: `\` ; macOS/Linux: `/`)

---

### 2️⃣ Chemin relatif

- Part du répertoire de travail (`cd`) courant.

```stata
* Placer le répertoire de travail au niveau du projet
cd "C:\Data\Projet\analyse"      // Windows
cd "/Users/alice/Data/Projet/analyse" // macOS/Linux

* Charger le fichier avec un chemin relatif
use "mydata.dta", clear          // même dossier que le cwd
use "..\raw\rawdata.dta", clear  // dossier parent \raw (Windows)
use "../raw/rawdata.dta", clear  // dossier parent /raw (macOS/Linux)
```

---

# Exercice 2

1. **Importez** la base `gapminder.dta` en format dta (disponible sur lola). 
    - Cette base contient ds données sur l'espérance de vie et le PIB par habitant de nombreux pays.

1. **Quelles variables** contiennent les données ? Vous pouvez utiliser `codebook` ou `describe`.

1. **Inspectez visuellement** les données. Plusieurs solutions pour ouvrir la base de donnée grâce à `browse`
    1. Naviguer dans le menu: `data, data Editor`
    2. Bouton `browse`
    3. Commande : `browse [varlist] [if]` dans la fenêtre de commande ou un dofile

A quoi correspond la variable `pop` ?

---

# Types de variables

- **Numérique** (`float`, `int`) :
    - Exemple: age `$\rightarrow$` `int`; revenu `$\rightarrow$` `float`

- **Texte** (`string`) :
    - Exemple: pays, nom `$\rightarrow$` `string`
    
- **Catégorielle** :
    - Exemple: genre, 
    - Une variable numérique avec un label pour chaque valeur
        - `1="female"`; `2="male"`

---

# Modifier le types de la variable

- texte `$\rightarrow$` numérique

``` r
destring nom_de_la_variable, replace
```

- numérique `$\rightarrow$` texte

``` r
tostring nom_de_la_variable, replace
```

- texte `$\rightarrow$` catégoriel

``` r
encode nom_de_la_variable, gen(variable_encodee)
```

---

# Modifier des données existantes (variables)

- Supprimer une variable  (ou une liste de variables)

``` stata
drop variable_1 variable_2
```

- Sélectioner une variable (ou une liste de variables) [ce qui supprimer les autres]

``` stata
keep variable_1 variable_2
```

- Renommer une variable :

``` stata
rename ancien_nom nouveau_nom
```

- Créer un label :

``` stata
label var nom_de_la variable "Label de la variable"
```

---

# Créer des variables

- On génère une nouvelle variable en lui donnant un nom et en définissant ses valeurs dans une `EXPRESSION`

``` stata
gen nouvelle_variable = EXPRESSION
```

- Une `EXPRESSION` peut être :

- Mathématique, par exemple : 
    
    ``` stata
    gen variable1 = 200 
    gen variable2 = variable1*2 
    ```
    - Du texte (`string` en `stata`), par exemple : 
    
    ``` stata
    gen variable1 = "coucou"
    ```

- Une fonction de variables existantes:

``` stata
gen variable3 = (variable1 + variable2)/2 
```

---

# Modifier la valeur d'une variable

- On peut remplacer la valeur d'une variable (très similaire à `gen`)

- Une fonction de variables existantes:

``` stata
replace une_variable_qui_existe = EXPRESSION 
```

- Remplacement conditionnel :

``` stata
replace age_category = "old" if age > 70 
```

---

# Expressions logiques

- Expressions qui peuvent être utilisées pour préciser la condition : 
    - `==` : égal à 
    - `!=` : non égal à 
    - `<=` : inférieur ou égal à 
    - `>=` : supérieur ou égal à 
    - `<` : strictement inférieur ou égal à 
    - `>` : strictement supérieur ou égal à

- Pour combiner ces conditions, on utilise `&` ou `|`: 
    - `&` = *et*: si les 2 conditions doivent être vérifiées toutes les 2
    
    ``` stata
    gen age_category = "old" if age > 70 & age < 110
    ```
    - `|` = *ou*: si une des conditions seulement doit être vérifiée 
    
    ``` stata
    gen etudiant_hec = "bac" if filiere=="IG" | filiere=="SEG"
    ```

???
Faire un WOOCLAP pour tester le fonctionnement :

J'ai une variable `age` (en année), et je veux créer une nouvelle catégorie "jeune adulte" pour les individus agés de 18 à 30 ans. Quel code fonctionnera ?

``` stata
replace age_category = "young" if age < 30 & age < 18
replace age_category = "young" if age < 30 | age < 18
replace age_category = "young" if age <= 30 & age <= 18
gen age_category = "young" if age <= 30 & age <= 18
replace age_category = "young" if inrange(age , 18, 30)
```

---

# Sélection d'observations

- Garder ou supprimer les observations sous certaines conditions

``` r
keep if CONDITION
drop if CONDITION
```

- Par exemple:

``` stata
/* Sélectionne les pays du continent américain */
keep if continent=="Americas"

/* Supprime les pays américains sauf l'Argentine */
drop if continent=="Americas" & country!="Argentina"
```

⚠️ Comme c'est le cas dans de nombreux logiciels, l'expression logique s'écrit `==`

---

# Exercice 3

1. Combien d'**observations** y a-t-il dans la base de données ouverte précédement (`gapminder`)?

1. Combien de **variables** ? De quel type ?

1. Ne gardez que les observations correspondant au continent `Asia`.

4. Chargez à nouveau la base, puis créez la variable `gdppercap` égale au PIB par habitant grâce au code suivant :
    
    ``` stata
    gen gdppercap = gdp / population
    ```

*Félicitation, vous avez créé votre première variable !* Utilisez la commande `browse` pour la voir dans la base.

---

# Syntaxe de stata

La plupart des commandes ont la syntaxe suivante :

où `[..]` correspond à des options. *Exemples* : 
- `summarize` ou juste `sum`
    - Statistiques descriptives pour toutes les variables
- `summarize gdp`
    - Statistiques descriptives pour le `gdp` uniquement 
- `summarize gdp if year == 1960`
    - Statistiques descriptives pour le `gdp` en 1960

---

# Au menu de cette séance

## Stata 101
<h2 style="color: #154E55 ;">Nettoyer les données</h2>
## Transformations avancées (aggrégations, combinaisons...)
## Visualisation
## Statistiques descriptives

---
layout: true

---

# Valeurs manquantes

* Quand une valeur est maquante, elle est indiquée 
    - `.` pour un variable numérique
    - `""` pour un variable string

* `Stata` propage les manquantes au fur et à mesure:
    
    ``` r
    display . + 10
    ```

* `Stata` assigne la valeur `$+\infty$` à une missing&nbsp;:
    
    ``` r
    display . > 5
    ```
--

* Attention à la propagation des valeurs manquantes:
<img src="../img/content/gapminder-missing-example.png" width="70%" style="display: block; margin: auto;" />

---

# Au menu de cette séance

## Stata 101
## Nettoyer les données
<h2 style="color: #154E55 ;">Transformations avancées (aggrégations, combinaisons...)</h2>
<ul>
  <li style="color: #154E55;"><strong>Aggréger des données:</strong> <code>collapse</code></li>
  <li style="color: #154E55;"><strong>Combiner des données:</strong> <code>merge</code> &amp; <code>append</code></li>
  <li style="color: #154E55;"><strong>Reformater des données:</strong> <code>reshape</code></li>
</ul>

## Visualisation
## Statistiques descriptives

---

# Aggrégation des données `collapse`

La commande collapse transforme la base de données en mémoire en statistiques essentielles sur celle-ci (`sum`=somme ; `mean`=moyenne ; `sd`=ecart-type; `median`=médiane).

* Attention, `collapse` remplace les données en mémoire

---

# Combiner des bases de données : `append`

``` stata
use economy2004.dta, replace
append using economy2005.dta
```

---

# Combiner des bases de données : `merge`
<img src="img/stata-merge-11.png" width="70%" style="display: block; margin: auto;" />

``` stata
use economy2004.dta, replace
merge 1:1 country using economy2005.dta
```

---

# Formats wide et long et transposition des données : `reshape`

* Long -> Wide
    
    ``` r
    reshape (wide) lifeexp, i(year) j(country)
    ```

* Wide -> Long
    
    ``` r
    reshape (long) lifeexpA lifeexpB lifeexpC, i(year) j(country)
    ```

---

# Exercice 4 : Nettoyage des données

On utilise la base `gapminder` précédement importée.

1. Quelles années ont des valeurs manquantes pour le PIB ?

2. Quel pays a l'éspérance de vie la plus élevée pour une population de plus d'un milliard en 2007 ?

3. Quelle est la moyenne de l'espérance de vie par continent et par an ? (Vous pouvez utiliser la fonction `collapse`)

*Syntaxe de collapse* : `collapse (mean) VAR1 VAR2 VAR3, by(VAR_CATEGORIELLE)`

---

# Au menu de cette séance

## Stata 101
## Nettoyer les données
## Transformations avancées (aggrégations, combinaisons...)
<h2 style="color: #154E55 ;">Visualisation</h2>
## Statistiques descriptives

---
layout: true

---

# Visualiser des données

**<p style="text-align: center;">Comment choisir la représentation graphique adaptée ? </p>**
Ca dépend des variables étudiées, et notamment : 
- 1 2 (ou 3) variables
- Continue ou discrète

???
- The histogram (top left): `histogram mpg`.
- The two-way scatterplot (second column, first row): `scatter price mpg`.
- The scatterplot matrix (third column, first row): `graph matrix mpg turn trunk length`.
- The box-and-whisker plot (upper-right corner): `graph box weight, over(foreign, total)`.
- The bar chart: `graph bar rep1-rep5`.
- The horizontal-bar chart: `typing graph hbar (mean) mpg, over(manuf)`.
- The dot chart : `graph dot (mean) mpg, over(manuf)`.
- The line graph : `line weight mpg, sort`.

---

# Visualiser des données - 1 variable

## Variable continue
- ***Histogramme*** : visualiser la distribution d'une variable

``` stata
histogram variable_1
```

- ***Densité*** : visualiser la distribution d'une variable

``` stata
kdensity variable_1
```

---

# Visualiser des données - 1 variable

## Discrète
- ***Diagramme *en bâton* *** (*bar chart*): variable
    - Si la variable discrete est numérique: 
    
    ``` stata
    hist variable_qualitative, discrete
    ```
    - Sinon, la transformer en numérique 😉.

---

# Visualiser des données - 2 variables

- ***Scatter plot*** : montrer les valeurs d'une variable en fonction de l'autre:

``` stata
twoway scatter variable_1 variable_2
```

- ***Diagramme *en bâton* *** (*bar chart*): variable quantitative selon les valeurs d'une variable qualitative (ou catégorielle)

``` stata
graph bar (mean) variable_quantitative, over(variable_qualitative)
```

---

# Une base de donnée "propre"

1. Chaque ***colonne*** correspond à une variable

1. Chaque ***ligne*** correspond à une observation

### Avant de procéder à la visualisation, il faut se demander :

1. Quelle information veux-je représenter ?
    - Faire en particulier attention à la présence de potentielles variables manquantes 
    
1. Est ce que les données contiennent cette information telle que ***une colonne/ligne*** correspond à ce que je veux représenter ?
    - Eventuellement utiliser `collapse` et ou `reshape` pour transformer les données

---

# Types de visualisation

Quelques exemples des types de graphiques les plus utilisés:

- Commande `twoway` + type de graphique

- Commande `graph` + type de graphique

| Type | Function |
|:----:|:--------:|
| Bar | `bar` |
| Boxplot | `box` |

---

# Exercice 6 : Premiers graphiques

On utilise les données `gapminder`.

1. L'histogramme des espérances de vie en 2007. Ensuite, précisez la couleur en ajoutant l'option `color(green)` (*il faut mettre les options après une virgule*).

2. Un **scatter plot** du taux de fertilité (y-axis) vs. pib par habitant (x-axis) en 2007. Ensuite, spécifiez les titres des axes.

3. [CHALLENGE] Représentez l'évolution de l'espérance de vie au cours du temps par continent.
	* Il va falloir aggréger les données au niveau continent X year => vous pouvez faire cela avec une commande `collapse`
	* Il est ensuite plus simple de changer la forme des données pour les transformer de "long" en "wide" en utilisant un `reshape`

---

# Au menu de cette séance

## Stata 101
## Nettoyer les données
## Transformations avancées (aggrégations, combinaisons...)
## Visualisation
<h2 style="color: #154E55 ;">Statistiques descriptives</h2>

---

---

# Synthétiser les données

* En général, on apprend à connaître ses données par des visualisations + calculs de statistiques descriptives

* C'est l'heure des **statistiques descriptives** !
    - Utilisées pour décrire les données et simplifier l'information à partir de différentes mesures, tableaux et graphiques

- (VS. ***statistiques inférentielles*** qui permettent ensuite de généraliser les résultats à la population d’intérêt.)
    
--

* En particulier, nous nous intéressons aux **tendances centrales** et à la **dispersion**.

---

# Tendances centrales

.pull-left[
`mean(x)`: la moyenne de toutes less valeurs de `x`.
`$$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$$`

``` r
set obs 100
gen y = rnormal()
egen y_mean=mean(y)
```
]

.pull-right[
`Médiane`: la valeur de `$x_j$` qui partage les observations en 2 parties égales (50% au dessus, 50% en dessous). `$m$` est la médiane si
    `$$\Pr(X \leq m) \geq 0.5 \text{ and } \Pr(X \geq m) \geq 0.5$$`
    
La médiane est robuste à la présence de valeurs *extrêmes*.

``` r
egen y_p50=median(y)
```
]

---

# Dispersion

.pull-left[
Une autre caractéristique intéressante est la mesure de l'écart d'une variable par rapport à son centre (la moyenne dans ce cas).

La *variance* est une telle mesure.

`$$Var(X) = \frac{1}{N} \sum_{i=1}^N(x_i-\bar{x})^2$$`
    
Soit deux `distributions normales` ayant une moyenne égale à `0`:
]

.pull-right[
<img src="1-analyse-de-donnees_files/figure-html/unnamed-chunk-52-1.svg" style="display: block; margin: auto;" />

Commande :

``` r
var(x)
```
]
---

# Statistiques descriptives : les commandes stata

## Variables numériques

La commande `summarize` (`sum`) permet d’afficher des statistiques de
base sur une ou plusieurs variables numériques de la base de données :
- la moyenne, l’écart-type et les valeurs extrêmes (min et max).       
- L’option `detail` permet d’afficher des statistiques plus précises sur la distribution de la ou des variables: médiane et les autres centiles.

``` r
summarize gdp population, detail
```

---

# Statistiques descriptives : les commandes stata

## Variable discrète

`tabulate` (`tab`) permet d'afficher les tableaux de fréquences (i.e., la distribution) des variables numériques catégorielles ou des variables textuelles :

``` r
tabulate country
```

---

# Statistiques croisées

## Deux variables catégorielles

Dans le cas où il y a 2 variables spécifiées, `table` produit une table de contingence :

``` r
table year country
```

## Deux variables : catégorielle vs. quantitative

``` r
tabstat fertility, by(year)
```

---

# Comment `$x$` et `$y$` sont associées ? Covariance et corrélation

On s'intéresse principalement à 2 statistiques pour caractériser la relation entre  `$x$` et `$y$`:
1. Covariance

2. Corrélation

---

# Covariance

* La covariance est une mesure de la __variabilité jointe__ de deux variables.
    `$$Cov(x,y) = \frac{1}{N} \sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})$$`

* Difficile à interpréter car sensible à la dispersions des variables par rapport à la moyenne.

---

# Corrélation

* La corrélation est une mesure de la force de l' __association linéaire__ entre deux variables.
    `$$Cor(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)}\sqrt{Var(y)}}$$`

* La fonction `cor` calcule la corrélation:

``` r
cor infant_mortality fertility
```

* On ajoute l'option `cov` si on veut la covariance

``` r
cor infant_mortality fertility, cov
```

---

# Corrélation

* La **Corrélation est toujours entre -1 et 1!**

---

# Exercice 7: statistiques descriptives

1. Quelle est la moyenne du PIB en 2011 ?

2. La médiane ?

3. Calculez la moyenne de l'espérance de vie par année.

3. Calculez la corrélation entre la fertilité et la mortalité infantile en 2015.

---

# [À retenir] Utiliser des do files
Dofile = un script contenant une suite de commandes stata

.pull-left[
- **Commande vs. script** 
    - Ligne de commande: pratique pour tester  
    - Script de commandes (= `dofile`) : 
        - permet à l'analyse d'être reproductible
    - Commenter ses dofiles: `//`

``` stata
    di 1+1 // commentaire sur une ligne
    
    /* 
    Commentaire sur plusieurs lignes
    */
```
`$\Rightarrow$` **toujours** utiliser un script
]
--
.pull-right[
- Organiser son travail en **plusieurs dofiles**
    - ayant une suite logique : 
        - créer la base de donnée `$\rightarrow$` statistiques descriptives `$\rightarrow$` analyse graphique
        
    - ayant des noms significatifs :
        - `1-construction-data.do` `$\rightarrow$` `2-stat-des.do` `$\rightarrow$` `3-graph.do`
]

---

# [À retenir] Commandes principales en stata

| **Tâches**  | **Commandes** |
|----------------------------|----------------------|
| Obtenir de l'aide           | `help`, `findit`, `lookfor` |
| Utiliser les données Stata  | `use`, `save`, `append`, `merge` |
| Data management             |  `reshape`, `collapse` |
| Gérer variables             |  `replace`, `rename`, `encode`, `sort`,  `keep`, `drop`  |
| Gérer observations              |  `keep if `, `drop if`  |
| Créer/modifier des variables        | `generate`, `replace`,  `egen` |
| Visualiser les données      | `describe`, `list`, `tabulate`, `summarize` |
| Calculatrice                   | `display` |

---

# Question de comprehension [Groupe de 2]

<div class="countdown" id="timer_87a7acbb" data-update-every="1" tabindex="0" style="top:0;right:0;">
<div class="countdown-controls"><button class="countdown-bump-down">−</button><button class="countdown-bump-up">+</button></div>
<code class="countdown-time"><span class="countdown-digits minutes">10</span><span class="countdown-digits colon">:</span><span class="countdown-digits seconds">00</span></code>
</div>
 
**Choisissez un graphique issu d’un média grand public (article, journal, site internet, rapport) qui concerne une statistique ou une donnée économique.** Précisez les éléments suivant:

.left-wide[
- La source et le contexte du graphique.
- Une description de ce que représente ce graphique.
- Ce que vous trouvez pertinent ou problématique dans ce graphique.
- Comment ce graphique peut être interprété ou discuté du point de vue de l’analyse économique et statistique.
- Suggérez une analyse statistique complémentaire
]

.right-thin[
<img src="digipad1-qrcode.png" width="80%" style="display: block; margin: auto;" />
<div style="text-align: center;">
  <a href="https://digipad.app/p/1337346/b590508eec85d">lien</a>
</div>
]
<div style="clear: both;"></div>

[Liste de sources](https://malkaguillot.github.io/econ0212/data-sources.html)

---

# Où en sommes nous de notre quête de la causalité

✅ **Comment gérer les données?** Regardez-les, ordonnez-les, visualisez-les...

❌  Comment résumer une relation entre plusieurs variables?

❌ Qu'est ce que la causalité ?

❌ Comment faire si nous n'observons qu'une partie de la population ?

❌  Nos résultats sont ils uniquement dus au hasard?

❌ Comment trouver de l'exogénéité en pratique ?

---

class: title-slide-final, middle
background-size: 250px
background-position: 9% 19%

# À LA SEMAINE PROCHAINE !

<a href="mailto:mguillot@uliege.be"> mguillot@uliege.be</a>
                                                                               
# MERCI À
<a href="mailto:florian.oswald@sciencespo.fr"> Florian Oswald</a> et à toute l'équipe de ScPoEconometrics pour le [livre](https://scpoecon.github.io/ScPoEconometrics) et leurs [ressources](https://github.com/ScPoEcon/ScPoEconometrics-Slides)