MODULE
n°2 : METHODES NUMERIQUES POUR LES
SCIENCES SOCIALES
(co-organisé par Julien Boelaert,
Etienne
Ollion et Julie
Pagis)
Présentation :
• Données de l’internet, big data,
données numérique, web sémantique, …
ces termes ont fait une fulgurante apparition dans
les sciences sociales. Dans les discours d'abord, où
ils sont régulièrement convoqués pour évoquer le
futur de la recherche. Dans les pratiques ensuite,
puisque les chercheurs sont régulièrement confrontés
à des données de ce type, sans toujours pouvoir
saisir les opportunités empiriques qu’elles
offrent. Qu’il s’agisse d’informations
issues de l’internet, de bases de données ou
d’informations stockées sur un disque dur, ou même
de textes papiers scannés, un matériau parfois
extrêmement riche est à portée de main, à
condition de le repérer et savoir le traiter.
Ces données intéressent les chercheurs en sciences
sociales dans leur ensemble, car qu’ils
fassent des traitements quantitatifs ou non,
tous peuvent avoir recours aux méthodes numériques
pour collecter, stocker et traiter ces données.
• L’objectif de cette formation est de proposer une introduction à la collecte et à la curation de ces
diverses données numériques. Il s’agira
d’apprendre à les localiser, à mettre en place
une stratégie pour les collecter, les nettoyer et
les préparer en vue d’un traitement. Cet
apprentissage ne sera pas dissocié d’une réflexion
sur les enjeux que pose leur utilisation. L’accent
sera mis sur les divers types de données,
leurs avantages et leurs limites. L'atelier
alternera cours et mises en pratique, afin de présenter
les techniques qui permettent simplement de tirer
profit des différentes informations. Concrètement,
il s’agira :
-de présenter
les enjeux scientifiques qui entourent la
multiplication des données numériques dans nos
pratiques de recherche
-d'identifier
les diverses données numériques utilisables pour
mener à bien un projet
-d'élaborer
une stratégie simple de collecte et de nettoyage de
ces données
•
Le module sera articulé autour d’un apprentissage concret des
techniques en deux temps : d’abord un cours
qui introduit les principales méthodes, puis un
atelier qui permet son application à des cas
concrets. Cette formule sera complétée par une
introduction à différentes techniques de
traitement des données (réseaux, analyse de données,
lexicométrie, machine
learning). Une séance sera consacrée aux
aspects juridiques de la collecte des données.
•
La majorité des tâches sera menée avec le logiciel R. Libre,
multiplateforme et utile aux chercheurs en sciences
sociales pour d’autres tâches, il sera présenté
progressivement.
Pré-requis : La participation à ce module n’exige aucune
connaissance préalable en informatique ou en statistique.
Intervenants :
• Marie
Bergström
(Sociologue, INED), Julien
Boelaert (Economiste, Post-Doctorant, SAGE), Milan
Bouchet-Valat
(Sociologue, OSC, Université Paris 8), Dominique
Cardon
(Sociologue, Orange Lab), Samuel
Coavoux
(Sociologue, Centre Max Weber), Baptiste
Coulmont (Sociologue, CSU, Université Paris
8), Etienne
Ollion (Sociologue,
CNRS, Sage), Thomas
Soubiran (Méthodes Statistiques, CNRS,
CERAPS), Fabien Tarissan
(Informatique,
CNRS, ISP), Jean-Luc
Tessier (Responsable
du service SPIN et Correspondant Informatique et
Libertés, Université Lille 2).
Programme provisoire (certains
titres seront affinés ultérieurement) :
|
|
Objet
|
|
Collectif
|
Accueil, présentation de la Plateforme universitaire
des données de Lille (PUDL)
|
Jeudi
30 juin
après midi 14h-17h
|
Julien
Boelaert & Étienne Ollion
|
Cours 1 :
Stratégies numériques pour les sciences
sociales et prise en main du logiciel
|
Vendredi
1er juillet
matin
|
Julien
Boelaert & Étienne Ollion
|
Cours
2 : Comment s’écrit le web (et comment
le lire) ?
|
Vendredi
1er juillet
après-midi
|
Dominique
Cardon
|
Présentation
invitée: sur le projet Algopol et la
gouvernance des algorithmes
|
Samedi
2 juillet
matin
|
Marie
Bergström
|
Présentation
invitée : Faire de la sociologie du
couple avec des données numériques
|
Lundi
4 juillet
matin
|
Julien
Boelaert & Étienne Ollion
|
Cours 3 :
Comment sélectionner des données (1) :
Xpath
|
Lundi
4 juillet
après-midi
|
Jean-Luc
Tessier et Thomas Soubiran
|
Enjeux
juridiques de la collecte de données numériques
|
Mardi
5 juillet
matin
|
Julien
Boelaert & Étienne Ollion
|
Cours 4 :
Automatisation et stockage
|
Mardi
5 juillet
après-midi
|
Fabien
Tarissan
|
Présentation
invitée : Analyse de réseaux pour les
sciences sociales
|
Mercredi
6 juillet
matin
|
Julien
Boelaert & Étienne Ollion
|
Cours
5 : Comment sélectionner des données (2) :
Expressions régulières
|
Mercredi
6 juillet
après-midi
|
Milan
Bouchet-Valat et Samuel Coavoux
|
Présentations
invitées : Analyses lexicométriques
|
Jeudi
7 juillet
matin
|
Baptiste
Coulmont
|
Présentation
invitée : Cartographier sous R
|
Jeudi
7 juillet
après-midi
|
Julien
Boelaert & Étienne Ollion
|
Introduction
raisonnée à l’apprentissage statistique (machine
learning)
|
|