MODULE
n°1 : METHODES NUMERIQUES POUR LES
SCIENCES SOCIALES
(co-organisé par Julien Boelaert,
Etienne
Ollion et Julie
Pagis)
Présentation :
Comment
utiliser des données de l'internet dans le cadre
d'une recherche en sciences sociales? L’objectif
de cette formation est de proposer
une introduction à la collecte automatisée et à
la curation de ces données numériques. Il
s’agira d’apprendre à les localiser, à mettre
en place une stratégie pour les collecter, les
nettoyer et les préparer en vue d’un traitement.
Cet apprentissage ne sera pas dissocié d’une réflexion
sur les enjeux que pose leur utilisation. L’accent
sera mis sur la diversité des types de données,
leurs avantages comme leurs limites.
Le
module sera articulé autour d’un apprentissage
des techniques en deux temps : d’abord un
cours qui introduit les principales méthodes, puis
un atelier qui permet son application à des cas
pratiques. Des présentations invitées de
chercheurs ayant eu recours à ces données
viendront compléter la formation (réseaux, analyse
de données, lexicométrie). Une séance sera
consacrée aux aspects juridiques de la collecte des
données.
Concrètement,
l'objectif de cette école d'été est :
-
D'aider les étudiants à identifier les diverses données numériques
utilisables pour mener à bien un projet
-De présenter des techniques simples de collecte et de nettoyage de ces
données
-De discuter les enjeux scientifiques qui entourent l'utilisation et la
multiplication des données numériques dans les
pratiques de recherche
Les
savoirs acquis ne sont pas limités aux données
d'internet, car les techniques présentées sont
transposables à d'autres situations, dont des bases
de données ou d’informations stockées sur un
disque dur, des textes papiers scannés, une série
d’articles stockées en PDF. Avec la numérisation
du quotidien, un matériau parfois extrêmement
riche est à portée de main, à condition de le repérer et
savoir le traiter. Ces données intéressent donc
les chercheurs en sciences sociales dans leur
ensemble, car qu’ils fassent des traitements
quantitatifs ou non, tous peuvent avoir recours aux
méthodes numériques pour collecter, stocker et
traiter ces données.
Pré-requis
: La
participation à ce module n’exige pas de
connaissances préalables en informatique et encore
moins en statistique, mais une aisance minimale avec
un ordinateur est bienvenue. La majorité des tâches
sera menée avec le logiciel de programmation R,
pour lequel une rapide introduction sera proposée.
Intervenants :
• Marie
Bergström (Sociologue,
INED), Julien
Boelaert (Economiste, SAGE-Strasbourg), Samuel Coavoux (Sociologue, Centre Max Weber), Etienne
Ollion
(Sociologue, CNRS, SAGE-Strasbourg),
Julie Pagis (Science politique, IRIS, EHESS), Thomas
Soubiran (Méthodes
Statistiques, CNRS, CERAPS), Fabien
Tarissan (Informatique,
CNRS, ISP), Jean-Luc
Tessier (Responsable
du service SPIN et Correspondant Informatique et
Libertés, Université de Lille).
Programme provisoire (certains
titres seront affinés ultérieurement) :
|
|
|
Jeudi
28 juin
matin
|
PUDL
|
Accès
aux données de la statistique publique et
ressources de données en ligne
|
Jeudi
28 juin
après-midi
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Stratégies
numériques pour les sciences sociales
|
Vendredi
29 juin
matin
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Introduction
à R et prise en main du logiciel
|
Vendredi
29 juin
après-midi
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Comment
s’écrit le web (et comment le lire) ?
|
Samedi
30 juin
matin |
Marie
Bergström
|
De
quoi l'écart d'âge est-il le nombre?
Croiser données d'enquête et big data pour
faire de la sociologie du couple
|
Lundi
2 juillet
matin
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Sélection
de données
Xpath
|
Lundi
2 juillet
après midi
|
Jean-Luc
Tessier, Thomas Soubiran
|
La
réglementation relative aux données
personnelles en SHS
|
Mardi
3 juillet
matin
|
Fabien Tarissan
|
Introduction
à Selenium
L’éthique des algorithmes
|
Mardi
3 juillet
après-midi
|
Fabien
Tarissan
|
Analyse
de réseaux sur un corpus de texte de lois
|
Mercredi
4 juillet
matin
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Automatisation
et stockage (1)
|
Mercredi
4 juillet
après-midi
|
Samuel
Coavoux
|
Big
Corpus. Classifier des données textuelles
|
Jeudi
5 juillet
matin
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Sélection
et nettoyage de données:
Les
expressions régulières
|
Jeudi
5 juillet
après-midi
|
Julien
Boelaert, Etienne Ollion, Julie Pagis
|
Automatisation
et stockage (2)
|
|
MODULE
n°2 : LA
CONSTRUCTION QUANTITATIVE DES TYPOLOGIES : méthodes
de classification et analyses factorielles
(co-organisé par Nicolas
Robette et Thomas
Soubiran)
Présentation :
•
Comment
construire des typologies ou des classifications à
partir de données quantitatives? La démarche typologique ou classificatoire est au
fondement même du projet scientifique, tant dans
les sciences sociales que dans les sciences de la
nature. Pourtant, les méthodes quantitatives
permettant d’encadrer empiriquement la
construction de ces typologies ne sont pas toujours
bien connues des chercheurs. Or, ces dernières années,
ont émergé un ensemble de méthodes nouvelles pour
créer des typologies ou des classements à partir
de l’analyse géométrique des données (AGD) et
des méthodes de classification.
• L’objectif
de ce module sera précisément de se centrer sur
cette opération de classification centrale dans les
travaux de sciences humaines et sociales en présentant
les principes épistémologiques qui fondent chacune
de ces méthodes de classification, leur mode
d’articulation avec l’analyse
géométrique des données (AGD),
l’intérêt et les limites de chacune d’elles
ainsi que les outils qui permettent d’en faire un
usage judicieux.
• Le
module sera articulé autour d’un
apprentissage des différentes méthodes de
classification articulée avec celles de l’analyse
des correspondances.
Un cours présentera chaque méthode puis elle sera
mise en œuvres par les stagiaires sur des cas
pratiques.
Pré-requis : La
participation à ce module n’exige aucun pré-requis
statistique, mais la lecture d’une ou plusieurs
des références bibliographiques qui seront envoyées
à l’avance aux stagiaires est souhaitable.
Intervenants :
• Germain
Barré (Sociologue, LABERS, UBO), Julien
Boelaert (Economiste,
SAGE-Strasbourg), Samuel
Coavoux (Sociologue, Centre Max Weber),
Frédéric Lebaron (Sociologue, ENS-Saclay), Ivaylo Petev (Sociologue, CNRS, LSQ-CREST), Nicolas
Robette (Sociologue, LSQ-CREST), Thomas
Soubiran (Méthodes Statistiques, CNRS, CERAPS).
Programme provisoire (certains
titres seront affinés ultérieurement) :
|
|
Intitulés des séances
|
|
PUDL
|
Accès aux données de la
statistique publique et ressources de données
en ligne
|
Jeudi 28 juin
après-midi
|
Nicolas Robette et Thomas Soubiran
|
Un panorama des méthodes
de classification
|
Vendredi 29 juin
matin
|
Nicolas Robette et Thomas Soubiran
|
Un
panorama des méthodes de classification
(suite)
|
Vendredi
29 juin
après-midi
|
Samuel Coavoux
|
L’analyse des
correspondances : présentation théorique
|
Samedi
30 juin
matin
|
Samuel Coavoux
|
Mise
en pratique sur poste
|
Lundi
2 juillet
matin
|
Frédéric Lebaron
|
Analyse
des correspondances et classification
ascendante hiérarchique : l’exemple du
banquier central
|
Lundi
2 juillet
après midi
|
Frédéric Lebaron
|
Mise
en pratique sur poste
|
Mardi
3 juillet
matin
|
Ivaylo Petev
|
Tests d'hypothèses et classification avec les méthodes d'Analyse en
Classes Latentes
|
Mardi
3 juillet
après-midi
|
Ivaylo Petev
|
Mise
en pratique sur poste
|
Mercredi
4 juillet
matin
|
|
Les
classifications en analyse des réseaux
sociaux
|
Mercredi
4 juillet
après-midi
|
Germain Barré
|
Mise
en pratique sur poste
|
Jeudi
5 juillet
matin
|
Julien Boelaert
|
Les
algorithmes de "clustering" en
"machine learning": les cartes de
Kohonen
|
Jeudi
5 juillet
après-midi
|
Julien Boelaert
|
Mise
en pratique sur poste
|
|