Ecole de Lille en Méthodes Quantitatives des Sciences Sociales-Quantilille-Programme

Ecole d'été de Lille
en Méthodes Quantitatives des Sciences Sociales

Organisée par Jean-Gabriel Contamin, Emmanuel Pierru, Julie¨Pagis et Etienne Penissat

Présentation de l'école

Programme 2012

Modalités d'inscription

Financement

Organisation pratique

Archives

Pour remplir
le dossier de candidature 2012 : ici

Pour télécharger
l'affiche 2012 :

Programme 2012

• En 2012, l'école d'été de Lille aura lieu du jeudi 28 juin au matin au jeudi 5 juillet dans l'après-midi.

• Elle sera organisée autour de deux modules :
- l'un sur "L'analyse statistique des données textuelles"
- l'autre intitulé "Compter et classer : La construction quantitative des typologies"

• Chaque module regroupe au plus 20 participants. Les deux modules se déroulent en parallèle. Les participants doivent donc choisir l'un ou l'autre des modules. Les enseignements ont lieu exclusivement en français.

• Un repas de début de formation est offert aux participants le 28 juin à midi. Un repas de fin de formation leur est offert le 4 juillet au soir. Un petit déjeuner 'minimal' est proposé tous les matins.

MODULE n°1 : L'ANALYSE STATITIQUE DES DONNEES TEXTUELLES

(co-organisé avec Mathieu Brugidou)

Présentation :

• L’analyse quantitative des données textuelles appliquées aux sciences sociales a connu depuis une vingtaine d’années d’importants progrès méthodologiques [Lebart et Salem, 1994]. Ces avancées tiennent notamment au rapprochement de préoccupations de statisticiens, de linguistes [Rastier, 1991], d’informaticiens mais aussi de chercheurs en sciences humaines et sociales (politistes, sociologues, historiens, spécialistes de sciences de la communication,…). Ces progrès ont donné des moyens nouveaux au traitement du langage naturel - écrit et de plus en plus oral -, permettant d’envisager l’analyse de corpus importants de textes qui concernent des objets d’étude aussi différents que les discours politiques, les contenus journalistiques écrits ou oraux, les controverses médiatiques, les forums internet ou des énoncés produits par des dispositifs d’enquêtes comme des questionnaires (analyse des questions ouvertes), des entretiens individuels ou collectifs.

• Différentes familles de méthodes se rattachent à l’analyse des données textuelles (ADT). Elles peuvent être caractérisées à la fois par la définition et la place qu’elles donnent au langage dans le projet scientifique des sciences sociales [Leimdorfer, 2010], par le type de faits et de données socio-linguistiques qu’elles étudient et construisent et par les formes de raisonnement qu’elles autorisent. Ces différents types de « preuves » peuvent en effet relever d’une statistique descriptive ou inférentielle, d’une linguistique de la signification - privilégiant la représentation - ou d’une linguistique du sens - la langue étant conçue d’abord comme un moyen de communication - ou encore des différents programmes épistémologiques mis en œuvre par les sciences sociales. Elles s’incarnent, de plus, de manière privilégiée dans des programmes informatiques qui s’avèrent ainsi indissociablement des programmes épistémologiques. Elles supposent enfin des manières différenciées de constituer et de travailler les corpus. Entre l’analyse des controverses dans les médias ou le web, l’étude de l’opinion publique ou l’étude des discours politiques ou syndicaux, entre une perspective synchronique et une perspective diachronique, ce sont des objets différents qu’on travaille, des questions différentes que l’on se pose et des usages variés qu’on en faits.

• Cette formation aura précisément pour objet d’introduire les stagiaires à l’ensemble des méthodes proposées en matière d’analyse quantitative des données textuelles en leur permettant de découvrir, à partir d’exemples, de corpus et de logiciels diversifiés, la variété des usages qui peuvent en être faits en sciences humaines et sociales. Il s’agira de présenter et de faire découvrir en atelier à la fois, les « tours de main », les manipulations du praticien habile et les épistémologies induites dans les algorithmes.

Pré-requis : La participation à ce module n’exige aucun pré-requis statistique, mais la lecture d’une ou plusieurs des références bibliographiques qui seront envoyées à l’avance aux stagiaires est souhaitable.

Intervenants :

• Gilles Bastin (sociologue, IEP de Grenoble), Valérie Beaudouin (statisticienne-économiste, Télécom-ParisTech), Milan Bouchet-Valat (sociologue, doctorant, OSC), Mathieu Brugidou (politiste, EDF R et D, Pacte, Grenoble), Serge Heiden (linguistique, ENS Lyon), Dominique Labbé (politiste, Université Grenoble 2), Ludovic Lebart (statisticien, CNRS, Telecom-ParisTech), Michèle Moine (statisticienne, UPMF Grenoble), André Salem (Sciences du langage, Université de Paris 3)

Programme :

Jours	Enseignants	Objet
Jeudi 28 juin matin	*Ludovic Lebart*	Principes généraux de l’analyse quantitative des données textuelles
Jeudi 28 juin après-midi	*André Salem*	L’analyse lexicométrique
Vendredi 29 juin matin	*André Salem*	Mise en pratique sur poste à partir de données historiques (Lexico 3)
Vendredi 29 juin après-midi	Ludovic Lebart	(suite)
Samedi 30 juin matin	*Serge Heiden*	L'analyse textométrique avec la plateforme open-source TXM
Lundi 2 juillet matin	*Dominique Labbé*	Théorie des statistiques lexicales
Lundi 2 juillet après-midi	*Dominique Labbé*	Mise en pratiques sur des corpus politiques et syndicaux
Mardi 3 juillet matin	*Gilles Bastin et Milan Bouchet-Valat*	L’analyse des processus de médiatisation : le text mining appliqué à un corpus radiophonique
Mardi 3 juillet après-midi	*Gilles Bastin et Milan Bouchet-Valat*	Mise en pratiques.
Mercredi 4 juillet matin	*Mathieu Brugidou et Michèle Moine*	L’étude des opinions via l’analyse quantitative des questions ouvertes
Mercredi 4 juillet après-midi	*Mathieu Brugidou et Michèle Moine*	Mise en pratiques (Alceste, Tropes)
Jeudi 5 juillet matin	*Valérie Beaudouin*	L’analyse quantitative appliquée aux corpus issus d’Internet : contenu des sites et réception
Jeudi 5 juillet après-midi	*Mathieu Brugidou*	Bilan et retour sur le panorama des différentes formes d’études quantitatives des données textuelles

MODULE n°2 : COMPTER ET CLASSER : LA CONSTRUCTION QUANTITATIVE DES TYPOLOGIES

(co-organisé avec Bruno Cautrès)

Présentation :

• La démarche typologique ou classificatoire est au fondement même du projet scientifique, tant dans les sciences sociales que dans les sciences de la nature. Il s’agit de synthétiser l’information contenue dans une réalité foisonnante par la constitution de groupes à forte homogénéité interne.

• Initialement fondée sur une pratique essentiellement empirique, cette perspective a progressivement été mise en théories et en méthodes au point qu’on en est venu à opposer une démarche de classification, fondée sur des méthodes quantitatives et popperiennes qui serait le fait des sciences de la nature, et une démarche idéale-typique plus impressionniste qui serait le fait des sciences humaines et sociales [Passeron, 1994].

• Cette dichotomisation conduit toutefois à négliger que, dans ces disciplines aussi, se sont développées depuis déjà longtemps un ensemble de méthodes statistiques qui visent à encadrer quantitativement les procédures de construction des catégories de sorte que celles-ci proviennent des données elles-mêmes plutôt que de la subjectivité de l’expérimentateur (par exemple, la classification ascendante hiérarchique). Cet oubli semble d’autant plus dommageable que se sont multipliés, ces dernières années, à partir de l’analyse géométrique des données (AGD), un ensemble de méthodes nouvelles pour créer des types, soit au niveau des individus, soit au niveau de données agrégées (ellipses de concentration, classifications multivariées, analyse spécifique de classes d’individus (‘class specific analysis’), analyse des classes latentes (‘Latent class analysis’).

• L’enjeu de ce module sera précisément de se centrer sur cette opération souvent centrale dans les travaux de sciences humaines et sociales –l’opération de catégorisation-, mais que les formations tendent à négliger comme si elle n’était qu’un avatar de l’usage des analyses factorielles, en présentant à la fois les principes épistémologiques qui fondent chacune de ces méthodes de classification, leur mode d’articulation avec l’AGD, l’intérêt et les limites de chacune d’elles ainsi que les outils qui permettent d’en faire un usage aussi judicieux que possible.

• Pour ce faire, il fera intervenir des spécialistes relevant de champs disciplinaires très diversifiés (démographie, géographie, sociologie, science politique, statistiques) qui recourent eux-mêmes à des formes de classifications innovantes et différentes.

Prérequis : Connaissances de base en analyse tabulaire (tris à plat, tris croisés,…).

Intervenants :

• Bruno Cautrès (politiste, CNRS-Cevipof), Jean Chiche (statisticien, CNRS, Cevipof), Philippe Coulangeon (sociologue, CNRS-OSC), Frédéric Lebaron (sociologue, Amiens), Emmanuel Pierru (politiste, CNRS-CERAPS), Jean Rivière (géographe, Université de Caen), Ionela Roharik (CNRS-CESPRA), Nicolas Robette (démographe, Versailles-Saint-Quentin)

Programme provisoire :

Jours	Enseignants	Objet
Jeudi 28 juin matin	Bruno Cautrès (sous réserve)	Principes généraux de l’analyse multivariée et des méthodes de classification
Jeudi 28 juin après-midi	*Bruno Cautrès*	(suite)
Vendredi 29 juin matin	*Jean Chiche*	Retour sur les analyses géométriques des données : l’exemple des données électorales
Vendredi 29 juin après-midi	*Frédéric Lebaron*	Analyse des correspondances et classification ascendante hiérarchique : l’exemple du banquier central
Samedi 30 juin matin	*Frédéric Lebaron*	Mise en pratique sur poste
Lundi 2 juillet matin	*Jean Rivière*	Les classifications multivariées : les typologies de territoires électoraux
Lundi 2 juillet après-midi	*Jean Rivière*	Mise en pratiques sur poste
Mardi 3 juillet matin	*Nicolas Robette*	L’articulation entre études de séquences et démarche typologique : l’étude des trajectoires biographiques
Mardi 3 juillet après-midi	*Nicolas Robette*	Mise en pratiques sur poste
Mercredi 4 juillet matin	*Philippe Coulangeon* et Ionela Roharik	L’étude des attitudes via l’analyse des classes latentes : la socialisation professionnelle des policiers
Mercredi 4 juillet après-midi	*Philippe Coulangeon et Ionela Roharik*	(suite)
Jeudi 5 juillet matin	*Philippe Coulangeon*	Mise en pratiques sur poste
Jeudi 5 juillet après-midi	*Emmanuel Pierru*	Séance de bilan et synthèse. Travail à partir des données des participants

dernière modification : 16/04/2012