Words for Environmental Woes / Des Mots pour des Maux environnementaux

Analyse des données textuelles produites sur les réseaux sociaux à propos des COP

Program (In French, but the slides below are in English!)

Les données textuelles, telles que des microblogs, des échanges dans les forums ou des articles des journaux, contiennent des informations contextualisées. Ces informations peuvent représenter les perceptions des différents acteurs sur les sujets d’environnement et peuvent servir comme une source de données complémentaire peu coûteuse pour des recherches qualitative ou quantitative. Pour extraire ces informations, nous pouvons soit créer des règles en s'appuyant sur des connaissances de domaine, soit créer des classifieurs basés sur des méthodes d’apprentissage automatique.

Ce cours d’ouverture, destiné à tous les élèves de l’ENS, a pour objectif d’introduire les différentes technologies en fouille de texte et les ressources existantes pour étudier les divers sujets autours des Conférences ****des Parties (COP) liés à l'environnement dans les données textuelles et peu exploitées.

Nous découvrirons ensemble différentes discussions dans les textes pour identifier des pistes de recherche. Nous travaillerons aussi sur l’intégration des données hétérogènes pour alimenter des projets de recherche multidisciplinaires.

Le but du cours est de fournir une formation sur des compétences de base en traitement des textes et une expérience concrète d’application de l’intelligence artificielle pour la recherche sur l’environnement. Les codes seront préparés donc pas de compétence en programmation nécessaire.

Date	Sujet	Durée
08/03	Cours : Introduction sur les COPs et le social crowdsensing	2h
15/03	Cours : Introduction sur les traces digitales (EPPO Global Database, les données sur les rendements et sur les prix) et les APIs différents (API Géorisques, Twitter, New York Times, OpenStreetMap, Reddit, CrossRef, Wikipedia)	2h
22/03	Cours : Introduction sur les graphes de connaissance pour l’environnement. En informatique et en science de l'information, un graphe de connaissance est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Par exemple, AGROVOC est un vocabulaire contrôlé multilingue conçu pour englober les concepts et la terminologie sur l'agriculture afin de faciliter l'accès et la visibilité des données à travers les domaines et les langues.	2h
29/03	Cours : Exploration des les graphe de connaissance avec SparQL. SPARQL est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet.	2h
05/04	Cours : introduction au traitement du langage naturel – vectorisation de texte
Cas d'étude : les textes sur la santé du végétal	2h
19/04	Cours : introduction au traitement du langage naturel – apprentissage automatique
Cas d'étude : évolutions des opinions sur la biodiversité	2h
TBD / office hours	TP : fouille de textes sur Twitter / Reddit / New York Times au tour de COP 15/ COP27
Les élèves proposent des idées de recherche et essaient d’identifier des sources de données.	2h
10/05	Présentations à mi-parcours des élèves sur leurs découverts de la séance précédant	2h
17/05	Cours : analyse des réseaux avec python, visualisation des données
Cas d’étude : un observatoire climatique basé sur les réseaux sociaux	2h
TBD / office hours	TP : développement de chaque projet	2h
TBD / office hours	TP : développement de chaque projet	2h
14/06	Présentation des projets	2h

Slides and notes:

08/03 Introduction

15/03 Getting Digital Trace Data

22/03 Semantic Web & Ontologies I

29/03 Semantic Web & Ontologies II

05/04 Natural Language Processing I

19/04 Natural Language Processing II

17/05 Networks

Data sources

Other information about the course

Volume horaire : 24h

Semestre : S2