Les données textuelles, telles que des microblogs, des échanges dans les forums ou des articles des journaux, contiennent des informations contextualisées. Ces informations peuvent représenter les perceptions des différents acteurs sur les sujets d’environnement et peuvent servir comme une source de données complémentaire peu coûteuse pour des recherches qualitative ou quantitative. Pour extraire ces informations, nous pouvons soit créer des règles en s'appuyant sur des connaissances de domaine, soit créer des classifieurs basés sur des méthodes d’apprentissage automatique.
Ce cours d’ouverture, destiné à tous les élèves de l’ENS, a pour objectif d’introduire les différentes technologies en fouille de texte et les ressources existantes pour étudier les divers sujets autours des Conférences ****des Parties (COP) liés à l'environnement dans les données textuelles et peu exploitées.
Nous découvrirons ensemble différentes discussions dans les textes pour identifier des pistes de recherche. Nous travaillerons aussi sur l’intégration des données hétérogènes pour alimenter des projets de recherche multidisciplinaires.
Le but du cours est de fournir une formation sur des compétences de base en traitement des textes et une expérience concrète d’application de l’intelligence artificielle pour la recherche sur l’environnement. Les codes seront préparés donc pas de compétence en programmation nécessaire.
Date | Sujet | Durée |
---|---|---|
08/03 | Cours : Introduction sur les COPs et le social crowdsensing | 2h |
15/03 | Cours : Introduction sur les traces digitales (EPPO Global Database, les données sur les rendements et sur les prix) et les APIs différents (API Géorisques, Twitter, New York Times, OpenStreetMap, Reddit, CrossRef, Wikipedia) | 2h |
22/03 | Cours : Introduction sur les graphes de connaissance pour l’environnement. En informatique et en science de l'information, un graphe de connaissance est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Par exemple, AGROVOC est un vocabulaire contrôlé multilingue conçu pour englober les concepts et la terminologie sur l'agriculture afin de faciliter l'accès et la visibilité des données à travers les domaines et les langues. | 2h |
29/03 | Cours : Exploration des les graphe de connaissance avec SparQL. SPARQL est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. | 2h |
05/04 | Cours : introduction au traitement du langage naturel – vectorisation de texte | |
Cas d'étude : les textes sur la santé du végétal | 2h | |
19/04 | Cours : introduction au traitement du langage naturel – apprentissage automatique | |
Cas d'étude : évolutions des opinions sur la biodiversité | 2h | |
TBD / office hours | TP : fouille de textes sur Twitter / Reddit / New York Times au tour de COP 15/ COP27 | |
Les élèves proposent des idées de recherche et essaient d’identifier des sources de données. | 2h | |
10/05 | Présentations à mi-parcours des élèves sur leurs découverts de la séance précédant | 2h |
17/05 | Cours : analyse des réseaux avec python, visualisation des données | |
Cas d’étude : un observatoire climatique basé sur les réseaux sociaux | 2h | |
TBD / office hours | TP : développement de chaque projet | 2h |
TBD / office hours | TP : développement de chaque projet | 2h |
14/06 | Présentation des projets | 2h |
15/03 Getting Digital Trace Data
22/03 Semantic Web & Ontologies I
29/03 Semantic Web & Ontologies II
05/04 Natural Language Processing I
19/04 Natural Language Processing II
Volume horaire : 24h
Semestre : S2