Outils pour utilisateurs

Outils du site


thatcamp_2014:session_thatcamp2014

Exporter la page au format Open Document

Atelier : Visualiser les données issues du web avec un logiciel SIG

Francesco Beretta – Comment interroger le web des données

Objectifs

Apprendre à interroger le web des données et à tirer profit des ressources disponibles – le point de vue du chercheur

Outils

  • Un navigateur web (de préférence Firefox)
  • Fuseki, serveur SPARQL à installer en local
  • Le logiciel Calc de la suite bureautique LibreOffice

Le web des données

Interroger le web des données

- A Geographic Query Language for RDF Data

Les ressources disponibles

  • Comment les trouver
  • Comment comprendre leur fonctionnement
  • Comment s'en servir

Pour une liste de différentes ressources disponibles, voir ressources_sparql

Deux exemples

Les universités dans le monde / en Europe

Les données statistiques des pays de la Communauté européenne

Claire-Charlotte Butez – Visualiser les données avec QGIS

Objectifs

  • Après une première partie de journée consacrée à l’interrogation des données sur le web, cette deuxième partie consiste à leur visualisation avec un SIG et plus particulièrement le logiciel QGIS

Supports

  • Beaucoup de tutoriels existent sur le web, ils sont régulièrement mis à jour, parmi eux celui-ci libre de droit:QGIS V2
  • et d'autres encore dont cette page de wiki

Outils

Quelques outils utiles :

  • Logiciel QGIS : Système d'Information Géographique (SIG) convivial distribué sous licence publique générale GNU. C'est un projet officiel de la fondation Open Source Geospatial (OSGeo). Il est compatible avec Linux, Unix, Mac OS X, Windows et Android et intègre de nombreux formats vecteur, raster, base de données et fonctionnalités.
  • Logiciel GIMP : Outil d'édition et de retouche d'image et est diffusé sous la licence GPLv3 comme un logiciel gratuit et libre. Il en existe des versions pour la plupart des systèmes d'exploitation dont GNU/Linux, OS X, et Microsoft Windows.

Données géographiques

Autres ressources à connaitre

Installation et découverte du logiciel QGIS

Affichage et préparation des données géographiques

  • Données géographiques
    • Affichage des données Eurostat
      • Système de géoréférencement : ETRS89 = EPSG:4258
        • Couche > Ajouter une couche vecteur
    • Visualisation des couches et de leurs métadonnées
    • Exploration de la couche NUTS_RG_10M_2010.shp
      • Exploration des différents niveaux administratifs des polygones
        • Vue > Identifier les entités
      • Créer une couche à partir d'une sélection : Sélectionner seulement les polygones représentant les frontières des pays
        • Faire une requête attributaire à partir de la table d'attributs des polygones
          • Clic droit sur la couche > Ouvrir la table d'attributs > Select by expression >
            STAT_LEVL__fckg_QUOT_ = 0
          • Création d'une nouvelle couche à partir de la sélection
          • Couche > Propriétés > Sauvegarder sous > Cocher la case “n'enregistrer que les entités sélectionnées” > Donner un nom à la nouvelle couche > Valider
          • Afficher la nouvelle couche
          • Couche > Ajouter une couche vecteur
          • Pour télécharger directement le résultat : NUTS_RG_10M_2010_pays.zip

Données tabulaires

  • Utilisation des données issues du web de données.
  • Nous avons plusieurs fichiers à notre disposition que nous utiliserons au cours des exercices de cette deuxième partie (cf 1ère partie du bootcamp : requêtes sur les serveurs sparql)
  • Les universités d'Europe Fichier nettoyé: cf requête dbpédia
  • * Populations en 2004 par province au format .csv : eurostat_2004.csv: cf les données de la communauté européenne
  • Populations au 2ème échelon administratif en 2010, répartitions hommes-femmes par régions: nuts2_pop_2010.csv
  • Intégration des données tabulaires dans le SIG:
  • Les données s'intègrent dans QGIS comme n'importe quelle autre couche vecteur avec Couche > Ajouter une couche vecteur
  • Il est possible de créer une couche de point à partir d'un fichier .csv qui contient des coordonnées X et Y
  • Récupération des données sur les universités : Fichier nettoyé
  • Observation du fichier .csv : Ces données comprennent des valeurs et les coordonnées X Y du lieu concerné. Ces valeurs peuvent être utilisées pour créer des points et les projeter dans QGIS.
  • Couche > Ajouter une couche de texte délimité
  • Indiquer l'emplacement du fichier “resultat_corrige”
  • Dans “autre délimiteurs” indiquer le séparateur “|”
  • Indiquer le champ X = “long” et le champ Y = “lat”
  • Indiquer le code EPSG des coordonnées : 4326
  • Enregistrer cette projection au format .shp
  • Afficher la nouvelle couche dans le SIG et choisir le fond vecteur adapté, par exemple la couche NUTS_RG_10M_2010_pays

Exploration et analyse des données

Les requêtes attributaires

  • Les requêtes attributaires se font avec la table d'attributs des données vectorielles, points, lignes ou polygones
  • Couche > Propriétés > Ouvrir la table d'attributs > Select by expression
  • Vous pouvez tester les requêtes sur les données, par exemple les universités de + de … inscrits etc..
  • Tous les résultats peuvent être enregistrés dans de nouvelles couches. Ceci pourra nous servir en fin de travail pour mettre au point une carte.

Fonctions de requête spatiale

  • Autre outil de sélection géographique par requête dans Vecteur > Requête spatiale.
  • Pour installer cette extension aller dans Extension > Gestionnaire d'extension et rechercher requête spatiale
  • Vous trouverez dans cet outil les opérateurs de requête spatiale : Contient, A l'intérieur, Croise, Intersecte, Est disjoint, Est égal
  • Tester avec l'outil : Sélection des entités sources depuis > “résultat_corrige”, Où l'entité > “à l'intérieur”, Entités références de “NUTS_RG_10M_2010_pays”
  • Vérifier et ajouter les entités non sélectionnées à cause de l'imprécision des données
  • Enregistrer la sélection dans une nouvelle couche > resultat_corrige_europe.shp
  • Ajouter la nouvelle couche à la carte
  • Ou télécharger le résultat : resultat_corrige_europe.zip

Outils d'analyse spatiale

  • Avant de se lancer dans l'analyse spatiale il faut bien réfléchir à la finalité du travail
  • Vecteur > Outils de géotraitement
  • Pour chaque outil :
  • La couche vectorielle de saisie est l'input, couche sur laquelle on agit
  • La couche d'intersection est la couche qui participe à l'opération, le feature.
  • Le fichier de sortie est la couche résultante de l'opération, l'output.
  • Les principaux outils sont :
  • Tampons pour créer une zone tampon autour d'une entité
  • Découper pour découper une couche selon une autre ou une entité
  • Intersection pour assembler des portions d'entités qui se superposent ou ayant une limite commune
  • Regrouper pour créer des fusions entre entités selon un champ donné
  • Union pour assembler des entités qui se superposent
  • Différencier pour récupérer tout ce qui n'est pas égal au feature.
  • Tester la création d'une zone tampon autour d'un polygone:
  • Tampon > Couche vectorielle de saisie “NUTS_RG_10M_2010_pays”
  • Distance tampon > 0.01
  • Définir un fichier de sortie, lancer le traitement et ajouter la nouvelle couche.
  • Tester la possibilité de compter le nombre de points dans un polygone, par exemple le nombre d'université par pays
  • Vecteur > Outil d'analyse > Compter les points dans les polygones > Indiquer les deux couches, le nom du champ en sortie (ex: nbr_univ) et la nouvelle couche : NUTS_RG_10M_2010_pays_univ.shp
  • Ajouter la nouvelle couche et vérifier la présence des nouvelles données attributaires
  • Ou télécharger le résultat : NUTS_RG_10M_2010_pays_univ.zip

Jointures attributaires ou spatiales

Tester la jointure spatiale :

  • Ajouter à la table d'attribut des universités l'indicatif du pays auquel elles appartiennent
  • Dans Vecteur > Outil de gestion de données > Joindre les attributs par localisation
  • Indiquer la couche vecteur “resultat_corrige_europe” et joindre la couche vecteur “NUTS_RG_10M_2010_pays”
  • Indiquer un fichier de sortie “resultat_corrige_europe_join” et lancer le traitement
  • Ajouter la nouvelle couche et vérifier la présence des nouvelles données attributaires
  • Tester la sélection attributaire ou spatiale des université françaises
  • Ou télécharger le résultat : resultat_corrige_europe_join.zip
  • Tester la jointure attributaire :
  • Compléter des données attributaires à partir d'une jointure faite sur un fichier .csv
  • 1er exercice : Récupération des données sur les populations par régions au format .csv : eurostat_2004.csv
  • Couche > Ajouter une couche vecteur et ajouter le fichier eurostat_2004
  • Les principes de la jointure attributaire
  • Fenêtre des propriétés de la couche > Onglet Jointure
  • Utilisée pour joindre des données tabulaires à partir d'un champ contenant un identifiant commun à la couche et à la table
  • Préparer les champs de jointure : Ajouter un champ à la table attributaire de la couche NUTS_RG_10M_2010
  • Ouvrir la table d'attribut > Basculer en mode édition > Ouvrir la calculatrice de champ > Créer un nouveau champ à partir de l'expression : lower( “NUTS_ID” ) > Enregistrer
  • Fenêtre des propriétés de la couche > Onglet Jointure
  • Ajouter une jointure sur eurostat2004.geocodeProvince = NUTS_RG_10M_2010.nuts_id_lo
  • Créer une couche pour les entités concernées par la jointure : NUTS_RG_10M_2010_densite
  • Possibilité de faire un calcul de densité de population sur les données
  • Ajout d'un champ 'surf_km2' à la table attributaire à partir de l'expression : $area / 1000000
  • Ajout d'un champ 'densite' à la table attributaire à partir de l'expression : “eurostat_4” / “surf_km2”
  • Valider
  • Propriété de la couche > Style > Symbole gradué > Sélection du champ 'densité', 5 classes, mode quantile ou autre (cf Cartographie des données)
  • Ajouter les couches HYP_50M_SR_W ou doubler la couche “data_nuts_rg_2_pop” pour afficher les valeurs nulles dans le but de réaliser une carte

comme par exemple : europe_densite_pop.jpg

  • 2ème exercice : Récupération des données sur les populations par régions au format .csv : nuts2_pop_2010.csv
  • Couche > Ajouter une couche vecteur et sélectionner le fichier nuts2_pop_2010.csv
  • Dans la couche NUTS_RG_10M_2010 > Fenêtre des propriétés > Onglet Jointure
  • Ajouter une jointure sur nuts2_pop_2010.nuts_id = NUTS_RG_10M_2010.NUTS_ID
  • Vérifier dans la table attributaire si la jointure a fonctionné
  • Créer une sélection sur NUTS_RG_10M_2010 : “STAT_LEVL__fckg_QUOT_ = 2 et faire une couche “data_nuts_rg_2_pop” à partir de cette sélection
    • Ajouter le résultat “data_nuts_rg_2_pop” dans le projet
    • Sur cette couche nous allons calculer la proportion Homme-Femme pour les données à notre disposition
      • Pour cela il faut ajouter des champs à la table attributaire de la couche “data_nuts_rg_2_pop”
      • Ouvrir la table d'attribut > Basculer en mode édition > Ouvrir la calculatrice de champ > Créer trois nouveaux champs à partir des expressions :
        • Champ '%homme' : (“nuts2_po_2”100) / “nuts2_po_1” > Enregistrer
        • Champ '%femme' : (“nuts2_po_3”100) / “nuts2_po_1” > Enregistrer
        • Champ 'F%H' : ”%femme“ - ”%homme“ > Enregistrer
    • Cartographier le résultat : Propriété de la couche > Style > Symbole gradué > Sélection du champ 'F%H' > Créer une palette de couleur adaptée (cf Cartographie des données)
    • Ajouter les couches HYP_50M_SR_W ou doubler la couche “data_nuts_rg_2_pop” pour afficher les valeurs nulles dans le but de réaliser une carte comme par exemple :

europe_homme_femme.jpg

Cartographie des données

  • La symbologie des couches
    • Pour gérer la symbologie d'une couche: clic droit sur la couche puis Propriétés > Style
    • Regarder les différentes possibilités de symbologie avec les couche des polygones ou celle des points. Il y a la plupart du temps deux possibilités de représentation, celle des cartes choroplètes (carte de surface) pour les valeurs relatives et catégories attributaires ou des points proportionnels pour les valeurs absolues.
    • Un exemple, celui du nombre d'université par pays :
      • La table d'attribut de la couche NUTS_RG_10M_2010_pays_univ contient le nombre d'université dans le champ nbr_univ. Nous souhaiterions le représenter par un point proportionnel mais il s'agit de polygone. Pour cela :
        • Vecteur > Outils de géométrie > Centroïdes de polygones > choisir la couche NUTS_RG_10M_2010_pays_univ
        • Enregistrer le résultat dans NUTS_RG_10M_2010_pays_univ_point.shp
        • Ajouter la couche
        • Les points centroïdes des polygones s'affichent. Il est possible d'éditer la couche pour déplacer et recentrer si besoin les points. C'est le cas de la France entre autre.
        • Ou télécharger le résultat : NUTS_RG_10M_2010_pays_univ_point.zip
      • Pour la création des points proportionnels, deux solutions :
        • Par symbole unique proportionnel
          • Propriétés > Style > Symbole unique pour définir le style du symbole unique.
          • Avancé > Champ de proportion pour indiquer le champ de type entier qui définira la proportionnalité des points.
            • Le champ de proportion peut être les valeur d'un champ ou le résultat d'une expression par exemple : “nombre” / 10000
          • Jouer sur la taille du symbole pour gérer la taille définitive des points.
        • Par diagramme proportionnel
          • Propriétés > Diagramme > Afficher les diagrammes.
          • Dans onglet Taille > Décocher Taille fixe > choisir le champ Attribut > Trouver la valeur maximale > donner une Taille maximale à l'échelle de Surface et une Taille minimale.
          • Dans Attributs définir le champ contenant les données à représenter de manière proportionnelle.
          • Dans onglet Position > Emplacement choisir Sur le point pour que le diagramme proportionnel soit centré.
    • Pour la création des cartes choroplètes, par exemple pour représenter la densité d'universités par pays
      • Par symbole gradué sur la couche NUTS_RG_10M_2010_pays_univ
        • Propriétés > Style > Symbole gradué pour définir la palette, les classes, leur nombre et la méthode de discrétisation.
          • Intervalles égaux : Les classes sont d'étendue égale. L'étendue totale de la variable (max - mini) est calculée puis divisée par le nombre de classes désiré (qui apparaît dans le champ classe).
          • Quantiles (effectifs égaux): cette méthode consiste à utiliser un même nombre ou une même fréquence de valeurs par classe. Il y a le même nombre dans chaque classe.
          • Ruptures naturelles (Jenks) : cette méthode est souvent la plus performante. Elle permet d'obtenir des classes très proches des formes de la distribution de la variable.
          • Ecart-type : cette méthode de discrétisation repose sur la moyenne.
          • Jolies ruptures : cette méthode utilise un algorithme du logiciel de statistique R.
        • Astuce : Tester les différentes possibilités et visualiser le rendu avec le bouton Appliquer pour ne pas fermer la fenêtre
        • Ajouter les couches HYP_50M_SR_W dans le but de réaliser une carte comme par exemple :

europe_densite_universites.jpg

  • Composeur d'impression
    • Rappel sur la mise en page d'une carte avec le composeur d'impression
    • Pour faire une mise en page aller dans Projet > Nouveau composeur d'impression.
      • Dans le composeur d'impression, intégrer tous les éléments indispensables à la carte : Carte-s, légende, titre, orientation, échelle, sources, nom et dates de réalisation.
    • Exportation de la mise en page : Composeur > Exporter comme image
      • Il est préférable d'exporter en PNG lorsqu'il s'agit de vecteurs et en JPEG lorsque le projet contient des rasters.
thatcamp_2014/session_thatcamp2014.txt · Dernière modification: 2015/10/20 15:57 par Francesco Beretta