Générer les référentiels de géocodage

[Note] Note

Les référentiels de géocodage sont constitués d’un ensemble de fichiers portant des extensions .ugc.xxi. Le point d’entrée pour sélectionner un référentiel est le fichier portant l’extension ugc.mdi, mais il est indispensable que l’ensemble des fichiers .ugc.xxi constituant le référentiel soient présents dans le même répertoire et qu’ils portent le même nom (avant l’extension).

[Important] Important

A partir de la version 2021 de Geoconcept Web un nouveau format de fichier est utilisé pour le géocodage. Les anciens fichiers ne sont plus compatibles.

Pour construire les tables de références utilisées par le géocodage, il faut faire la demande en envoyant un mail à adv@geoconcept.com : un numéro de série sera retourné et permettra de mettre à jour Universal Geocoder depuis le menu Activation de licence de Geoconcept 2021 et supérieure. En cas d’utilisation d’une version antérieure de Geoconcept web et de Geoconcept, préciser la dans votre message.

Principe

La construction d’un référentiel de géocodage se fait en deux étapes distinctes depuis le logiciel SIG Geoconcept :

  • En premier lieu la génération de trois fichiers textes et d’un fichier xml (CITIES.txt, STREETS.txt, LINKS.txt et METADATA.xml) via le bouton Générer les fichiers de référence ;
  • Puis à partir des fichiers générés lors de la première étape, via le bouton Générer une table de référence, la compilation des fichiers constituant le référentiel de géocodage portant des extensions .ugc.xxi, à utiliser pour les opération de géocodage.
Panneau UGC Builder
gcweb-reference-img/guide-reference-ugc/ugc-builder-panel.png

Génération des fichiers

Pour générer les fichiers CITIES.txt, STREETS.txt, LINKS.txt et METADATA.xml, il convient d’utiliser dans Geoconcept la commande Générer les fichiers de référence dans le menu Données/Panneau UGC Builder.

Préparation du support cartographique

La table de référence est la clé de voûte du système de géocodage. Elle est construite sur une base de données géographiques, elle en est son miroir. Plus la base de données géographique est exhaustive, plus la table de référence est dense et complète et plus le géocodage est efficace avec un taux de réussite élevé.

La carte intégrant toutes les données cartographiques nécessaires à la constitution des fichiers de géocodage doit être construite. Elle doit impérativement contenir toutes les données postales indispensables pour obtenir de bons résultats de géocodage. Les données à géocoder doivent répondre aux besoins de géocodage.

Les entités englobantes de la carte (communes souvent en France) doivent disposer d’un code zone (code postal souvent en France).

[Avertissement] Avertissement

Il est impossible de géocoder au numéro de la voie des adresses à partir d’une table de référence générée à partir d’une base de données géographiques avec des voies non bornées et ne présentant aucune exhaustivité en milieu urbain dense. N’incriminez pas alors le moteur de géocodage mais vérifiez plutôt la base de données cartographiques qui a servi de support à la génération de la table de référence.

Sélection des objets englobants

Avant tout, sélectionner les objets de niveau 1, c’est à dire les entités englobantes qui sont, de manière générale en France, les communes ou localités.

La commande Chercher du menu Données/Requêtes de Geoconcept permet de rechercher et sélectionner les entités englobantes de la carte, par exemple Unité administrative, Commune.

Une fois la sélection effectuée, il est alors possible de fixer les paramètres pour la génération des fichiers.

Configuration des données

Sélectionner Générer les fichiers de référence dans le menu Données/Géocoder pour pouvoir effectuer les paramétrages.

La configuration est composée des trois étapes suivantes.

Spécifier l’emplacement des fichiers une fois générés, ainsi que le nom associé En cliquant sur Parcourir, indiquer le chemin du stockage des fichiers à générer. Ne pas oublier d’indiquer le nom à associer à la génération, ce nom étant le plus souvent celui de l’entité englobante sélectionnée (la commune en France).

Les fichiers générés portent le nom précisé avec comme suffixe : _CITIES.txt, _STREETS.txt, _LINKS.txt et _METADATA.xml.

Paramétrer les éléments nécessaires pour renseigner les éléments de niveau 1 Le terme niveau 1 qualifie les objets englobant ceux de niveau 2, les voies. De manière générale, le niveau 1 correspond aux communes ou localités.

Six éléments, dont un facultatif, doivent être renseignés :

  • Type / Sous-type : le Type Geoconcept lié à l’entité englobante de niveau 1. Le Sous-type n’est pas obligatoire ;
  • Nom : le nom de cette entité qui doit apparaître dans la table de référence et qui sert pour effectuer les géocodages. De manière générale, on utilise le champ global Nom.

Pour des données HERE, on l’associe par exemple à Unité administrative – Commune.

  • Champ Clé unique : ce champ doit permettre de caractériser de manière unique chacun des objets de niveau 1. On prend donc, dans le cas de la France, le code INSEE, identifiant unique pour chaque commune ;
  • Champ Code zone : ce champ apporte également une information sur les objets. En France, il correspond au code postal. On peut associer à ce champ tout autre champ qui peut être utilisé comme clé de géocodage car représentant une donnée postale. Mais on peut également lui associer un champ qui peut servir de discriminant, c’est à dire permettre la distinction entre deux entités de même nom (exemple : le numéro de département en France).
  • Champ Attribut : ce champ facultatif permet d’avoir des informations complémentaires sur les objets de niveau 1.
[Avertissement] Avertissement

Le champ Clé unique doit impérativement contenir un identifiant unique pour chaque objet de niveau 1.

Si dans la carte, le code INSEE (si on travaille sur la France) n’est pas présent, un champ Compteur peut être créé pour faire office de clé unique sur les objets. Plus simplement, on peut utiliser l’identificateur Geoconcept.

Paramétrer les éléments nécessaires pour renseigner les objets de niveau 2 Ces objets de niveau 2 sont inclus dans l’ensemble représenté par ceux de niveau 1. De manière générale, ces objets de niveau 2 correspondent au réseau routier, de genre linéaire.

Sept éléments, dont un facultatif, doivent être renseignés :

  • Type / Sous-type : le Type Geoconcept lié à l’entité de niveau 2. De manière générale, on lui associe un Type Réseau routier. Le Sous-type n’est pas obligatoire ;
  • Attribut : ce champ est facultatif, il permet d’avoir des informations supplémentaires sur les objets de niveau 2. Il peut, par exemple, être lié au code IRIS ou au code ilôt associé aux voies ;
[Avertissement] Avertissement

Ce champ Attribut associé aux voies est parfois utile. Il présente un intérêt à être récupéré en fin de géocodage, par exemple pour récupérer les codes IRIS.

  • Nom : le nom de la voie devant apparaître dans la table de référence et qui sert pour effectuer les géocodages. De manière générale, on utilise le champ global Nom ;
[Avertissement] Avertissement

Pour les voies, le nom doit impérativement contenir le libellé complet, c’est à dire à la fois le type de voie (exemple : rue) et le nom de la voie (exemple : Monge).

Quatre champs sont liés aus numéros des voies :

  • Num Fin Gauche : le dernier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Debut Gauche : le premier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Fin Droite : le dernier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Debut Droite : le premier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie.
Exemple de paramétrage
gcweb-reference-img/guide-reference-ugc/ugc-builder-file.png

Génération de fichiers à l’entité administrative Si l’on souhaite réaliser une table de référence contenant uniquement les entités surfaciques englobantes (les communes françaises), il suffit de ne rien renseigner pour les objets de niveau 2. Le fichier STREETS.txt sera vide.

Lors de la génération des fichiers textes CITIES.txt, STREETS.txt et LINKS.txt, il suffit de n’affecter aucun paramétrage pour les éléments de niveau 2. Le fichier STREETS.txt alors généré est vide.

[Avertissement] Avertissement

Les objets dits englobants à géocoder peuvent être aussi bien de genre surfacique que ponctuel.

Génération de fichiers avec un référentiel point et non ligne Dans le cas de génération d’une table de référence utilisant des points adresses, la marche à suivre pour la génération des fichiers est identique à celle précédemment décrite en indiquant pour les quatre champs numéros de voies, le même champ.

Fichier CITIES.txt

Le premier fichier texte (CITIES.txt) contient les informations indispensables à toutes les localités (objets englobants) de l’espace géographique sur lequel doit porter le géocodage.

Le fichier contient cinq colonnes, dont l’ordre est imposé :

  • Nom de ville : contient le nom de la commune ou localité contenant l’adresse ;
  • Code zone : code caractérisant la localité (en France, le code postal de la commune) ;
  • Clé unique : clé décrivant de manière unique chaque commune (en France, le code INSEE de la commune) ;
  • Attribut : un code quelconque qui sert de complément d’information ;
  • X en WGS 84;
  • Y en WGS 84.
[Avertissement] Avertissement

Les coordonnées X et Y représentent le centroïde de la commune dans le cas d’un objet polygone ou ses coordonnées s’il est ponctuel. Elles sont exprimées dans le système de projection WGS 84.

Dans le cas où il existerait différents noms pouvant caractériser l’entité surfacique (notamment pour gérer le bilinguisme), il est possible de stocker tous ces noms dans la table de référence. Le champ Nom de ville doit être renseigné avec tous les noms possibles concaténés en utilisant le caractère @.

Par exemple, pour l’entité surfacique Paris, le nom de ville Paris@Parigi. Ce nouveau nom de ville doit apparaître à la fois dans le fichier CITIES.txt, dans le fichier STREETS.txtet si nécessaire dans le fichier LINKS.txt.

Fichier STREETS.txt

Le second fichier texte (STREETS.txt) contient les informations indispensables à toutes les voies de l’espace géographique sur lequel doit porter le géocodage.

Le fichier doit contenir neuf colonnes, dont l’ordre est imposé :

  • Nom de rue : contient le nom du tronçon de la voie ;
  • Attribut de rue : un code quelconque qui sert d’attribut supplémentaire (par exemple : l’identifiant du tronçon de voie, le code IRIS…) ;
  • Num Fin Gauche : le dernier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Debut Gauche : le premier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Fin Droite : le dernier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Num Debut Droite : le premier numéro du tronçon de la voie, pair ou impair en tenant compte du numéro de la voie ;
  • Nom de ville : contient le nom de la commune ou localité contenant l’adresse ;
  • Attribut de ville : un code quelconque qui sert de complément d’information sur l’entité englobante ;
  • Clé unique de ville : clé décrivant de manière unique la commune (en France, le code INSEE de la commune).

Ensuite vient une série de plusieurs colonnes dont le libellé n’existe pas, caractérisant la géométrie de la voie :

  • X1 : l’abscisse début du tronçon de voie ;
  • Y1 : l’ordonnée début du tronçon de voie ;
  • X2 : l’abscisse fin du tronçon de voie ;
  • Y2 : l’ordonnée fin du tronçon de voie ;
  • le nombre de points intermédiaires qui composent le tronçon de voie ;
  • une série de couples de coordonnées qui expriment, pour chaque colonne, le delta X et delta Y de chaque point intermédiaire.
[Avertissement] Avertissement

Il est indispensable de vérifier dans les deux fichiers CITIES.txt et STREEETS.txt les paires Nom de l’entité englobante et Clé unique associée. Elles doivent être identiques.

Dans le cas d’un géocodage à partir d’un référentiel point, la géométrie associée à chaque tronçon est de type: X1 Y1 X1 Y1 0. En effet, le tronçon de rue étant représenté par un point, seules les coordonnées de ce point sont enregistrées.

Fichier LINKS.txt

Ce fichier, qui permet de générer les hierarchies, est nécessaire et est fourni vide avec l’entête des 3 colonnes

  • Parent ;
  • Child ;
  • Type.

Ce fichier peut rester en l'état ou être édité pour ajouter les informations de hierarchies entre des entités surfaciques administratives Il facilite la recherche d’adresses. Cette fonctionnalité est réservée à des utilisateurs particulièrement avancés dans l’utilisation du géocodage.

Exemple de hiérarchies
gcweb-reference-img/guide-reference-ugc/ugc-builder-hierarchies.png

Le fichier txt se présente sous la forme suivante (exemple de Paris et ses arrondissements) :

Parent

Child

Type

Parent name

Child name

Child postcode

4981324_City

4981324

Contains

PARIS

1ER ARRONDISSEMENT

75001

4981324_City

4981286

Contains

PARIS

10E ARRONDISSEMENT

75010

4981324_City

4981290

Contains

PARIS

11E ARRONDISSEMENT

75011

4981324_City

4981294

Contains

PARIS

12E ARRONDISSEMENT

75012

4981324_City

4981298

Contains

PARIS

13E ARRONDISSEMENT

75013

4981324_City

4981302

Contains

PARIS

14E ARRONDISSEMENT

75014

4981324_City

4981306

Contains

PARIS

15E ARRONDISSEMENT

75015

4981324_City

4981312

Contains

PARIS

16E ARRONDISSEMENT

75116

4981324_City

4981310

Contains

PARIS

16E ARRONDISSEMENT

75016

4981324_City

4981314

Contains

PARIS

17E ARRONDISSEMENT

75017

4981324_City

4981316

Contains

PARIS

18E ARRONDISSEMENT

75018

4981324_City

4981318

Contains

PARIS

19E ARRONDISSEMENT

75019

4981324_City

4981332

Contains

PARIS

2E ARRONDISSEMENT

75002

4981324_City

4981326

Contains

PARIS

20E ARRONDISSEMENT

75020

4981324_City

4981338

Contains

PARIS

3E ARRONDISSEMENT

75003

4981324_City

4981344

Contains

PARIS

4E ARRONDISSEMENT

75004

4981324_City

4981350

Contains

PARIS

5E ARRONDISSEMENT

75005

4981324_City

4981356

Contains

PARIS

6E ARRONDISSEMENT

75006

4981324_City

4981362

Contains

PARIS

7E ARRONDISSEMENT

75007

4981324_City

4981368

Contains

PARIS

8E ARRONDISSEMENT

75008

4981324_City

4981374

Contains

PARIS

9E ARRONDISSEMENT

75009

Avec :

  • Parent : Identifiant de l’entité parente (ex Paris) situé dans le fichier CITIES.txt ;
  • Child : Identifiant de l’entité enfant (Ex un arrondissement pour Paris) situé dans le fichier CITIES.txt ;
  • Type : type de liens (contains, intersects) ;
  • Parent name (facultatif) : nom de l’entité parent ;
  • Child name (facultatif) : nom de l’entité enfant ;
  • Child postcode (facultatif) : code postal de l’entité enfant.
Fichier METADATA.xml

Le fichier des métadonnées et requis et il n’est normallement pas nécessaire de l'éditer mais, si nécessaire, l’utilisateur a la possibilité de l’adapter via le bouton Edition dans la fenêtre de la Génération de la table de référence (cf. paragraphe suivant).

Les informations suivantes sont éditables via l’interface d'édition :

  • Chemin du fichier ;
  • Version ;
  • Auteur ;
  • Titre ;
  • Commentaire ;
  • Ressources en ligne ;
  • Pays ;
  • Encodage ;
  • Signification de la zone : permet de préciser à quoi correspond la zone de référence (code postale par ex.) ;
  • Signification de l’ID unique : permet de savoir à quoi correspond l’identifiant unique de la table;
  • Signification du code zone secondaire permet de préciser à quoi correspond la zone de référence (code Insee par ex.) ;
  • Signification de l’ID de segment de rue ;
  • Système de coordonnées source ;
  • Système de coordonnées de sortie.
Interface permettant l'édition des métadonnées
gcweb-reference-img/guide-reference-ugc/ugc-builder-metadata.png

Génération du référentiel de géocodage

La dernière étape est la génération des fichiers constituant le référentiel de géocodage portant des extensions .ugc.xxi, pour calculer les X, Y et les associer aux adresses, à partir des fichiers générés contenant les informations géographiques et identifiants associés.

Le module Générer une table de référence est disponible dans le menu Données/Panneau UGC Builder de Geoconcept.

Menu Générer une table de référence
gcweb-reference-img/guide-reference-ugc/ugc-builder-button-table.png

Le programme UGC Builder
gcweb-reference-img/guide-reference-ugc/ugc-builder-table.png

L’utilisateur doit préciser ici à partir de quels fichiers la table peut être créée :

  • le fichier de niveau 1 (CITIES.txt) contient les informations englobant les informations de niveau 2 (en France, les communes) ;
  • le fichier de niveau 2 (STREETS.txt) contient les informations concernant les voies, support des adresses :
  • le fichier de hierarchies (LINKS.txt) contient les informations de relation entre les entités surfaciques ;
  • le fichier de métadonnées (METADATA.xml) contient les informations utiles à la génération de la table.

Avant de générer le référenctiel, il est nécessaire de préciser le fichier de destination en indiquant le chemin et le nom du fichier .ugc.mdi avant de valider.

Le bouton Générer la table de référence permet de créer une table de référence intégrant les paramètres saisis précédemment.

L’intégrité du fichier de référence généré peut également être vérifié en utilisant le bouton Tester la table de référence.

L’utilisateur doit saisir les attributs suivant :

  • Emplacement de la table à vérifier ;
  • Emplacement de fichier de grammaire associé ;
  • Génération des statistiques et/ou géocoder la table en cochant les options correspondantes.

Cette dernière option permet de détecter les éventuelles incohérences en géocodant chacune des adresses présentes.

  • Emplacement du fichier journal contenant le résultat de la vérification. En cliquant sur Vérifier maintenant, l’utilisateur procède à la vérification de sa table de référence.
Génération d’une table à l’entité administrative

Une fois les fichiers créés, la démarche consiste à indiquer :

  • le chemin vers le fichier CITIES.txt contenant les entités englobantes ou localités (communes en France) ;
  • pour le fichier de niveau 2, le chemin vers le fichier vide STREETS.txt généré ;
  • le fichier de hierarchies (LINKS.txt) ;
  • le fichier de métadonnées (METADATA.xml) .

Une table de référence avec uniquement des entités de niveau 1 est alors créée.