Remontez

I'm Charles-Henri Sauget,
Let's share our knowledge together !

Choisir notre source de données

Posté le : 10/03/2012 à 00h03 par Sauget Charles-Henri

Ce billet qui n'était pas prévu initiallement fait partie de notre billet initial "How To: Faire une maquette sur SQL Server 2012 ?".

Après réflexion, avant de s'attaquer au processus de collecte, il me faut une/des sources de données, et le choix de celle-ci est certainement l'étape la plus importante du projet !!! (dire que je ne comptais pas en parler ...)

Mais où trouver des sources de donnée me direz vous ? Et bien nous avons de la chance ma petite dame, en ce moment le truc à la mode c'est la mise à disposition des données publiques(Open Data) afin que chacun de nous trouve le poney dans les données (Plus d'info sur le blog de Jean-Pierre Riehl )

Donc ce ne sont pas les sources qui manquent:

Ce que je voudrais pour mes données c'est:

  • Des données hétérogènes (Parce que c'est plus drôle)
  • Des données récentes
  • Des données françaises si possible afin que l'analyse qui en découle puisse me servir à quelque chose
  • Des données volumineuses

Premier problème, ce n'est pas sur http://www.data.gouv.fr/ que je vais trouver des données volumineuses, on est déjà à un niveau exploitable sur les données proposées et donc pas vraiment l'utilité de monter un ETL (bon exemple pour du PowerPivot par contre.)

Azure Data Market ce n'est pas vraiment français ... mais c'est mondial, mon attention se porte donc sur le DataSet suivant:

World Population Prospects: The 2008 Revision - United Nations Population Division

Soit l'évolution de 28 indicateurs démographiques de 1950 à 2050 par pays.

Nos données vont se présenter sous la forme de deux fichiers .CSV

Le premier contient les colonnes suivantes:

  • Id
  • Dataset
  • Name
Id DataSetId Name
10 PopDiv Male population (thousands)
101 PopDiv Percentage aged 0-14
102 PopDiv Percentage aged 15-59
103 PopDiv Percentage aged 15-64
11 PopDiv Female population (thousands)
12 PopDiv Total population, both sexes combined (thousands)
13 PopDiv Population sex ratio (males per 100 females)
14 PopDiv Population density (per square kilometer)


C'est une table de correspondance pour mon second Dataset qui correspond aux valeurs:

DataSeriesId CountryId CountryName YearCode Year VariantCode Variant Value
10 4 Afghanistan 1001 1950 1 Estimate variant 4219.844
10 4 Afghanistan 1006 1955 1 Estimate variant 4562.068
10 4 Afghanistan 1011 1960 1 Estimate variant 4986.215
10 4 Afghanistan 1016 1965 1 Estimate variant 5504.807
10 4 Afghanistan 1021 1970 1 Estimate variant 6143.32
10 4 Afghanistan 1026 1975 1 Estimate variant 6916.754

 

Nous voici donc avec 2 CSV pour un total d'environ 100 000 lignes pour les valeurs et 51 lignes dans les séries de données.

C'est encore un peu léger niveau volumétrie ... on va donc chercher à croiser nos données avec d'autres informations.

Pourquoi pas la surface de chaque pays (Les sources ici) histoire de faire quelques analyses/km²

Et ce qui serait vraiment cool c'est d'intégrer les coordonnées géographiques de tous ces pays ! (Promis après ça on arrête) Disponible ici.

Nous voici donc avec :

  • 2 sources CSV de données démographiques
  • 1 source XML de données géographiques
  • 1 fichier shape de données géométriques

Billet précédent: Définir le besoin initiateur de mon projet décisionnel

Billet suivant: Création de la collecte CSV



Commentaires

Fleid
24/01/2012 à 10h01

Charles-Henri rassure moi, tu ne vas pas modéliser ton datawarehouse à partir des données hein?

Comme je te connais, tu vas te visualiser un besoin - un joli reporting, une maquette dans Excel - et tu vas construire ton modèle dimensionnel là dessus avant même de regarder tes CSV ?

Hein?

:)


Sauget Charles-Henri
24/01/2012 à 11h01

M. Eiden, j'ai en effet eu une vague réflexion concernant les indicateurs que je souhaitais voir (Population / km² ...) mais je n'ai rien mis en forme et c'est certainement un tord.
Je vais donc faire ça au plus tôt !
Merci pour tes précieux conseils.


Fleid
24/01/2012 à 11h01

Arrête la fausse modestie Charles-Henri, je sais très bien que tu avais déjà pensé à tout!

Continue en tout cas, elle est bien cette série d'article :)


Saisissez votre commentaire


Petit test pour les robots:
deux et deux = (Écrire 4 dans la case) :

Charles-Henri Sauget , Expert B.I. et Développeur contact@sauget-ch.fr

Le blog qui parle de Business Intelligence Microsoft, Informatique décisionnel, SQL Server 2005 à 2012, S.S.I.S., S.S.R.S., S.S.A.S., PowerPivot, PowerView, Journées SQL Server, G.U.S.S., SQLBits, TechDays, Sharepoint 2010 et bien plus encore :)