Ce billet qui n'était pas prévu initiallement fait partie de notre billet initial "How To: Faire une maquette sur SQL Server 2012 ?".
Après réflexion, avant de s'attaquer au processus de collecte, il me faut une/des sources de données, et le choix de celle-ci est certainement l'étape la plus importante du projet !!! (dire que je ne comptais pas en parler ...)
Mais où trouver des sources de donnée me direz vous ? Et bien nous avons de la chance ma petite dame, en ce moment le truc à la mode c'est la mise à disposition des données publiques(Open Data) afin que chacun de nous trouve le poney dans les données (Plus d'info sur le blog de Jean-Pierre Riehl )
Donc ce ne sont pas les sources qui manquent:


Ce que je voudrais pour mes données c'est:
Premier problème, ce n'est pas sur http://www.data.gouv.fr/ que je vais trouver des données volumineuses, on est déjà à un niveau exploitable sur les données proposées et donc pas vraiment l'utilité de monter un ETL (bon exemple pour du PowerPivot par contre.)
Azure Data Market ce n'est pas vraiment français ... mais c'est mondial, mon attention se porte donc sur le DataSet suivant:
World Population Prospects: The 2008 Revision - United Nations Population Division
Soit l'évolution de 28 indicateurs démographiques de 1950 à 2050 par pays.
Nos données vont se présenter sous la forme de deux fichiers .CSV
Le premier contient les colonnes suivantes:
| Id | DataSetId | Name |
| 10 | PopDiv | Male population (thousands) |
| 101 | PopDiv | Percentage aged 0-14 |
| 102 | PopDiv | Percentage aged 15-59 |
| 103 | PopDiv | Percentage aged 15-64 |
| 11 | PopDiv | Female population (thousands) |
| 12 | PopDiv | Total population, both sexes combined (thousands) |
| 13 | PopDiv | Population sex ratio (males per 100 females) |
| 14 | PopDiv | Population density (per square kilometer) |
C'est une table de correspondance pour mon second Dataset qui correspond aux valeurs:
| DataSeriesId | CountryId | CountryName | YearCode | Year | VariantCode | Variant | Value |
| 10 | 4 | Afghanistan | 1001 | 1950 | 1 | Estimate variant | 4219.844 |
| 10 | 4 | Afghanistan | 1006 | 1955 | 1 | Estimate variant | 4562.068 |
| 10 | 4 | Afghanistan | 1011 | 1960 | 1 | Estimate variant | 4986.215 |
| 10 | 4 | Afghanistan | 1016 | 1965 | 1 | Estimate variant | 5504.807 |
| 10 | 4 | Afghanistan | 1021 | 1970 | 1 | Estimate variant | 6143.32 |
| 10 | 4 | Afghanistan | 1026 | 1975 | 1 | Estimate variant | 6916.754 |
Nous voici donc avec 2 CSV pour un total d'environ 100 000 lignes pour les valeurs et 51 lignes dans les séries de données.
C'est encore un peu léger niveau volumétrie ... on va donc chercher à croiser nos données avec d'autres informations.
Pourquoi pas la surface de chaque pays (Les sources ici) histoire de faire quelques analyses/km²
Et ce qui serait vraiment cool c'est d'intégrer les coordonnées géographiques de tous ces pays ! (Promis après ça on arrête) Disponible ici.
Nous voici donc avec :
Billet précédent: Définir le besoin initiateur de mon projet décisionnel
Billet suivant: Création de la collecte CSV
Charles-Henri Sauget , Expert B.I. et Développeur contact@sauget-ch.fr
Le blog qui parle de Business Intelligence Microsoft, Informatique décisionnel, SQL Server 2005 à 2012, S.S.I.S., S.S.R.S., S.S.A.S., PowerPivot, PowerView, Journées SQL Server, G.U.S.S., SQLBits, TechDays, Sharepoint 2010 et bien plus encore :)
Commentaires