Conférence SFR PLAYER Big Data avec Henri Verdier : Podcast vidéo

Vignette de la vidéo Piste de sous-titres Vidéos en relations
<embed src="http://www.sfr.com/sites/all/themes/sfr/swf/player.swf" flashvars="file=http://ncdn-video.sfr.com/Podcast-hverdier/video.mp4" width="600" height="335" />

JWplayer | Podcast-hverdier

Le 09 / 04 / 13 | Posté par la rédaction de SFR PLAYER
Conférence SFR PLAYER Big Data avec Henri Verdier : Podcast vidéo

(Re)vivez la conférence SFR PLAYER « Data : l’explosion des données peut-elle profiter aux entreprises ? » du 9 avril dernier dans son intégralité !

L’ouverture des données dessine d’immenses perspectives d’usages et de business, susceptibles de dynamiser et l’innovation et la croissance française. Mais de quels leviers disposent exactement les entreprises et les pouvoirs publics pour bénéficier pleinement de cette révolution ? Comment développer une véritable culture de la donnée en France ?

Avec :


Pour en savoir plus, les sites web de nos invites :

Pour voir et revoir le live, téléchargez le podcast ou cliquez directement sur la vidéo.

 

Pour aller plus loin dans l’univers de la data :

- Découvrez le dernier numéro de SFR PLAYER "Data : un monde à explorer"

Et nos interviews vidéos :

- Data Publica : orfèvres de l’open data avec François Bancilhon

- Datavisualisation, un story-telling pour la donnée avec Caroline Goulard

- Privacy paradox, concilier public et privé sur le web avec Jean-Marc Manach

- Big Data, nos traces digitales au service de la recherche avec Paola Tubaro

Transcript de la vidéo :

Abdel Bounane (AB)

Henri Verdier (HV)

Jean-Thomas Rouzin (JTR)

Margaux Pelen (MP)

Abdel Bounane (AB) : Bonjour à tous. Aujourd’hui, SFR Player vous invite à comprendre comment l’ouverture des données peut profiter aux entreprises, et plus particulièrement à la vôtre. Plus largement, comment cette ouverture des données peut profiter à la création de richesses, à la croissance. Toutes ces questions et beaucoup d’autres, nous allons nous les poser avec nos trois invités pendant l’heure qui suit. Je vous invite à me rejoindre sur le plateau.

AB : Bonsoir à tous, merci d’être avec nous ce soir. Je rejoins donc notre premier invité, Henri Verdier. Bonsoir.

Henri Verdier (HV) : Bonsoir.

AB : Henri Verdier, merci d’être avec nous ce soir. Je vais vous présenter en quelques mots. Vous êtes le nouveau directeur d’Etalab. Vous avez aussi été pendant cinq ans président du conseil d’administration du pôle de compétitivité Cap digital. Et vous avez publié il y a quelques mois un livre que je recommande vraiment chaudement, L’âge de la multitude. On rappelle qu’Etalab est donc un service du Premier ministre en charge de l’ouverture des données publiques. Vous avez publié récemment une feuille de route dont plusieurs aspects ont trait au thème de ce soir, ça tombe plutôt bien. Alors Henri, vous avez pris vos fonctions il y a trois mois. Première question : qu’avez-vous découvert sur l’étendue de vos fonctions, en trois mois ?

HV : J’ai découvert, ou en tout cas j’ai éprouvé ce qui se passe quand on tire sur la pelote de laine, c’est-à-dire qu’ouvrir des données, c’est bien joli, le faire de manière native, scalable, ça demande de penser l’architecture de la donnée, l’architecture du système d’informations, la gouvernance de la donnée, ça demande de penser et de travailler avec les ré-utilisateurs ; et en gros, ça fait partie d’un programme plus vaste qui est de l’open gouvernement, c’est-à-dire des techniques d’action publique. Et donc il n’y a pas que l’ouverture de la donnée.

AB : D’accord. Justement, à quoi planche en ce moment Etalab ? Vous m’avez parlé de Hackathon, d’une version nouvelle de data.gouv.fr. Quelles sont aujourd’hui vos missions, et sur quoi vous planchez en ce moment à Etalab ?

HV : D’abord, au quotidien, on essaie de trouver, avec les administrations, de nouveaux jeux de données et de les mettre en ligne ; et ça, c’est la ligne de base de notre travail. Il y a plusieurs gros chantiers qui viennent d’être lancés. D’une part, effectivement, c’est aussi une invitation à qui le souhaite. On lancera demain un vaste processus de reconception de la plateforme, qui va essayer d’associer très profondément toutes les parties prenantes, le portail national de données publiques, où on souhaite que toutes les parties prenantes pertinentes, chercheurs, entreprises, associations, se prononcent et nous aident à concevoir les fonctions. C’est important. Qu’est-ce que doit faire une plateforme nationale d’open data ? En parallèle à ce processus, et je sais qu’ils sont derrière moi, on a de jeunes étudiants de HETIC qui vont nous aider à faire un prototypage rapide...

AB : L’école HETIC.

HV : Voilà. Et puis, on va essayer d’en profiter aussi pour mieux resserrer encore, pourtant on les connaît déjà un peu, l’écosystème de la data, tous ces talents qu’on a en France, toutes ces start-up, entre autres, qui sont bons en sémantisation, en transformation de formats, en compression de données, en data visualisation, etc. Et puis on a encore beaucoup de chantiers, mais celui-ci, c’est une invitation à travailler avec nous, en particulier, on va essayer d’attaquer un peu différemment la question de l’ouverture des données en lançant des débats thématiques. Au lieu de se dire : faut-il ouvrir ? Faut-il ne pas ouvrir ? Gratuit, payant ? Il me semble important et il semble important au gouvernement de se poser des vraies questions concrètes sur des stratégies d’ouverture de données, sur le logement, sur le transport, sur la santé...

AB : La prochaine thématique, c’est quoi par exemple ?

HV : On en a trois, on doit travailler sur le logement, sur la santé, sur l’enseignement supérieur et la recherche. Plutôt se dire : quel jeu de données serait vraiment utile ? Serait un bien commun ? Combien ça coûte de les ouvrir ? Où sont-elles ? Comment faut-il les travailler ?

AB : C’est ouvert à tout le monde ? Tout le monde peut participer ? Ce sont les entreprises...

HV : Ce sera des formes d’audition très ouvertes, mais on a aussi besoin d’un comité de pilotage qui propose ensuite une orientation très claire.

AB : Alors pour fixer un peu le contour de cette émission, aujourd’hui, on va parler d’ouverture des données des entreprises, et il faut préciser que l’ouverture des données ne renvoie pas forcément à la pratique de l’open data. Or, c’est une confusion qu’on a vue un certain nombre de fois. Est-ce que vous pourriez clarifier, avant qu’on rentre dans le vif du sujet, la différence entre l’ouverture des données et l’Open data, avec un grand O ?

HV : Oui. En droit français, il n’y a pas d’open data. En droit français, il y a un devoir de l'État d’organiser l’ouverture, et même la réutilisation, des données publiques, c’est-à-dire des données qui sont produites par l’administration dans le cadre d’une mission de service public, et qui ne soit ni personnelles, ni nominatives, ni stratégiques au sens militaire ou sécurité du terme. C’est ça qui existe depuis longtemps en droit français, et qui prend une nouvelle envergure avec le numérique. L’open data, c’est quand même un mouvement un peu plus vaste qui s’intéresse aussi bien... Qui fait partie des mouvements open, open source dans le logiciel, open culture, et qui travaille indifféremment sur des données privées, publiques, dans l’entreprise, dans l’administration, etc. Disons que c’est la version administration de l’open data.

AB : Très bien. Alors on parlait il y a quelques secondes de votre mission à Etalab, et sur votre feuille de route, on peut lire qu’une partie de la mission d’Etalab consiste, je cite : « à soutenir le dynamisme économique en créant de nouvelles ressources pour l’innovation et la croissance. » Alors là, on va rentrer complètement dans le vif du sujet. Comment, justement, ce soutien à l’activité économique peut-il passer, justement, par l’ouverture des données des entreprises ?

HV : D’abord, il peut passer par l’ouverture des données de l'État. Je le dis brièvement parce que, d’abord, et on travaille beaucoup dans ce sens-là… Et c’est vrai pour les entreprises aussi. Savoir créer des référentiels communs et partagés, savoir travailler d’une manière plus coopérative, savoir attirer l’innovation de l’extérieur, ça peut rendre un État plus efficace et toute entreprise peut se féliciter d’avoir un État plus efficace. Ça peut rendre aussi une grande entreprise plus efficace.

AB : Ils peuvent s’en inspirer aussi...

HV : On en reparlera, je pense.

AB : Bien sûr.

HV : Deuxièmement, on pense que ces données peuvent être des externalités. Alors soit, et je crois qu’on va voir de belles start-up tout à l’heure, des ressources sur lesquelles on peut bâtir de l’innovation et des services, soit aussi parce qu’on peut créer des grands référentiels et mieux piloter le déploiement de grandes infrastructures de transport, de tourisme, d’énergie, de santé. Il y a quand même beaucoup d’endroits en France où on travaille loin de l’optimum parce qu’on n’a pas les informations pour trouver l’optimum.

AB : Et est-ce que vous pourriez justement citer des exemples où l’ouverture des données, l’ouverture des données aux entreprises pourrait fonctionner justement comme un créateur de richesses, et un exemple que vous avez évoqué avec moi, c’était l’exemple du Grand Paris.

HV : J’ai repensé à cet échange que nous avions eu. Il y a un cas que nous connaissons tous, en tout cas dans cette salle, quotidiennement, c’est Facebook, c’est Twitter, c’est Amazon, etc. Ces services que nous utilisons quotidiennement, en général, ils sont bâtis par des innovateurs sur les données que Facebook, Twitter, Google, Amazon ont pris soin de mettre à disposition des développeurs. Quand même, le cœur de l’économie numérique, il fonctionne comme ça. Donc il faut s’en souvenir. Ensuite, si on prend l’open data, ou le partage de la donnée comme moyen de réguler un peu, c’est vrai que moi, j’ai toujours été frappé de voir… alors on peut parler du transport dans le Grand Paris, on va investir 35 milliards pour construire une infrastructure de transports adaptée à la croissance de Paris, et personne, aujourd’hui, à l’heure où je vous parle, n’a un modèle précis des flux de transports dans Paris, mélangeant le train, le RER, le tramway, l’automobile, le métro, le Vélib’...

AB : C’est incroyable ! Quand vous m’avez dit ça, j’étais assez étonné.

HV : Donc on sent bien quand même que construire les modèles, construire les référentiels, ça peut guider le bon investissement, la bonne décision, trouver de meilleures optimisations à moindre coût quand on construira une infrastructure.

AB : Concrètement, ça pourrait se faire comment si vous deviez conseiller justement les...

HV : On y travaillera parce que ce sont les débats que nous sommes censés lancer dans quelques mois, un peu plus tard.

AB : Un petit scoop ?

HV : Non, il n’y a pas de scoop.

AB : Non mais je plaisante...

HV : Alors, on en reparlera peut-être mais je constate souvent que beaucoup d’entreprises ou de détenteurs de données de disent : « Si je suis le premier à ouvrir... » C’est comme un problème de théorie des jeux : « Si je suis le seul à ouvrir, je suis perdant », pense-t-il, peut-être à tort. Mais tout le monde se rend compte que si tout le monde ouvre, chacun y gagne. Finalement, mettre un pot commun de données et avoir tous un bon référentiel, c’est vraiment changer d’échelle stratégique.

AB : Vous avez un autre exemple, outre le Grand Paris, où l’ouverture des données de grandes entreprises pourrait justement, quand on met ces données dans un pot commun, bénéficier à l’ensemble des entreprises ?

HV : Après, vous avez toute la famille des gens qui savent travailler l’open innovation. L’économie numérique, c’est plutôt les stratégies de plateforme. Vous avez des gens qui, en donnant moins de données, en ne se bâtissant pas en plateforme, arrivent à attirer chez eux... Je ne vais pas citer d’exemples, mais il y a de très grandes entreprises françaises qui sont entrées dans ce monde-là, certaines nous accueillent ce soir...

AB : Pour une grande entreprise qui envisagerait, aujourd’hui, d’ouvrir ses données, à des degrés divers, quels avantages, selon vous, elle pourrait potentiellement en tirer ? Certaines études parlent d’avantages d’image, d’autres de commercial, d’innovation.

HV : Bien conduit. Parce que l’ouverture, ce n’est pas forcément la transparence, on n’a pas dit que les murs devaient devenir en verre, ce n'est pas forcément la transparence ultime. Bien sûr qu’il y a un bénéfice d’image, on est quand même dans une société non seulement qui a une petite défiance envers les institutions, mais aussi une société où les gens veulent refaire par eux-mêmes, vérifier par eux-mêmes, l’hackability... C’est important. Donc il y a un bénéfice d’image, il peut y avoir de grandes économies de com’. Je discutais avec quelqu’un qui distribuait de l’eau. Il disait : « Ou je communique comme un fou pour dire à quel point mon eau est bonne, ou je mets juste mes analyses, je les mets en ligne, et je dis : vérifiez par vous-mêmes et comparez. »

AB : C’est un super exemple. C’est très simple !

HV : C’est simple. Mais moi, j’y reviens, je crois que le cœur du cœur des stratégies autour de l’ouverture des données, c’est de savoir se positionner en plateforme et savoir attirer à soi l’innovation et héberger l’innovation pour compléter et prolonger son propre effort.

AB : Pour beaucoup de sociétés, fonctionner en plateforme, ce n’est pas hyper facile. Concrètement, ça veut dire quoi fonctionner en plateforme ?

HV : On voit des exemples dans le téléphone, par exemple, 80 NT a commencé à dire : je désigne des flux d’API et je laisse toute sorte de petites start-up qui vont faire des répondeurs super intelligents, qui vont faire des outils de filtrage de ceci, cela... Travaillez avec moi, moi je tiens l’infrastructure donc de toute façon je ne risque rien, et je laisse venir à moi, je deviens une sorte de terreau pour l’innovation.

AB : Il y a d’autres entreprises...

HV : On peut le voir dans la grande distribution, dans La Poste, partout où on gère une grande infrastructure, un réseau, on peut jouer une stratégie de plateforme.

AB : Certaines entreprises décident carrément d’ouvrir complètement leurs données. Quel est le profil de ces entreprises un peu particulières ?

HV : Là, c’est un peu plus compliqué parce qu’on entre un peu dans le monde qui ressemble aux familles de logiciels libres, c’est-à-dire qu’il faut vraiment travailler sa chaîne de valeurs pour être capable de créer de la valeur sur le service, sur autre chose que la donnée elle-même. Et souvent, il faut quand même redesigner en profondeur ses processus. Il y a quand même un exemple qui m’a toujours beaucoup frappé, alors là, c’est deux entreprises, ce n'est pas une, mais je constate que les bourses, le Nasdaq par exemple, donnent gratuitement l’information sur les cotations ; et s’ils ne le faisaient pas, il n’y aurait plus de bourse. C’est-à-dire, là, la transparence, c’est la confiance, et c’est ce qui appelle les investisseurs. Mais cela n’a jamais empêché Bloomberg de faire des terminaux Bloomberg à 200 000 dollars par mois parce qu’ils ont packagé au-dessus de cette information, qui donc est gratuite, du très haut débit, des outils d’alerte, de filtrage, de compilation. C’est un exemple. La donnée brute, toute seule, n’a peut-être pas tant de valeur qu’on le pense parfois. C’est la manière dont elle est designée, travaillée… C’est le service qui a de la valeur.

AB : Et le deuxième exemple ? Ah oui, c’était le Nasdaq et Bloomberg.

HV : Alors là, ce sont deux entreprises différentes.

AB : Selon une étude BVA, les principaux obstacles, aujourd’hui, d’un projet d’ouverture des données, sont les besoins de contrôle, premièrement. Deuxièmement, la concurrence, et troisièmement, les problèmes juridiques. Ça fait beaucoup de travail pour Etalab tout ça...

HV : Dans l’entreprise ?

AB : Dans l’entreprise. Ce sont des grandes entreprises qui ont répondu à ce sondage.

HV : Oui, de toute façon, c’est beaucoup de travail, mais c’est surtout, et là je l’ai dit en introduction…

AB : Beaucoup de pédagogie à faire...

HV : Il y a quand même une sorte de conversion profonde du modèle. Dans L’âge de la multitude, on dit : finalement, les entreprises ont été bâties sur des logiques de sous-traitance, donc on spécifiait le cahier des charges, on faisait des appels d’offres, on épluchait la conformité au cahier des charges des appels d’offres, on cadrait très, très fort le sous-traitant, et puis on faisait la recette. Et il devait inventer la sur-traitance : je mets tout mon effort à designer le flux de données sortant, la hiérarchie des normes, les droits, les formats, etc., et je laisse faire les gens, je les laisse faire ce qu’ils veulent et que je n’ai pas imaginé. C’est quand même une conversion profonde des organisations, des stratégies, des méthodes.

AB : Alors la directrice des médias numériques de La Poste, La Poste que vous évoquiez tout à l’heure, La Poste qui mène donc plusieurs initiatives d’ouverture, elle dit, je cite : « L’open data, c’est avant tout un état d’esprit. Qu’est-ce que ça vous inspire cette citation ? Ça renvoie à la culture de la data…

HV : En plus, ça dépend comment on la lit mais... J’ai signalé à plusieurs reprises, il me semble que dans beaucoup de contextes, il y a une manière ancienne et une manière post-numérique de poser une question, notamment sous-traitance, sur-traitance, etc. Donc si c’est ça qu’on appelle un état d’esprit, je souscris dès demain. Si vous voulez me faire parler de culture de la data, c’est vrai que par ailleurs, il y a quand même un champ merveilleux, magique, passionnant, qui embarque la data visualisation, les big data... Enfin, si vous allez vous promener dans le medialab du MIT, vous entendrez : « Feedback economy », beaucoup de « retro control », « AB experiment », « Evidence base decision », « Data driven strategy » ; et on n’entend pas assez ça de ce côté de l’Atlantique ; et ce ne sont pas des technologies, ce sont des manières d’envisager les situations, de poser les problèmes et de chercher des solutions.

AB : Alors justement, en parlant de data culture, je recommande le très bon guide du ministère de la Culture sur la data culture, ça s’appelle comme ça, Data culture, accessible sur leur site. Alors merci Henri Verdier pour ces réponses. Je vous propose désormais de passer aux questions-réponses. Y a-t-il des questions dans la salle ? En général, il y en a un qui se propose, et il y en a ensuite cinq ou six qui parlent. Ah, voilà. Bonsoir.

PUBLIC : Bonsoir. Sur la culture, vous en parliez à l’instant, il y a une sorte d’exception culturelle sur l’open data, où il y a, a priori, des données qui ne peuvent pas sortir en open data. Henri Verdier, est-ce que ça vous semble être un problème ou une bonne chose qu’il y ait cette exception culturelle sur l’open data ?

HV : Personnellement, je pense qu’on ne devrait pas mélanger les œuvres et les données. C’est-à-dire : les questions de l’open culture, du financement de la culture, du partage de la culture, sont des questions importantes, mais la construction du droit français de l’ouverture des données publiques, etc., elle n’est pas pensée pour des œuvres. Elle est pensée pour ce savoir qu’a produit l’administration et qu’elle sait sur les citoyens, et dont elle doit savoir rendre compte, etc. Donc je pense qu’à bien des égards, on gagnerait à séparer les deux problèmes. Et notamment, on n’aurait pas besoin de dire : il y a une exception culturelle sur les données de la culture. Parce que dans la culture, il y a aussi des données, des vraies données, des statistiques de consultation des établissements, statistiques d’emprunt dans les bibliothèques. Mais ça, c’est juste de l’open data normale.

PUBLIC : Je ne parlais par sur les œuvres, mais justement sur les utilisations.

HV : Non, il n’y a pas du tout d’exception là-dessus. Simplement, comme on a toujours peur, dans les négociations internationales, qu’un jour quelqu’un dise : l’open data exige de violer le droit d’auteur ; on a un peu tendance parfois à prétendre qu’il y a une exception culturelle sur les données de culture. En fait, je pense que c’est une mauvaise analyse juridique.

AB : Merci beaucoup. Est-ce qu’il y aurait une deuxième question ? Oui, bonjour, juste devant.

PUBLIC : Bonsoir, Emmanuel Bavière, de la Société générale. Nous, on a des problématiques en tant que banquiers depuis très longtemps sur les problématiques de big data qu’on a renommé, qui s’appelaient data warehouse, etc. Aujourd’hui, majoritairement, on commence à s’intéresser à la façon dont on peut rendre des data justement à nos clients pour vraiment créer une logique de confiance entre nos datas et leurs datas ; et de quelle façon on peut introduire l’open data dans cette relation. Est-ce qu’il faut considérer qu’on va intégrer dans nos process l’intégration de toute open data dans le big data qu’on est en train de gérer, ou est-ce qu’on attend que les clients commencent justement à avoir des outils pour à la fois analyser leurs datas qu’on peut leur donner, et à la fois l’open data qui existe en libre circulation ?

HV : D’abord, si vous prenez toutes les données ensemble... Moi j’ai bien précisé, enfin en tout cas le droit français de l’ouverture des données publiques, ce sont les informations non-personnelles, non-nominatives et non-souveraines. Donc vous, dans les données que vous brassez, il y a des informations personnelles et il y a des informations nominatives, il y a des informations statistiques, il y a toute sorte d’informations, donc il faut probablement discriminer un peu tout ça. De manière générale, si on doit être très court, j’ai envie de dire qu’on sent bien que les gens d’abord veulent faire des choses avec les données. On ne peut pas se contenter de dire : n’y touchez pas, ne regardez pas, ça n’existe pas. Et il y a quand même de grandes questions autour de l’autonomie. C’est-à-dire qu’à votre place, puisque vous me posez la question, j’analyserais à partir de tous les mouvements comme le vendor relationship management, c’est-à-dire : est-ce que je peux refonder la relation avec mes clients pour leur laisser une vraie autonomie ? En gros, ils me filent les données mais ils peuvent les reprendre s’ils veulent, il y a de la portabilité. Et dans ce cas-là, on va voir que beaucoup de choses, à mon avis, vont se simplifier. Enfin là je parle de mes opinions.

AB : Est-ce qu’il y a une autre question ?

PUBLIC : Sans vouloir trahir de secret, est-ce qu’à votre avis, l’open data, avec tous les guillemets qui s’imposent, va jouer un rôle dans la réponse que l’on essaie d’apporter en ce moment avec tous les problèmes autour de l’affaire Cahuzac et du reste ?

HV : Ce serait très paradoxal que je trahisse des secrets alors que je suis chargé d’organiser l’ouverture des données publiques. D’abord, si on revient, et c’est important de revenir au cadre juridique que j’ai souligné trois fois, les données publiques, ce ne sont pas des données personnelles. Donc là, on parle d’autre chose, on parle de transparence sur la vie parlementaire, sur le statut financier des élites, etc. Donc je pense, en tous cas j’observe comme vous en lisant la presse qu’il y a une demande de transparence, et qu’il semblerait qu’on ait l’intention d’y répondre. Moi j’aimerais bien qu’on se rappelle ce que dit la feuille de route que nous a assignée le Premier ministre. L’ouverture des données publiques, c’est à la fois une liberté publique, et donc oui, la société est en droit de demander compte à tout agent public de son administration, c’est la déclaration des droits de l’Homme ; et c’est à la fois une stratégie d’innovation. Et j’espère que le débat ne va pas juste se focaliser excessivement uniquement sur les questions de transparence. C’est important la transparence, mais l’ère de la donnée dans laquelle nous sommes en train d’entrer, les nouvelles manières de produire, de faire, de s’organiser, de coproduire avec les citoyens, etc., à mon avis, c’est encore plus porteur de progrès.

AB : Très bien, Henri Verdier, j’ai une question qui vient de Twitter. La question est donc la suivante : comment encourager les entreprises françaises à mieux valoriser et partager leurs données ? 

HV : Sacré Twitter !

AB : Comment est-ce que vous les encourageriez ? Justement, vous venez d’en parler avec la Société générale par exemple...

HV : En tout cas, il y a plusieurs choses, dont beaucoup ne sont pas de mon ressort. Vous avez mentionné mon co-auteur, Nicolas Colin, il a remis un rapport sur la fiscalité du numérique, où il préconise, et c’est son analyse, de réfléchir à une fiscalité qui tiendrait compte du fait qu’aujourd’hui la valeur se crée dans le lieu de l’expérience utilisateur et dans un lieu en général qui est un lieu d’échange de données. Donc il y a des réflexions comme ça. Pour ce qui concerne Etalab et notre mission, c’est important d’entendre que nous, on estime que l’ouverture des données publiques n’atteindra ses objectifs que si elle embraye sur de vrais usages qui transforment la manière de travailler des entreprises, de la société et de l’administration. Et donc on va essayer d’abord, comme on fait avec ce concours Data connexion, de favoriser le repérage des talents, la présentation des talents. Dans Data connexion, il y a un concours, il y a un jury. Ce jury, il est fait de personnalités passionnantes. Donc par exemple, nous, nous considérons que donner une chance à des start-up de présenter leurs projets devant ce jury, c’est aussi leur ouvrir des opportunités. Il y a des VC, il y a des gens qui peuvent les aider. Et puis on essaie de faire de la pédagogie, mais dans les deux sens. C’est-à-dire, je viens parler avec vous ce soir, et puis j’écoute aussi. Il y a aussi des entreprises qui vont montrer à l'État des choses qu’on peut faire avec les données. Alors c’est peut-être un des cas où l'État est parti avant les entreprises, ce n’est pas si fréquent, donc il faut s’en congratuler ; mais je pense que tous ceux d’entre vous qui gèrent de grandes quantités de données, de grandes infrastructures, vont nous montrer un jour qu’on peut inventer des nouvelles manières de travailler, de produire, d’interagir avec ses clients, etc. Voilà, donc : pédagogie et discussion. Et puis essayer de donner des chances supplémentaires aux start-up qui travaillent avec les données publiques.

AB : Donc si on pouvait retenir une phrase, c’est : réfléchissez votre entreprise, réfléchissez vos données comme une plateforme qui peut potentiellement créer un écosystème. Donc merci au public pour toutes ces questions. Je vous propose désormais de regarder une interview de François Bancilhon, cofondateur de Data Publica. Data Publica est donc une entreprise qui permet à d’autres entreprises de réutiliser des sets de données. Ça tombe bien parce que précisément la réutilisation des données par les entreprises, c’est le thème de la deuxième partie de SFR Player. On se retrouve donc juste après cette vidéo.

 VIDEO :

(Data Publica, c’est une start-up qui a un an et demi d’existence, qui est petite, mais qui croît. Nous sommes un acteur important de la data. Data, ce qui veut dire open data, big data, data vis, data journalisme. On est dans cet espace. Et la partie open data, donc les données publiques, est très importante. Pourquoi est-ce qu’il y a besoin d’entreprises comme nous si le secteur public met à disposition ces données ? Essentiellement parce que le travail d’ouverture de données, c’est la mise à disposition des données brutes de l’ensemble de l’écosystème. Donc si on demande à l'État de mettre à disposition ces données et de les structurer, de les rendre propres, ce travail à faire va ralentir énormément l’ouverture des données. Il vaut mieux que l'État sorte de la donnée brute, même de mauvaise qualité, même mal structurée, même totalement hétérogène, et faire confiance à l’écosystème qu’il y a autour, dont nous faisons partie, pour faire ce travail, pour choisir dans ces données quelles sont les données importantes, pour choisir le travail qu’on va faire pour rentabiliser ce travail en créant un marché autour de cette structuration des données et de la mise à disposition des entreprises. Donc l'État sort de la donnée brute, l’écosystème autour l’améliore, en fait de la donnée utilisable, l’apporte aux entreprises ; et l’écosystème, après ça, en fait l’usage qui est nécessaire pour relancer l’économie. Les données sont de plus en plus accessibles, et il y a des nouvelles données qui avant n’étaient pas disponibles. La compréhension du comportement des Français qu’on voit à travers les réseaux sociaux, l’action de l'État qu’on voit à travers la donnée publique, tout ça, c’est des données qui maintenant sont accessibles, qui avant ne l’étaient pas. Et notre travail consiste, pour les entreprises qui font l’usage de ces données, d’une part de leur expliquer quelles données sont disponibles, pour qu’ils découvrent la possibilité de ce qu’ils peuvent en faire ; et deuxièmement de leur rendre ces données accessibles dans les formats et les structures avec lesquelles ils peuvent travailler directement. On a souvent tendance à penser que les données sont utilisées pour des applications de type smartphone, des petits truc sympathique ; mais les possibilités sont bien plus importantes que ça, à savoir : elles sont celles de l’optimisation des grands systèmes dans les sociétés qu’on vit. C’est là où l’open data, la donnée publique et le big data vont nous permettre de faire progresser nos sociétés de façon plus efficace, et réellement changer le monde.

AB : Nous voici donc de retour sur le plateau de SFR Player, toujours avec Henri Verdier, directeur d’Etalab, et Jean-Thomas Rouzin. Vous venez de nous rejoindre. Bonsoir.

Jean-Thomas Rouzin (JTR) : Bonsoir.

AB : Alors, Jean-Thomas, vous êtes cofondateur de la société Web Geo Services. Web Geo Services est donc une jeune société qui facilite le partage des données d’entreprise, le tout grâce à la cartographie. Jean-Thomas Rouzin, est-ce que vous pouvez nous en dire plus sur cette société, et comment vous permettez justement aux entreprises de réutiliser ces données, et à quelles fins ?

JTR : Dans les entreprises, d’abord, il y a énormément de données, ce n’est pas quelque chose qu’on vient d’apprendre, ça a été dit tout à l’heure. Les données, elles existent depuis très longtemps. Et nous, notre savoir-faire à Web Geo Services, c’est quand il y a le mot-clé géographie dans les données, d’aider l’entreprise à transformer cette information pour en faire des outils qui dégagent de la valeur. En ce moment, la tendance c’est les très grosses données, les big data, pour créer quelque chose de nouveau au sein de l’entreprise, mais aussi les exposer vers l’extérieur sous la forme de services.

AB : Alors vous avez vu la façon dont Jean-François Bancilhon ré exploite les données, tout ce qu’il a pu dire dans la vidéo. Qu’est-ce que ça vos inspire ce modèle ?

JTR : C’est l’économie moderne. C’est en train de changer. A la rigueur, je suis jeune, j’ai démarré dans le monde professionnel il n’y a pas si longtemps que ça, il y a une dizaine d’années. J’ai eu l’occasion de voir le monde des éditeurs, avec tout ce qui va derrière l’édition, la production d’une information standard, etc. Et on a changé de façon de fonctionner, la coproduction est arrivée, et tout l’écosystème de l’innovation qui va autour, la frontière a vraiment bougé entre qui produit l’information et qui la consomme. C’est des fois le producteur qui la reconsomme sous une autre forme. Comme tout ça, ça a changé, le spectre des opportunités a changé, et on a énormément de choses à faire dans le domaine.

AB : Est-ce que vous pouvez citer des exemples de réutilisation de données par Web Geo Services ?

JTR : Oui, bien sûr. Le premier exemple finalement, c’est un peu historique, c’est comme ça qu’on est arrivé, dans le domaine des transports. En plus, on en parlait tout à l’heure, il y a des problématiques énormes et des gisements de valeur très, très importants. On a travaillé avec un constructeur automobile qui cherchait à implanter le véhicule électrique. Donc il n’y en a beaucoup en France, la couleur dominante, c’est plutôt le jaune dans son logo. Et sa question était toute bête : où mettre des bornes de recharge de véhicules électriques sur le territoire ? Et pour répondre à cette question-là, il fallait de la data. Et on a commencé à regarder d’abord ce qu’il y avait à l’intérieur de l’entreprise pour répondre à cette question. Ça peut paraître bête parce qu’on pourrait se dire : on va chercher à l’extérieur des données sociodémographiques etc. Et en fait on a trouvé de la donnée à l’intérieur. Et puis ensuite, on est allé voir sur le terrain s’il y avait des collectivités locales qui possédaient de l’information pour essayer de les croiser. On est entré dans ce domaine, et on a réussi à générer des outils d’aide à la décision très puissants pour répondre à ces questions.

AB : Alors, Henri Verdier, on est complètement dans ce que vous racontiez tout à l’heure en première partie.

HV :  Complètement, oui. Je faisais juste une sorte d’analogie dans ma tête. Pendant des années, la biologie, ça a été de la physiologie. Et puis un jour, on a découvert que c’était aussi de la chimie, et on a refait une deuxième biologie. Et je pense qu’avec les données, j’imaginais que vous alliez continuer la phrase en disant : « Je suis tombé dedans et je n’en suis jamais sorti. » Après, ça ne s’arrête plus, on peut voir des choses qu’on ne voyait pas, on peut faire des choses qu’on ne savait pas faire.

JTR : La bonne preuve c’est que moi, je suis géographe, je ne suis pas un informaticien à l’origine. Et mon job, et le job de Web Geo Services, c’est de croiser des géographes avec des informaticiens et des big data qui existent maintenant aujourd’hui, l’explosion des limites de la technologie, bien sûr on fait de la technologie, et d’obtenir des nouveaux résultats, et de repenser la géographie de cette manière-là.

AB : Il y a un autre exemple, c’est Nemo. Si vous pouvez nous en parler…

JTR : Nemo, alors là, on est passé dans un stade encore plus important. Tout le monde a un téléphone mobile dans sa poche, et ce téléphone mobile, il génère des évènements sur le réseau de téléphonie, et ça peut très vite constituer des masses d’informations colossales. On travaille donc avec SFR, qui produit ce type d’informations anonymisées, c’est un mot clé qui est vraiment très important. L’anonymisation de la donnée, l’agrégation de l’information pour garantir la confidentialité de l’utilisation de ces informations, pour ensuite les traduire dans des outils d’aide à la décision très puissants qui permettent par exemple d’analyser les flux de population. Alors ça va me permettre de rebondir sur l’exemple de tout à l’heure. 

AB : Quel genre de sociétés par exemple ? Parce que ces données sont partagées avec par exemple la SNCF...

JTR : Par exemple, ce qu’on fait, et c’est un modèle qui est gagnant-gagnant entre le producteur, le propriétaire de l’information, qui est l’opérateur, et Web Geo Services qui apporte la valeur ajoutée, c’est ce qu’on expliquait tout à l’heure, qui crée des modèles statistiques, des modèles de déplacements de population, mais, après, on fournit ce produit, on co-édite un produit qu’on va délivrer au secteur public pour mieux aménager le territoire et les transports, et puis aux entreprises qui veulent proposer des services.

AB : Un exemple de réutilisation ?

JTR : Un exemple de réutilisation, par exemple dans le domaine du tourisme. On se pose beaucoup de questions sur comment se déplacent les gens, par exemple, qui quittent une station de ski après une semaine de vacances. Eh bien, on va pouvoir analyser les flux de population, par quel moyen de transport ils repartent, par quelle direction, est-ce qu’ils restent un petit peu dans la région, est-ce qu’ils repartent. Donc ça veut dire qu’on peut repenser un petit peu la politique d’investissement sur le territoire, pour l’infrastructure touristique, par exemple.

AB : Ça tombe bien, le tourisme, c’est le prochain thème de Data connexion, si je ne m’abuse...

JTR : Voilà, le 24 juin prochain.

AB : Comment accélérer, justement, Henri Verdier, le développement de ce genre d’initiatives, de ce genre de sociétés, de start-up ? Comment vous faites chez Etalab ?

HV : Je vous le dis, je le redis pour la troisième fois, mais nous, on est d’abord chargés d’ouvrir les données publiques dont dispose l'Etat.

AB : Mais vous faites aussi beaucoup de pédagogie auprès des entreprises.

HV :  Et on essaie...

AB : Data connexion, c’est un très bon exemple. 

HV : On essaie en particulier d’abord de les rencontrer pour apprendre d’elles, et puis de donner quelques coups de pouce aux start-up ; et puis il y aura d’autres gens qui vont... Il y a des projets sur les big data, il y a des projets sur l’économie numérique, il n’y a pas que Etalab dans l'État.

AB : Bien sûr. Alors Jean-Thomas, quels modèles de réutilisation de données faites-vous la promotion auprès des entreprises ? Quels sont les différents modèles ?

JTR : Alors, je n’ai pas vocation à être préconisateur. Moi, je parle de mon expérience, et mon expérience, c’est d’arriver à trouver un modèle gagnant-gagnant. Ce qui a été extraordinaire dans l’approche qu’on a conjointement avec SFR, c’est qu’on a réussi à trouver, alors que SFR est une grande entreprise, nous, une start-up d’une vingtaine de personnes, on a réussi à trouver un modèle gagnant-gagnant où on apporte de la valeur au propriétaire de la donnée ; et nous, évidemment, au passage, on en génère. Donc c’est ce modèle de valorisation d’un produit qu’on arrive à générer qui est vraiment très important. Après, on génère des modèles économiques, on fait de l’ingénierie commerciale, il n’y a pas de souci.

AB : Et on peut dresser une typologie. Tout à l’heure on parlait de plateforme, c’est un terme très général, mais est-ce qu’il y a une typologie des modèles de réutilisation ? Je dis ça parce que les entreprises qui nous regardent pourraient plus facilement imaginer comment s’inscrire dans ces typologies, s’il y en a. C’est très varié.

JTR : La notion de plateforme, je suis peut-être mal placé pour la décrire. Ce qui est intéressant, c’est que nous, on a eu accès à une plateforme d’innovation où on nous a dit : « Voilà le produit qu’on est capable de faire, on a compris votre savoir-faire, vous avez carte blanche. » Donc, finalement, quelque part, c’est un modèle très pragmatique où on ouvre l’accès à l’information, mais dans une optique quand même de génération de valeur. C’est vraiment quelque chose de très important.

HV : Si on regarde ce qui se fait le plus aujourd’hui avec les big data, quand même, il y a des gens qui s’organisent pour voir des choses qu’on ne pouvait pas voir avant, par exemple parce que ça coûtait trop cher. Il y a le cas fameux de traders qui utilisent les photos satellites des parkings des Wallmart pour deviner le chiffre d'affaires du mois, et anticiper sur les cours de bourse. Mais il y a plein d’endroits comme ça où on peut voir... Moi, j’avais travaillé avec mon entreprise précédente le déplacement des touristes avec les photos Flickr et les leurs coordonnées de géoloc ; et on voyait où les gens étaient sur le territoire français. Ça ne coûtait rien. Ensuite, bien sûr, aujourd’hui on travaille beaucoup dans le marketing, essayer de mieux cibler, de faire des offres. Mais ce qu’on dit tous les deux, c’est que ça, c’est rien, ce sont les balbutiements. Aujourd’hui, quand on va inventer des grandes infrastructures, souvent elles seront géolocalisées ou géographiques, on va changer en profondeur les chaînes de valeur elles-mêmes.

AB : Jean-Thomas, selon un sondage, aujourd’hui les obstacles à la réutilisation de données sont : premièrement leur fraîcheur, deuxièmement la dispersion des données, troisièmement la méconnaissance de la disponibilité, et quatrièmement, du lieu où trouver ces données. Alors comment vous adressez ces problématiques chez Web Geo Services ?

JTR : On adresse cette problématique par de la...

AB : Ces quatre problématiques...

JTR : Il y en a beaucoup, mais ça se résume finalement par une démarche : c’est de trouver la bonne personne, à l’intérieur de la structure, qui va sponsoriser, qui a la vision, qui a un départ de vision pour se dire... Il sait ce que c’est que de la donnée, et il sait où il y en a un peu dans son organisation. On va faire cette première analyse avec cette personne, et une fois qu’on l’a, on va très, très vite à la preuve qu’on génère de la valeur avec cette information. Et souvent, ce qu’on observe, avant d’aller faire cette preuve vers l’extérieur et vers un marché, eh bien on se débrouille pour régler une problématique interne avec leurs propres données. Une fois qu’on a réussi ça, toutes les portes s’ouvrent, et tout à coup, on a des gens qui sont prêts à aller chercher les données où elles peuvent se trouver parce qu’on se dit : mais tiens, ça y est, je le sais, j’ai de la valeur, je vais aller la chercher, et je suis sûr que j’en ai, je pioche.

AB : C’est la preuve par exemple en partant de l’interne et des problématiques propres à la société.

JTR : Et c’est ça qui est génial dans la géographie avec le mot clef « géolocalisation », c’est que c’est très visuel, ça apporte des réponses, on révèle des phénomènes qui n’existaient pas avant. Donc c’est le côté magique.

AB : Henri Verdier, une réaction avant qu’on passe à la suite ?

HV : D’expérience, pour avoir été à votre place dans une vie d’avant, prouver au DSI qu’on ne va pas lui péter son système, donc il vaut mieux lui proposer un site miroir, un repository annexe… Souvent, ça fait gagner six mois de discussions.

AB : Merci pour le conseil. Je pense que ce sera très utile. Apparemment, il est d’accord.

JTR : Je suis vraiment d’accord, mais c’est assez génial, on commence à voir des changements de mentalités aussi à ce niveau-là aujourd’hui. Beaucoup plus de pragmatisme, pas forcément besoin de mettre en place des systèmes très complexes de l’IT très avancé. On peut mettre en place cinq machines qui ne valent rien dans un bureau, et commencer à traiter de la donnée, préparer de l’information et faire la preuve. Ça, c’est quelque chose de nouveau. Et on voit ça dans les DSI.

AB : Ça en rassurera beaucoup ce soir.

JTR : C’est un message d’espoir.

AB : Donc merci à vous deux. Je vous propose désormais de passer aux questions-réponses. Je vous en prie, est-ce qu’il y a des questions dans la salle, à Web Geo Services ou à Henri Verdier ? Il y a une question devant. Bonsoir.

PUBLIC : Merci. Bonsoir. Luc Legay. J’ai juste une question en forme d’interrogation. On parle d’écosystème, et je me demande dans quel sens l’écosystème qui consiste, pour l’État par exemple, ou les collectivités, de mettre à disposition des données qu’il n’est pas toujours capable de traiter, qui vont être exploitées par des start-up qui vont en tirer de la valeur, d’après ce que j’ai compris, et donc les premiers acheteurs vont être probablement ces mêmes collectivités ou ces mêmes producteurs. Donc effectivement, il y a un cercle vertueux, mais je me pose la question : est-ce que c’est logique de racheter des données qu’on a mis à disposition gratuitement ?

AB : Henri Verdier ?

HV : D’abord, quand on parle d’écosystème, ce n’est pas que ça. Aujourd’hui, les data sciences sont balbutiantes, les start-up innovent, les détenteurs de données travaillent leurs formats, leur gouvernance de données, etc.

AB : On va se retourner de l’autre côté, je m’excuse.

HV : Ah bon, il faut que je me tourne dans l’autre sens. Si tout le monde n’apprend pas à travailler ensemble, on ne va passe se hisser au niveau de jeu mondial qu’exige la situation. Ensuite, j’ai cru que vous alliez poser une autre question sur l’appropriation de la valeur latente dans les données par ces entreprises, et dans ce cas-là, je vous aurait répondu : l’État fait ça, l’État crée des externalités, il crée des routes et les entreprises en profitent ; il crée des écoles et les entreprises en profitent ; il crée de la sécurité dans les rues et tout le monde en profite. Et c’est normal. L’État crée des externalités. Si une administration, un service public, donnait de la donnée et rachetait cher un traitement miteux ou calamiteux, elle serait stupide. Donc j’espère que le prix de rachat est quand même corrélé à l’intensité de l’innovation que propose celui qui traite la donnée. Voilà un bout de réponse.

AB : Merci. Jean-Thomas, vous voulez intervenir ?

JTR : Oui. Je parlais de mon expérience aussi, parce que ça fait partie des travaux qu’on fait aussi avec le secteur public. On récupère de la donnée dans le secteur public, en partenariat avec les collectivités territoriales, et on ré-applique un traitement et on leur re-livre de l’information. En fait, tout se joue dans la valorisation de cette information, c’est-à-dire que quand on applique des modèles, on change la donnée, on apporte une valeur ajoutée. On ne cherche pas à vendre plus que ça, donc les équilibres se mettent en place, et ces nouveaux modèles économiques qu’on apporte avec le monde du logiciel en tant que service, et de l’économie numérique, etc., sont beaucoup plus adaptés que les modèles économiques traditionnels, donc l’acceptation est pratiquement naturelle.

AB : Bien.

JTR : Et je précise juste : la donnée publique, elle reste publique. Ce n’est pas parce que quelqu’un s’en sert qu’un deuxième ne peut pas s’en servir, ou que l’État ne peut pas continuer à travailler lui-même avec.

AB : Y a-t-il une autre question dans la salle ? Oui, juste derrière. Bonsoir.

PUBLIC : Bonsoir. Moi j’avais une question autour de l’encadrement de ces données, en fait. On ouvre des données à tout le monde de manière ouverte, et est-ce qu’il y a une charte d’utilisation ? Est-ce que, comme toute utilisation, il peut y avoir des dérives ? Et comment vous anticipez ces dérives-là et comment vous pourriez réagir par rapport à une mauvaise utilisation, quelle qu’elle soit, de ces données, qui sont publiques ? Et même si elles sont anonymes, potentiellement, je n’ai pas d’exemple concret de dérives, mais on peut imaginer que certains pourraient imaginer des nouvelles choses.

JTR : Pour la partie données privées, qu’est-ce qu’on fait ? On fabrique un produit. Et ce produit, il doit respecter la réglementation. Donc par exemple, dans le service qu’on propose, on attache énormément d’attention à respecter le droit privé, l’anonymat évidemment sur l’information, et il y a des normes, qui sont notamment données par la CNIL, qu’il faut absolument respecter. Mais ça, c’est vraiment quelque chose d’important, mais c’est quand on fabrique le produit qu’on doit prendre en compte ces éléments, et puis une fois que c’est fait, on est bordés, c’est pratiquement comme quand vous créez une société, il vous faut un juriste, eh bien quand vous fabriquez un produit, on met cette sur-couche par-dessus et on y va.

AB : Vous, vous avez le point de vue consommateur et apporteur de valeur ajoutée.

JTR : Tout à fait.

AB : Monsieur Verdier qui est plus…

JTR : On va rappeler le cadre législatif depuis…

HV : Alors d’abord, il y a un cadre juridique tout court. Par exemple, la loi qui organise l’obligation de l’État de mettre à disposition des données publiques, et ensuite la directive européenne qui organise le droit de réutilisation, qui n’est pas la même chose que le droit de consultation, vous interdisent quand même de les tronquer de manière abusive. Vous n’avez pas le droit de prendre des données sur, je ne sais pas… on a mis en ligne il y a quinze jours le classement des établissements scolaires, vous n’avez pas le droit de prendre cette donnée et d’en faire une fausse donnée et de publier ça dans votre journal. Ça a l’air bête, mais c’est important. Ensuite, Etalab avait travaillé longuement avec beaucoup de parties prenantes pour proposer un cadre de licence, qui est assez proche des standards que vous imaginez, Creative commons, etc. Donc aujourd’hui il y a des conditions de licence qui autorisent d’ailleurs une certaine latitude, et je constate que certaines collectivités locales, qui sont dans la licence ouverte, imposent par exemple le Share-alike. Ça, c’est un choix qui est optionnel, mais ils disent : « Voilà, vous pouvez prendre des données publiques et faire ce que vous voulez avec, mais si le résultat du traitement, ça vous plairait Monsieur, n’est pas lui-même en open data, vous perdez le bénéfice de la licence. » Donc l’État n’a pas fait ça, mais il ne l’interdit pas. Beaucoup de collectivités locales ont fait ça. Et puis enfin, parce que je vois venir la discussion naissante sur le fait que des données publiques, anonymes, etc., pourraient éventuellement donner lieu à désanonymisation, dans ce cas-là, le droit de protection de la vie privée s’appliquerait. Les gens n’ont pas l’air de réaliser ça. Si vous prenez les données anonymes et que vous en faites de l’information personnelle, il faut aller voir la CNIL. Vous rentrez sous le registre de la régulation de la protection de la vie privée.

AB : Une troisième question peut-être ? Il n’y a pas d’autres questions. Merci beaucoup Jean-Thomas Rouzin. Je vous propose donc d’accueillir notre deuxième invité, Margaux Pelen, de la société Home’n’Go.

AB : Bonsoir Margaux Pelen. Alors, vous êtes cofondatrice de la société Home’n’Go. Votre service utilise les données publiques pour enrichir la recherche de logements. C’est bien ça ?

Margaux Pelen (MP) : C’est tout à fait ça. Home’n’Go est un service qui a été lancé il y a un an. On a aujourd’hui 4 millions d’annonces immobilières sur lesquelles on va contextualiser. Donc en fait, avec Home’n’Go, on fait deux choses. On enrichit toutes les adresses avec des données publiques ; on va donc récupérer des informations telles que les informations fiscales, immobilières sur la population, et on va aller mettre les bons chiffres aux bons endroits au niveau des régions, des départements, des villes mais aussi des rues. Et on va aussi faire un traitement sur chaque annonce immobilière pour donner des informations de proximité. Donc là, on va aussi avoir des informations sur les transports, sur les commerces et sur les résultats des lycées par exemple, qu’on citait il y a quelques instants.

AB : Alors vous dites une phrase que j’ai beaucoup aimée, vous dites : « Si vous associez un jeu de données à un autre, ce n’est pas un plus un égal deux, mais c’est un plus un égal toutes les applications qu’on peut imaginer. » Est-ce que vous pouvez vous étendre là-dessus ?

MP : Bien sûr. C’est en fait une phrase qui résume ce qu’on disait tout à l’heure. C’est-à-dire que ce n’est pas parce qu’on ouvre des jeux de manière isolée que la somme de ces ouvertures... je me suis embarquée dans un truc un peu compliqué, mais c’est pas grave. Un exemple très concret : aujourd’hui, on parle beaucoup des applications multimodales pour le transport, et on parle beaucoup de Vélib’, qui va bientôt ouvrir ses données. Et ces applications sont en fait illimitées pas seulement parce qu’on va pouvoir savoir précisément quel serait le temps de parcours avec un Vélib’, mais aussi parce qu’on va pouvoir imbriquer ces données avec les données du métro, les données du Transilien, et qu’on aura une application très pratique et complète des transports en Ile-de-France.

AB : Vous pouvez nous donner d’autres exemples comme ça, sur l’utilisation des sets de données des collectivités, un exemple qui illustrerait votre phrase ?

MP : Dans Home’n’Go, notre travail consiste vraiment à mettre toutes les données publiques qui seraient aujourd’hui isolées pour avoir un tout-en-un des choses que vous avez besoin de savoir avant de déménager.

AB : C’est super utile, on va l’utiliser.

MP : Voilà, c’est un exemple qui m’arrange un petit peu, mais bon...

AB : C’est quel genre d’informations justement ?

MP : Alors, ça va être des informations au niveau de la fiscalité. Par exemple, on va vous indiquer quel va être la charge d’impôts locaux que vous allez payer à la fin de l’année si vous habitez dans l’endroit en question. On va vous donner des informations sur le résultat du bac du lycée le plus proche de l’annonce qui vous intéresse. Et c’est des informations que vous allez chercher de manière indépendante, sinon vous allez passer du temps sur différents onglets sur votre recherche Internet, alors que là, on va chercher l’information pour vous, et on la met au bon endroit. Et l’étape numéro deux, ce sera de partir de la donnée pour vous conseiller des quartiers qui vous correspondent.

AB : D’accord. Dans un monde idéal, faisons un peu de fiction, quels sets de données privées, je dis bien privées, rêveriez-vous d’utiliser ?

MP : Nous, il y en a deux. Il y a la base des notaires. C’est une base qui est très chère et qui a une grande valeur pour les gens qui achètent des appartements puisque c’est des données qui vont donner des référentiels, mais qui aujourd’hui ont un vrai coût. C’est des données sur lesquelles on pourrait vraiment jouer. C’est quelque chose qui se fait beaucoup dans les pays anglo-saxons. Je pense notamment aux États-Unis et à l’Angleterre, où il y a un très beau site qui s’appelle Zillow, et en Angleterre un autre site qui s’appelle Zoopla. Et une autre donnée, qui est la donnée du cadastre, avec toutes les adresses, qui n’est pas une donnée disponible. Et en fait, pour reprendre une autre image, c’est un peu comme si on donnait plein de couleurs et plein de pinceaux à un peintre sans donner la toile de fond. C’est un peu compliqué pour construire des applications là-dessus.

AB : Pour les notaires, c’est donc privé, pour le cadastre, c’est public.

MP : C’est public mais fermé, pour l’instant.

AB : D’accord. Alors la deuxième question, c’est : est-ce que l’utilisation par votre service, par Home’n’Go, de ces données, peut profiter à l’autre partie ? Pour les notaires, je n’ai pas forcément l’impression que ça peut leur profiter. Est-ce qu’il y a des exemples comme ça qui profitent aux deux parties, comme ce qu’indiquait Henri Verdier tout à l’heure ?

MP : On peut, avec notre service, créer la data sur les recherches. C’est-à-dire qu’on peut avoir en un temps donné quelles sont les recherches dans un quartier donné, avec quel type de structure de biens, c’est-à-dire dans quelques instants, parce que là, aujourd’hui notre trafic est un petit peu restreint puisqu’on est à 130 000 visiteurs par mois « uniquement » ; mais on sera capable de dire, dans une zone géographique donnée, quelle est la demande de T2, de T3, par quel genre de personnes, et on pourra des adaptations des collectivités. Donc c’est aussi une source de politique publique intéressante.

AB : Henri Verdier, est-ce que vous avez prévu d’ouvrir les sets de données des notaires, des cadastres ?

HV : Avez-vous précisé, Abdel, que Home’n’Go était lauréat du premier Data connexion ?

AB : J’allais le faire.

HV : Je pense qu’on versera la question dans le débat sur les données de logements.

AB : Vous expliquez dans le dernier SFR Player, dans une des interviews qu’on a réalisées, que récupérer des données, ça présente énormément de défis. Est-ce que vous pouvez expliquer justement quel est le parcours, non pas du combattant, puisque Henri Verdier est à nos côtés, mais quels sont justement ces défis pour récupérer ces données ?

MP : Les défis, c’est tout d’abord... Pour raconter un peu l’histoire de Home’n’Go, c’est un projet qui a été lancé effectivement il y a un an et demi. J’ai rencontré mes deux associés cofondateurs en école, on s’est lancés le jour de notre diplôme. Il y a une première version qui est sortie avant même l’ouverture de data.gouv.fr. On a été une des premières applications à réutiliser concrètement ces données publiques. Et quand on a commencé à les réutiliser, on a dû tout remettre en forme pour avoir une base homogène, ce qui n’était pas gagné, ce qui a demandé un très gros travail d’architecture. On avait des données qui étaient dans des formats différents, on avait des données sous Excel, on avait des données sous des formats qu’on ne connaissait pas franchement au départ. Après ça, on a commencé à agréger des données qui venaient de plus de collectivités plus restreintes, où on avait notamment des données de la Saône-et-Loire, ou après de la ville de Nantes. C’est des données qu’il fallait mettre vraiment dans les mêmes canaux pour qu’elles apparaissent de manière très homogène pour les utilisateurs. Parce qu’un utilisateur qui cherche un appartement, l’open data il s’en fout, ce qu’il veut c’est vraiment de l’information et que l’information justement vienne de l’Insee ou d’un autre acteur, pour lui, c’est la même chose à partir du moment où la donnée est fiable. Donc c’est pour ça qu’on cite systématiquement nos sources. Donc il y avait ce travail d’harmonisation, il y avait aussi le travail d’évangélisation qu’on a dû faire. On a dû aller chercher des données qui n’existaient pas. Et un exemple très concret, c’est les données des supermarchés, la localisation des supermarchés. On a eu des choses assez amusantes, par exemple des supermarchés qui nous disaient qu’on pouvait avoir la localisation de tous leurs hypers mais qu’il fallait écrire un courrier papier à leur équipe web...

AB : Ce n’était pas très data, ça.

MP : Non, ce n’était pas data du tout, on était vraiment...

AB : Ça a changé entre temps ?

MP : On s’est arrangé entre temps, et après c’est vrai qu’en ayant une vitrine un peu concrète de l’utilisation qu’on en faisait, ça aide vraiment à voir l’intérêt pour ces marques. Et c’est des données qui sont aujourd’hui partagées dans les sociétés de GPS par exemple, donc on peut les récupérer de manière alternative.

AB : Tout à l’heure on a parlé d’utilisation des datas d’une entreprise vers une grande entreprise. Là, vous venez d’évoquer, même si vous avez évoqué d’autres exemples, l’utilisation des data par une start-up à partir de données fournies par l'État et les collectivités locales. Inventons un modèle ce soir qui serait celui de l’utilisation de vos datas à vous start-up, par une autre start-up. Est-ce que ça existe, est-ce que vous êtes en contact avec d’autres start-up, et quel serait ce modèle, s’il existe ?

MP : Alors on sera capable dans pas très longtemps de produire de la data. Aujourd’hui, on a plusieurs millions d’annonces qui sont sur notre site Internet, qui sont dé-dupliquées. C’est-à-dire que si vous avez une annonce sur plusieurs portails immobiliers, vous n’allez l’avoir qu’une seule fois sur Home’n’Go ; et ça permet de créer de la simplification, et surtout des informations qui n’existent nulle par ailleurs.

AB : Par exemple ?

MP : Par exemple, on sera potentiellement capables de créer une carte des DPE, donc des diagnostics de performance énergétique, pour voir dans quel quartier les logements sont le plus économes. Donc c’est des informations qui ont une vraie valeur pour des personnes qui accordent une importance à leur cadre de vie.

AB : Ok. Henri Verdier, les données utilisées par Margaux, elles émanent principalement de data.gouv.fr., une plateforme qui va bientôt passer à sa V2. Est-ce que vous pouvez nous en parler un petit peu ?

HV : Oui, alors j’y ai fait une allusion tout à l’heure, mais je crois qu’après l’ère héroïque de l’open data où, comme l’a dit François Bancilhon, il était urgent d’avoir une plateforme, une licence, des premiers jeux de données, même bruts, même en format fermé, même pas forcément toujours complètement validés, etc., il est important…, et maintenant que des gens comme Margaux et d’autres ont commencé à faire un écosystème, la question du rôle précis que doit totalement assumer l'État et de ce qu’il doit laisser faire avec les autres ou laisser faire... Une question importante, pour être concret. Par exemple, il est temps que nous nous demandions ensemble, notre écosystème : est-ce qu’un portail national d’open data ça doit aussi stimuler l’innovation, quitte à mettre des ressources pour les innovateurs, des briques technologiques, etc., ou est-ce que ça fait de la donnée, de la donnée ? Quand on dit que c’est un droit d’information du public, est-ce que la donnée brute, c’est informer le public, ou est-ce qu’il faut aussi que l'État prenne soin de fabriquer des indicateurs, des métriques, des dashboard, etc. ? Il y a un certain nombre de questions comme ça qu’on va se poser pendant trois mois avec notre communauté et qui vont aboutir à de nouvelles spécifications.

AB : Quels autres modèles de réutilisation de données vous rencontrez au quotidien chez Etalab ? Des modèles prometteurs, évidemment.

HV : Vous avez peut-être vu à l’écran, je suis parti à l’autre bout de la pièce, etc. Je voulais vous montrer ça quand même. Est-ce que vous avez vu cette carte Michelin de Clermont-Ferrand ? Quand Michelin fait une carte de Clermont-Ferrand.... Est-ce que vous voyez ce qu’elle a de spécial ?

AB : Non, mais vous pouvez la montrer à la caméra.

HV : Eh bien, il va être content Gaël Musquet, c’est la première carte Michelin où Michelin a pris des données Open Street Map. Donc là, vous avez quelqu’un qui travaille d’habitude avec IGN, et qui réclamait plus d’ouverture des données publiques, et qui finalement a joué avec un autre open data, c’est les données coproduites par les citoyens sur une plateforme ouverte, etc., et qui trouve qu’il a une vitesse de rafraîchissement qui est meilleure, avec 10 ou 12 000 volontaires et bénévoles sur tout le territoire qu’avec les fonctionnaires que l’administration est capable de payer pour mettre à jour les cartes. Mais l’histoire n’est pas finie, parce que maintenant il y a des discussions entre IGN et Open Street Map, et ça n’empêche pas que l’information de souveraineté que l’IGN doit produire, parce que l'État a besoin quand même de garantir un certain nombre de savoirs géographiques, puisse éventuellement s’adosser aussi sur Open Street Map. C’est assez compliqué comme modèle. Là, vous avez tout, la plateforme, l’open data, le crowd sourcing, l’information souveraine...

AB : On va donc passer aux questions-réponses.

Question Public : Oui, alors moi j’entends depuis tout à l’heure : on en est au début de l’open data, on va faire beaucoup mieux plus tard. Et j’entends Madame qui dit : « On va réunir des données sur un petit peu toutes les choses. » Donc j’imagine que demain on va aussi réunir des données sur les mauvais payeurs, par exemple dans les logements, ou bien les crimes dans les rues, ou bien, je ne sais pas, les habitudes alimentaires. Et en fonction de ça, on va avoir une certaine forme d’urbanisme. On ne voudra pas aller dans les quartiers où il y aura des crimes qui seront identifiés au niveau des datas. On va avoir une carte un peu différente. Est-ce qu’aujourd’hui il y a une réflexion éthique sur les datas ? C’est-à-dire jusqu’où on peut aller, comment on peut les utiliser ? Ou bien, effectivement, on est uniquement dans un système : plus il y a de données, on va les utiliser dans les tous les sens, on va expérimenter et partir dans toutes les directions.

AB : Margaux Pelen, vous voulez réagir ?

MP : Oui. Déjà, je pense que l’objectif de l’open data n’est pas de dénoncer, mais c’est plutôt d’amener de la transparence pour être capable de résoudre des problèmes. Et il y a évidemment une réflexion éthique sur ce qu’on est capable, nous, de montrer sur le site Internet. Et c’est vrai que si on est capable de montrer que dans certaines zones il y a plus de criminalité, à ce moment-là, on devient un outil de suggestion pour la politique publique. Ce n’est pas un quartier qui va en soi changer. Enfin, ce que je suis en train de dire, c’est que ce n’est pas parce qu’on montre certaines données sur un quartier qu’une personne ne va pas déménager. C’est au contraire déménager en connaissance de cause, et les collectivités locales seront capables de mettre plus de moyens pour améliorer le quartier.

 

AB : Henri Verdier ?

HV : On redit, même si ce n’était pas votre question, mais d’abord il y a le cadre éthique très fort en France, et qui va devenir un règlement européen, donc qui va s’appliquer en traduction directe dans le droit de tous les pays d’Europe, de protection de la vie privée et des informations personnelles. Parce que par rapport aux exemples que vous avez cités, il y en a quelques-uns qui cherchaient un savoir sur des personnes. Donc ça, je pense qu’on est très mûrs là-dessus en Europe. Ensuite, vous ouvrez des questions plus compliquées qui parlent presque de bio-politiques et du pouvoir sur la statistique, etc. La réflexion commence, elle est elle aussi balbutiante. Juste quand même par esprit de…, et de nouveau à titre personnel. Il y a aussi de profondes injustices dans l’inégalité de l’information dans la société. Ceux qui savent où sont les bonnes écoles et les quartiers sans crimes etc., ce n’est pas n’importe qui dans la société. Donc je ne sais pas s’il est moins éthique de le mettre en place publique ou de laisser certaines élites avoir un accès privilégié à ces informations. En tout cas, ça fait partie de la question éthique.

AB : Merci. Est-ce qu’il y a une autre question pour Henri Verdier ou Margaux Pelen ?

Profitez-en, vous avez deux experts européens. C’est du consulting gratuit, allez-y. Voilà, ça en a motivé un, au moins.

Question Public : Merci. En fait, c’est une réflexion qui vous permettra peut-être de rebondir dessus. Mais ce qui est frappant dans le débat depuis qu’il a commencé, c’est qu’il semble bien que l’open data, le big data, embarquent une révolution culturelle et politique. Et je pense en particulier à toute la culture de confiance qui existe dans les pays anglo-saxons où on ouvre facilement les cahiers, et où on a plutôt tendance à cacher la copie dans une culture de défiance un peu comme chez nous. Donc ma question, c’était : est-ce qu’en Europe, on a exemples ? Alors, on a parlé de la Grande-Bretagne, qui est aussi un pays anglo-saxon. Est-ce qu’il y a d’autres exemples de politiques nationales d’ouverture des datas ?

HV : Oui, de nouveau, si on dit : l’open data, c’est une liberté publique construite autour de la transparence, et une stratégie d’innovation, les Anglais sont bien partis tôt. On n’est pas non plus à des années lumière derrière les Anglais, et on débat beaucoup d’égal à égal. Les pays nordiques ont une grande tradition de... toute la sphère protestante. J’ai lu qu’en Suède, l’obligation de connaître les dépenses des ministres, elle date de 1776, donc la publicité sur les fiches de paie des ministres et sur leurs dépenses afférentes, c’est 1776. Je constate en revanche avec plus d’étonnement, enfin en tout cas l’open data d’innovation, moi je trouve que dans la zone latine, notamment chez nos amis Espagnols et Italiens, c’est très vivace, peut-être parce qu’on cherche des nouvelles stratégies de pouvoir, des nouvelles formes d’action publique, etc., mais ce n’est pas du tout atone, loin de là. Mais c’est peut-être moins construit sur l’obligation de transparence.

AB : Merci Henri. Une autre question ?

Question Public : En fait, on a entendu effectivement, et vous l’avez souligné…, je pense que les gens mélangent un petit peu deux choses, qui sont l’ouverture des données, les données personnelles. Moi je voulais poser une question sur les données personnelles, et quelle est votre vision sur l’avenir de ces données personnelles qui vont être de plus en plus intrusives sur nos comportements, nos déplacements, nos modes de vie. Enfin, qu’est-ce qu’elles vont devenir, et quelles exploitations ou pas vont être faites ? Est-ce qu’on va les redonner aux gens, qu’est-ce qu’on va en faire ?

AB : Margot, un exemple concret. Vous, vous avez des données issues des collectivités, ce n’est pas forcément...

Question Public : Mes données personnelles à moi. Mes données de tout ce que j’ai pu faire…

MP : Toutes les données qu’on va avoir sur vous, on va uniquement s’en servir pour vous proposer à long terme les biens immobiliers qui vont correspondent au maximum. Après, on n’a pas du tout vocation à garder ces données pour les garder, et on sera évidemment capable d’en fait des agrégateurs, mais ce sera évidemment quelque chose d’anonyme. Et après, c’est vrai qu’à titre personnel, c’est vrai qu’on va vers une société de la toute transparence et de l’utilisation de ces informations personnelles, mais il y a bien sûr la CNIL qui veille, et il y a bien sûr Etalab qui sera là pour donner aussi un nouvel axe sur cet aspect particulier.

AB : Henri Verdier, vous vouliez réagir ?

HV : Oui, je vais dire deux mots, de nouveau personnels, je n’engage pas l'Etat pour chaque sortie que je fais ce soir sur ce plateau. Moi je suis assez confortable avec l’idée que les données personnelles, c’est quasiment comme le corps, et donc c’est inaliénable et incessible, et qu’il faut les protéger. Et d’ailleurs pas seulement sur les usages bizarres, coercitifs, etc., mais même sur les usages pas prévus. Par exemple, si je partage des choses sur Facebook avec des amis, ce n’est pas forcément pour qu’un marketeur m’observe et vienne ensuite me proposer des choses, de même que je trouverais choquant de retrouver un marketer dans mon jardin avec des jumelles ou en train de fouiller mes poubelles.

AB : C’est le prix de la gratuité, finalement ?

HV : En tout cas, pour moi, à la fin, on constatera que c’était un bout du corps, et qu’on a les mêmes droits que sur son propre corps, et qu’il faut autoriser les usages. Et je crois, et Madame n’était pas loin de cette question, qu’on sous-estime en revanche tout ce qu’on peut faire et qu’il faut penser avec les données non personnelles. Le mot statistique, il a été inventé pour désigner la science de l’homme d'État. C’est-à-dire la politique, en fait, l’action publique, etc., ça n’a pas besoin d’informations personnelles, ça se fait sur des informations statistiques. Et oui, par exemple, pour revenir sur la sphère du privé, on a peur, on se méfie du marketing direct qui sait tout sur vous et qui vous surveille. On ne parle pas beaucoup de la décision automatique, c’est-à-dire d’un système qui vous choisit un prix, sur trois bribes d’informations qu’il a sur vous, les deux sites précédents où vous étiez, ou que sais-je. La société a le droit de se demander si on trouve normal que les prix ne soient pas les mêmes pour tout le monde et varient sur des soupçons... Enfin, la décision automatique, l’espèce d’algorithmisation du monde qui va se faire avec des données non personnelles, qui va se faire avec des présomptions, qui va se faire avec des stats, des algos, c’est une question à mon avis aussi importante que la question des données personnelles.

MP : Peut-être un dernier élément qu’on peut préciser là-dessus, c’est qu’on parle beaucoup de l’ouverture des données comme de quelque chose qui doit être un peu négatif, et on est dans une vision qui est souvent vue comme Big brother, mais il y a aussi d’autres initiatives inverses, comme Mail data, qui a été lancé en Angleterre, qui pousse justement les sociétés à ouvrir les données qu’elles ont sur leurs utilisateurs pour qu’eux-mêmes puissent mieux se comprendre. Un exemple précis, par exemple Amazon sait mieux que vous ce que vous aimez lire, parce qu’il va être capable de croiser un grand nombre de données sur ce que vous avez acheté, mais aussi sur ce que d’autres personnes ont acheté ensemble, et du coup, ça va être un moteur de suggestions. Et on peut imaginer du coup arriver à croiser ce genre d’informations pour vous mettre à disposition des choses que vous ignoriez sur vous-mêmes.

HV : Puisque Margaux a lâché le fameux mot, Big brother, il faut prendre au sérieux Big brother, vraiment, je le pense. Mais c’est un imaginaire de 1948, ça a été écrit en 1948. Je reviens aux exemples que j’évoquais, avec les big datas, avec l’ère où l’information est une sorte de substrat dans lequel nous nous mouvons, ce n’est pas nous qui projetons quelques infos, nous naviguons dans les infos. Il n’y a pas que Big brother, il faudrait aussi qu’on ait des imaginaires post-numériques.

AB : Justement, en plein dans le sujet, une question qui vient de Twitter : concernant le partage et l’exploitation des données, quels sont les bons élèves parmi les entreprises françaises ?

HV : Il n’y a pas de grandes plateformes françaises qui auraient totalement joué l’économie des plateformes, fédéré un puissant écosystème autour d’elles, avec des API dans tous les sens…

MP : Un acteur qu’on peut citer, c’est la SNCF, qui essaie en tout cas, et qui met des jeux à disposition, qui organise des hackathons, c’est-à-dire des week-ends de développeurs pour tester ses jeux.

AB : Oui, on en a parlé dans le dernier SFR Player.

MP : C’est ça. Et pour vraiment faire remonter l’usage, c’est-à-dire : ok, on a ouvert cent jeux de données, quelles sont les données qui suscitent l’intérêt et dans quel sens est-ce qu’il faut qu’on aille ?

AB : Henri Verdier, on va terminer ensemble. Pour vous, l’utilisation des datas, elle est quasiment aussi importante que les langages de programmation ou que Internet. Vous dites, ou vous reprenez à votre compte une citation qui est « data is the new code. » A l’heure où les États-Unis et la Chine investissement massivement dans les datas, je vous pose une question simple : est-ce que les entreprises françaises sont prêtes pour cette ambition que vous décrivez à travers cette citation, « data is the new code » ?

HV : D’abord, j’en suis arrivé à l’idée que la révolution numérique, elle procède par étapes. En gros, on a commencé avec l’informatique, les imaginaires, c’était IBM, Hal dans 2001 l’Odyssée de l’Espace, etc. Les dieux, c’était les codeurs, ils calculaient la trajectoire du Concorde, de la fusée Ariane. Et puis déjà Internet, ce n’était plus du tout ça. Internet, c’était le design, l’expérience utilisateur, le mashup, la contribution, l’économie de la contribution, etc. Effectivement, je pense qu’on arrive de nouveau dans une nouvelle époque où la donnée est le substrat, la carte, le fond de la toile, et donc bien plus que du pétrole. La donnée, c’est le code profond. Et donc il faut se préparer à réagir dans ce monde-là. Alors, y sommes-nous prêts ? On n’est pas mal, en fait. On a d’abord des grands groupes, beaucoup de grands groupes, très internationaux, on a ça en France. On a une école de maths qui est exceptionnelle, on commence à avoir une place de start-up qui est franchement bien meilleure qu’il y a cinq ans ou qu’il y a dix ans. Il reste juste la conversion tactique, se dire : les API, c’est du biz dev, je donne parce que j’attire à moi l’innovation, et j’ai plus de puissance, de faire du mashup, d’inventer des régulations qui ne soient pas construites à partir des usages qu’on autorise ou qu’on interdit, mais qui sont construites à partir du design initial. Mais c’est qu’un tout petit substrat de culture stratégique. Sur les fondamentaux français, moi je les trouve bons, et notamment avec nos maths, et nos stats, et tout.

AB : C’est extrêmement encourageant. Merci Henri Verdier, merci de nous avoir suivi pendant toute cette soirée, merci à vous Margaux Pelen. Il me reste à vous souhaitez très bonne soirée, et à vous donner rendez-vous pour une prochaine édition de SFR Player.