[PLAYERS] Chercheurs en données

Le 28 / 02 / 13 | Posté par la rédaction de SFR PLAYER
[PLAYERS] Chercheurs en données

Que peuvent apporter les données aux scientifiques ? SFR PLAYER donne la parole à deux chercheurs avancés sur la question.

« Créer un nouveau terrain d’entente entre compagnies privées et chercheurs. »

Jean-Baptiste Michel, chercheur en biologie et mathématiques à Harvard

Avec Erez Lieberman Aiden, Jean-Baptiste Michel a aidé Google Books à créer Google Ngram. Grâce à l’analyse textuelle de millions de livres, cette application permet d’observer l’évolution de l’emploi des mots à travers les siècles.

Qu’est-ce que les données – et tout particulièrement le big data – peuvent apporter d’après vous à la recherche scientifique ?

Le big data est en train de créer une révolution scientifique profonde : il nous donne la capacité d’acquérir un flux de données absolument sans précédent, et de volume grandissant, sur les individus. Mais les données sont derrière des murs : ce sont les compagnies privées, comme Facebook, qui ont des richesses incommensurables pour l’avancement de la connaissance de l’humain. Il y a un immense fossé entre ces entreprises et le monde universitaire. Un terrain d’entente bénéficiant aux deux pourrait être trouvé, permettant aux entreprises de respecter les droits et la confidentialité des données, et aux chercheurs d’extraire des informations de très grande valeur pour la connaissance scientifique.

Sur le projet Google Ngram, quels obstacles avez-vous rencontrés ?

Quand un humain lit un livre, il voit les erreurs. L’ordinateur, lui, ne les comprend pas : comment peut-il savoir que la donnée est mauvaise ? Pour pouvoir extraire de l’information de qualité des livres numérisés par Google, nous avons passé beaucoup de temps à identifier tous les modes de défaillance des données. Par exemple, dans un tiers des livres que nous souhaitions utiliser, la date de publication n’était pas la bonne. Au final, après ce long traitement, nous n’avons utilisé que cinq millions de livres sur l’ensemble de la bibliothèque Google, livres pour lesquels nous étions certains de la fiabilité et de la qualité des données.

 

 « Le big data offre une perspective nouvelle aux science sociales. »

Paola Tubaro, chercheuse au CNRS et maître de conférence à l’université de Greenwich à Londres

Qu’est-ce que le big data peut apporter aux sciences sociales ?

On peut percevoir des choses nouvelles, enregistrer des traces d’activité plus précises que celles que les personnes peuvent déclarer. En ce sens, le big data offre une perspective différente. Ce n’est pas tellement le volume de données qui est intéressant, mais la vision plus relationnelle des activités apportée par ces réseaux : les relations entre les gens quand ils font quelque chose. Quand je suis sur Twitter, cela veut dire que je parle à quelqu’un. Quand je suis sur Facebook, cela veut dire que j’ai des amis, ou au moins des contacts.

En même temps, il faut bien prendre garde à ce que ces outils enregistrent : ce qui est permis par le service lui-même, pas ce qui est perçu par les utilisateurs. Donc il faut bien connaître les conditions et les limitations de la récupération des données pour pouvoir les interpréter correctement, de façon à enrichir l’analyse sans fausser l’interprétation et les résultats.

Que penser d’une sociologie qui reposerait principalement sur l’exploitation de données ?

À une époque, le rôle des théories en sciences sociales était de compenser le manque de données. Maintenant nous n’avons plus ce problème, mais ça ne veut pas dire qu’il faut évacuer la théorie : au contraire, la théorie change maintenant de fonction, elle nous sert à interpréter ces données.

Il faut de bonnes informations sur la qualité des données, il faut des hypothèses de départ, il faut pouvoir piloter l’analyse de ce big data dans un cadre théorique qui lui donne un sens : c’est un défi pour les sciences sociales.

Pour aller plus loin :

Découvrez notre article "néo-sciences"

Retrouvez l'interview vidéo de Paola Tubaro : big data, nos traces digitales au service de la recherche

 

Illustrations Label Tania