Big data : faisons-nous une grosse erreur ? - FT.com - 0 views
-
hubert guillaud on 08 Apr 14Pour l'éditorialiste Tim Harford, le succès de Google Flu Trends, le système de prévision de la grippe de Google fondé sur les requêtes des internautes sur le moteur de recherche est devenu l'emblème des Big Data en montrant que l'analyse des données produit des résultats précis, que chaque point peut-être capturé (rendant l'échantillonnage statistique obsolète), que la corrélation suffit et que les modèles statistiques et scientifiques ne sont pas nécessaires. Pourtant, estime Harford, les Big données ne vont cesser de nous décevoir si nous ignorons quelques leçons de statistiques simples. Plus vous avez de données, plus les problèmes sont importants... Et Google Flu en devenant moins précis avec le temps l'a bien montré, car si on ne sait pas ce qu'il y a derrière une corrélation, vous n'avez aucune idée de ce qui pourrait la rendre moins efficace. Si Google Flu est devenu moins efficace c'est peut-être parce que Google lui-même a déplacé les données en suggérant automatiquement des diagnostics aux gens qui entraient leurs symptômes médicaux sur le moteur... Google Flu demain sera recalibré et amélioré, mais cet épisode doit nous apprendre quelque chose si nous ne voulons pas qu'il se répète. Autre problème bien connu des statisticiens, le biais d'échantillonnage, c'est-à-dire quand un échantillon choisi au hasard ne reflète pas la population qu'il est sensé représenté. Or, même dans le Big Data, l'échantillon ne représente jamais TOUTE la population. Quand bien même nous étudierions tous les messages de Twitter, les utilisateurs de Twitter ne sont pas représentatifs de la population dans son ensemble (au contraire, ils sont plutôt jeunes et urbains). Bump, l'application pour détecter les nids de poules de l'agglomération de Boston, détecte surtout les nids de poules des quartiers riches. Enfin, les algorithmes ne sont pas infaillibles, ils génèrent beaucoup de faux positifs. Les Big Data sont là : il v