"Les commissions de libération conditionnelle de quinze Etats américains s'en remettent désormais à des logiciels pour décider si un détenu doit ou non être libéré, rapporte le Wall Street Journal. Un algorithme décortiquant 50 à 100 facteurs évalue le risque de récidive afin d'aider à la prise de décision." Le but, réduire les coûts ! Le risque, que derrière les critères d'objectivité, se cachent des vérités cachées et des préjugés. Est-ce nos préjugés que nous mettons en algorithmes ?
Retour sur le bras de fer qui oppose la Caisse nationale d'assurance-maladie et le collectif initiative transparence santé qui souhaiterait avoir accès au Sniiram, la base de données des feuilles de soins qui permettrait de mieux suivre les épidémies, de détecter les surconsommations de médicaments, et les surprescriptions de médecins...
Dans une présentation pour l'université de Columbia, Audrey Watters d'HackEducation est revenue sur les données des élèves et comment les nouveaux systèmes d'apprentissage les utilisent pour rendre leur systèmes apprenants. Knewton - http://www.knewton.com - une société spécialisée dans les tests de niveaux, se sert des immenses données récoltées sur les élèves pour identifier leurs forces et faiblesses et proposer des apprentissages adaptés. Ces données ne sont pas seulement des notes, elles concernent aussi la participation, le temps passé... Mais les écoles et universités disposent de bien plus de données encore : les passages que les élèvent anottent dans leurs manuels électroniques, les mails qu'ils envoient ou recoivent sur leurs boites mails universitaires, leur activité en ligne... Autant de données qui permettent de porter un nouveau regard sur l'étude de la manière dont les étudiants apprennent. Mais si ces données sont de la valeur, comment faire en sorte que les technologies de l'éducation ne se résument pas seulement à extraire de la valeur, mais également à en apporter ? Qui protégera les données des élèves ? Eux-mêmes seront-ils conscients de la manière dont leurs données seront utilisées ? Les élèves sont déjà le produit du système éducatif... Si nous considérons les élèves comme du pétrole, qui va les exploiter ? Qui va en profiter, en bénéficier ? Et surtout qui va en pâtir ?
Pour l'éditorialiste Tim Harford, le succès de Google Flu Trends, le système de prévision de la grippe de Google fondé sur les requêtes des internautes sur le moteur de recherche est devenu l'emblème des Big Data en montrant que l'analyse des données produit des résultats précis, que chaque point peut-être capturé (rendant l'échantillonnage statistique obsolète), que la corrélation suffit et que les modèles statistiques et scientifiques ne sont pas nécessaires. Pourtant, estime Harford, les Big données ne vont cesser de nous décevoir si nous ignorons quelques leçons de statistiques simples. Plus vous avez de données, plus les problèmes sont importants... Et Google Flu en devenant moins précis avec le temps l'a bien montré, car si on ne sait pas ce qu'il y a derrière une corrélation, vous n'avez aucune idée de ce qui pourrait la rendre moins efficace. Si Google Flu est devenu moins efficace c'est peut-être parce que Google lui-même a déplacé les données en suggérant automatiquement des diagnostics aux gens qui entraient leurs symptômes médicaux sur le moteur... Google Flu demain sera recalibré et amélioré, mais cet épisode doit nous apprendre quelque chose si nous ne voulons pas qu'il se répète. Autre problème bien connu des statisticiens, le biais d'échantillonnage, c'est-à-dire quand un échantillon choisi au hasard ne reflète pas la population qu'il est sensé représenté. Or, même dans le Big Data, l'échantillon ne représente jamais TOUTE la population. Quand bien même nous étudierions tous les messages de Twitter, les utilisateurs de Twitter ne sont pas représentatifs de la population dans son ensemble (au contraire, ils sont plutôt jeunes et urbains). Bump, l'application pour détecter les nids de poules de l'agglomération de Boston, détecte surtout les nids de poules des quartiers riches. Enfin, les algorithmes ne sont pas infaillibles, ils génèrent beaucoup de faux positifs. Les Big Data sont là : il v
"Lorsque je poste un tweet par exemple, ce sont près de 50 données aditionnelles qui sont produites et stockées, ce qu'on appelle les métadonnées (les données sur les données)", ou l'ombre portée dans laquelle le plus souvent repose la valeur. Beaucoup de gens réfléchissent aux données aujourd'hui mais toujours de façon focalisée et segmentée, les données ouvertes d'un côté, les données personnelles de l'autre. Nous avons besoin d'un questionnement transverse et commun", assure Simon Chignard. Même si les poser de façon commune ne signifie pas que les réponses doivent être identiques. Avant de distinguer 4 modèles de gouvernance des données : la boîte noire, les API, l'OpenData et la restitution des données personnelles.
On a une vraie difficulté à identifier la valeur des données car elle ne provient souvent pas de l'usage initial, mais de leur réutilisation. Et tant qu'on ne progresse pas sur la valeur des données, on ne pourra pas régler la question du partage. Et pour cela, il nous faut expérimenter !
Le parcours du jeune mathématicien Jeffrey Hammerbacher de Wall Street à Facebook puis à Cloudera (une start-up qui conçoit des outils logiciels pour les scientifiques de données) et désormais à la médecine, où il travaille désormais à explorer les données médicales et génétiques pour modéliser de nouveaux traitements, illustre bien comment la science des données se répand dans toutes les strates de la société. Le marché explose. Les Etats-Unis auront besoin de 200 000 analystes d'ici 2020. Reste que nous ne connaissons pas encore les règles que la société devra adopter pour la collecte et l'utilisation de ces vastes ensembles de données. Les Big Data demeurent un terme vague, souligne Steve Lohr qui désigne un ensemble de technologies, une révolution potentielle et la manière dont nous prendrons des décisions à l'avenir. Mais les Big Data sont le descendant de la "gestion scientifique" de Taylor qui n'a pas accompli toutes ses promesses. Et les Big Data promettent elles aussi des inconvénients comme la discrimination statistique, la surveillance... Mais les perçées pourraient également être colossales. D'ici une dizaine d'année, le coût d'un test génétique devrait être celui d'un test sanguin. En combinant l'information génétique avec les antécédents médicaux, nous construirons des modèles plus sophistiqués...
Faire sortir du sens des Big Data est loin d'être évident, rappelle Francis Gouillart auteur de "La puissance de la cocréation". Les petites données, les données locales ont beaucoup plus de valeurs.
John Bridgeland and Peter Orszag proposent que le gouvernement américain s'inspire de MoneyBall - http://fr.wikipedia.org/wiki/Moneyball:_The_Art_of_Winning_an_Unfair_Game , l'approche analytics mise en place par Billy Beane pour améliorer la sélection des joueurs de Baseball par l'informatique et les Big Data - pour optimiser son fonctionnement, ses dépenses et ses investissements. Vers un Big eGov ?
Premise - http://www.premise.com - est une start-up qui cherche à collecter les prix dans des magasins physiques comme dans un nombre toujours plus grand d'applications de commerce afin de les agréger pour pouvoir mesurer l'inflation avant les indicateurs nationaux et internationaux et prévenir les crises alimentaires à venir dans les pays émergents...
L'université technique du Danemark a prêté à quelques 1000 étudiants des smartphones pour observer leurs interactions de groupes. Le but construire un modèle des réseaux sociaux réels des étudiants et regarder si les résultats pourraient permettre d'influencer leurs comportements... Car l'enjeu pour les psychologues comportementaux qui accompagnent le projet est bien là. Comment créer des changements de comportements à la fois personnels et massifs pour améliorer la santé des étudiants, leurs révisions, etc. Est-ce qu'en observant leurs comportements sociaux on pourrait détecter ceux qui risquent la dépression et leurs venir en aide, subtilement ? "Si l'influence du comportement peut s'automatiser et devenir massif, alors il y aura surement demain des gens peu scrupuleux qui tenterons de pirater le système". Bonne idée ou pas, ce monde arrive et pour les chercheurs, il est primordial de mieux l'observer. Comme le dit Pentland : "si ces outils vous aident à comprendre comment les gens travaillent, alors nous pourrons construire des organisations et des gouvernements qui travailleront mieux qu'elles ne le font actuellement".