Skip to main content

Home/ Groups/ E-science cyberinfrastructure
Gabriel Gallezot

Read/Write Book 2 - Six provocations à propos d... - Danah Boyd et Kate Crawf... - 0 views

  •  
    "Il nous a semblé intéressant de traduire, de façon collaborative (via Framapad), l'essai original que viennent de publier Danah Boyd et Kate Crawford présentant « Six provocations au sujet du phénomène des big data »."
Gabriel Gallezot

Collège de France - Sciences des données : de la logique du premier ordre à l... - 2 views

  • Nous évoquerons dans cette leçon les liens profonds entre ce que nous appellerons ici les sciences des données et la logique mathématique ou, plus précisément, la logique du premier ordre.
  • L’exemple le plus répandu d’un tel système est un moteur de recherche comme celui de Google, qui offre un index sur des milliards de documents de la Toile, et en quelque sorte permet de voir la Toile comme une base de données gigantesque. Un système de réseau social comme Facebook sert, lui, de point d’entrée vers les données personnelles de ses centaines de millions d’utilisateurs.
  • Nous interagissons avec des machines chaque jour un peu plus autonomes, des machines chaque jour de moins en moins distinguables des êtres humains.
  • ...70 more annotations...
  • Nous parlerons dans cette leçon de l’apparition d’une connaissance collective nourrie de la mise en commun de grands volumes d’information, et nous imaginerons ce que pourra être la Toile de demain quand des millions, voire des milliards de machines interconnectées, raisonneront collectivement.
  • quelques notions fondamentales sur les données, l’information et les connaissances
  • Une donnée est une description élémentaire, typiquement numérique pour nous, d’une réalité. C’est par exemple une observation ou une mesure. À partir de données collectées, de l’information est obtenue en organisant ces données, en les structurant pour en dégager du sens. En comprenant le sens de l’information, nous aboutissons à des connaissances, c’est-à-dire à des « faits » considérés comme vrais dans l’univers d’un locuteur, et à des « lois » (des règles logiques) de cet univers.
  • En recevant un sens, ces données sont devenues des informations.
  • Ces informations muent en connaissances quand nous les introduisons dans un univers logique.
  • Il ne faut pas non plus oublier que les données que nous utilisons se trouvent de moins en moins stockées localement sur notre ordinateur mais, de plus en plus, sur des machines connectées quelque part sur le réseau.
  • Fonctionnellement, il nous faudra donc distinguer l’accès à des données sur un réseau local très rapide, qui prendra quelques millisecondes, et l’accès via Internet à des données peut-être à l’autre bout du monde, qui pourra prendre une seconde ou plus.
  • À mon avis, il importe peu de comprendre les détails du fonctionnement très complexe d’un processeur ou d’une carte graphique. Il est par contre essentiel de maîtriser les bases de l’algorithmique et de sa mécanique du raisonnement.
  • Surtout, il est indispensable de comprendre le sens de cette information, comment elle est représentée, comment elle est organisée.
  • Selon les chiffres de Michael Brodie8, tous les livres jamais écrits ne demanderaient que 200 téraoctets en texte brut et la quantité de données produites par le collisionneur de particules du CERN en une minute est de l’ordre d’une centaine de pétaoctets.
  • le zettaoctet, c’est l’ordre de grandeur du trafic annuel sur Internet de nos jours
  • Nous créons chaque année plus d’information que nous ne pouvons en stocker. Dans cette débauche d’information, deux problèmes surgissent : Où trouver la bonne information dans cette masse ? Comment choisir ce que l’on veut conserver ?
  • Mais nous assistons aussi à une forte augmentation des contenus riches en sémantique, directement utilisables comme les bases de données et les métadonnées.
  • Nous atteignons les sciences des données.
  • des structures d’accès compliquées comme des index ou des arbres-B, des hiérarchies de mémoires avec leurs caches et, de l’autre, un utilisateur
  • Un système de gestion de bases de données sert de médiateur entre des individus et des machines.
  • la logique du premier ordre, pour formaliser le langage des mathématiques. Codd a eu l’idée d’adapter cette logique pour définir un modèle de gestion de données, le modèle relationnel.
  • Codd a posé les bases de la médiation autour des données entre individus et machines.
  • « trop lent ! Ça ne passera pas à l’échelle ». Ils se trompaient. Pour traduire l’idée de Codd en une industrie de milliards de dollars, il manquait l’optimisation de requête. Après des années d’effort, les chercheurs sont parvenus à faire fonctionner les systèmes relationnels avec des temps de réponse acceptables.
  • Cette notion d’indécidabilité commence péniblement à arriver jusqu’au grand public
  • il en est même que nous ne savons pas résoudre en temps raisonnable. Parfois, cette difficulté trouve même son utilité. Le système cryptographique RSA repose sur le fait que nous ne savons pas factoriser (en général) un très grand entier en nombres premiers, en un temps raisonnable, et qu’il est donc très difficile de décrypter un message sans en connaître la clé secrète.
  • Le moteur de recherche de la Toile nous permet de fuir la navigation fastidieuse sur le graphe des pages et le monde de l’hypertexte pour nous plonger dans une bibliothèque numérique universelle
  • un enfant apprend, depuis son plus jeune âge, à évaluer, classer, filtrer la masse considérable d’informations qu’il rencontre
  • grâce à son index
  • Un index de la Toile associe à chaque mot la liste des pages qui contiennent ce mot
  • la taille de cet index
  • Pour indexer plus de pages, le serveur a besoin de plus en plus de stockage pour garder l’index, et chaque requête devient de plus en plus coûteuse à évaluer. Si le nombre d’utilisateurs croît, le serveur reçoit de plus en plus de requêtes.
  • le parallélisme et une technique fondamentale de l’informatique, la technique du hachage
  • Les données de l’index sont donc partagées relativement équitablement entre les dix machines ce qui résout le premier problème
  • Les requêtes sont donc elles-aussi partagées relativement équitablement entre les dix machines, ce qui résout le second problème.
  • ar exemple, Google utilise des milliers de machines dans des « fermes22 » et disperse ses fermes aux quatre coins du monde. Le parallélisme nous a permis le passage à l’échelle.
  • Car il se trouve qu’en pratique cette popularité correspond assez bien aux attentes des internautes.
  • Les moteurs de recherche modernes combinent TF-IDF et la popularité des pages que nous venons de définir à bien d’autres critères pour choisir quelles pages classer en tête.
  • L’interrogation de la Toile est basée sur des listes de mots-clés, une langue primitive quasiment sans grammaire. Il est sûrement possible de faire mieux. Une mesure qui privilégie la popularité des pages a pour effet d’encourager l’uniformité, les pages populaires devenant de plus en plus populaires et les autres sombrant dans l’anonymat. C’est certainement discutable tout comme le fait que la popularité utilisée par les moteurs de recherche actuels semble ignorer si la page est citée pour sa qualité (son exactitude) ou pas. Faut-il exclure des pages parce qu’elles sont racistes, vulgaires, fausses (pourquoi pas ?) ; pour favoriser un client ou ne pas déplaire à un gouvernement (au secours !) ? Enfin, il est quelque chose d’extrêmement embarrassant dans la puissance considérable que les moteurs de recherche ont de par leur contrôle de l’information, surtout dans un contexte de quasi-monopole (au moins en Europe). Devons-nous leur faire confiance sans comprendre le secret de leur classement ? Et pourquoi ce secret ?
  • Il m’a fallu par contre m’habituer à l’idée de garder l’index en mémoire.
  • Plusieurs sociétés se partageaient dans les années 1990 le marché des moteurs de recherche. Les utilisateurs allaient plébisciter le moteur de Google. Comme base à ce succès extraordinaire, nous pourrions mentionner une ingénierie exceptionnelle pour faire fonctionner des milliers de machines 24 heures sur 24, des modèles commerciaux révolutionnaires, des techniques de management originales fondées sur le culte de la créativité. Mais en ce qui me concerne, je préfère me rappeler qu’au début, il y avait juste un point fixe et quelques algorithmes.
  • L’écriture nous a permis d’« externaliser » en partie notre mémoire. L’imprimerie nous a permis de transmettre cette mémoire externe. La Toile a diminué considérablement les coûts de transmission de l’information.
  • Surtout, elle a permis à chacun d’apporter sa contribution personnelle au patrimoine collectif (avec des réserves comme la fracture numérique, dont nous parlerons plus loin)
  • La Toile, c’est donc aussi une juxtaposition de milliards d’individus et de tous leurs réseaux. Après les réseaux de machines, les réseaux de contenus, nous atteignons les réseaux d’utilisateurs.
  • Ces nouveaux systèmes n’ont plus pour cible l’universalité de la Toile, mais les individus et les groupes plus ou moins bien définis auxquels ils appartiennent. Ils redéfinissent les distances entre ces individus et proposent d’autres proximités.
  • La notation, par exemple, de produits ou d’entreprises par des internautes ; L’évaluation de l’expertise des internautes ; La recommandation, par exemple, de produits ; La collaboration entre internautes pour réaliser collectivement une tâche qui les dépasse individuellement ; Le crowdsourcing, qui met des humains au service de systèmes informatiques.
  • le fait que la popularité ignore le sens des références est dérangeant. En analysant les liens de la Toile suivant un système de notation plus riche (avec des notes négatives), ce biais pourrait être corrigé.
  • Cela ne rend que plus crucial le besoin de croiser les informations, de les vérifier. Nous pouvons imaginer que demain des programmes participeront à déterminer les réputations en termes d’information dans cet espace-temps étourdissant de la Toile
  • proximités entre individus et produits.
  • Les erreurs y sont nombreuses… Il y en a aussi dans les encyclopédies traditionnelles.
  • Et nous commençons à voir des communautés s’organiser pour construire des corpus de données ouvertes comme le Web des données (en anglais, linked data) du W3C (World Wide Web Consortium)
  • En utilisant un jeu vidéo, Foldit, des internautes sont en revanche arrivés à décoder la structure d’une enzyme proche de celle du virus du sida35
  • L’évaluation de la « qualité » est au cœur du sujet
  • Confronté à des systèmes s’attachant à construire une connaissance collective, l’internaute ignore le plus souvent quelles données ont été utilisées et ne comprend parfois pas comment le résultat a été obtenu
  • Un système de réseau social doit choisir entre le besoin de protéger les données de ses clients (au risque, sinon, de les perdre) et son avidité naturelle pour les données confidentielles. De son côté, l’internaute aimerait bien que les informations le concernant restent le plus confidentielles possible mais il est aussi friand de services très personnalisés.
  • la gestion de connaissances.
  • Aujourd’hui, les internautes communiquent principalement entre eux à l’aide de texte.
  • qui spécifient des classes d’objets (1), des inclusions ou des égalités entre classes (2, 3), l’appartenance d’un objet à une classe (4), des relations entre objets (5), des instances de ces relations (6).
  • Sur la Toile, n’importe qui peut publier ses propres ontologies. Des experts utilisent des terminologies spécifiques suivant leur langue, leur domaine, leur culture, etc. dans la pure tradition de tour de Babel. Cette diversité est une richesse mais elle complique la recherche de connaissances. La même information peut être représentée de multiples manières.
  • Comment « aligner » des ontologies, c’est-à-dire établir des liens entre leurs concepts et leurs relations, pour « intégrer » des informations venues de sources indépendantes ?
  • Mais les mêmes individus qui aiment publier sur la Toile dans leur langue naturelle apprécient peu les contraintes d’un éditeur de connaissances. Les cas d’internautes entrant volontairement et gratuitement des connaissances dans un système restent rares et, le plus souvent, les tâches de construction de bases de connaissances sont laissées à des logiciels.
  • Si la Toile reste très largement dominée par le HTML et le texte, les bases de connaissances de demain sont déjà en construction à partir de l’énorme ressource que constitue la masse de documents textuels.
  • Nous appellerons services Web des logiciels connectés à Internet dialoguant avec d’autres logiciels, s’échangeant des données structurées suivant les protocoles de la Toile.
  • Sans les standards de la Toile, il nous aurait sans doute fallu des jours de travail frustrant et improductif.
  • La Toile, qui était l’apanage de l’être humain, s’est ainsi mise au service de services de la Toile, et les services de la Toile au service de tous.
  • Mais le plus fascinant d’un point de vue technique est la possibilité de s’appuyer sur la logique pour inférer automatiquement de nouvelles connaissances.
  • Nous parlerons de faits intentionnels. C’est ce genre de règles toutes simples qui permet à des logiciels de raisonner.
  • aits extensionnels
  • L’inférence est essentielle dans le cadre d’une Toile des connaissances en devenir, notamment pour mieux répondre aux requêtes ou pour intégrer de l’information provenant de sources hétérogènes.
  • Et puis notre environnement va changer. Il va nous falloir apprendre à vivre dans un monde où nous serons entourés de systèmes qui raisonnent, s’échangent des connaissances, interagissent avec nous. Comment cela va-t-il modifier notre manière même de savoir, de penser ?
  • développer les technologies qui permettront de trouver, évaluer, valider, vérifier, hiérarchiser l’information pour aider l’internaute à obtenir « la bonne information, au bon moment ». Cela implique de poursuivre les recherches dans des domaines comme l’évaluation de la réputation, la recommandation, ou la personnalisation.
  • Il s’agit en particulier de développer les technologies permettant de contrôler les puissants : les États, les multinationales.
  • Il n’est pas possible, ni souhaitable, de renoncer à la Toile comme il n’a pas été possible de refuser l’écriture ou l’imprimerie
  • Quant aux aspects plus techniques, je me hasarderai à prédire que la prochaine étape des sciences des données, que l’on retiendra, a déjà commencé : c’est la Toile des connaissances. Elle a déjà été annoncée plusieurs fois. Elle arrive lentement, mais elle arrive vraiment.
  • Des données à l’information, et de l’information aux connaissances, le cheminement est naturel.
manuel durand barthez

Assemblée nationale | Question écrite N° 8103 de M. Lionel Tardy (UMP - Haute... - 0 views

  •  
    A propos de RefDoc INIST
Gabriel Gallezot

Data Pub | A brief thought: What is E-Science? - 0 views

  •  
    "The most commonly used definition for E-Science is that it is type of scientific research that uses large-scale computing infrastructure to process very large datasets (i.e., "Big Science", which generates "Big Data"). However many (most?) often I hear E-Science used as an umbrella term that describes any size of science that involves digital data and/or analysis. These days, that pretty much covers all science. I therefore contend that E-Science as a phrase is redundant - it was describing what used to be a subset of science, but is now more correctly describing all science. So why is there an "E" at all?"
« First ‹ Previous 61 - 70
Showing 20 items per page