Group items tagged

Filter: All | Bookmarks | Topics Simple Middle

1More

Prospectibles Libre accès et partage des données de la recherche … Vers une s... - 1 views

shared by Alexandre Serres on 26 Mar 16 - No Cached

1More

Rédaction Médicale et Scientifique: Les 3 concepts pivots de la science ouver... - 1 views

www.h2mw.eu/...m%C3%A9rique-par-le-cnrs-.html Science ouverte Rapport CNRS donnees_recherche publication scientifique

shared by Alexandre Serres on 15 Apr 17 - No Cached

73More

Collège de France - Sciences des données : de la logique du premier ordre à l... - 2 views

books.openedition.org/529

shared by Gabriel Gallezot on 20 Feb 13 - No Cached

Nous évoquerons dans cette leçon les liens profonds entre ce que nous appellerons ici les sciences des données et la logique mathématique ou, plus précisément, la logique du premier ordre.
...

Cancel
L’exemple le plus répandu d’un tel système est un moteur de recherche comme celui de Google, qui offre un index sur des milliards de documents de la Toile, et en quelque sorte permet de voir la Toile comme une base de données gigantesque. Un système de réseau social comme Facebook sert, lui, de point d’entrée vers les données personnelles de ses centaines de millions d’utilisateurs.
...

Cancel
Nous interagissons avec des machines chaque jour un peu plus autonomes, des machines chaque jour de moins en moins distinguables des êtres humains.
...

Cancel
...70 more annotations...
Nous parlerons dans cette leçon de l’apparition d’une connaissance collective nourrie de la mise en commun de grands volumes d’information, et nous imaginerons ce que pourra être la Toile de demain quand des millions, voire des milliards de machines interconnectées, raisonneront collectivement.
...

Cancel
quelques notions fondamentales sur les données, l’information et les connaissances
...

Cancel
Une donnée est une description élémentaire, typiquement numérique pour nous, d’une réalité. C’est par exemple une observation ou une mesure. À partir de données collectées, de l’information est obtenue en organisant ces données, en les structurant pour en dégager du sens. En comprenant le sens de l’information, nous aboutissons à des connaissances, c’est-à-dire à des « faits » considérés comme vrais dans l’univers d’un locuteur, et à des « lois » (des règles logiques) de cet univers.
...

Cancel
En recevant un sens, ces données sont devenues des informations.
...

Cancel
Ces informations muent en connaissances quand nous les introduisons dans un univers logique.
...

Cancel
Il ne faut pas non plus oublier que les données que nous utilisons se trouvent de moins en moins stockées localement sur notre ordinateur mais, de plus en plus, sur des machines connectées quelque part sur le réseau.
...

Cancel
Fonctionnellement, il nous faudra donc distinguer l’accès à des données sur un réseau local très rapide, qui prendra quelques millisecondes, et l’accès via Internet à des données peut-être à l’autre bout du monde, qui pourra prendre une seconde ou plus.
...

Cancel
À mon avis, il importe peu de comprendre les détails du fonctionnement très complexe d’un processeur ou d’une carte graphique. Il est par contre essentiel de maîtriser les bases de l’algorithmique et de sa mécanique du raisonnement.
...

Cancel
Surtout, il est indispensable de comprendre le sens de cette information, comment elle est représentée, comment elle est organisée.
...

Cancel
Selon les chiffres de Michael Brodie8, tous les livres jamais écrits ne demanderaient que 200 téraoctets en texte brut et la quantité de données produites par le collisionneur de particules du CERN en une minute est de l’ordre d’une centaine de pétaoctets.
...

Cancel
le zettaoctet, c’est l’ordre de grandeur du trafic annuel sur Internet de nos jours
...

Cancel
Nous créons chaque année plus d’information que nous ne pouvons en stocker. Dans cette débauche d’information, deux problèmes surgissent : Où trouver la bonne information dans cette masse ? Comment choisir ce que l’on veut conserver ?
...

Cancel
Mais nous assistons aussi à une forte augmentation des contenus riches en sémantique, directement utilisables comme les bases de données et les métadonnées.
...

Cancel
Nous atteignons les sciences des données.
...

Cancel
des structures d’accès compliquées comme des index ou des arbres-B, des hiérarchies de mémoires avec leurs caches et, de l’autre, un utilisateur
...

Cancel
Un système de gestion de bases de données sert de médiateur entre des individus et des machines.
...

Cancel
la logique du premier ordre, pour formaliser le langage des mathématiques. Codd a eu l’idée d’adapter cette logique pour définir un modèle de gestion de données, le modèle relationnel.
...

Cancel
Codd a posé les bases de la médiation autour des données entre individus et machines.
...

Cancel
« trop lent ! Ça ne passera pas à l’échelle ». Ils se trompaient. Pour traduire l’idée de Codd en une industrie de milliards de dollars, il manquait l’optimisation de requête. Après des années d’effort, les chercheurs sont parvenus à faire fonctionner les systèmes relationnels avec des temps de réponse acceptables.
...

Cancel
Cette notion d’indécidabilité commence péniblement à arriver jusqu’au grand public
...

Cancel
il en est même que nous ne savons pas résoudre en temps raisonnable. Parfois, cette difficulté trouve même son utilité. Le système cryptographique RSA repose sur le fait que nous ne savons pas factoriser (en général) un très grand entier en nombres premiers, en un temps raisonnable, et qu’il est donc très difficile de décrypter un message sans en connaître la clé secrète.
...

Cancel
Le moteur de recherche de la Toile nous permet de fuir la navigation fastidieuse sur le graphe des pages et le monde de l’hypertexte pour nous plonger dans une bibliothèque numérique universelle
...

Cancel
un enfant apprend, depuis son plus jeune âge, à évaluer, classer, filtrer la masse considérable d’informations qu’il rencontre
...

Cancel
grâce à son index
...

Cancel
Un index de la Toile associe à chaque mot la liste des pages qui contiennent ce mot
...

Cancel
la taille de cet index
...

Cancel
Pour indexer plus de pages, le serveur a besoin de plus en plus de stockage pour garder l’index, et chaque requête devient de plus en plus coûteuse à évaluer. Si le nombre d’utilisateurs croît, le serveur reçoit de plus en plus de requêtes.
...

Cancel
le parallélisme et une technique fondamentale de l’informatique, la technique du hachage
...

Cancel
Les données de l’index sont donc partagées relativement équitablement entre les dix machines ce qui résout le premier problème
...

Cancel
Les requêtes sont donc elles-aussi partagées relativement équitablement entre les dix machines, ce qui résout le second problème.
...

Cancel
ar exemple, Google utilise des milliers de machines dans des « fermes22 » et disperse ses fermes aux quatre coins du monde. Le parallélisme nous a permis le passage à l’échelle.
...

Cancel
Car il se trouve qu’en pratique cette popularité correspond assez bien aux attentes des internautes.
...

Cancel
Les moteurs de recherche modernes combinent TF-IDF et la popularité des pages que nous venons de définir à bien d’autres critères pour choisir quelles pages classer en tête.
...

Cancel
L’interrogation de la Toile est basée sur des listes de mots-clés, une langue primitive quasiment sans grammaire. Il est sûrement possible de faire mieux. Une mesure qui privilégie la popularité des pages a pour effet d’encourager l’uniformité, les pages populaires devenant de plus en plus populaires et les autres sombrant dans l’anonymat. C’est certainement discutable tout comme le fait que la popularité utilisée par les moteurs de recherche actuels semble ignorer si la page est citée pour sa qualité (son exactitude) ou pas. Faut-il exclure des pages parce qu’elles sont racistes, vulgaires, fausses (pourquoi pas ?) ; pour favoriser un client ou ne pas déplaire à un gouvernement (au secours !) ? Enfin, il est quelque chose d’extrêmement embarrassant dans la puissance considérable que les moteurs de recherche ont de par leur contrôle de l’information, surtout dans un contexte de quasi-monopole (au moins en Europe). Devons-nous leur faire confiance sans comprendre le secret de leur classement ? Et pourquoi ce secret ?
...

Cancel
Il m’a fallu par contre m’habituer à l’idée de garder l’index en mémoire.
...

Cancel
Plusieurs sociétés se partageaient dans les années 1990 le marché des moteurs de recherche. Les utilisateurs allaient plébisciter le moteur de Google. Comme base à ce succès extraordinaire, nous pourrions mentionner une ingénierie exceptionnelle pour faire fonctionner des milliers de machines 24 heures sur 24, des modèles commerciaux révolutionnaires, des techniques de management originales fondées sur le culte de la créativité. Mais en ce qui me concerne, je préfère me rappeler qu’au début, il y avait juste un point fixe et quelques algorithmes.
...

Cancel
L’écriture nous a permis d’« externaliser » en partie notre mémoire. L’imprimerie nous a permis de transmettre cette mémoire externe. La Toile a diminué considérablement les coûts de transmission de l’information.
...

Cancel
Surtout, elle a permis à chacun d’apporter sa contribution personnelle au patrimoine collectif (avec des réserves comme la fracture numérique, dont nous parlerons plus loin)
...

Cancel
La Toile, c’est donc aussi une juxtaposition de milliards d’individus et de tous leurs réseaux. Après les réseaux de machines, les réseaux de contenus, nous atteignons les réseaux d’utilisateurs.
...

Cancel
Ces nouveaux systèmes n’ont plus pour cible l’universalité de la Toile, mais les individus et les groupes plus ou moins bien définis auxquels ils appartiennent. Ils redéfinissent les distances entre ces individus et proposent d’autres proximités.
...

Cancel
La notation, par exemple, de produits ou d’entreprises par des internautes ; L’évaluation de l’expertise des internautes ; La recommandation, par exemple, de produits ; La collaboration entre internautes pour réaliser collectivement une tâche qui les dépasse individuellement ; Le crowdsourcing, qui met des humains au service de systèmes informatiques.
...

Cancel
le fait que la popularité ignore le sens des références est dérangeant. En analysant les liens de la Toile suivant un système de notation plus riche (avec des notes négatives), ce biais pourrait être corrigé.
...

Cancel
Cela ne rend que plus crucial le besoin de croiser les informations, de les vérifier. Nous pouvons imaginer que demain des programmes participeront à déterminer les réputations en termes d’information dans cet espace-temps étourdissant de la Toile
...

Cancel
proximités entre individus et produits.
...

Cancel
Les erreurs y sont nombreuses… Il y en a aussi dans les encyclopédies traditionnelles.
...

Cancel
Et nous commençons à voir des communautés s’organiser pour construire des corpus de données ouvertes comme le Web des données (en anglais, linked data) du W3C (World Wide Web Consortium)
...

Cancel
En utilisant un jeu vidéo, Foldit, des internautes sont en revanche arrivés à décoder la structure d’une enzyme proche de celle du virus du sida35
...

Cancel
L’évaluation de la « qualité » est au cœur du sujet
...

Cancel
Confronté à des systèmes s’attachant à construire une connaissance collective, l’internaute ignore le plus souvent quelles données ont été utilisées et ne comprend parfois pas comment le résultat a été obtenu
...

Cancel
Un système de réseau social doit choisir entre le besoin de protéger les données de ses clients (au risque, sinon, de les perdre) et son avidité naturelle pour les données confidentielles. De son côté, l’internaute aimerait bien que les informations le concernant restent le plus confidentielles possible mais il est aussi friand de services très personnalisés.
...

Cancel
la gestion de connaissances.
...

Cancel
Aujourd’hui, les internautes communiquent principalement entre eux à l’aide de texte.
...

Cancel
qui spécifient des classes d’objets (1), des inclusions ou des égalités entre classes (2, 3), l’appartenance d’un objet à une classe (4), des relations entre objets (5), des instances de ces relations (6).
...

Cancel
Sur la Toile, n’importe qui peut publier ses propres ontologies. Des experts utilisent des terminologies spécifiques suivant leur langue, leur domaine, leur culture, etc. dans la pure tradition de tour de Babel. Cette diversité est une richesse mais elle complique la recherche de connaissances. La même information peut être représentée de multiples manières.
...

Cancel
Comment « aligner » des ontologies, c’est-à-dire établir des liens entre leurs concepts et leurs relations, pour « intégrer » des informations venues de sources indépendantes ?
...

Cancel
Mais les mêmes individus qui aiment publier sur la Toile dans leur langue naturelle apprécient peu les contraintes d’un éditeur de connaissances. Les cas d’internautes entrant volontairement et gratuitement des connaissances dans un système restent rares et, le plus souvent, les tâches de construction de bases de connaissances sont laissées à des logiciels.
...

Cancel
Si la Toile reste très largement dominée par le HTML et le texte, les bases de connaissances de demain sont déjà en construction à partir de l’énorme ressource que constitue la masse de documents textuels.
...

Cancel
Nous appellerons services Web des logiciels connectés à Internet dialoguant avec d’autres logiciels, s’échangeant des données structurées suivant les protocoles de la Toile.
...

Cancel
Sans les standards de la Toile, il nous aurait sans doute fallu des jours de travail frustrant et improductif.
...

Cancel
La Toile, qui était l’apanage de l’être humain, s’est ainsi mise au service de services de la Toile, et les services de la Toile au service de tous.
...

Cancel
Mais le plus fascinant d’un point de vue technique est la possibilité de s’appuyer sur la logique pour inférer automatiquement de nouvelles connaissances.
...

Cancel
Nous parlerons de faits intentionnels. C’est ce genre de règles toutes simples qui permet à des logiciels de raisonner.
...

Cancel
aits extensionnels
...

Cancel
L’inférence est essentielle dans le cadre d’une Toile des connaissances en devenir, notamment pour mieux répondre aux requêtes ou pour intégrer de l’information provenant de sources hétérogènes.
...

Cancel
Et puis notre environnement va changer. Il va nous falloir apprendre à vivre dans un monde où nous serons entourés de systèmes qui raisonnent, s’échangent des connaissances, interagissent avec nous. Comment cela va-t-il modifier notre manière même de savoir, de penser ?
...

Cancel
développer les technologies qui permettront de trouver, évaluer, valider, vérifier, hiérarchiser l’information pour aider l’internaute à obtenir « la bonne information, au bon moment ». Cela implique de poursuivre les recherches dans des domaines comme l’évaluation de la réputation, la recommandation, ou la personnalisation.
...

Cancel
Il s’agit en particulier de développer les technologies permettant de contrôler les puissants : les États, les multinationales.
...

Cancel
Il n’est pas possible, ni souhaitable, de renoncer à la Toile comme il n’a pas été possible de refuser l’écriture ou l’imprimerie
...

Cancel
Quant aux aspects plus techniques, je me hasarderai à prédire que la prochaine étape des sciences des données, que l’on retiendra, a déjà commencé : c’est la Toile des connaissances. Elle a déjà été annoncée plusieurs fois. Elle arrive lentement, mais elle arrive vraiment.
...

Cancel
Des données à l’information, et de l’information aux connaissances, le cheminement est naturel.
...

Cancel

1 - 3 of 3

Showing 20▼ items per page

Group items tagged

Prospectibles Libre accès et partage des données de la recherche … Vers une s... - 1 views

Rédaction Médicale et Scientifique: Les 3 concepts pivots de la science ouver... - 1 views

Collège de France - Sciences des données : de la logique du premier ordre à l... - 2 views

Related searches