Press "Enter" to skip to content

3.3. Recherche d’information

Le web sémantique* est né au cours des années 1990 dans le but de faire un “web pour les machines”, c’est-à-dire un web dans lequel l’information n’est pas simplement destinée à être lue par un humain, mais puisse être exploitée directement par les ordinateurs. L’ambition initiale est que les textes et éléments multimédias présents dans les pages web soient complétés par des éléments de connaissance sur lesquels l’ordinateur va pouvoir raisonner pour fournir des réponses pertinentes à des questions complexes.

Le web sémantique est une application à grande échelle des travaux de recherche en représentation de connaissances* (cf. section “Représenter l’information”). Il est nourri par un web de données liées (“Linked Data”) offrant de manière distribuée de grandes quantités d’information. Ces informations sont décrites dans le langage RDF* qui permet d’exprimer des (méta-)données sous forme de graphes dont les nœuds sont identifiés, comme les pages du web, par des IRI (Internationalized Resource Identifier), et les classes et relations peuvent être définies par des termes d’une ontologie* utilisant le langage OWL*.

Bien sûr, cela ne signifie pas que l’ordinateur comprend le sens des symboles utilisés : ce n’est pas parce que les termes “escalade” et “Mont Granier” sont attachés à une image que l’ordinateur sait ce qu’est l’escalade, ni ce qu’est un mont. Mais il est possible d’utiliser des techniques d’intelligence artificielle de sorte que l’ordinateur se comporte de manière pas si éloignée de ce qu’il ferait s’il comprenait.

Des techniques fondées sur la fréquence de co-occurrences de motifs (et en particulier de mots) permettent de déterminer une proximité assez fiable entre ces motifs. Elles associeront par exemple les mots “mont”, “montagne”, “massif ”, “escalade”, “avalanche”, mais aussi “neige” et “données” (à cause de l’expression actuelle “avalanche de données”). Cependant, dans un contexte où sont présents “massif ” et “escalade”, “neige” sera plus proche de “montagne” que “données”. Pour définir cette similarité, on considère ces termes comme des dimensions d’un espace vectoriel, dont les points caractérisent des documents. Ces dimensions sont réduites en rapprochant celles associées le plus souvent : c’est la base de “latent semantic analysis*” et des “word embeddings*”. Cela fonctionne entre documents (textuels ou multi-médias) de langues différentes si on dispose d’un corpus annoté multilingue.

La fouille de données permet d’extraire des motifs fondés sur des propriétés structurelles. Par exemple, on va trouver une classe d’objets, les montagnes, décrits par leurs noms, leurs altitudes, leurs massifs et parfois leurs coordonnées géographiques. Organiser le résultat de la fouille en une représentation explicite de la connaissance est l’objet de la découverte de connaissance qui peut organiser les motifs extraits en une véritable ontologie des objets géographiques comme les montagnes, les rivières, les massifs et les relations entre eux (qu’une montagne fait éventuellement partie d’un massif montagneux et qu’elle peut être localisée dans un ou plusieurs pays).

Enfin, à partir d’une telle représentation de la connaissance, il est possible de déduire de nouvelles informations, d’identifier les descriptions d’un même objet ou de répondre à des requêtes. Ainsi, quelqu’un cherchant des images d’“alpinisme dans le massif de la Chartreuse”, pourra se voir retourner une image étiquetée “escalade” et “Mont Granier”. Pour cela, le système enchaînera des étapes de raisonnement sur différents éléments de connaissances, à savoir que ”escalade” est une catégorie d’“alpinisme” et que le “Mont Granier” est situé dans le “massif de la Chartreuse”.