admi.net/jo/ : Le Journal Officiel sur le Web
Robert Mahl

Sommaire :



Les services rendus par admi.net/jo/ aux utilisateurs

10 décembre 1998


L'aspect Recherche et Expérimentation du projet : difficultés, et résultats déja obtenus

La création des liens

La principale difficulté du projet consiste en l'insertion automatique d'hyperliens pertinants. Autant il est possible de créer des liens facilement vers les lois ou décrets à numéros, autant il est souvent difficile pour un programme informatique d'intuiter correctement les liens vers des articles de codes. Voyez par exemple le texte paru le 9/12/98 qui établit par exemple un lien vers l'article R.137 du Code de la Route. Cet article lui-meme contient des liens vers le code pénal et le code de la route, etc.
De nombreux cas de figure peuvent surgir qui obligent à interpreter le rattachement d'un article à un code plutôt qu'un à un autre, voire à une loi ou à un décret. Le contexte joue un rôle important pour l'interprétation. Par exemple, si la pharase précédente comportait une référence à un code, cela augmente la probabilité que la nouvelle référence porte sur le même code. Une analyse correcte de la langue juridique française en vue de la création des liens peut être l'un des principaux résultats du projet.

A terme, l'un des objectifs est d'arriver à une vérification automatique et contextuelle des liens afin de détecter les mauvais liens et de les éliminer.

Un autre objectif est de détecter automatiquement des textes interessants sur des sites répertoriés.

Récupération automatique de documents et indexation

D'autres difficultés sont liées à la récupération automatique des documents sur Légifrance ou bien sur le site du Journal Officiel, et à leur indexation.



Objectifs du projet de recherche juridique de l'Ecole des mines de Paris

15 avril 1998

Le Journal Officiel sur Internet ... Pourquoi un professeur d'informatique s'occupe-t-il de ça ?

L'idée de mettre le J.O. sur Internet, beaucoup de gens l'ont eue. Mais c'est Christian Scherer, le génial réalisateur d'ADMINET, qui a eu le courage de la soutenir contre vents et marées.

Christian a un sens très gaullien de la mission fondamentale de l'Administration, qui est autant éducatrice que coërcitrice. Si la Loi et les règlements doivent servir à quelque chose, il ne suffit pas de dire "personne n'est censé ignorer la Loi", il faut effectivement mettre les textes à sa disposition, et gratuitement. C'est l'esprit parpaillot, généreux et rigoureux, qui surgit chez Christian Scherer comme chez Lionel Jospin. Et c'est peut-être ce genre de considération qui a décidé Jospin et son Cabinet à mettre le J.O. sur le Web ?

Mais le J.O., c'est aussi pour l'informaticien que je suis une magnifique opportunité de tisser des hyperliens, de démontrer diverses techniques novatrices disponibles sur Internet : indexation sémantique, push, création automatique d'hyperliens, etc. Le J.O., c'est un texte brut qui reflète une réalité sous-jacente terriblement structurée, celle du Droit français. Comment faire apparaitre la structure à partir de la littérature ? C'est un enjeu considérable, auquel se sont attaqué des centaines de juristes, mais qui connaît une nouvelle jeunesse grâce aux technologies documentaires et à Internet.

Le Journal Officiel possède déja un site Web officiel et gratuit. Pourquoi cela ne suffit-il pas ?

En fait, il y a actuellement deux sites Web officiels : www.journal-officiel.gouv.fr et www.legifrance.gouv.fr. Le premier ne met sur le Web que le J.O. des cinq derniers jours, et, pour d'obscures raisons, les textes sont mis sous une forme d'image peu lisible. Peut-être s'agit-il de dissuader précisément la lecture et la copie. De toutes façons, ce site était un précurseur. Le cas du site legifrance est plus subtil. Legifrance offre le J.O. en texte intégral sous forme digitalisée depuis janvier 1998, ainsi que quelques codes et textes plus anciens.Il y a aussi un mécanisme efficace de recherche des documents grâce à un indexeur. Le problème, c'est que le site n'autorise pas, du moins pour l'instant, l'accès par des URL stables aux documents.

Qu'est-ce que c'est qu'une URL stable ?

C'est une adresse Web dont on peut faire état auprès de tiers, afin de permettre l'accès par des hyperliens. L'organisation de Legifrance ne permet pas de créer un hyperlien à partir d'un autre site vers une de ses pages. Par exemple, si un texte du Code de déontologie médicale hébergé par le site Web de l'Ordre National des Médecins fait référence à la Loi 78-17, il n'est pas possible de cliquer sur ce lien et d'accéder instantanément au texte de la Loi. C'est pourtant ce dont le public a besoin ! Nous avons donc pris l'initiative d'ouvrir Legifrance de plusieurs façons.

Comment vous y êtes-vous pris ?

Dans un premier temps, nous avons copié les textes de Legifrance afin de constituer un site équivalent, contenant le J.O. quotidien, mais doté d'URL stables. Nous avons indexé ce site avec deux indexeurs : d'abord Spirit de TGID, un produit remarquable qui permet de poser des questions en français naturel. Et ensuite un indexeur ad hoc réalisé par un stagiaire, qui a pour seul mérite par rapport à Spirit de fournir les textes dans un ordre anté-chronologique et non pas dans un ordre de vraisemblance. Nous avons également répertorié un certain nombre de textes antérieurs au 1/1/98, que nous avons trouvé sur différents sites Web, notamment rabenou.org. A ce stade, nous avons simplement atteint le niveau des prestations de Legifrance, dont il est vrai que la présentation est plus soignée que la nôtre. Mais notre but était d'expérimenter de nouveaux services.

Quels nouveaux services ?

D'abord, nous avons créé des URL stables par ministère : ainsi un simple clic suffit pour consulter dans l'ordre les décrets du ministère de l'emploi et de la solidarité. Ensuite, il fallait donner aux autre sites Web la possibilité d'accéder par une URL stable à des résultats de recherches dans des index portant sur des mots. Par exemple, le site du Comité d'Etudes sur la Formation des Ingénieurs permet par un simple clic d'accéder à tous les textes du J.O. sur les ingénieurs, leur formation, leur règlementation, etc. Autre enjeu : créer des liens automatiques entre les différents textes. C'est facile de mettre le lien lorsqu'un document fait référence par exemple à la loi numéro 78-17 de janvier 1978. C'est moins facile lorque le texte mentionne "l'arrêté du 28 décembre 1977 relatif à la passation de marchés publics ..." parce que ces mots n'apparaîtront peut-être pas exactement comme cela dans le texte référencé, et il peut donc y avoir des ambiguïtés. D'autre part, la création de liens inverses est assez facile : lorsqu'un texte mentionne un texte de plus haut niveau, ce dernier peut également mentionner l'existence du précédent comme un texte dérivé ou un modificatif par exemple. Il y a aussi le push, c'est-à-dire la possibilité pour un utilisateur de demander à recevoir un courrier électronique lorsqu'un nouveau texte paraît dans son domaine d'intérêt.Et beaucoup d'autres travaux de recherche nous sont ouverts pour la suite, notamment l'extraction automatique d'informations à partir de questions en français ordinaire, ou bien le clustering dans la lignée des travaux réalisés par un autre chercheur des mines, François Bourdoncle, en liaison avec Altavista.

Encore un mot sur l'intérêt du J.O. pour l'enseignement : naviguer dans les textes officiels, ce n'est pas seulement utile pour les futurs juristes, mais aussi pour des élèves ingénieurs ! C'est plus amusant en tout cas de faire des travaux pratiques sur ordinateur où l'on demande aux jeunes de trouver des arguments juridiques sur le Web, que de leur faire des amphis et de leur donner à lire le code civil.

Avez-vous vraiment le droit de copier ainsi le Journal Officiel ? Ne craignez-vous pas que legifrance vous attaque, notamment au nom du décret de mai 1996 sur le monopole des bases de données juridiques ?

Cette question est complexe, mais je vous donne quelques éléments de réponse. D'abord, le J.O. peut être copié librement, il n'y a pas de copyright sur les textes officiels puisqu'ils doivent précisément être connus par tous.  Les directives européennes sur les bases de données lient d'ailleurs le copyright à une présentation ou à un mode d'accès original de la base, ce que nous faisons.

Ensuite, le décret de 96, qui aménage une espèce de monopole de la concession d'un service public au profit d'une société privée, visait à faire réaliser 50 millions de francs par an d'économie aux administrations en évitant que chacune ne paie la saisie manuelle et la mise en forme des mêmes textes : notre réalisation est évidemment infiniment meilleur marché, car elle repose sur un processus de production totalement automatisé.

D'autre part, le Premier ministre a personnellement souhaité la naissance d'un "Web citoyen" destiné à informer au mieux le public, il doit donc se réjouir de la création de sites miroirs du site officiel. D'ailleurs, le site www.legifrance.gouv.fr n'est pas "protégé" par un fichier robots.txt, et la déontologie internationale de l'Internet n'interdit donc pas aux robots de le copier. Je signale aussi que notre projet est subventionné par le FIM, fonds qui dépend du Commissariat à la réforme de l'Etat. Et enfin que l'Ecole des mines de Paris a une mission d'enseignement, de recherche et d'innovation et qu'à ce titre elle se doit de participer à des innovations majeures dans l'usage d'Internet. 

Votre site est-il connu ? Comment voyez-vous l'avenir de sa fréquentation ?

La notoriété du site admi.net/jo/ augmente rapidement. Nous avons dépassé pour la première fois 1000 visiteurs (7000 pages consultées) le 14 avril, après trois mois d'existence. Notre objectif est évidemment bien supérieur. Nous l'atteindrons grâce à des alliances avec différents sites miroirs, notamment à l'Université de Sarrebrück qui travaille depuis longtemps déjà sur la réalisation de webs juridiques. Mais nous devons réaliser d'autres progrès pour que le public apprécie l'intérêt de notre site : mettre en ligne davantage de textes plus anciens, intégrer les tableaux dans les textes, établir des liens avec les directives européennes ou bien avec les analyses juridiques que nos collègues juristes voudront bien mettre sur le Web, ou bien avec les jugements des tribunaux ... Peut-être Internet permettra-t-il ainsi l'aboutissement de la construction juridique systématique que Napoléon avait lancé voici deux siècles ?


Les statistiques sur l'utilisation d'Admi.net/jo/

Contrairement à l'immense majorité des sites Web, admi.net/jo/ offre ses statistiques d'accès aux utilisateurs.
Celles-ci montrent non seulement l'évolution récente du nombre d'utilisateurs quotidien ou bien du nombre de hits, mais aussi le référencement du site, c'est-à-dire les sites Web par lesquels les utilisateurs ont trouvé ce site. D'autre part, afin de ne pas alourdir cette page, nous en avons enlevé pour l'instant les statistiques sur les termes proposés aux indexeurs, tant le nôtre que ceux (Altavista, Yahoo! , ...) par lesquels les utilisateurs arrivent dans nos pages. Ces dernieres sont plein d'intérêt car leur analyse montre la plus ou moins grande pertinance du site par rapport aux termes de recherche effectifs des utilisateurs des grands indexeurs publics.

Les statistiques concernant l'utilisation de notre service de "push" sont partiellement rendues publiques. Au 1er janvier 1999, ce service touche plus de 2000 personnes.

Les statistiques concernant l'utilisation de nos indexeurs ainsi que du metaindexeur seront données ultérieurement.


Remerciements

Je remercie chaleureusement les personnes qui ont apporté leur soutien à ce projet, notamment les signataires de Sarrebrück, les membres du CAWA, Jean-Michel Yolin, la direction et le personnel de l'Ecole des mines et notamment du CRI, Pierre de la Coste, et bien d'autres courageux inconnus

Copyright. ©1995-2016 AdmiNet. All rights reserved
Logos : E. Rougé & A. Ventura - Partners : blog fr be by gl eu tv Beware of fake AdmiNet
URL : http://admi.net/jo/interview.html
  Top of page
Feedback
(Last update : Sun, Oct 23, 2016)