UTILITE
La base de données permet de construire des "pages dynamiques", c'est à dire des pages qui n'existent pas a priori sur le Web ou sur l'Intranet d'entreprise mais sont construites à partir des requêtes particulières des utilisateurs. Le serveur garde en mémoire une banque de données structurée par champs homogènes (du genre nom, adresse, n° de client, achats effectués, catalogue de produits etc...). Et on peut retrouver l'information souhaitée en formulant une requête du genre: liste des clients de telle ville, n'ayant rien acheté depuis un an etc...
La base de données est un instrument utile pour gérer des informations chiffrées, assez superficielles, totalement homogènes dans leur nature et leur présentation. Elle est peu utile pour l'information qualitative (percevoir l'évolution à travers des revues de presse ou des forums...)
Les données offertes sur Internet par les grands organismes publics sont souvent présentées en bases structurées facilitant une gestion normalisée des informations et la recherche.
Les actualités proposées sur Internet reposent souvent sur des systèmes de bases de données gratuites ou payantes (par exemple archives de presse). |
|
MODALITES-OUTILS
Sous des formats comparables, on trouve aussi des banques de données spécialisées qui sont la propriété de sociétés commerciales comme First search, Dialog ou Lexis Nexis. Les bases de données spécialisées ont une longue histoire informatique, qui a précédé de beaucoup l'arrivée d'Internet.
Ceci explique trois caractéristiques:
* leurs informations sont particulièrement riches, notamment dans le domaine des sciences et techniques. Certains fournisseurs sont incontournables...
* elles relèvent presque toutes de l'univers payant, mais fournissent divers services complémentaires facilitant la recherche et le téléchargement;
* Bon nombre d'entre elles n'ont pas totalement modifié leur système d'accès pour permettre la consultation avec un navigateur. Et, disent les experts, il est aussi facile d'apprendre la consultation à distance de bases de données que de vouloir pratiquer la chirurgie cardiaque par les mêmes moyens. Il faut donc passer par l'apprentissage long (et coûteux) des protocoles d'accès spécifiques à chaque base |
Le site Internets présente une importante liste de bases accessibles sur le Web et classées en 34 catégories. |
ECHANGES
Le web invisible : définitions et outils de recherche Dans cette rubrique, je vais tenter de vous apporter des clés pour mieux comprendre et utiliser le web invisible. Tout d'abord, parlons du concept :
1. Qu'est-ce que le web invisible ?Le web invisible (appelé aussi web caché ou web profond) est la partie de l'internet non ou mal indexée par les outils de recherche. Ainsi les 3 milliards de documents indexés aujourd'hui par Google ne représentent qu'une petite partie du gigantesque iceberg que constitue l'ensemble du web. Pourquoi une partie du web est mal ou pas indexé par les moteurs ?
- les documents sont trop volumineux pour être entièrement indexés,
- des pages sont protégées par l'auteur (mots de passe, balises meta qui stoppe le robot),
- des pages sont générées seulement dynamiquement, lors d'une requête par exemple (incluent des caractères comme ? et &),
- le format des documents n'est pas reconnu par les moteurs (les moteurs majeurs comme Google ou Fast reconnaissent toutefois de plus en plus de formats...).
- des pages sont rendues invisibles car aucun lien ne pointe vers elles
Plutôt que le web visible et invisible, BrightPlanet préfère évoquer le surface web et deep web (web profond). En effet, pour cette société, le problème n'est pas tant la visibilité que l'accessibilité par les moteurs. Il y a un web de surface que les moteurs parviennent à indexer et un web profond que leur technologie ne parvient pas encore à explorer mais qui est visible à partir d'autres types d'outils (répertoires sélectifs, bases de données..).On pourrait donc comparer le web à un gigantesque iceberg (en perpétuelle expansion) avec un volume de ressources immergées beaucoup plus important que les ressources de surface
2. Quel est la taille du web invisible ?Selon les estimations, très variables et difficiles, les meilleurs moteurs n'indexent que 3 à 10% du web. Différentes études sur la taille du web permettent d'apporter quelques enseignement : En se basant sur les études Bright Planet et Cyveillance, on pourrait imaginer que le web visible dépassait fin décembre 2002 les 64 milliards de pages (dans l'hypothèse d'un doublement de taille tous les 6 mois) ou "seulement" les 15 milliards de pages (dans l'hypothèse d'une stabilisation de sa croissance). Ces mêmes études permettent également de dire que le web invisible serait 260 fois plus vaste que le web visible. Ces chiffres ne sont évidement que des hypothèses que l'on peut discuter indéfiniment. Mais l'étude Bright Planet apporte une information intéressante plus précise : les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible.
3. Quels types de sites constituent le web invisible ?Les sites les plus volumineux sont essentiellement des portails scientifiques (NASA), des bases de données (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse en ligne (USAToday), de commerce en ligne (e-bay), des sites internes de grosses sociétés (UPS, Fedex), les sites d'annonces, de pages jaunes/blanches, les bibliothèques en ligne... • Source : "Distribution des sites du Deep Web par types de contenu"- étude Bright Planet. |
http://www.goatechnologies.com/invisible.htm
The InvisibleWeb
Invisible-web.net plus de 1000 sources d'accès au web invisible
RDN (Resource Discovery Network)RDN est une porte d'entrée britannique d'un réseau de portails consacrées à une douzaine de grands thèmes représentant plus de 35000 ressources
Enfin.com
Direct Search
Fossick EuropeFossick est un portail de répertoires et de moteurs de recherche.
Portails 2ressources grand public ou professionnelles (portails ou simple sites spécialisés).
Les 1000 meilleurs portails d'affaires sectoriels
Pour des informations plus détaillées sur les répertoires sélectifs et les portails, voir la partie dédiée dans Intelligence-Center.com. |