domingo, 18 de octubre de 2015

Web profunda y web superficial

Los motores de búsqueda tradicionales sólo permiten el acceso a una pequeña parte de la información de la red, lo que se conoce como web superficial o visible. El resto ,información que se encuentra en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que solicitan un login , aparece en la Web profunda. Este tipo de contenido no aparece entre los resultados de una búsqueda normal. En la web visible encontramos todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad por medio de una consulta a sus formularios de búsqueda. Su información no aparece en bases de datos, son de libre acceso y lo forman páginas Web estáticas que son páginas o archivos con una URL fija y accesibles desde otro enlace. En la Web invisible está toda la información disponible en Internet y que no se recupera interrogando a los buscadores convencionales. Esa información se almacena y a ella se accede por medio de bases de datos que suelen estar públicamente disponibles en Internet., La información almacenada es "invisible" para los robots de los buscadores. Las páginas dinámicas (ASP, PHP...), es decir páginas que no tienen una URL fija y que son temporales sirven para acceder a la información disponible en las bases de datos por medio de consultas. Según la clasificación de Sherman y Price (2001), hay cuatro tipos de contenidos invisibles en la Web: 1. la Web opaca 2. la Web privada 3. la Web propietaria 4. y la Web realmente invisible La Web opaca: Está formada por archivos que no aparecen en los motores de búsqueda por diversas razones: a) Extensión de la indización b) Frecuencia de la indización c) Limitación del Número máximo de resultados visibles d) URL’s desconectadas La web privada: La forman archivos que no están incluidos en los motores de búsqueda por alguna de estas otras razones: a) Las páginas están protegidas por passwords, es decir, por contraseñas b) Contienen un archivo “robots.txt” para evitar que puedan ser indizadas. Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página. La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores.

No hay comentarios:

Publicar un comentario

Gracias por tu comentario