Cómo encontrar páginas ocultas en sitios web

En 2016, Google manejó más de 3,2 billones de consultas de búsqueda, pero los resultados que proporcionó el motor de búsqueda representaron solo una fracción del contenido disponible en línea. Los motores de búsqueda no pueden acceder a gran parte de la información disponible en línea, por lo que debe utilizar herramientas especiales o investigar los sitios web usted mismo para encontrar estas páginas ocultas. Conocida como la web profunda, esta información oculta representa hasta 5,000 veces lo que está disponible usando técnicas de búsqueda típicas.

Tipos de contenido oculto

Las páginas ocultas de los sitios web se clasifican en categorías que describen por qué permanecen invisibles para los motores de búsqueda.

Algunos constituyen contenido dinámico, servido solo cuando un visitante emite una solicitud específica en un sitio web que utiliza código basado en bases de datos para presentar resultados específicos. Por ejemplo, estas páginas podrían incluir resultados de compras basados ​​en combinaciones específicas de criterios de productos. Los motores de búsqueda no están diseñados para rastrear y almacenar información almacenada en estas bases de datos. Para encontrar estas páginas, tendría que ir al sitio web y buscar la información específica que está buscando, o utilizar un servicio de búsqueda orientado a bases de datos como Bright Planet.

Algunas páginas no tienen enlaces que las conecten con fuentes de búsqueda. Los recursos temporales, como varias versiones de sitios web en desarrollo, pueden caer en esta categoría, al igual que los sitios web mal diseñados. Por ejemplo, si alguien creó una página web y la subió al servidor del sitio web, pero no pudo agregar un enlace en las páginas actuales del sitio web, nadie sabría que estaba allí, incluidos los motores de búsqueda.

Aún más páginas requieren credenciales de inicio de sesión para verlas o acceder a ellas, como los sitios de suscripción. Los diseñadores web designan páginas y secciones de sitios como fuera de los límites de los motores de búsqueda, eliminándolas de manera efectiva para que no se encuentren a través de medios convencionales. Para acceder a estas páginas, normalmente debe crear una cuenta antes de que se le otorgue permiso para acceder a ellas.

Uso de archivos Robots.txt

Los motores de búsqueda rastrean las páginas de un sitio web e indexan su contenido para que pueda aparecer en respuesta a las consultas. Cuando el propietario de un sitio web desea excluir algunas partes de su dominio de estos procedimientos de indexación, agrega las direcciones de estos directorios o páginas a un archivo de texto especial llamado robots.txt, almacenado en la raíz de su sitio. Debido a que la mayoría de los sitios web incluyen un archivo robots independientemente de si le agregan exclusiones, puede usar el nombre predecible del documento para mostrar su contenido.

Si escribe "[nombre de dominio] /robots.txt" sin las comillas en la línea de ubicación de su navegador, reemplazando "[nombre de dominio]" con la dirección del sitio, el contenido del archivo de robots a menudo aparece en la ventana del navegador después presiona la tecla "Enter". Las entradas precedidas de "no permitir" o "nofollow" representan partes del sitio que permanecen inaccesibles a través de un motor de búsqueda.

Hackeo de sitios web hágalo usted mismo

Además de los archivos robot.txt, a menudo puede encontrar contenido oculto escribiendo direcciones web para páginas y carpetas específicas en su navegador web. Por ejemplo, si estaba mirando el sitio web de un artista y notó que cada página usaba la misma convención de nomenclatura, como gallery1.html, gallery2.html, gallery4.html, es posible que pueda encontrar una galería oculta escribiendo la página " gallery3.html ". en su navegador web.

De manera similar, si ve que el sitio web usa carpetas para organizar páginas, como example.com/content/page1.html, con "/ content" como carpeta, entonces puede ver la carpeta en sí escribiendo el sitio web y la carpeta. , sin una página, como "example.com/content/" en su navegador web. Si no se ha desactivado el acceso a la carpeta, es posible que pueda navegar por las páginas que contiene, así como por las páginas de cualquier subcarpeta, para encontrar contenido oculto.