martes, 31 de octubre de 2017

Crawling DIrectorios web. Un buen diccionario.

Estimados amigos de Inseguros!!!

Una de las principales acciones que llevamos a cabo en los procesos de auditoría y test de seguridad es la de enumerar los activos que tenemos para atacar.

Lo más "guay" es encontrar un servicio y empezar a buscar la manera de reventarlo, pero hay que se metódico y realizar todas las fases del test de manera ordenada para no dejar nada en el tintero.

Es habitual enumerar los servidores web en busca de aplicaciones, pero no siempre accedemos a http://ip y aparece la aplicación. Según esté configurado el servidor web, los vhosts...


El crawling web consiste en recorrer una web, en hacer n peticiones a la web hasta encontrar el recurso. Las peticiones las hacemos en base a una lista. A diferencia del spider, en el crawling dependemos de la calidad de la lista. Con spidering simplemente recorremos las etiquetas del html buscando enlaces. Bueno, el fichero sitemap.xml si existe, robots.txt... depende de la herramienta.

El fichero que os traigo es una base del fichero de Dirbuster Medium un poco tuneado con el paso del tiempo y de varias auditorías. Hay muchas palabras en español de las que nos encontramos en la auditorías, típicos nombres de departamentos, proyectos, cms y demás.

El fichero lo puedes manipular haciendo pequeños cambios. Por ejemplo, imagina una situación en la que el proyecto web contiene elementos de objetos espaciales, o que el director de proyecto suele usar nomenclaturas de este tipo. Podemos juntar el fichero base de directorios con una lista descargada de Internet.

cat origen.txt origen2.txt > destino.txt

Podemos ponerlo todo en minúsculas.


cat origen.txt | tr [:upper:] [:lower:] > destino.txt

Podemos eliminar duplicados.

cat pass.txt | sort | uniq > pass-no-dulplicados.txt

Y con esto, si eres necio en bash como yo, tendrás una chuleta perfecta para poder manipular tus ficheros de crawling.

Que fichero usas tu? tienes alguno interesante?

Gracias por leerme !!!