Verificación de Googlebot

martes, 9 de junio de 2009

Se ha pedido a los motores de búsqueda que diferencien de alguna manera los robots auténticos de los que no lo son. En el fondo, cualquier spammer podría llamar a su robot "Googlebot" y hacerse pasar por Google, así que ¿cuáles son los robots en los que debemos confiar y cuáles se deben bloquear?

Una petición común es que publiquemos una lista de direcciones IP de Googlebot. El problema con esto es que si cambian los rangos de IP de nuestros rastreadores, no todo el mundo los actualizará. De hecho, el equipo de rastreo migró las direcciones IP de Googlebot hace un par de años y fue bastante problemático avisar a los webmasters que habían fijado un rango de IP. Así que el equipo de rastreo ha proporcionado otra manera de verificar Googlebot. Aquí tienes una respuesta del equipo de rastreo (que citamos con su permiso):

Decir a los webmasters que utilicen DNS para verificar, según cada caso, parece la mejor manera de proceder. Se recomienda hacer una consulta de DNS inversa, comprobar que el nombre está en el dominio googlebot.com y, luego, hacer la correspondiente consulta DNS-> IP utilizando el nombre googlebot.com, por ejemplo:

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

No creo que sea suficiente hacer una consulta de DNS inversa sólamente, porque cualquier imitador podría crear un DNS inverso que apunte a crawl-a-b-c-d.googlebot.com.

Esta respuesta también se ha pasado a nuestro servicio de ayuda, así que la consideramos una forma oficial de verificar Googlebot. Para obtener el rango de IP "oficial" de Googlebot, el robot debe respetar robots.txt así como nuestras convenciones internas de carga de hosts, para que Google no rastree demasiado.

Agradecemos a N. y J. su ayuda con esta respuesta desde el punto de vista del rastreo.