El servicio de Google Sitemaps, todavía en beta, pretende acabar con la internet invisible. Es decir todas aquellas páginas que pese a formar parte de la World Wide Web, no son accesibles por los buscadores, y por tanto, tampoco por los usuarios.

El proceso comienza creando un archivo de mapa del sitio, que es procesado por el robot de Google. Al ser el protocolo Creative Commons, es de esperar que el resto de robots acaben soportándolo.

Hay diferentes formas de crear el archivo de mapa:
1) Archivo de texto
Un archivo de texto plano que contiene URL que deben ser indexadas por el robot, separadas por saltos de linea.
2) Feed XML
Un feed en formato RSS o ATOM, de dónde el robot extraerá el listado de URLs junto a su fecha de modificación.
3) OAI
Un XML en formato Open Archives Initiative que contempla la URL, junto a la fecha de modificación.
4) Sitemap
Un XML en formato Sitemap, con el listado de URL, la fecha de su última modificación, la frecuencia de reindexación, y la prioridad. Limitado a 10 Mb o 50.000 URL.
5) Índice y sitemap(s)
Un XML de índice, que enlaza con uno o más XML de sitemap como los del apartado 4), lo que permite aumentar los límites de capacidad establecidos.

En cualquiera de los 5 formatos anteriores, la fuente puede estar comprimida GZIP (recomendado), o sin comprimir.

Para Simple PHP Blog he obtado por la cuarta opción. El archivo está comprimido si la configuración del servidor lo permite.

Lo tenéis disponible preliminarmente aquí.

Vía USACD.