martes, 13 de septiembre de 2011

Mejorar la indexación del blog

Cuando se habla de indexar, estamos refiriéndonos a agregar una página web a la lista de resultados que mostrará un buscador. Quienes usan Blogger, no necesitan hacer nada para que esto ocurra; el servicio lo hace de modo automático a menos que indiquemos lo contrario en Configuración | Básico:

¿Deseas permitir que los motores de búsqueda encuentren tu blog?

Si seleccionas "Sí" incluiremos tu blog en la búsqueda de blogs de Google y haremos ping en Weblogs.com. Si seleccionas "No", todo el mundo podrá seguir viendo tu blog, pero los motores de búsqueda recibirán instrucciones de no rastrearlo. Si existen enlaces a tu blog en otros sitios web, es posible que los motores de búsqueda sigan sugiriéndolo en respuesta a una consulta.

También puede hacerse manualmente, ingresando en los distintos buscadores y siguiendo los pasos que ellos indican. Por lo general, basta completar un formulario indicando la URL del home del sitio y nada más. En el caso de Google, eso se hace en esta página.

Como dije al principio, en Blogger, nada de esto es necesario y además, podemos ayudar a esa indexación, agregando un sitemap a las Herramientas para Desarrolladores de Google ya que está integrado al servicio. Sin embargo, pese a que esa indexación automática nos facilita la tarea, también tiene su contrapartida negativa ya que nos vemos lógicamente limitados por una sencilla razón: no es cierto que TODAS las páginas de un sitio deben ser indexadas; hacer eso, es un error.

En términos generales, en un blog, sólo deberían indexarse la página principal, las entradas individuales y, eventualmente, alguna página estática que contenga información que consideremos importante; todo lo demás, debe ser ignorado y deberíamos evitar que sea indexado.

¿Que es todo lo demás?

En cualquier blog, se crean páginas dinámicas de distinto tipo. Si observamos la dirección URL del navegador, veremos cosas como estas:

http://vagabundia.blogspot.com/search/label/Blogger
http://vagabundia.blogspot.com/search?updated-max=2011-08-31T00%3A00%3A00-03%3A00
http://vagabundia.blogspot.com/2011_09_01_archive.html

Son páginas que se generan de manera automática y muestran las entradas de cierta etiqueta, las entradas anteriores o posteriores o las de cierta fecha. Todo ese tipo de página, no debería ser indexada.

¿Por qué? Porque es información irrelevante, son páginas duplicadas que contienen lo mismo que contienen las entradas individuales y por lo tanto, de alguna manera, "compiten" con ellas, restándoles importancia y haciendo que su posición "baje" en los resultados que muestra un buscador.

En el artículo donde se habla del efecto Google Panda, Alejandro, de SpamLoco, comparte algunas ideas interesantes sobre la forma en que podemos hacer pequeñas mejoras en nuestro blog y, por lo menos, saber que hemos hecho todo lo técnicamente posible; obviamente, el resto dependerá del contenido y ... la suerte.

La primera sugerencia es poner un noindex a las páginas generadas por el sistema de Archivos:

http://vagabundia.blogspot.com/2011_09_01_archive.html

Para eso, bastaría usar los condicionales de Blogger y poner en alguna parte del HEAD, lo siguiente:
<b:if cond='data:blog.pageType == &quot;archive&quot;'>
<meta content='noindex' name='robots'/>
</b:if>
A esto, se le podría sumar algo que parecería un poco absurdo ya que, en teoría las páginas que poseen la palabra /search/ no son indexadas porque están bloqueadas; sin embargo, aún así, suelen aparecer en los resultados. Entonces, podríamos hacer lo mismo, será redundante pero, bien dicen que lo que abunda no sobra.

A este tipo de página se la reconoce como index pero, acá hay que tener cuidado ya que el home del sitio también es una página de tipo index así que el condicional debe contemplar ambas cosas:
<b:if cond='data:blog.pageType == &quot;index&quot;'>
<b:if cond='data:blog.homepageUrl != data:blog.url'>
<meta content='noindex' name='robots'/>
</b:if>
</b:if>
Hay que recordar que las etiquetas META no son órdenes que se les da a los buscadores sino sugerencias y por lo tanto, que sean o no sean tenidas en cuenta, depende de su buena voluntad.

Indicar que la página se indexe es innecesario pero, de todos modos, podemos hacerlo y si se quiere resumir todo lo anterior, el código sería algo así:
<b:if cond='data:blog.pageType == &quot;archive&quot;'>
<!-- las páginas de tipo Archivo no serán indexadas -->
<meta content='noindex' name='robots'/>
<b:else/>
<b:if cond='data:blog.pageType == &quot;index&quot;'>
<b:if cond='data:blog.homepageUrl != data:blog.url'>
<!-- las páginas de Etiquetas y Navegación no serán indexadas -->
<meta content='noindex' name='robots'/>
<b:else/>
<!-- el home será indexado -->
<meta content='all,index,follow' name='robots'/>
</b:if>
<b:else/>
<!-- las páginas individuales y las páginas estáticas serán indexadas -->
<meta content='all,index,follow' name='robots'/>
</b:if>
</b:if>

No hay comentarios:

Publicar un comentario