Rastreo de contenido (Search Server 2008)

Actualizado: 2008-09-11

Nota

A menos que se especifique lo contrario, la información de este artículo se aplica a Microsoft Search Server 2008 y Microsoft Search Server 2008 Express.

El rastreo de contenido es el proceso a través del cual un sistema tiene acceso y analiza el contenido y sus propiedades, a veces denominadas metadatos, para generar un índice de contenido a partir del cual se pueden resolver las consultas de búsqueda.

Si el contenido se rastrea correctamente, el rastreador tiene acceso a los archivos o fragmentos de contenido individuales que se desea que estén disponibles para las consultas de búsqueda y los lee. Las palabras clave y los metadatos de esos archivos se almacenan en el índice de contenido, que en ocasiones se denomina índice. El índice está formado por las palabras clave que están almacenadas en el sistema de archivos del servidor de índices y los metadatos que se almacenan en la base de datos de búsqueda. El sistema mantiene una asignación entre las palabras clave, los metadatos asociados a los fragmentos de contenido individuales y la dirección URL del origen desde el que se rastreó el contenido.

Nota

El rastreador no realiza ningún cambio en los archivos de los servidores host, sino que tiene acceso a ellos y los lee. El texto y los metadatos de estos archivos se envían al servidor de índices para su indización. Sin embargo, dado que el rastreador lee el contenido del servidor host, algunos servidores que hospedan determinados orígenes de contenido podrían actualizar la fecha de último acceso de los archivos rastreados.

Determinación del momento en que se rastrea el contenido

Cuando una granja de servidores lleva funcionando un tiempo después de su implementación, normalmente el administrador de servicios de búsqueda debe cambiar la programación de rastreo. Esto podría ser necesario por las siguientes razones:

  • Para dar cabida a los cambios en períodos de inactividad y de uso máximo.

  • Para dar cabida a los cambios en la frecuencia con la que el contenido se actualiza en los servidores que hospedan el contenido.

  • Para programar rastreos de modo que:

    • El contenido que se hospeda en servidores host más lentos se rastree de forma independiente al contenido que se hospeda en servidores host más rápidos.

    • Se rastreen nuevos orígenes de contenido.

    • Los rastreos se produzcan con la misma frecuencia con la que se actualiza el contenido de destino. Por ejemplo, es posible que desee realizar rastreos diarios en repositorios que se actualizan cada día y rastrear con menos frecuencia los repositorios que se actualizan menos a menudo.

Realización de rastreos

En general, se desea automatizar la mayor parte de los rastreos mediante su programación, aunque en ocasiones es probable que prefiera iniciar un rastreo manualmente. Por ejemplo, puede iniciar un rastreo para aplicar cambios administrativos, como reglas de rastreo, al contenido rastreado e indizado, o para determinar si un error en el registro de rastreo se ha resuelto.

Además, tanto si un rastreo se inicia mediante una programación o manualmente, es posible que necesite detenerlo o pausarlo. Por ejemplo, un administrador cuyo servidor hospeda el contenido que está rastreando puede notificarle que el rastreo supone una carga excesiva para el servidor o que el servidor rastreado está actualmente sin conexión. En cualquiera de estos casos, es posible que desee detener o pausar el rastreo.

Debe tener en cuenta que son necesarios más tiempo y recursos del servidor para realizar un rastreo completo que uno incremental. Los rastreos completos:

  • Consumen más memoria y ciclos de CPU en el servidor de índices que los rastreos incrementales.

  • Consumen más memoria y ciclos de CPU de los servidores cliente web al rastrear el contenido de la granja de servidores. Esto no se aplica al contenido externo a la granja de servidores.

  • Utilizan más ancho de banda de red que los rastreos incrementales.

ImportantImportante:

Cuando se detiene un rastreo de un origen de contenido, la próxima vez que lo rastree, Microsoft Search Server 2008 realizará automáticamente un rastreo completo del origen de contenido. Esta operación se lleva a cabo incluso si intenta realizar un rastreo incremental. Por lo tanto, considere cuidadosamente si es preferible pausar el rastreo en lugar de detenerlo.

También debe procurar no pausar rastreos de demasiados orígenes de contenido al mismo tiempo, ya que cada origen de contenido pausado consume memoria y recursos de CPU en el servidor de índices.

Para iniciar un rastreo completo o incremental, detener, pausar o reanudar un rastreo, realice uno de los procedimientos siguientes:

Programación de rastreos

En las secciones siguientes se proporciona más información acerca de las consideraciones relacionadas con el rastreo de contenido según una programación.

Períodos de inactividad y de uso máximo

Tenga en cuenta los períodos de inactividad y de uso máximo de los servidores que hospedan el contenido que desea rastrear. Por ejemplo, si va a rastrear contenido hospedado en muchos servidores diferentes fuera de la granja de servidores, es probable que las copias de seguridad de estos servidores se realicen según programaciones diferentes y tengan distintos períodos de uso máximo. Lo normal es que no pueda controlar la administración de los servidores que no pertenecen a su granja de servidores, por lo que se recomienda coordinar las operaciones de rastreo con los administradores de los servidores que hospedan el contenido que desea rastrear para asegurarse de que no intenta rastrear contenido en sus servidores durante períodos de inactividad o de uso máximo.

Nota

Dado que los períodos de uso máximo e inactividad de los servidores host pueden cambiar, se recomienda volver a evaluar de forma periódica las programaciones de rastreo de todos los orígenes de contenido, no sólo de los nuevos que se crean.

Es habitual que el contenido que se encuentra fuera del control de su organización esté relacionado con el contenido de los sitios de SharePoint. Puede agregar las direcciones de inicio de este contenido a un origen de contenido existente o crear un nuevo origen de contenido para el contenido externo. Como la disponibilidad de los sitios externos varía considerablemente, resulta útil agregar orígenes de contenido independientes para diverso contenido externo. De esta forma, los orígenes para contenido externo se pueden rastrear en un momento distinto al de los demás orígenes de contenido. Puede actualizar el contenido externo según una programación de rastreo que tenga en cuenta la disponibilidad de cada sitio.

Contenido que se actualiza con frecuencia

Al planear programaciones de rastreo, tenga en cuenta que algunos orígenes de contenido se actualizan con más frecuencia que otros. Por ejemplo, si sabe que el contenido de algunas colecciones de sitios u orígenes externos sólo se actualiza los viernes, al rastrear ese contenido con una frecuencia superior a una vez por semana, se desperdician recursos. Sin embargo, es posible que la granja de servidores contenga otras colecciones de sitios que se actualizan continuamente de lunes a viernes, pero no los sábados y los domingos. En este caso, es posible que desee rastrear esos sitios varias veces durante la semana y nunca durante los fines de semana.

La forma de almacenar el contenido en las colecciones de sitios de su entorno puede guiarle para crear orígenes de contenido adicionales para cada una de las colecciones de sitios de cada aplicación web. Por ejemplo, si una colección de sitios almacena sólo información archivada, no necesitará rastrear ese contenido con la misma frecuencia con la que rastrea una colección de sitios que almacena contenido que se actualiza con frecuencia. En este caso, es posible que desee rastrear estas dos colecciones de sitios con diferentes orígenes de contenido para que se puedan rastrear en diferentes programaciones.

Programaciones de rastreos completos e incrementales

Como administrador de servicios de búsqueda, puede configurar las programaciones de rastreo de forma independiente para cada origen de contenido. Así, para cada origen de contenido, puede especificar una hora para los rastreos completos y otra hora diferente para los rastreos incrementales.

Nota

Debe realizar primero un rastreo completo de un origen de contenido dado antes de poder realizar uno incremental.

Es recomendable que planee las programaciones de rastreo teniendo en cuenta la disponibilidad, el rendimiento y el ancho de banda de los servidores en los que se ejecuta el servicio de búsqueda y los servidores que hospedan el contenido rastreado.

Cuando planee las programaciones de rastreo, tenga presentes los siguientes procedimientos recomendados:

  • Agrupe las direcciones de inicio de los orígenes de contenido según una disponibilidad similar y con un uso de recursos generales aceptable para los servidores que hospedan el contenido.

  • Programe rastreos incrementales de cada origen de contenido durante períodos en los que los servidores que hospedan el contenido estén disponibles y cuando la demanda de recursos del servidor sea baja. También puede agregar o editar una o varias reglas de impacto del rastreador para reducir la carga de los servidores que se están rastreando. Para obtener más información acerca de las reglas de impacto del rastreador, vea Administración del impacto del rastreador (Search Server 2008).

  • Escalone las programaciones de rastreo para que la carga en los servidores de la granja de servidores se distribuya en el tiempo.

  • Programe rastreos completos sólo cuando sea necesario por las razones expuestas en la sección siguiente. Se recomienda que realice rastreos completos con menos frecuencia que los incrementales.

  • Programe los cambios de administración que requieran un rastreo completo de forma que tengan lugar poco antes de la programación de rastreos completos que ha planeado. Por ejemplo, es recomendable que intente programar la creación de la regla de rastreo antes del siguiente rastreo completo programado de forma que no sea necesario realizar otro rastreo completo.

  • Base los rastreos simultáneos en la capacidad del servidor de índices para rastrearlos. Se recomienda escalonar las programaciones de rastreo para que el servidor de índices no realice el rastreo con varios orígenes de contenido al mismo tiempo. El rendimiento del servidor de índices y el rendimiento de los servidores que hospedan el contenido determinan hasta qué punto se superponen los rastreos. Con el tiempo, se puede desarrollar una estrategia para programar rastreos a medida que se familiarice con las duraciones habituales de los rastreos para cada origen de contenido. Se recomienda registrar los datos de tendencias sobre la duración de los rastreos en el entorno.

Motivos para realizar un rastreo completo

Las razones por las cuales un administrador del servicio de búsqueda puede realizar un rastreo completo son:

  • Se instalaron uno o varios Service Pack o revisiones en servidores de la granja de servidores. Para obtener más información, vea las instrucciones de la revisión o Service Pack.

  • Un administrador de servicios compartidos ha agregado una nueva propiedad administrada.

  • Para volver a indizar páginas ASPX en sitios de Windows SharePoint Services 3.0.

    Nota

    El rastreador no puede detectar cuándo han cambiado las páginas ASPX en los sitios de Windows SharePoint Services 3.0. Por ello, en los rastreos incrementales no se vuelven a indizar las vistas o páginas principales cuando se eliminan elementos de lista individuales. Se recomienda realizar periódicamente rastreos completos de los sitios que contengan archivos ASPX para asegurarse de que estas páginas se vuelven a indizar.

  • Para detectar los cambios de seguridad que se realizaron en un recurso compartido de archivos tras el último rastreo completo del recurso compartido de archivos.

  • Para solucionar errores consecutivos en los rastreos incrementales. En algunos casos aislados, si un rastreo incremental genera un error cien veces seguidas en cualquier nivel de un repositorio, el servidor de índices quita el contenido afectado del índice.

  • Se han agregado, eliminado o modificado reglas de rastreo.

  • Para reparar un índice dañado.

  • El administrador de los servicios de búsqueda ha creado una o más asignaciones de nombres de servidor.

  • La cuenta asignada a la regla de rastreo o cuenta predeterminada de acceso al contenido ha cambiado.

El sistema realiza un rastreo completo incluso cuando se solicita un rastreo incremental en las siguientes circunstancias:

  • Un administrador de servicios compartidos ha detenido el rastreo anterior.

  • Se restauró una base de datos de contenido.

    Nota

    Si está ejecutando Actualización de infraestructura para servidores de Microsoft Office, puede utilizar la operación restore de la herramienta de línea de comandos stsadm para cambiar si una restauración de base de datos de contenido causa un rastreo completo.

  • Un administrador de granja de servidores ha desasociado y vuelto a adjuntar una base de datos de contenido.

  • Nunca se ha realizado un rastreo completo del sitio.

  • El registro de cambios no contiene entradas para las direcciones que se están rastreando. Sin entradas en el registro de cambios de los elementos que se están rastreando, no se pueden realizar rastreos incrementales.

  • La cuenta asignada a la regla de rastreo o cuenta predeterminada de acceso al contenido ha cambiado.

  • Para reparar un índice dañado.

    En función de la gravedad del daño, el sistema puede intentar realizar un rastreo completo si se detecta que el índice está dañado.

Puede ajustar las programaciones después de la implementación inicial basándose en el rendimiento y la capacidad de los servidores en la granja de servidores y los servidores que hospedan el contenido.

Vea también

Procedimiento para rastrear el contenido (Search Server 2008)
Programación de un rastreo completo (Search Server 2008)
Programación de un rastreo incremental (Search Server 2008)