Limitación o aumento de la cantidad de contenido que se rastrea (Search Server 2008)

Actualizado: 2008-10-23

Nota

A menos que se especifique lo contrario, la información de este artículo se aplica a Microsoft Search Server 2008 y Microsoft Search Server 2008 Express.

Durante las operaciones, por lo general es necesario cambiar la cantidad de contenido que se rastrea. Por ejemplo, es posible que desee:

  • Dejar de rastrear algunos sitios de un determinado espacio de nombres que está definido por un origen de contenido existente.

  • Rastrear sitios a una profundidad diferente.

  • Cambiar el número de tipos de archivo que se rastrea, es decir, empezar a rastrear tipos de archivo que antes no se rastreaban, dejar de rastrear ciertos tipos de archivo que actualmente se rastrean o ambas cosas.

A medida que cambian las necesidades de una organización, también se pueden rastrear orígenes de contenido completamente nuevos. Para obtener más información acerca del rastreo de orígenes de contenido completamente nuevos, vea Acerca de los orígenes de contenido (Search Server 2008).

Puede aumentar o limitar la cantidad de contenido que se rastrea mediante:

  • La configuración de rastreo de los orígenes de contenido   Por ejemplo, puede especificar que se rastreen sólo las direcciones de inicio que se especifican en un origen de contenido determinado o puede especificar cuántos niveles de profundidad del espacio de nombres (desde esas direcciones de inicio) se rastrearán y el número de saltos de servidor que se permitirán. Tenga en cuenta que las opciones disponibles en un origen de contenido para especificar la cantidad de contenido que se rastrea varían en función del tipo de origen de contenido.

  • Inclusiones de tipo de archivo   Puede elegir los tipos de archivo que desea rastrear.

  • Reglas de rastreo   Se pueden usar reglas de rastreo para excluir del rastreo todos los elementos de una ruta de acceso determinada. Se trata de un método eficaz para garantizar que los subsitios que no desea indizar no se rastrean con un sitio primario que se esté rastreando. Además, puede usar reglas de rastreo para aumentar la cantidad de contenido que se rastrea: por ejemplo, el rastreo complejo de las direcciones URL de una ruta de acceso determinada.

Configuración de rastreo

Es posible seleccionar el grado de rastreo de las direcciones de inicio de cada origen de contenido. Además, se especifica el comportamiento de rastreo, lo que a veces se conoce como configuración de rastreo. Las opciones que se pueden elegir para un origen de contenido concreto varían en función del tipo de origen de contenido que se seleccione. No obstante, la mayoría de las opciones determinan la profundidad de la jerarquía que se rastrea a partir de cada dirección de inicio enumerada en el origen de contenido. Tenga en cuenta que este comportamiento se aplica a todas las direcciones de inicio de un origen de contenido determinado.

Las opciones disponibles en las propiedades de cada origen de contenido varían en función del tipo de origen de contenido que se seleccione. En la tabla siguiente se describen las opciones de configuración del rastreo para cada tipo de origen de contenido.

Tipo de origen de contenido Opciones de configuración del rastreo

Sitios de SharePoint

  • Todo lo que se encuentre bajo el nombre de host de cada dirección de inicio

  • Sólo el sitio de SharePoint de cada dirección de inicio

Sitios web

  • Sólo en el servidor de cada dirección de inicio

  • Sólo la primera página de cada dirección de inicio

  • Personalizado (especifique la profundidad de páginas y el número de saltos de servidor).

    NoteNota:
    El valor predeterminado de esta opción es una profundidad de página y un número de saltos de servidor ilimitados.

Recursos compartidos de archivos

  • La carpeta y todas las subcarpetas de cada dirección de inicio

  • Sólo la carpeta de cada dirección de inicio

Carpetas públicas de Exchange

  • La carpeta y todas las subcarpetas de cada dirección de inicio

  • Sólo la carpeta de cada dirección de inicio

Como demuestra la tabla anterior, los administradores de servicios de búsqueda pueden usar opciones de configuración de rastreo para limitar o aumentar la cantidad de contenido que se rastrea.

En la tabla siguiente se describen los procedimientos recomendados para definir las opciones de configuración del rastreo.

Para este tipo de origen de contenido En estas circunstancias Use esta opción de configuración de rastreo

Sitios de SharePoint

Desea rastrear el contenido de una colección de sitios en particular según una programación diferente a la de otras colecciones de sitios.

Rastrear sólo el sitio de SharePoint de cada dirección de inicio

NoteNota:
Esta opción acepta cualquier dirección URL, pero iniciará el rastreo desde el sitio de nivel superior de la colección de sitios que se especifique en la dirección URL que se escriba. Por ejemplo, si escribe http://contoso/sites/sales/car pero http://contoso/sites/sales es el sitio de nivel superior de la colección de sitios, se rastrea la colección de sitios http://contoso/sites/sales y todos sus subsitios.

Sitios de SharePoint

Desea rastrear todo el contenido de todas las colecciones de sitios de una aplicación web en particular según la misma programación.

Rastrear todo lo que se encuentre bajo el nombre de host de cada dirección de inicio

NoteNota:
Esta opción acepta sólo nombres de host como direcciones de inicio; por ejemplo, http://contoso. No se puede escribir la dirección URL de un subsitio, como http://contoso/sites/sales, al usar esta opción.

Sitios web

El contenido del propio sitio es relevante.

O bien,

El contenido disponible en los sitios vinculados seguramente no sea relevante.

Rastrear sólo en el servidor de cada dirección de inicio

Sitios web

El contenido relevante se encuentra solamente en la primera página.

Rastrear sólo la primera página de cada dirección de inicio

Sitios web

Desea limitar la profundidad de rastreo de los vínculos en las direcciones de inicio.

Personalizado (especifique el número de niveles de páginas y el número de saltos de servidor que se deben rastrear)

NoteNota:
Es recomendable que comience con un número pequeño en un sitio con muchas conexiones, ya que, si especifica una profundidad de más de tres páginas o más de tres saltos de servidor, se podría rastrear todo Internet.
NoteNota:
Además, puede usar una o más reglas de rastreo para especificar qué contenido se debe rastrear. Para obtener más información, vea Uso de reglas de rastreo para determinar el contenido que se rastrea (Search Server 2008).

Recursos compartidos de archivos

Carpetas públicas de Exchange

El contenido disponible en las subcarpetas seguramente no sea relevante.

Rastrear sólo la carpeta de cada dirección de inicio

Recursos compartidos de archivos

Carpetas públicas de Exchange

El contenido de las subcarpetas seguramente sea relevante.

Rastrear la carpeta y subcarpeta de cada dirección de inicio

Inclusiones de tipo de archivo e IFilters

El contenido se rastrea sólo si la extensión de nombre de archivo correspondiente forma parte de la lista de tipos de archivo incluidos y se ha instalado en el servidor de índices un IFilter que admita dichos tipos de archivo. Durante la instalación inicial se incluyen automáticamente varios tipos de archivo. Al analizar los registros de consultas, se puede averiguar qué tipos de archivo tienen contenido que los usuarios finales desean consultar. Puede que descubra la necesidad de rastrear un tipo de archivo que actualmente no se rastrea o podría desear excluir del rastreo ciertos tipos de archivo.

Al agregar tipos de archivo a la lista de inclusiones de tipos de archivo, también debe asegurarse de que haya un IFilter que se pueda usar para analizar el tipo de archivo cuando se rastree. Si no hay ningún IFilter instalado, el contenido de los archivos de ese tipo de archivo no se indizará y no se podrá buscar. Sin embargo, los metadatos de los archivos de ese tipo de archivo sí se rastrearán y se podrán buscar. Por ejemplo, si agrega PDF a la lista de inclusiones de tipos de archivo pero no instala un IFilter para el tipo de archivo PDF, no se va a indizar el contenido de los archivos PDF, pero sí sus metadatos.

Microsoft Search Server 2008 proporciona varios IFilters, además de los que proporcionan Microsoft y otros fabricantes. Si es necesario, los programadores de software pueden crear IFilters para tipos de archivo nuevos. Para instalar y registrar IFilters adicionales suministrados por Microsoft con Search Server 2008, vea el tema sobre el registro de Microsoft Filter Pack con SharePoint Server 2007 y Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0xC0A). Para obtener más información acerca de los IFilters, incluidos los de terceros, vea el blog titulado Filter Central (en inglés) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0xC0A) (en inglés).

Para obtener una lista de los tipos de archivos compatibles con los IFilter que se instalan de forma predeterminada y para saber qué tipos de archivo están habilitados para el rastreo de forma predeterminada, vea Rastreo de más tipos de archivo mediante la instalación de IFilters (Search Server 2008).

Limitación o exclusión de contenido mediante reglas de rastreo

Puede editar las reglas de rastreo existentes o crear reglas de rastreo nuevas para excluir todos los elementos o incluir elementos específicos para una ruta de acceso en particular.

Nota

Si agrega una dirección de inicio a un origen de contenido y acepta el comportamiento predeterminado, se rastrearán todos los subsitios o carpetas que se encuentren debajo de dicha dirección a menos que los excluya mediante una o varias reglas de rastreo.

Las reglas de rastreo se aplican a una dirección URL concreta o a un conjunto de direcciones URL representadas mediante caracteres comodín. (Esta dirección URL también se conoce como la ruta de acceso afectada por la regla). Puede usar reglas de rastreo para:

  • Evitar rastrear contenido menos relevante, excluyendo una o varias direcciones URL. Esto también ayuda a reducir el uso de recursos del servidor y el tráfico de red, así como a incrementar la relevancia de los resultados de la búsqueda.

  • Rastrear vínculos en la dirección URL sin rastrear la dirección URL en sí. Esta opción es útil para sitios con vínculos de contenido relevante cuando la página que contiene los vínculos no incluye información relevante o no debería mostrarse a los usuarios finales en las páginas de resultados de búsqueda.

  • Permitir que se rastreen las direcciones URL complejas. Esta opción rastrea las direcciones URL que contienen un parámetro de consulta especificado con un signo de interrogación. En función del sitio, estas direcciones URL pueden o no incluir contenido relevante. Puesto que las direcciones URL complejas con frecuencia pueden redirigir a sitios menos relevantes, se recomienda habilitar únicamente esta opción en sitios donde se sepa que el contenido disponible de las direcciones URL complejas es relevante.

    Nota

    Esta opción no surte efecto cuando se rastrean sitios de SharePoint, ya que Search Server 2008 enumera todo el contenido al rastrear los sitios de SharePoint.

Nota

Las reglas de rastreo se aplican simultáneamente a todos los orígenes de contenido.

Con frecuencia, la mayoría del contenido de una dirección de un sitio determinado es relevante, pero no un subsitio ni un intervalo de sitios bajo esa dirección de sitio. Al seleccionar una combinación más específica de direcciones URL para las cuales deben crearse reglas de rastreo que excluyan elementos innecesarios, los administradores de servicios de búsqueda pueden maximizar la relevancia del contenido en el índice a la vez que minimizan el impacto en el rendimiento del rastreo y el tamaño de las bases de datos de búsqueda. La creación de reglas de rastreo para excluir direcciones URL es especialmente útil a la hora de planear direcciones de inicio para contenido externo, ya que el impacto en el uso de los recursos no está bajo el control del personal de la organización.

Al crear una regla de rastreo, puede usar caracteres comodín estándar en la ruta de acceso. Por ejemplo:

  • http://servidor1/carpeta* contiene todos los recursos web con una dirección URL que comienza por http://servidor1/carpeta.

  • *://*.txt incluye cada documento con la extensión de nombre de archivo .txt.

Como el rastreo de contenido consume recursos y ancho de banda, se recomienda incluir una cantidad más pequeña de contenido que se sepa que es relevante. Después de la implementación inicial, puede revisar los registros de consulta y de rastreo, y ajustar los orígenes de contenido y las reglas de rastreo para que sean más relevantes e incluyan más contenido.

Para limitar o aumentar la cantidad de contenido que se rastrea, puede realizar los procedimientos siguientes: