Обход содержимого (Search Server 2008)
Обновлено: 2008-09-11
Примечание: |
---|
Если не указано иное, содержащаяся в данной статье информация относится как к серверу Microsoft Search Server 2008, так и к серверу Microsoft Search Server 2008 Express. |
Обход контента — это процесс, при помощи которого система обращается к содержимому и его свойствам (которые иногда называются метаданными) и обрабатывает его для создания индекса контента, который используется для обработки поисковых запросов.
В результате успешного обхода контента обходчик получает доступ и считывает отдельные файлы и части содержимого, которые следует сделать доступными для запросов поиска. Ключевые слова и метаданные для этих файлов хранятся в индексе контента, иногда называемом просто индексом. Индекс состоит из ключевых слов, которые хранятся в файловой системе, и метаданных, которые хранятся в базе данных поиска. Система выполняет сопоставление между ключевыми словами, метаданными, связанными с отдельными частями содержимого, и URL-адресом источника, где был выполнен обход этого содержимого.
Примечание: |
---|
Программа-обходчик не изменяет файлы на серверах. Вместо этого к файлам на сервере обращаются и они считываются, а текст и метаданные этих файлов считываются, а затем отправляются на сервер индекса для индексирования. Однако, поскольку обходчик считывает контент на сервере, некоторые серверы, содержащие определенные источники контента, могут обновить дату последнего доступа к файлам, для которых был выполнен обход. |
Определение времени обхода контента
После того как ферма сервера была развернута и проработала некоторое время, администратор служб поиска обычно должен поменять расписание обходов. Это следует делать по следующим причинам:
Чтобы учесть изменения времени простоя и периодов пиковой нагрузки.
Чтобы учесть изменения частоты обновления содержимого на сервере, где оно размещается.
Чтобы запланировать обходы контента, чтобы:
Обход контента, размещенного на более медленных серверах, выполнялось отдельно от обхода контента, размещенного на более быстрых серверах.
Выполнять обход новых источников контента.
Выполнять обход контента по мере обновления адресованного содержимого. Например, можно выполнять ежедневный обход контента в репозиториях, обновляемых каждый день, но делать это менее часто, если обход контента репозитория выполняется нечасто.
Выполнение обходов
Как правило, большинство операций обхода контента выполняется по расписанию, но иногда их желательно запускать вручную. Например, обход можно запустить, чтобы применить административные изменения, например правила обхода контента и индекса, или чтобы выяснить, устранена ли ошибка в журнале обхода.
Более того, при запуске обхода контента по расписанию или вручную, возможно, придется остановить или приостановить один или более обходов. Например, администратор, на чьем сервере располагается обходимое содержимое, может сообщить, что обход перегружает сервер, или что обходимый сервер сейчас отключен. В любом случае обход контента нужно остановить или приостановить.
Следует учитывать, что полный обход контента требует больше времени и ресурсов сервера, чем добавочный. Полные обходы контента:
Требуют больше циклов памяти и процессора сервера индексирования, чем добавочные.
Требуют больше циклов памяти и процессора интерфейсных веб-серверов при обходе контента фермы серверов. Это не относится к контенту, который по отношению к ферме серверов является внешним.
Требует большей пропускной способности.
Важно!
После остановки обхода любого источника контента Microsoft Search Server 2008 в следующий раз автоматически выполняет полный обход контента источника. Это произойдет даже в том случае, если пользователь попытается выполнить полный обход. Соответственно, тщательно продумайте, стоит ли приостановить или остановить обход.
Также не следует приостанавливать обходы контента слишком большого количества источников одновременно, поскольку каждый приостановленный источник потребляет ресурсы памяти и процессора сервера индексирования.
Чтобы запустить полный или добавочный обход, остановить, приостановить или возобновить обход, выполните одну из следующих процедур:
Составление расписаний обходов
В следующих разделах содержатся дополнительные сведения по рекомендациям по обходу контента с использованием расписаний.
Простои и периоды пиковой загрузки
Оцените время простоя и пиковой нагрузки серверов, на которых хранится содержимое, для которого следует выполнить обход. Например, при обходе контента, расположенного на нескольких разных серверах, не входящих в состав фермы серверов, наверняка резервное копирование этих серверов выполняется по разным расписаниям, и серверы имеют разные периоды пиковой нагрузки. Администрирование внешних серверов обычно выполняется другими администраторами. Таким образом, рекомендуется координировать обходы с администраторами серверов, где размещено содержимое, обход которого требуется выполнить, чтобы не выполнять попыток обхода контента на серверах во время простоя или пиковой нагрузки.
Примечание: |
---|
Поскольку периоды пиковой нагрузки и время простоя серверов может меняться, рекомендуется периодически пересматривать график проведения обхода всех источников контента, а не только создавать график обхода новых создаваемых источников. |
Как правило имеется содержимое, не контролируемое организацией, связанное с содержимым ее сайтов SharePoint. Можно добавить начальные адреса для этого содержимого в существующий источник контента или создать новый для внешнего содержимого. Поскольку доступность внешних сайтов может быть совершенно разной, полезно добавить отдельные источники контента для разного внешнего содержимого. Таким образом внешние источники контента можно обходить по расписанию, отличному от других источников. Набор внешнего содержимого можно обновлять по расписанию обхода контента, составленного в соответствии с доступностью каждого сайта.
Часто обновляемое содержимое
При планировании расписаний обходов имейте в виду, что некоторые источники контента обновляются чаще других. Например, если известно, что содержимое некоторых семейств сайтов или внешних источников обновляется только по пятницам, обход контента чаще раза в неделю означает неэффективное использование ресурсов. Однако ферма серверов может содержать другие семейства сайтов, которые обновляются непрерывно с понедельника по пятницу, но не обновляются по субботами и воскресеньям. В этом случае можно выполнять обход этих сайтов несколько раз в неделю, а не только по выходным.
Способ хранения содержимого в семействах сайтов может привести к необходимости создания дополнительных источников контента для каждого семейства сайтов в каждом веб-приложении. Например, если в семействе сайтов хранится только архивированная информация, то нет необходимости выполнять обходы так же часто, как и для семейств сайтов, где хранится часто обновляемая информация. В этом случае можно выполнять обход этих двух семейств сайтов с помощью разных источников контента, чтобы делать это по разным расписаниям.
Расписания полного и добавочного обхода
Как администратор служб поиска, вы можете независимо настраивать расписания обходов для каждого источника контента. Для каждого источника контента можно указать время выполнения полных обходов и другое время для выполнения добавочных обходов.
Примечание: |
---|
Перед выполнением добавочного обхода источника контента необходимо выполнить его полный обход. |
Рекомендуется составлять расписания обхода, принимая во внимание доступность, производительность и пропускную способность канала передачи данных как серверов, на которых выполняется служба поиска, так и серверов, на которых расположено содержимое для обхода.
При планировании расписаний обхода следуйте рекомендациям ниже:
Группируйте начальные адреса в источниках контента на основании одинаковой доступности и с приемлемой общей нагрузкой на ресурсы серверов, на которых расположено содержимое.
Назначайте добавочные обходы контента в расписании для каждого источника контента на те периоды времени, когда соответствующие серверы доступны и при этом их ресурсы задействованы минимально. Можно также добавить или изменить одно или несколько правил воздействия программы-обходчика для снижения нагрузки на сервера, обход которых выполняется в настоящий момент. Дополнительные сведения о правилах воздействия программы-обходчика см. в разделе Управление воздействием обходчика (Search Server 2008).
Составляйте расписания обхода контента так, чтобы нагрузка на серверы в ферме организации равномерно распределялась по времени.
Планируйте полный обход только когда он необходимо по причинам, изложенным в следующем разделе. Рекомендуется выполнять полный обход реже, чем добавочный.
Планируйте административные изменения, которые требуют полного обхода, незадолго до полного обхода. Например, мы рекомендуем запланировать создание правила обхода перед запланированным полным обходом, чтобы устранить необходимость в дополнительной операции полного обхода.
Планируйте одновременное выполнение обхода на основании мощности сервера индексирования, который выполняет эти обходы. Рекомендуется распределять время обходов в расписании таким образом, чтобы сервер индексирования не выполнял обход с помощью разных источников контента одновременно. Производительность сервера индексирования и серверов, на которых размещено содержимое, определяет, насколько обходы могут перекрываться. Можно выработать стратегию составления расписаний обходов после ознакомления с обычной длительностью обхода для каждого источника контента. Рекомендуется записывать данные о времени выполнения обхода контента в своей среде.
Причины выполнения полного обхода
Причины, по которым администратор служб поиска может выбрать полный обход:
Установка одного или нескольких исправлений или пакетов обновления на серверах фермы. См. дополнительные сведения в инструкциях к исправлению или пакету обновления.
Администратор поставщика общих служб добавил новое управляемое свойство.
Для повторной индексации страниц ASPX на сайтах Windows SharePoint Services 3.0.
Примечание: Обходчик не может определить, были ли обновлены страницы ASPX на сайтах Windows SharePoint Services 3.0. Из-за этого добавочный обход не может обеспечить повторную индексацию представлений или домашних страниц при удалении отдельных элементов. Рекомендуется периодически выполнять полный обход сайтов, включающих страницы ASPX, чтобы гарантировать их повторную индексацию.
Для определения изменений системы обеспечения безопасности, примененных к общей папке после последнего полного обхода этой папки.
Для устранения повторяющихся ошибок добавочного обхода. В редких случаях, когда добавочный обход на любом уровне хранилища завершается с ошибкой сто раз подряд, сервер индекса удаляет затронутое содержимое из индекса.
В случае, если правила обхода были добавлены, удалены или изменены.
Восстановление поврежденного индекса.
Если администратор служб поиска создал одно или несколько сопоставлений имен сервера.
Учетная запись, выбранная в качестве учетной записи для доступа к содержимому по умолчанию или для правила обхода, была изменена.
Система выполняет полный обход контента, даже если запрашивается добавочный обход, в следующих случаях:
Администратор поставщика общих служб остановил предыдущий обход.
Восстановлена база данных контента.
Примечание: При наличии Обновление инфраструктуры для серверов Microsoft Office Servers можно с помощью операции restore инструмента командной строки stsadm включать или отключать полный обход контента при восстановлении базы данных контента.
Администратор фермы отключил и снова подключил базу данных контента.
Полный обход контента никогда не выполнялся.
Журнал изменений не содержит записей для адресов, обход которых выполняется. Без записей в журнале изменений для элементов, обход которых выполняется, выполнение добавочных обходов невозможно.
Учетная запись, выбранная в качестве учетной записи для доступа к содержимому по умолчанию или для правила обхода, была изменена.
Восстановление поврежденного индекса.
В зависимости от степени повреждения система может попытаться выполнить полный обход, если в индексе обнаружено повреждение.
Расписания можно скорректировать после начального развертывания на основе производительности и возможностей серверов фермы и серверов, на которых расположено содержимое.
См. также
Выполнение обхода содержимого (Search Server 2008)
Составление расписания полного обхода содержимого (Search Server 2008)
Составление графика для добавочного обхода содержимого (Search Server 2008)