Хранимая процедура SystemGetClusterCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных)
Выполняет секционирование структуры интеллектуального анализа данных на заданное количество перекрестных разделов, обучает модель по каждой секции, а затем возвращает метрики точности для каждой секции.
Примечание. Эта хранимая процедура может использоваться только со структурой интеллектуального анализа, содержащей по крайней мере одну модель кластеризации. Для перекрестной проверки некластеризованных моделей используется SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).
Синтаксис
SystemGetClusterCrossValidationResults(
<structure name>,
[,<mining model list>]
,<fold count>}
,<max cases>
<test list>])
Аргументы
mining structure
Имя структуры интеллектуального анализа данных в текущей базе данных.(обязательно)
mining model list
Список моделей интеллектуального анализа данных для проверки с разделителями-запятыми.Если не указан список моделей интеллектуального анализа, перекрестная проверка выполняется в отношении всех моделей кластеризации, связанных с заданной структурой интеллектуального анализа.
Примечание Для перекрестной проверки моделей, не являющихся моделями кластеризации, необходимо использовать отдельную хранимую процедуру, SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).
(необязательно)
fold count
Целое число, указывающее количество секций, на которое разделяется набор данных. Минимальное значение — 2. Максимальное число сверток равно минимальному из следующих двух значений — maximum integer и количество вариантов.Каждая секция будет содержать примерно следующее количество вариантов: max cases/fold count.
Значение по умолчанию отсутствует.
Примечание Количество сверток оказывает существенное влияние на время, необходимое для перекрестной проверки. Если выбрать слишком большое количество сверток, запрос может выполняться очень долго, а в некоторых случаях сервер может стать недоступным или превысить лимит времени ожидания.
(обязательно)
max cases
Целое число, определяющее максимальное количество вариантов, которые можно проверять.Значение 0 показывает, что будут использоваться все варианты в источнике данных.
Если указано число, превышающее фактическое количество вариантов в наборе данных, будут использоваться все варианты в источнике данных.
(обязательно)
test list
Строка, указывающая параметры тестирования.Примечание. Этот параметр зарезервирован для использования в будущем.
(необязательно)
Тип возвращаемых данных
Таблица возвращаемых типов содержит оценки каждой отдельной секции и статистических функций для всех моделей.
В следующей таблице приводятся описания возвращаемых столбцов.
Имя столбца |
Описание |
---|---|
ModelName |
Имя протестированной модели. |
AttributeName |
Имя прогнозируемого столбца. Для кластерных моделей всегда имеет значение null. |
AttributeState |
Заданное целевое значение в прогнозируемом столбце. Для кластерных моделей всегда имеет значение null. |
PartitionIndex |
Начинающийся с 1 индекс, определяющий, к какой секции применяются результаты. |
PartitionSize |
Целое число, показывающее, сколько вариантов было включено в каждую секцию. |
Test |
Тип выполненного теста. |
Measure |
Имя меры, возвращенной тестом. Меры для каждой модели зависят от типа прогнозируемого значения. Определение каждой меры см. в разделе Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных). Список мер, возвращаемых для каждого прогнозируемого типа см. в разделе Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных). |
Value |
Значение указанной проверочной меры. |
Замечания
Для возвращения показателей точности для всего набора данных используется Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).
Кроме того, если модель интеллектуального анализа данных уже секционирована на свертки, можно обойти обработку и возвратить только результаты перекрестной проверки с помощью Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).
Примеры
В следующем примере показано, как секционировать структуру интеллектуального анализа на три свертки, и далее проводится проверка двух моделей кластеризации, связанных с этой структурой интеллектуального анализа.
В третьей строке кода приведен список моделей интеллектуального анализа, предназначенных для проверки. Если не задать список, будут использоваться все модели кластеризации, связанные с этой структурой.
В четвертой строке кода задано количество сверток, а на пятой – максимальное число вариантов.
Поскольку это модели кластеризации, не обязательно указывать прогнозируемый атрибут или значение.
CALL SystemGetClusterCrossValidationResults(
[v Target Mail],
[Cluster 1], [Cluster 2],
3,
10000
)
Образец результатов:
ModelName |
AttributeName |
AttributeState |
PartitionIndex |
PartitionSize |
Test |
Measure |
Value |
---|---|---|---|---|---|---|---|
Cluster 1 |
|
|
1 |
3025 |
Clustering |
Case Likelihood |
0.930524511864121 |
Cluster 1 |
|
|
2 |
3025 |
Clustering |
Case Likelihood |
0.919184178430778 |
Cluster 1 |
|
|
3 |
3024 |
Clustering |
Case Likelihood |
0.929651120490248 |
Cluster 2 |
|
|
1 |
1289 |
Clustering |
Case Likelihood |
0.922789726933607 |
Cluster 2 |
|
|
2 |
1288 |
Clustering |
Case Likelihood |
0.934865535691068 |
Cluster 2 |
|
|
3 |
1288 |
Clustering |
Case Likelihood |
0.924724595688798 |
Требования
Перекрестная проверка доступна только в версиях SQL Server Enterprise, начиная с SQL Server 2008.
См. также