Хранилище данных
Примечание.
Служба "Аналитика временных рядов" будет прекращена 7 июля 2024 года. Рассмотрите возможность переноса существующих сред в альтернативные решения как можно скорее. Дополнительные сведения об устаревании и миграции см. в нашей документации.
В данной статье приведены сведения о хранении данных в службе "Аналитика временных рядов Azure" 2-го поколения. Она охватывает горячее и холодное хранилища, доступность данных, а также содержит рекомендации.
Подготовка
При создании среды в службе "Аналитика временных рядов Azure" 2-го поколения можно использовать следующие варианты.
- Хранилище холодных данных:
- Создайте новый ресурс службы хранилища Azure в подписке и регионе, выбранном для вашей среды.
- Подключите существующую учетную запись хранения Azure. Этот параметр доступен только при развертывании из шаблона Azure Resource Manager и не отображается в портале Azure.
- Теплое хранилище данных:
- Горячий объем данных является необязательным и может быть включен или отключен во время подготовки или после него. Если вы решили включить горячее хранение позднее и в холодном хранилище уже есть данные, ознакомьтесь с этим разделом, чтобы понять ожидаемое поведение. Период хранения данных в горячем хранилище может составлять от 7 до 31 дня. При необходимости это значение можно изменить.
Когда событие принимается, оно индексируется как в горячем (если включено), так и в холодном хранилище.
Предупреждение
Владелец учетной записи хранения BLOB-объектов Azure, где находятся данные холодного хранилища, имеет полный доступ ко всем данным в учетной записи. В эти права доступа входят разрешения на запись и удаление. Не изменяйте и не удаляйте данные, записываемые службой "Аналитика временных рядов" 2-го поколения, так как это может привести к потере данных.
Доступность данных
Служба аналитики временных рядов 2-го поколения секционирует и индексирует данные для обеспечения оптимальной производительности запросов. После индексирования данные становятся доступными для запросов из горячего (если включено) и холодного хранилищ. Объем принимаемых данных и скорость пропускной способности для каждого раздела могут повлиять на доступность. Ознакомьтесь с ограничениями пропускной способности источника событий и рекомендациями по оптимизации производительности. Вы также можете настроить оповещение о задержке, чтобы получать уведомления, если в среде возникают проблемы при обработке данных.
Внимание
При работе может возникать 60-секундная задержка доступа к данным через API запроса временных рядов. Если уровень задержки значительно выше, отправьте запрос в службу поддержки на портале Azure.
В случае прямого доступа к файлам Parquet за пределами службы "Аналитика временных рядов Azure" 2-го поколения может возникать задержка доступа к данным до 5 минут. Дополнительные сведения см. в разделе Формат файла Parquet и структура папок.
Теплое хранилище
Данные в горячем хранилище доступны только посредством API запросов временных рядов, Обозреватель TSI службы "Аналитика временных рядов Azure" и Power BI Connector. Запросы к горячим данным освобождаются от оплаты, и квота отсутствует, но существует ограничение в 30 одновременных запросов.
Поведение горячего хранилища
Если этот параметр включен, все потоки данных, переданные в среду, будут направляться в горячее хранилище независимо от отметки времени события. Обратите внимание, что конвейер приема потоковой передачи создан для потоковой передачи практически в реальном времени и прием исторических событий не поддерживается.
Срок хранения вычисляется на основе того, когда событие было проиндексировано в горячем хранилище, а не на основе отметки времени события. Это означает, что после истечения срока хранения данные больше не будут доступны в горячем хранилище, даже если метка времени события относится к будущему.
- Пример. Событие с прогнозами погоды на 10 дней принимается и индексируется в контейнере горячего хранения, настроенном на период хранения в 7 дней. По истечении семи дней прогноз становится недоступным в теплом хранилище, но его еще можно запрашивать из холодного.
Если включить горячее хранение в существующей среде, в которой уже есть последние данные, индексированные в холодном хранилище, обратите внимание, что контейнер горячих данных не будет заполнен этими данными.
Если вы только что включили горячее хранение и столкнулись с проблемами при просмотре последних данных в обозревателе, можно временно отключить запросы на горячее хранение:
Холодное хранилище
В этом разделе приводятся сведения о службе хранилища Azure, относящиеся к Аналитике временных рядов 2-го поколения.
Подробное описание хранилища BLOB-объектов Azure см. в статье Общие сведения о хранилище BLOB-объектов Azure.
Учетная запись холодного хранения
В вашей учетной записи хранения Azure служба "Аналитика временных рядов" 2-го поколения сохраняет до двух копий каждого события. Одна копия хранит события, упорядоченные по времени приема, всегда разрешая доступ к событиям в упорядоченной по времени последовательности. Со временем служба "Аналитика временных рядов Azure" 2-го поколения также создает повторно секционированную копию данных для оптимизации производительности запросов.
Все данные хранятся неограниченное время в вашей учетной записи хранения Azure.
Предупреждение
Не ограничивайте доступ к Интернету для учетной записи хранения, используемой Аналитикой временных рядов, иначе необходимое подключение будет разорвано.
Запись и редактирование больших двоичных объектов
Чтобы обеспечить производительность и доступность данных, не изменяйте и не удаляйте BLOB-объекты, созданные с помощью службы "Аналитика временных рядов" 2-го поколения.
Доступ к данным холодного хранилища
Помимо доступа к данным из обозревателя службы "Аналитика временных рядов" 2-го поколения и API запросов временных рядов, вам также может потребоваться доступ к данным напрямую из файлов Parquet, хранящихся в холодном хранилище. Например, можно считывать, преобразовывать и очищать данные в записной книжке Jupyter, а затем использовать их для обучения модели Машинного обучения Azure в том же рабочем процессе Spark.
Для доступа к данным напрямую из учетной записи хранения Azure необходим доступ на чтение к учетной записи, используемой для хранения данных службой "Аналитика временных рядов" 2-го поколения. Затем можно считывать выбранные данные на основе времени создания файла Parquet, расположенного в папке PT=Time
, описанной ниже в разделе Формат файла Parquet. Дополнительные сведения о включении доступа на чтение для учетной записи хранения см. в статье об управлении доступом к ресурсам учетной записи хранения.
Удаление данных
Не удаляйте файлы службы "Аналитика временных рядов Azure" 2-го поколения. Управляйте связанными данными только средствами службы "Аналитика временных рядов Azure" 2-го поколения.
Формат файла Parquet и структура папок
Parquet — это формат столбца с открытым исходным кодом, предназначенный для эффективного хранения и производительности. Служба "Аналитика временных рядов Azure" 2-го поколения использует Parquet для масштабного включения производительности запросов на основе идентификатора.
Дополнительные сведения о типе файла Parquet см. в документации по Parquet.
Служба "Аналитика временных рядов Azure" 2-го поколения сохраняет копии данных следующим образом.
Папка
PT=Time
секционируется по времени приема и сохраняет данные в примерном порядке поступления. Вы можете получить к ним прямой доступ за пределами службы "Аналитика временных рядов Azure" 2-го поколения, например из записных книжек Spark. Метка времени<YYYYMMDDHHMMSSfff>
соответствует времени приема данных. Объект<MinEventTimeStamp>
и<MaxEventTimeStamp>
соответствуют диапазону меток времени событий, включенных в файл. У пути и имени файла следующий формат:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Папки
PT=Live
иPT=Tsid
содержат вторую копию данных, которые повторно секционированы для оптимизации запросов временных рядов в большом масштабе. Эти данные оптимизируются с течением времени и не являются статическими. Во время повторного секционирования некоторые события могут присутствовать в нескольких больших двоичных объектах, а имена больших двоичных объектов могут меняться. Эти папки используются службой "Аналитика временных рядов Azure" 2-го поколения, и к ним не должно быть прямого доступа. Для этой цели следует использовать толькоPT=Time
.
Примечание.
Для данных, сохраненных в папке PT=Time
до июня 2021 года, в имени файла могут отсутствовать временные диапазоны событий: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Внутренний формат файла не изменился, и файлы с обеими схемами именования можно использовать совместно.
<YYYY>
сопоставляется с представлением 4-значного числа года.<MM>
сопоставляется с представлением 2-значного числа месяца.- В формате меток времени
<YYYYMMDDHHMMSSfff>
указывается 4-значное число года (YYYY
), 2-значное число месяца (MM
), 2-значное число дня (DD
), 2-значное число часов (HH
), 2-значное число минут (MM
), 2-значное число секунд (SS
) и 3-значное число миллисекунд (fff
).
События службы "Аналитика временных рядов Azure" 2-го поколения сопоставляются с содержимым файла Parquet следующим образом.
- Каждое событие сопоставляется с отдельной строкой.
- Каждая строка содержит столбец метки времени с меткой времени события. Свойство time-stamp никогда не имеет значение NULL. Если свойство time-stamp не указано в источнике событий, по умолчанию используется время постановки события в очередь. Сохраненная метка времени всегда имеет формат UTC.
- Каждая строка содержит столбцы идентификаторов временных рядов (TSID), как определено при создании среды службы "Аналитика временных рядов Azure" 2-го поколения. Имя свойства TSID содержит суффикс
_string
. - Все остальные свойства, отправляемые как данные телеметрии, сопоставлены с именами столбцов, заканчивающимися на
_bool
(boolean),_datetime
(timestamp),_long
(long),_double
(double),_string
(string),_dynamic
(dynamic) в зависимости от типа свойства. Дополнительные сведения см. в разделе Поддерживаемые типы данных. - Эта схема сопоставления применяется к первой версии формата файла (V=1) и хранится в базовой папке с тем же именем. По мере развития этой функции схема сопоставления может измениться, а номер версии — увеличиться.
Следующие шаги
Дополнительные сведения о моделировании данных.
Планирование окружения 2-го поколения Аналитики временных рядов Azure