Armazenamento de Dados
Nota
O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar os ambientes existentes para soluções alternativas o mais rápido possível. Para obter mais informações sobre a substituição e migração, visite nossa documentação.
Este artigo descreve o armazenamento de dados no Azure Time Series Insights Gen2. Abrange calor e frio, disponibilidade de dados e práticas recomendadas.
Aprovisionamento
Ao criar um ambiente do Azure Time Series Insights Gen2, você tem as seguintes opções:
- Armazenamento de dados frios:
- Crie um novo recurso de Armazenamento do Azure na assinatura e na região que você escolheu para seu ambiente.
- Anexe uma conta de Armazenamento do Azure pré-existente. Essa opção só está disponível implantando a partir de um modelo do Azure Resource Manager e não está visível no portal do Azure.
- Armazenamento de dados quente:
- Um armazenamento quente é opcional e pode ser ativado ou desativado durante ou após o período de provisionamento. Se você decidir ativar o armazenamento quente em um momento posterior e já houver dados em seu armazenamento frio, revise esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados de armazenamento quente pode ser configurado para 7 a 31 dias, e isso também pode ser ajustado conforme necessário.
Quando um evento é ingerido, ele é indexado no armazenamento quente (se habilitado) e no armazenamento frio.
Aviso
Como proprietário da conta de armazenamento de Blob do Azure onde residem os dados de armazenamento frio, você tem acesso total a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite nem exclua os dados que o Azure Time Series Insights Gen2 grava porque isso pode causar perda de dados.
Disponibilidade dos dados
O Azure Time Series Insights Gen2 particiona e indexa dados para um desempenho de consulta ideal. Os dados ficam disponíveis para consulta a partir do armazenamento quente (se ativado) e frio depois de indexados. A quantidade de dados que está sendo ingerida e a taxa de transferência por partição podem afetar a disponibilidade. Analise as limitações de taxa de transferência da fonte de eventos e as práticas recomendadas para obter o melhor desempenho. Você também pode configurar um alerta de atraso para ser notificado se seu ambiente estiver enfrentando problemas no processamento de dados.
Importante
Você pode enfrentar um período de até 60 segundos antes que os dados fiquem disponíveis por meio das APIs de consulta de séries temporais. Se você tiver latência significativa além de 60 segundos, envie um tíquete de suporte por meio do portal do Azure.
Você pode enfrentar um período de até 5 minutos antes que os dados fiquem disponíveis ao acessar diretamente os arquivos do Parquet fora do Azure Time Series Insights Gen2. Consulte a seção Formato de arquivo Parquet para obter mais informações.
Armazenamento a quente
Os dados em seu armazenamento quente estão disponíveis somente por meio das APIs de Consulta de Série Temporal, do Gerenciador de TSI do Azure Time Series Insights ou do Power BI Connector. As consultas de loja quente são gratuitas e não há cota, mas há um limite de 30 solicitações simultâneas.
Comportamento de loja quente
Quando ativado, todos os dados transmitidos para o seu ambiente serão encaminhados para o seu armazenamento quente, independentemente do carimbo de data/hora do evento. Observe que o pipeline de ingestão de streaming é criado para streaming quase em tempo real e a ingestão de eventos históricos não é suportada.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento quente, não no carimbo de data/hora do evento. Isso significa que os dados não estarão mais disponíveis no armazenamento ativo após o período de retenção ter decorrido, mesmo que o carimbo de data/hora do evento seja para o futuro.
- Exemplo: um evento com previsões meteorológicas para 10 dias é ingerido e indexado num contentor de armazenamento quente configurado com um período de retenção de 7 dias. Após sete dias, a previsão não está mais acessível em lojas quentes, mas pode ser consultada a partir do frio.
Se você habilitar o armazenamento quente em um ambiente existente que já tenha dados recentes indexados no armazenamento refrigerado, observe que o armazenamento quente não será preenchido com esses dados.
Se você acabou de ativar o armazenamento quente e está enfrentando problemas para visualizar seus dados recentes no Explorer, você pode desativar temporariamente as consultas de armazenamento quente:
Armazenamento a frio
Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.
Para obter uma descrição completa do armazenamento de Blobs do Azure, leia a introdução de blobs de armazenamento.
A sua conta de armazenagem frigorífica
O Azure Time Series Insights Gen2 retém até duas cópias de cada evento na sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados por tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Com o tempo, o Azure Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar consultas de desempenho.
Todos os seus dados são armazenados indefinidamente na sua conta de Armazenamento do Azure.
Aviso
Não restrinja o acesso público à Internet à conta de armazenamento usada pelo Time Series Insights ou a conexão necessária será interrompida.
Escrever e editar blobs
Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua nenhum blob criado pelo Azure Time Series Insights Gen2.
Acesso a dados de armazenamento refrigerado
Além de acessar seus dados do Azure Time Series Insights Explorer e das APIs de consulta de séries temporais, você também pode querer acessar seus dados diretamente dos arquivos Parquet armazenados no armazenamento frio. Por exemplo, você pode ler, transformar e limpar dados em um bloco de anotações Jupyter e, em seguida, usá-lo para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.
Para acessar dados diretamente de sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Em seguida, você pode ler os dados selecionados com base no tempo de criação do arquivo Parquet localizado na PT=Time
pasta descrita abaixo na seção de formato de arquivo Parquet. Para obter mais informações sobre como habilitar o acesso de leitura à sua conta de armazenamento, consulte Gerenciar o acesso aos recursos da sua conta de armazenamento.
Eliminação dos dados
Não exclua seus arquivos do Azure Time Series Insights Gen2. Gerencie dados relacionados somente do Azure Time Series Insights Gen2.
Formato de arquivo Parquet e estrutura de pastas
O Parquet é um formato de arquivo colunar de código aberto projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para habilitar o desempenho de consulta baseado em ID de Série Temporal em escala.
Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação do Parquet.
O Azure Time Series Insights Gen2 armazena cópias dos seus dados da seguinte forma:
A
PT=Time
pasta é particionada por tempo de ingestão e armazena dados aproximadamente em ordem de chegada. Esses dados são preservados ao longo do tempo e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como em seus blocos de anotações do Spark. O carimbo de data/hora<YYYYMMDDHHMMSSfff>
corresponde ao tempo de ingestão dos dados. O<MinEventTimeStamp>
e<MaxEventTimeStamp>
correspondem ao intervalo de carimbos de data/hora de eventos incluídos no arquivo. O caminho e o nome do arquivo são formatados como:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As
PT=Live
pastas ePT=Tsid
contêm uma segunda cópia dos dados, reparticionada para o desempenho da consulta de séries temporais em escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante o reparticionamento, alguns eventos podem estar presentes em vários blobs e os nomes de blob podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; você só deve usarPT=Time
para esse fim.
Nota
Os dados na pasta anteriores a PT=Time
junho de 2021 podem ter um formato de nome de arquivo sem intervalos de tempo de eventos: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. O formato de arquivo interno é o mesmo e os arquivos com ambos os esquemas de nomenclatura podem ser usados juntos.
<YYYY>
mapeia para uma representação anual de quatro dígitos.<MM>
mapeia para uma representação mensal de dois dígitos.- O
<YYYYMMDDHHMMSSfff>
formato dos carimbos de data/hora é mapeado para um ano de quatro dígitos (YYYY
), mês de dois dígitos (MM
), dia de dois dígitos (DD
), hora de dois dígitos (HH
), minuto de dois dígitos (MM
), segundo de dois dígitos (SS
) e milissegundo de três dígitos (fff
).
Os eventos do Azure Time Series Insights Gen2 são mapeados para o conteúdo do arquivo Parquet da seguinte maneira:
- Cada evento é mapeado para uma única linha.
- Cada linha inclui a coluna de carimbo de data/hora com um carimbo de data/hora do evento. A propriedade time-stamp nunca é nula. O padrão é a hora enfileirada do evento se a propriedade de carimbo de data/hora não for especificada na fonte do evento. O carimbo de data/hora armazenado está sempre em UTC.
- Cada linha inclui a(s) coluna(s) de ID de Série Temporal (TSID), conforme definido quando o ambiente do Azure Time Series Insights Gen2 é criado. O nome da propriedade TSID inclui o sufixo
_string
. - Todas as outras propriedades enviadas como dados de telemetria são mapeadas para nomes de coluna que terminam com
_bool
(booleano),_datetime
(carimbo de data/hora),_long
(longo),_double
(duplo),_string
(string) ou_dynamic
(dinâmico), dependendo do tipo de propriedade. Para obter mais informações, leia sobre Tipos de dados suportados. - Esse esquema de mapeamento se aplica à primeira versão do formato de arquivo, referenciado como V=1 e armazenado na pasta base de mesmo nome. À medida que esse recurso evolui, esse esquema de mapeamento pode ser alterado e o nome de referência incrementado.
Próximos passos
Leia sobre modelagem de dados.
Planeje seu ambiente do Azure Time Series Insights Gen2.