Armazenamento de Dados
Observação
O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar ambientes existentes para soluções alternativas o mais rápido possível. Para obter mais informações sobre a substituição e a migração, visite nossa documentação.
Esse artigo discorre sobre armazenamento de dados no Azure Time Series Insights Gen2. Ele inclui conceitos de warm e cold, disponibilidade de dados e práticas recomendadas.
Provisionamento
Ao criar um ambiente de Azure Time Series Insights Gen2, você pode escolher estas opções:
- Armazenamento cold de dados:
- Crie um novo recurso de Armazenamento do Microsoft Azure na assinatura e na região que você escolheu para o seu ambiente.
- Anexe uma conta de Armazenamento do Azure já existente. Essa opção só está disponível por meio da implantação de um modelodo Azure Resource Manager e não é visível na portal do Azure.
- Armazenamento de dados warm:
- Um armazenamento warm é opcional e pode ser habilitada ou desabilitada durante ou após o provisionamento. Se você decidir habilitar o armazenamento warm em um momento posterior e já houver dados em seu armazenamento cold, examine esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados do armazenamento warm pode ser configurado como 7 a 31 dias e isso também pode ser ajustado conforme necessário.
Quando um evento é ingerido, ele é indexado tanto no armazenamento warm (se habilitado) quanto no cold.
Aviso
Como o proprietário da conta de armazenamento de Blobs do Azure, na qual os dados de armazenamento cold residem, você tem acesso completo a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite ou exclua os dados que o Azure Time Series Insights Gen2 grava, pois isso pode causar perda de dados.
Disponibilidade de dados
Partições e dados de índices do Azure Time Series Insights Gen2 para obter um desempenho de consulta ideal. Os dados tornam-se disponíveis para consulta de um armazenamento warm (se habilitado) e cold após sua indexação. A quantidade dos dados que está sendo ingerida e a taxa de transferência por partição pode afetar a disponibilidade. Examine as limitações da taxa de transferência da origem do evento e as práticas recomendadas para melhor desempenho. Configure um alerta de latência para receber uma notificação caso o seu ambiente enfrente problemas de processamento de dados.
Importante
Os dados podem levar até 60 segundos para ficarem disponíveis por meio das APIs de Consulta de Série Temporal. Se você enfrentar uma latência significativa que dure mais de 60 segundos, envie um tíquete de suporte pelo portal do Azure.
Os dados podem levar até cinco minutos para ficarem disponíveis ao acessar diretamente os arquivos Parquet fora do Azure Time Series Insights Gen2. Confira a seção Formato de arquivo Parquet para obter mais informações.
Armazenamento warm
Os dados em seu armazenamento warm estão disponíveis apenas por meio das APIs de consulta de Série Temporal, do Azure Time Series Insights Explorer TSIou do conector de Power BI. As consultas de armazenamento warm são gratuitas e não há nenhuma cota, mas há um limite de 30 solicitações simultâneas.
Comportamento de armazenamento warm
Quando habilitado, todos os dados transmitidos para seu ambiente serão roteados para o seu armazenamento warm, independentemente do carimbo de data/hora do evento. Observe que o pipeline de ingestão de streaming foi criado para streaming quase em tempo real e não há suporte para a ingestão de eventos históricos.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento warm, não no carimbo de data/hora do evento. Isso significa que os dados não estarão mais disponíveis no armazenamento warm depois que o período de retenção tiver decorrido, mesmo se o carimbo de data/hora do evento for para o futuro.
- Exemplo: um evento com previsões meteorológicas de 10 dias é ingerido e indexado em um contêiner de armazenamento warm configurado com um período de retenção de 7 dias. Após sete dias, a previsão não é mais acessível no armazenamento warm, mas pode ser consultada no armazenamento frio.
Se você habilitar o armazenamento warm em um ambiente existente que já tenha dados recentes indexados no armazenamento cold, observe que o armazenamento warm não será preenchido novamente com esses dados.
Se você acabou de habilitar o armazenamento warm e estiver tendo problemas ao exibir seus dados recentes no Explorer, poderá desativar temporariamente as consultas de armazenamento warm:
Armazenamento cold
Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.
Para obter uma descrição completa do armazenamento de Blobs do Azure, leia a Introdução aos blobs de armazenamento.
Sua conta de armazenamento cold
OTime Series Insights Gen2 retém até duas cópias de cada evento em sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados pelo tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Ao longo do tempo, o Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar o desempenho da consultas.
Todos os dados são armazenados indefinidamente em sua conta de Armazenamento do Azure.
Aviso
Não restrinja o acesso público à Internet à conta de armazenamento usada pelo Time Series Insights, caso contrário, a conexão necessária será interrompida.
Escrevendo e editando blobs
Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua nenhum blob criado pelo Azure Time Series Insights Gen2.
Acesso a dados armazenados cold
Além de acessar seus dados do explorador do Azure Time Series Insights e as APIs de Consulta do Time Series Insights, você também pode querer acessar seus dados diretamente dos arquivos Parquet que estão no armazenamento cold. Por exemplo, você pode ler, transformar e limpar dados em um notebook Jupyter e, em seguida, usá-lo para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.
Para acessar dados diretamente da sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Você pode ler os dados selecionados com base na hora de criação do arquivo Parquet localizado na pasta PT=Time
descrita abaixo na seção Formato de arquivo Parquet. Para obter mais informações sobre como habilitar o acesso de leitura para sua conta de armazenamento, consulte Gerenciar o acesso aos recursos de sua conta de armazenamento.
Exclusão de dados
Não exclua os arquivos do Azure Time Series Insights Gen2. Gerenciar dados relacionados somente no Aure Time Series Insights Gen2.
Formato de arquivo Parquet e estrutura de pasta
Parquet é um formato de arquivo de coluna open-source projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para habilitar o desempenho em escala de consulta baseado em ID de Série Temporal.
Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação do Parquet.
O Azure Time Series Insights Gen2 armazena cópias de seus dados da seguinte maneira:
A pasta
PT=Time
é particionada pelo tempo de ingestão e armazena dados aproximadamente na ordem de chegada. Esses dados são preservados ao longo do tempo, e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como dos notebooks Spark. O carimbo de data/hora<YYYYMMDDHHMMSSfff>
corresponde ao tempo de ingestão dos dados. O<MinEventTimeStamp>
e o<MaxEventTimeStamp>
correspondem ao intervalo de carimbos de data/hora de eventos incluídos no arquivo. O caminho e o nome do arquivo são formatados como:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As pastas
PT=Live
ePT=Tsid
contêm uma segunda cópia de seus dados, reparticionados por desempenho da consulta de séries temporais em escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante a repartição, alguns eventos podem estar presentes em vários blobs e os nomes dos blobs podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; só usePT=Time
para essa finalidade.
Observação
Os dados na pasta PT=Time
anteriores a junho de 2021 podem ter um formato de nome de arquivo sem intervalos de tempo de evento: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. O formato de arquivo interno é o mesmo, e os arquivos com ambos os esquemas de nomenclatura podem ser usados juntos.
<YYYY>
mapeia para uma representação de ano de quatro dígitos.<MM>
mapeia para uma representação de mês de dois dígitos.- O formato
<YYYYMMDDHHMMSSfff>
dos carimbos de data/hora são mapeados para um ano de quatro dígitos (YYYY
), mês de dois dígitos (MM
), dia de dois dígitos (DD
), hora de dois dígitos (HH
), minuto de dois dígitos (MM
), segundo de dois dígitos (SS
) e milissegundos de três dígitos (fff
).
Os eventos do Azure Time Series Insights Gen2 são mapeados para o conteúdo do arquivo Parquet da seguinte maneira:
- Cada evento é mapeado para uma única linha.
- Cada linha inclui a coluna de carimbo de data/hora com um carimbo de data/hora do evento. A propriedade de carimbo de data/hora nunca é nula. O padrão é o tempo de enfileiramento do evento se a propriedade de carimbo de data/hora não for especificada na fonte do evento. O carimbo de data/hora armazenado sempre está no fuso horário UTC.
- Cada linha inclui as colunas de ID da Série Temporal (TSID), conforme definido quando o ambiente do Azure Time Series Insights Gen2 é criado. O nome da propriedade TSID inclui o sufixo
_string
. - Todas as outras propriedades enviadas como dados de telemetria são mapeadas para as colunas cujos nomes terminam com
_bool
(booliano),_datetime
(carimbo de data/hora),_long
(longo),_double
(duplo),_string
(cadeia de caracteres) ou_dynamic
(dinâmico), dependendo do tipo de propriedade. Para obter mais informações sobre os tipos de dados com suporte, veja tipos de dados com suporte. - Esse esquema de mapeamento se aplica à primeira versão do formato de arquivo, referenciado como V=1 e armazenado na pasta base de mesmo nome. Conforme esse recurso evolui, esse esquema de mapeamento pode ser alterado e o nome de referência é incrementado.
Próximas etapas
Leia mais sobre Modelagem de dados.
Planeje o seu ambiente do Azure Time Series Insights Gen2 .