Este artigo responde a perguntas frequentes sobre conceitos, funcionalidades, implantação, capacidade de suporte e ferramentas de Clusters de Big Data do SQL Server.
Melhores práticas
Quais são as melhores práticas recomendadas em relação aos locais de arquivo?
Há menos flexibilidade nesse sentido em comparação com a configuração de SQL Server em computadores bare-metal Windows ou Linux. No ambiente do Kubernetes, esses artefatos são abstraídos e precisam ser portáteis. Atualmente, para cada pod, há dois PVs (volumes persistentes) para dados e logs que podem ser configurados. Para obter mais informações, confira Persistência de dados com o cluster de Big Data do SQL Server em Kubernetes.
Preciso fazer backups de log de transações de Clusters de Big Data do SQL Server?
Você precisa executar backups de log somente para bancos de dados de usuário na instância mestra do SQL Server (dependendo do modelo de recuperação ou da configuração de HA). Os bancos de dados do pool de dados usam apenas o modelo de recuperação simples. O mesmo se aplica aos bancos de dados DW* criados para o PolyBase.
Como posso monitorar se as consultas distribuídas estão realmente usando o pool de computação?
Você pode usar os DMVs do PolyBase existentes que foram aprimorados para cenários de cluster de Big Data. Para obter mais informações, confira Monitorar e solucionar problemas do PolyBase.
É possível configurar e gerenciar recursos de cluster de Big Data diretamente por meio do kubectl para o Servidor de API do Kubernetes?
Embora você possa modificar algumas das configurações usando a API do Kubernetes ou kubectl, não há suporte para essa prática, e ela não é recomendada. Você precisa executar todas as operações de gerenciamento de cluster de Big Data por meio do azdata.
Como fazer backup de dados armazenados no HDFS?
Você pode usar qualquer solução que habilita a obtenção de instantâneos de armazenamento no nível de hardware ou a cópia/sincronização via webHDFS. Você também pode usar azdata bdc hdfs cp
. Para obter mais informações, confira azdata bdc hdfs.
Conceitos e funcionalidades
Há alguma forma de "escalar horizontalmente" um proc armazenado? Por exemplo, fazer com que ele seja executado no pool de computação, por exemplo?
Não no momento. Uma opção é implantar SQL Server em um Grupo de Disponibilidade AlwaysOn. Em seguida, você pode usar réplicas secundárias para leitura a fim de executar alguns processos (por exemplo: treinamento/pontuação de ML, atividades de manutenção etc.).
Como escalar dinamicamente os pods de um pool?
Esse não é um cenário com suporte atualmente.
É possível fazer backup de tabelas externas armazenadas em pools de dados?
O banco de dados na instância do pool de dados não tem metadados sobre as tabelas externas – ele é como qualquer banco de dados de usuário. Você pode fazer backup/restauração, mas para evitar resultados inconsistentes, você precisa garantir que os metadados da tabela externa no banco de dados de metadados na instância mestra do SQL estejam em sincronia.
O pool de dados oferece fragmentação?
O pool de dados é um conceito de tabela distribuída. A fragmentação normalmente é referenciada como um conceito de OLTP e, atualmente, não há suporte para isso.
Quando devo usar o pool de dados ou o pool de armazenamento para armazenamento de dados brutos?
O termo pool é reservado para descrever uma coleção de serviços ou aplicativos homogêneos. Por exemplo, o pool de dados é um conjunto armazenamento e computação com estado do SQL Server, enquanto um pool de armazenamento é um conjunto de serviços do HDFS e do Spark. A instância mestra do SQL Server consiste em uma ou várias instâncias que podem ser configuradas em um grupo de disponibilidade. A instância mestra do SQL Server é uma instância comum do SQL Server em Linux, e você pode usar nela todos os recursos disponíveis no Linux. Você deve começar primeiro com o modelo de dados, as entidades e os serviços/aplicativos que operarão principalmente na entidade. Não é necessário armazenar todos os dados no mesmo local, como o SQL Server, o HDFS ou um pool de dados. Com base na análise de dados, é possível armazenar a maioria dos dados no HDFS, processar os dados para um formato mais eficiente e expô-los a outros serviços. Os dados restantes seriam armazenados na instância mestra do SQL.
O cluster de Big Data do SQL Server dá suporte a bibliotecas e cálculos de aprendizado profundo baseados em GPU (PyTorch, Keras, bibliotecas de imagens específicas etc.)?
Esse não é um cenário com suporte atualmente.
Há alguma forma de configurar várias declarações de volume para um pool?
Cada pod pode ter apenas dois PVs (volumes persistentes). Você pode abstrair o volume no nível do sistema operacional e usá-lo para armazenamento persistente. Por exemplo, você pode criar uma partição RAID 0 do sistema operacional usando vários discos e usá-la para volume persistente usando um provisionador de armazenamento local. Atualmente, não há nenhuma forma de usar mais PVs por pod. Os PVs são mapeados para diretórios dentro do contêiner e isso é fixo. Para obter mais informações sobre volumes persistentes, confira Volumes persistentes na documentação do Kubernetes.
Se configurarmos vários provedores e vários discos, a configuração do HDFS será atualizada com todas as declarações de volume de dados?
Você pode configurar o pool de armazenamento para usar uma classe de armazenamento específica no momento da implantação. Confira Persistência de dados com o cluster de Big Data do SQL Server em Kubernetes.
Quais são as opções para acessar o armazenamento baseado em Ceph?
A disposição em camadas do HDFS nos permite integrar de maneira transparente com protocolos baseados em S3. Para obter mais informações, confira Como montar S3 para disposição em camadas do HDFS em um cluster de Big Data.
Os dados no HDFS são preservados após uma atualização?
Sim, os dados serão preservados, pois o backup deles é realizado por volumes persistentes e a atualização apenas implanta pods existentes com novas imagens.
Como a disposição em camadas do HDFS controla o cache?
Usando a disposição em camadas do HDFS, os dados são armazenados em cache com o HDFS local em execução no cluster de Big Data para permitir que os usuários se conectem a data lakes de grande porte sem a necessidade de levar todos os dados. Há uma quantidade configurável de espaço alocado para o cache, que atualmente é 2% por padrão. Os dados serão mantidos no cache, mas removidos se esse limite for excedido. A segurança também é mantida do data lake e todas as ACLs são aplicadas. Para obter mais informações, confira Configurar a disposição em camadas do HDFS em Clusters de Big Data.
Podemos usar o SQL Server 2019 para visualizar o Azure Data Lake Storage Gen2? Essa integração cuidará da permissão no nível da pasta?
Sim, você pode virtualizar os dados armazenados no ADLS Gen2 usando a disposição em camadas do HDFS. Depois que a disposição em camadas do HDFS é montada no ADLS Gen2, os usuários podem consultar os dados do HDFS e executar trabalhos do Spark neles. O armazenamento montado aparecerá nos HDFS para o Cluster de Big Data na localização especificada por --mount-path, e os usuários poderão trabalhar com esse caminho de montagem como se estivessem trabalhando com um armazenamento local. Veja mais detalhes aqui: Configurar a disposição em camadas do HDFS no cluster de Big Data. Para obter mais informações sobre permissões de camada do HDFS, confira Gerenciar permissões do HDFS para Clusters de Big Data do SQL Server.
Qual é a configuração padrão de alta disponibilidade e/ou redundância para o nó mestre no AKS (Serviço de Kubernetes do Azure)?
O plano de controle do AKS dá suporte ao SLA de tempo de atividade que garante 99,95% de disponibilidade. Os nós de cluster do AKS (nós de trabalho) usam Zonas de Disponibilidade. Para obter mais informações, confira Zonas de Disponibilidade do AKS. Uma AZ (zona de disponibilidade) é uma oferta de alta disponibilidade do Azure que protege aplicativos e dados contra falhas de datacenter. O AKS dá suporte a 99,9% de disponibilidade para clusters que não usam Zonas de Disponibilidade. Para obter mais informações, confira SLA para AKS (Serviço de Kubernetes do Azure).
Há alguma forma de reter logs de histórico de trabalhos do YARN e do Spark?
A reinicialização do sparkhead não faz com que os logs sejam perdidos, esses logs estão no HDFS. Você ainda verá os logs de histórico do Spark da interface do usuário /gateway/default/sparkhistory. Para logs de contêiner do Yarn, você não verá esses aplicativos na interface do usuário do Yarn porque o Yarn RM será reiniciado, mas esses logs do Yarn ainda estarão no HDFS e você poderá vincular-se a eles do servidor de histórico do Spark. Você sempre deve usar o servidor de histórico do Spark como o ponto de entrada para diagnosticar os aplicativos Spark deles.
Há alguma forma de desativar o recurso de cache para pools?
Por padrão, 1% do armazenamento total do HDFS será reservado para o cache de dados montados. O cache é uma configuração global em montagens. Atualmente, não há uma forma exposta de desligá-lo; no entanto, o percentual pode ser configurado por meio da configuração hdfs-site.dfs.provided.cache.capacity.fraction. Essa configuração controla a fração da capacidade total no cluster que pode ser usada para armazenar em cache dados de repositórios fornecidos. Para modificar, confira Como definir as configurações do Cluster de Big Data após a implantação. Para obter mais informações, confira Configurar a disposição em camadas do HDFS em Clusters de Big Data do SQL Server.
Como agendar procedimentos armazenados do SQL no cluster de Big Data do SQL Server 2019?
Você pode usar o serviço SQL Server Agent na instância mestra do SQL Server do cluster de Big Data.
O cluster de Big Data dá suporte a cenários de dados de séries temporais nativas, como aqueles gerados por casos de uso de IoT?
No momento, o InfluxDB em um cluster de Big Data é usado apenas para armazenar dados de monitoramento coletados no cluster de Big Data e não é exposto como um ponto de extremidade externo.
O InfluxDB fornecido pode ser usado como um banco de dados de série temporal para dados do cliente?
No momento, o InfluxDB em um cluster de Big Data é usado apenas para armazenar dados de monitoramento coletados no cluster de Big Data e não é exposto como um ponto de extremidade externo.
Como fazer para adicionar um banco de dados ao grupo de disponibilidade?
No cluster de Big Data, a configuração de HA cria um grupo de disponibilidade chamado containedag, que também inclui bancos de dados do sistema que são replicados entre réplicas. Os bancos de dados criados como resultado de um fluxo de trabalho CREATE DATABASE ou RESTORE são adicionados automaticamente ao grupo de disponibilidade independente e propagados. Com versões anteriores ao SQL Server 2019 (15.0) CU2, você precisa se conectar à instância física no cluster de Big Data, restaurar o banco de dados e adicioná-lo ao containedag. Para obter mais informações, confira Implantar o cluster de Big Data do SQL Server com alta disponibilidade.
Posso configurar recursos de núcleo/memória para componentes em execução no cluster de Big Data?
Neste momento, você pode definir a memória para as instâncias do SQL usando sp_configure, assim como no SQL Server. Para núcleos, você pode usar ALTER SERVER CONFIGURATION SET PROCESS AFFINITY
. Por padrão, os contêineres veem todas as CPUs no host e não temos como especificar os limites de recursos usando o Kubernetes no momento. Para pool de computação/pool de dados/pool de armazenamento, a configuração pode ser feita usando a instrução EXECUTE AT DATA_SOURCE da instância mestra do SQL Server.
O que acontece quando um dos nós de trabalho do Kubernetes é desligado ou sofre uma interrupção?
Os pods que não forem relacionados ao respectivo nó de trabalho serão movidos para outro nó no cluster Kubernetes, desde que haja recursos suficientes. Caso contrário, os pods não ficarão disponíveis, causando interrupções.
O cluster de Big Data será rebalanceado automaticamente se eu adicionar um nó ao cluster do Kubernetes?
Esta ação depende apenas do Kubernetes. Além da colocação de pod usando rótulos de nó, não há nenhum outro mecanismo para controlar o rebalanceamento de recursos de Kubernetes de dentro do cluster de Big Data.
Que consequência a remoção de um nó do cluster Kubernetes tem para os recursos de cluster de Big Data?
Essa ação é equivalente ao desligamento do nó de host. Há mecanismos para orquestrar isso no Kubernetes usando um processo de taint, e isso normalmente é seguido para atualização ou manutenção de nó. Para obter mais informações, confira a documentação do Kubernetes para Taints e tolerâncias.
O Hadoop agrupado com o cluster de Big Data lida com a replicação dos dados?
Sim, o fator de replicação é uma das configurações disponíveis para HDFS. Para obter mais informações, confira Configurar volumes persistentes.
O cluster de Big Data equivale ao Azure Synapse em termos de funcionalidade e integração?
Depende de seus requisitos e casos de uso. O cluster de Big Data fornece uma área de superfície completa do SQL Server, além do Spark e do HDFS locais com suporte da Microsoft. O cluster de Big Data permite que o cliente do SQL Server seja capaz de se integrar à análise e a Big Data. O Azure Synapse é uma plataforma puramente analítica que oferece uma experiência de primeira classe para clientes como um serviço gerenciado na nuvem, com foco na análise da escala horizontal. O Azure Synapse não está direcionado a uma carga de trabalho operacional como parte disso. O cluster de Big Data busca atender a cenários analíticos de banco de dados, o que é muito mais próximo do armazenamento operacional.
O SQL Server está usando o HDFS como armazenamento em Clusters de Big Data do SQL Server?
Os arquivos de banco de dados da instância do SQL Server não são armazenados no HDFS, no entanto, o SQL Server pode consultar o HDFS usando a interface de tabela externa.
Quais são as opções de distribuição disponíveis para armazenar dados nas tabelas distribuídas em cada pool de dados?
ROUND_ROBIN e REPLICATED. ROUND_ROBIN é o padrão. HASH não está disponível.
O cluster de Big Data tem o servidor Thrift Spark incluído? Se esse é o caso, o ponto de extremidade ODBC é exposto para se conectar às tabelas do Metastore do Hive?
Atualmente, expomos o HMS (Metastore do Hive) por meio do protocolo Thrift. Documentamos o protocolo, mas ainda não abrimos um ponto de extremidade ODBC até o momento. Você pode acessá-lo por meio do protocolo HTTP do Metastore do Hive. Para obter mais informações, confira Protocolo HTTP do Metastore do Hive.
Carregamento de dados
É possível ingerir dados do SnowFlake em um cluster de Big Data?
O SQL Server em Linux (aplica-se também à instância mestra de SQL Server no Cluster de Big Data) não dá suporte à fonte de dados ODBC genérica que, por sua vez, permite a instalação de um driver ODBC de terceiros (SnowFlake, DB2, PostgreSQL etc.) e a consulta a esses drivers. Esse recurso está disponível no momento apenas no SQL Server 2019 (15.0) no Windows. No cluster de Big Data, você pode ler os dados via Spark usando JDBC e ingerir o SQL Server usando o conector do Spark MSSQL.
É possível ingerir dados usando uma fonte de dados ODBC personalizada em um cluster de Big Data?
O SQL Server em Linux (aplica-se também à instância mestra de SQL Server no Cluster de Big Data) não dá suporte à fonte de dados ODBC genérica que, por sua vez, permite a instalação de um driver ODBC de terceiros (SnowFlake, DB2, PostgreSQL etc.) e a consulta a esses drivers.
Como você pode importar dados para a mesma tabela usando o CTAS do PolyBase em vez de criar uma tabela toda vez que executar o CTAS?
Você pode usar a abordagem INSERT..SELECT
para evitar a necessidade de uma nova tabela a cada execução.
Qual seria a vantagem/considerações para carregar dados no pool de dados em vez de diretamente na instância mestra como tabelas locais?
Se a sua instância mestra do SQL Server tiver recursos suficientes para satisfazer sua carga de trabalho analítica, essa será sempre a opção mais rápida. O pool de dados é útil se você deseja descarregar a execução em outras instâncias de SQL para suas consultas distribuídas. Você também pode usar o pool de dados para ingerir dados de executores do Spark paralelamente a diferentes instâncias do SQL, portanto, o desempenho de carga para grandes conjuntos de dados que está sendo gerado do HDFS (Sistema de Arquivos Distribuído do Hadoop) normalmente é melhor do que o obtido ao usar apenas uma instância do SQL Server. No entanto, isso também não é uma regra absoluta, já que você ainda poderá ter várias tabelas em um SQL Server e inseri-las em paralelo, se assim desejar. O desempenho depende de muitos fatores e não há nenhuma diretriz ou recomendação nesse sentido.
Como posso monitorar a distribuição de dados nas tabelas do pool de dados?
Você pode usar EXECUTE AT para consultar DMVs como sys.dm_db_partition_stats para obter os dados em cada tabela local.
O curl é a única opção para carregar arquivos no HDFS?
Não, você pode usar azdata bdc hdfs cp. Se você fornecer o diretório raiz, o comando copiará recursivamente a árvore inteira. Você pode copiar nos dois sentidos usando esse comando, apenas alterando quais são os caminhos de origem/destino.
Como posso carregar dados no pool de dados?
Você pode usar a biblioteca do conector do Spark MSSQL para ajudar com a ingestão de SQL e de pool de dados. Para obter um passo a passo guiado, confira Tutorial: ingestão de dados em um pool de dados do SQL Server com trabalhos do Spark.
Se eu tiver muitos dados em um caminho de rede (Windows) que contêm muitas pastas/subpastas e arquivos de texto, como carregá-los no HDFS no cluster de Big Data?
Experimente o comando azdata bdc hdfs cp. Se você fornecer o diretório raiz, o comando copiará recursivamente a árvore inteira. Você pode copiar nos dois sentidos usando esse comando, apenas alterando quais são os caminhos de origem/destino.
É possível aumentar o tamanho do pool de armazenamento em um cluster implantado?
Não há nenhuma interface azdata
para executar esta operação neste momento. Você tem a opção de redimensionar os PVCs desejados manualmente. O redimensionamento é uma operação complexa. Para mais detalhes, confira Volumes persistentes na documentação do Kubernetes.
Virtualização de dados
Como decidir entre usar os servidores vinculados ou o PolyBase?
Veja as principais diferenças e casos de uso aqui: Perguntas frequentes do PolyBase.
Quais são as fontes de virtualização de dados compatíveis?
o cluster de Big Data dá suporte à virtualização de dados de fontes ODBC – SQL Server, Oracle, MongoDB, Teradata etc. Ele também dá suporte à distribuição em camadas de armazenamentos remotos, como Azure Data Lake Storage Gen2 e armazenamento compatível com S3, bem como AWS S3A e ABFS (Azure Blob File System).
É possível usar o PolyBase para virtualizar os dados armazenados em um Banco de Dados SQL do Azure?
Sim, você pode usar o PolyBase no cluster de Big Data para acessar dados no Banco de Dados SQL do Azure.
Por que as instruções de CREATE TABLE incluem a palavra-chave EXTERNAL? Qual a diferença entre EXTERNAL e o CREATE TABLE padrão?
Em geral, a palavra-chave EXTERNAL implica que os dados não estão na instância do SQL Server. Por exemplo, você pode definir uma tabela de pool de armazenamento na parte superior de um diretório do HDFS. Os dados são armazenados em arquivos do HDFS, não em seus arquivos de banco de dados, mas a tabela externa forneceu a você a interface para consultar os arquivos do HDFS como uma tabela relacional, como se eles estivessem no banco de dados.
Esse conceito de acesso a dados externos é chamado de virtualização de dados. Para obter mais informações, confira Introdução à virtualização de dados com o PolyBase. Para obter um tutorial sobre a virtualização de dados de arquivos CSV no HDFS, confira [Virtualizar dados CSV de Clusters de Big Data do pool de armazenamento.
Quais são as diferenças entre a virtualização de dados usando o SQL Server e usando o SQL Server em execução nos Clusters de Big Data do SQL Server?
Para ver uma comparação, confira PolyBase em Clusters de Big Data versus PolyBase em instâncias autônomas.
Como posso identificar facilmente que uma tabela externa está apontando para o pool de dados ou para o pool de armazenamento?
Você pode determinar o tipo de tabela externa examinando o prefixo da localização da fonte de dados, por exemplo, sqlserver://, oracle://, sqlhdfs:// e sqldatapool://.
Implantação
Minha implantação de cluster de Big Data falhou. Como fazer para ver o que deu errado?
Confira Gerenciar Clusters de Big Data do SQL Server com notebooks do Azure Data Studio. Confira também os tópicos de solução de problemas em Solucionar problemas de Kubernetes.
Há uma lista definitiva de tudo que pode ser definido na configuração de cluster de Big Data?
Todas as personalizações que podem ser feitas no momento da implantação estão documentadas aqui em Configurar a implantação para serviços e recursos de cluster. Para o Spark, confira Configurar o Apache Spark e o Apache Hadoop em Clusters de Big Data.
Podemos implantar o SQL Server Analysis Services junto com Clusters de Big Data do SQL Server?
Não. Especificamente, o SSAS (SQL Server Analysis Services) não é compatível com o SQL Server em Linux, portanto, você precisará instalar uma instância do SQL Server no servidor Windows para executar o SSAS.
O cluster de Big Data é compatível com a implantação em EKS ou GKS?
O cluster de Big Data pode ser executado em qualquer pilha do Kubernetes com base na versão 1.13 e superior. No entanto, não realizamos validações específicas do cluster de Big Data em EKS nem em GKS.
Qual é a versão do HDFS e do Spark em execução no cluster de Big Data?
A versão do Spark é 2.4 e a do HDFS é 3.2.1. Para obter detalhes completos sobre o software livre incluído no cluster de Big Data, confira Referência de software livre.
Como instalar bibliotecas e pacotes no Spark?
Você pode adicionar pacotes no envio do trabalho usando as etapas no notebook de exemplo para instalação de pacotes no Spark.
É necessário usar o SQL Server 2019 para usar R e Python para Clusters de Big Data do SQL Server?
Os serviços Machine Learning (ML) (R e Python) estão disponíveis no SQL Server 2017 e em versões posteriores. Os serviços de ML também estão disponíveis em Clusters de Big Data do SQL Server. Para obter mais informações, confira O que são os Serviços do Microsoft Machine Learning do SQL Server com Python e R?.
Licenciamento
Como as licenças do SQL Server funcionam para Clusters de Big Data do SQL Server?
Baixe o PDF do guia de licenciamento, que contém muito mais detalhes a respeito.
Para obter um resumo, assista ao vídeo Licenciamento do SQL Server: Clusters de Big Data Dados expostos.
Segurança
O Cluster de Big Data oferece suporte ao Microsoft Entra ID ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?
Não no momento.
Podemos nos conectar à instância mestra do cluster de Big Data usando a autenticação integrada?
Sim, você pode se conectar a vários serviços de cluster de Big Data usando a autenticação integrada (com o Active Directory). Para obter mais informações, confira Implantar um cluster de Big Data do SQL Server no modo do Active Directory Domain Services. Confira também Conceitos de segurança para Clusters de Big Data do SQL Server.
Como posso adicionar novos usuários para serviços diversos no cluster de Big Data?
No modo de autenticação Básica (nome de usuário/senha), não há suporte para a adição de vários usuários para os pontos de extremidade de gateway/HDFS do controlador ou do Knox. O único usuário com suporte para esses pontos de extremidade é o root. Para o SQL Server, você pode adicionar usuários usando Transact-SQL como faria em qualquer outra instância do SQL Server. Se você implantar o cluster de Big Data com a autenticação do AD para os respectivos pontos de extremidade, haverá suporte para vários usuários. Confira aqui os detalhes sobre como configurar os grupos do AD no momento da implantação. Para obter mais informações, confira Implantar um cluster de Big Data do SQL Server no modo do Active Directory Domain Services.
Há algum intervalo de IP de saída que se possa restringir para que o cluster de Big Data efetue pull das últimas imagens de contêiner?
Você pode examinar os endereços IP usados pelos vários serviços em Intervalos de IP do Azure e marcas de serviço – Nuvem pública. Observe que esses endereços IP giram periodicamente.
Para que o serviço do controlador receba as imagens de contêiner do MCR (Microsoft Container Registry), você precisará permitir acesso aos endereços IP especificados na seção MicrosoftContainerRegistry. Outra opção é configurar um Registro de Contêiner do Azure privado e configurar o cluster de Big Data para efetuar pull desse local. Nesse caso, você precisará expor os endereços IP especificados na seção AzureContainerRegistry. Instruções sobre como fazer isso e um script são fornecidos em Executar uma implantação offline de um cluster de Big Data do SQL Server.
Posso implantar o cluster de Big Data em um ambiente desconectado?
Sim. Para obter mais detalhes, confira Executar uma implantação offline de um cluster de Big Data do SQL Server.
O recurso "criptografia de Armazenamento do Azure" também se aplica, por padrão, aos clusters de Big Data baseados em AKS?
Isso depende das configurações do provisionador de armazenamento dinâmico no AKS (Serviço de Kubernetes do Azure). Para obter mais detalhes, confira Práticas recomendadas para armazenamento e backups no Serviço de Kubernetes do Azure (AKS).
Posso girar as chaves para a criptografia do HDFS e do SQL Server no cluster de Big Data?
Sim. Para obter mais informações, confira Versões de chave no cluster de Big Data.
Posso rotacionar as senhas de objetos do Active Directory gerados automaticamente?
Sim, você pode rotacionar facilmente as senhas de objetos do Active Directory gerados automaticamente com um novo recurso introduzido nos cluster de Big Data do SQL Server CU13. Para obter mais informações, confira Rotação de senhas do AD.
Suporte
O Spark e o HDFS são implantados nos clusters de Big Data do SQL Server com suporte da Microsoft?
Sim, a Microsoft dá suporte a todos os componentes fornecidos nos Clusters de Big Data.
Qual é o modelo de suporte para o serviço de ML do SQL Server e o SparkML?
A política de suporte dos serviços de ML do SQL Server é a mesma do SQL Server, exceto pelo fato de que cada versão principal vem com uma nova versão de runtime. A biblioteca do SparkML propriamente dita é de OSS (software livre). Podemos empacotar muitos componentes de software livre no cluster de Big Data, e a Microsoft dá suporte a isso.
O RHEL8 (Red Hat Enterprise Linux 8) é uma plataforma compatível com Clusters de Big Data do SQL Server?
Não no momento. Confira aqui para ver as configurações testadas.
Ferramentas
Os notebooks disponíveis no Azure Data Studio são essencialmente Jupyter Notebooks?
Sim, trata-se do mesmo kernel Jupyter, apenas apresentado no Azure Data Studio.
A ferramenta `azdata` é software livre?
Não, azdata
não é software livre no momento.
Recursos de treinamento
Quais opções de treinamento para cluster de Big Data estão disponíveis?
Aqui estão alguns recursos que você pode usar:
Workshop: Kubernetes – De computador bare-metal para Clusters de Big Data do SQL Server
Workshop: Clusters de Big Data do SQL Server – Arquitetura
Tutorial: preparar um aplicativo para o AKS (Serviço de Kubernetes do Azure)
(PDF)Estudo de caso: cargas de trabalho do SQL em execução no Apache Spark no Cluster de Big Data do MS SQL Server 2019