Introdução ao pool mestre em Clusters de Big Data do SQL Server
Aplica-se a: SQL Server 2019 (15.x)
Importante
O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.
Este artigo descreve a função da instância mestra do SQL Server em um cluster de Big Data do SQL Server. O pool mestre contém a instância mestra do SQL Server. A instância mestra é uma instância do SQL Server em execução em um cluster de Big Data do SQL Server. A instância mestra gerencia a conectividade, as consultas de expansão, os bancos de dados de usuários e de metadados e os serviços de aprendizado de máquina.
A instância mestra do SQL Server fornece a seguinte funcionalidade:
Conectividade
A instância mestre do SQL Server fornece um ponto de extremidade do TDS acessível externamente para o cluster. Você pode conectar aplicativos ou ferramentas do SQL Server, como o Azure Data Studio ou o SQL Server Management Studio, a esse ponto de extremidade, assim como faria com qualquer outra instância do SQL Server.
Gerenciamento de consulta de expansão
A instância mestre do SQL Server contém o mecanismo de consulta de expansão usado para distribuir consultas entre instâncias do SQL Server em nós no pool de computação. O mecanismo de consulta de expansão também fornece acesso por meio do Transact-SQL a todas as tabelas de Hive no cluster sem nenhuma configuração adicional.
Bancos de dados de metadados e do usuário
Além dos bancos de dados do sistema do SQL Server padrão, a instância mestra do SQL também contém:
- Um banco de dados contendo metadados da tabela do HDFS.
- Um mapa de fragmentos do plano de dados.
- Detalhes de tabelas externas que fornecem acesso ao plano de dados do cluster.
- Fontes de dados externas do PolyBase e tabelas externas definidas em bancos de dado do usuário.
Você também pode optar por adicionar seus próprios bancos de dados do usuário à instância mestra do SQL Server.
Serviços de aprendizado de máquina
Os serviços de aprendizado de máquina do SQL Server são um recurso complementar ao mecanismo de banco de dados. O recurso dos serviços de aprendizado de máquina é usado para executar código Java, R e Python no SQL Server. Esse recurso se baseia na estrutura de extensibilidade do SQL Server, que isola processos externos dos processos principais do mecanismo, mas se integra totalmente com os dados relacionais como procedimentos armazenados, como um script de T-SQL contendo instruções em R ou em Python ou como código Java, R ou Python que contém T-SQL.
Como parte de um cluster de Big Data do SQL Server, os serviços de aprendizado de máquina estarão disponíveis na instância mestre do SQL Server por padrão. Uma vez que a execução de script externo esteja habilitada na instância mestra do SQL Server, será possível executar scripts de Java, R e Python usando sp_execute_external_script.
Vantagens dos serviços de aprendizado de máquina em um cluster de Big Data
O Clusters de Big Data do SQL Server facilita o ingresso de Big Data nos dados dimensionais normalmente armazenados no banco de dados empresarial. O valor dos Big Data aumenta muito quando eles não estão apenas nas mãos de partes de uma organização, mas também estão incluídos em relatórios, painéis e aplicativos. Ao mesmo tempo, os cientistas de dados podem continuar usando as ferramentas do ecossistema do Spark/HDFS e ter acesso fácil e em tempo real aos dados na instância mestra do SQL Server e em fontes de dados externas acessíveis por meio da instância mestra do SQL Server.
Com Clusters de Big Data do SQL Server, você pode fazer mais com seus data lakes empresariais. Desenvolvedores e analistas do SQL Server podem:
- Criar aplicativos que consomem dados de data lakes corporativos.
- Explorar todos os dados com consultas Transact-SQL.
- Usar o ecossistema existente de ferramentas e aplicativos do SQL Server para acessar e analisar dados corporativos.
- Reduzir a necessidade de movimentação de dados por meio da virtualização de dados e de data marts.
- Continuar usando o Spark para cenários de Big Data.
- Criar aplicativos empresariais inteligentes usando o Spark ou o SQL Server para treinar modelos em data lakes.
- Operacionalizar modelos em bancos de dados de produção para obter o melhor desempenho.
- Transmitir dados diretamente para data marts corporativos para análise em tempo real.
- Explorar os dados visualmente usando ferramentas interativas de análise e BI.
Próximas etapas
Para saber mais sobre o Clusters de Big Data do SQL Server, confira os seguintes recursos: