Databricks Runtime 10.0 (EoS)

Artigo
09/03/2024

Observação

O suporte para esta versão do Databricks Runtime foi encerrado. Para obter a data de fim do suporte, consulte o Histórico de fim do suporte. Para todas as versões compatíveis do Databricks Runtime, consulte Versões e compatibilidade de notas sobre a versão do Databricks Runtime.

As notas sobre a versão a seguir fornecem informações sobre o Databricks Runtime 10.0 e o Databricks Runtime 10.0 Photon, da plataforma Apache Spark 3.2.0. A Databricks lançou essa versão em outubro de 2021. O Photon está em Visualização Pública.

Novos recursos e aprimoramentos

Nova versão do Apache Spark
A instrução SELECT agora dá suporte à cláusula QUALIFY para filtrar resultados de função da janela
Suporte ao cluster para JDK 11 (Visualização Pública)
O carregador automático agora trata os esquemas como anuláveis

Nova versão do Apache Spark

O Databricks Runtime 10.0 e Databricks Runtime 10.0 Photon incluem o Apache Spark 3.2.0. Para obter mais detalhes, confira Apache Spark.

A instrução SELECT agora dá suporte à cláusula QUALIFY para filtrar resultados de função da janela

A instrução SELECT agora dá suporte à cláusula QUALIFY. QUALIFY pode ser usada para filtrar os resultados de funções da janela. Uma ou mais funções de janela devem estar presentes na lista SELECT ou na condição QUALIFY. Por exemplo:

SELECT * FROM t QUALIFY SUM(c2) OVER (PARTITION BY c1) > 0;

Suporte ao cluster para JDK 11 (Visualização Pública)

O databricks agora fornece suporte ao cluster para JDK (kit de desenvolvimento Java) 11.

Ao criar um cluster, você pode especificar que o cluster use o JDK 11 (para driver e executor). Para fazer isso, adicione a seguinte variável de ambiente às opções avançadas > variáveis de ambiente do > Spark :

JNAME=zulu11-ca-amd64

O carregador automático agora trata os esquemas como anuláveis

O carregador automático agora trata todos os esquemas inferidos e fornecidos pelo usuário como anuláveis por padrão. Isso serve para evitar a potencial corrupção de dados nos casos em que os dados contêm campos nulos para colunas não anuláveis. Uma nova configuração é introduzida para acompanhar esse comportamento, spark.databricks.cloudFiles.schema.forceNullable. Por padrão, essa configuração contém a configuração de spark.sql.streaming.fileSource.schema.forceNullable, que o FileStreamSource no Apache Spark usa e é definido como true por padrão.

Alterações de quebra

Alterações recentes para todos os usuários do Spark SQL

Nova configuração spark.databricks.behaviorChange.SC78546CorrelatedPredicate.enabled: quando definido como true, permite um subconjunto de predicados de igualdade correlacionados quando uma subconsulta é agregada. A configuração padrão é true.
Nova configuração spark.databricks.behaviorChange.SC82201BlockAutoAlias.enabled: quando definido como true, bloqueia os aliases de geração automática quando as exibições são criadas. A configuração padrão é true.
Nova configuração spark.databricks.behaviorChange.SC81078CTASWithLocation.enabled: quando definido como true, não permite CREATE TABLE AS SELECT com um local não vazio. A configuração padrão é true. Observe que quando spark.sql.legacy.allowNonEmptyLocationInCTAS também é definido como true, essa configuração não tem efeito e CREATE TABLE AS SELECT com um local não vazio sempre é permitido.

Alterações recentes para usuários do Spark SQL que habilitam o modo ANSI

Para obter informações sobre o modo ANSI, consulte Conformidade ANSI no Databricks Runtime.

Nova configuração spark.databricks.behaviorChange.SC83587NextDayDOW.enabled: quando definido como true, um argumento inválido dayOfWeek para a função next_day gera um IllegalArgumentException no modo ANSI; caso contrário, ele retorna null. A configuração padrão é true.
Nova configuração spark.databricks.behaviorChange.SC83796CanCast.enabled: quando definido como true, habilita novas regras de sintaxe de conversão explícita no modo ANSI. A configuração padrão é true.
Nova configuração spark.databricks.behaviorChange.SC79099CastStringToBoolean.enabled: quando definido como true, uma exceção de erro de análise é lançada durante a conversão de uma cadeia de caracteres em uma booliana; caso contrário, retorna null. A configuração padrão é true.
Nova configuração spark.databricks.behaviorChange.SC79064AbsOutsideRange.enabled: quando definido como true, a função abs gera uma exceção se a entrada está fora do intervalo. A configuração padrão é true.

Alterações recentes para todos os usuários do Python

A API delta.tables.DeltaTable.convertToDelta do Python agora retorna o objeto DeltaTable Python correto que pode ser usado para executar comandos do Delta Lake. Anteriormente, ele retornava um objeto interno que não podia ser chamado diretamente.

Atualizações da biblioteca

Atualização do Apache Hadoop 3

Databricks Runtime 10.0 atualiza a dependência do Hadoop do Hadoop 2.7.4 para o Hadoop 3.3.1.

Alterações de comportamento

O Hadoop 3 usa as bibliotecas hadoop-client-api e hadoop-client-runtime em vez da biblioteca hadoop-common, que ofusca determinadas dependências de terceiros que poderiam ser usadas em APIs ou extensões públicas do Hadoop.
As opções de configuração do Hadoop 3 foram alteradas desde o Hadoop 2. Para opções do Hadoop 3.3.1, consulte core-default.xml.
O Databricks atualizou algumas das configurações padrão para que o Hadoop 3 seja consistente com o Hadoop 2, para garantir que os conectores de armazenamento tenham as mesmas configurações de autenticação padrão e níveis de desempenho:
- fs.azure.authorization.caching.enable = false
- fs.s3a.attempts.maximum = 10
- fs.s3a.block.size = 67108864
- fs.s3a.connection.timeout = 50000
- fs.s3a.max.total.tasks = 1000
- fs.s3a.retry.limit = 20
- fs.s3a.retry.throttle.interval = 500ms
- fs.s3a.assumed.role.credentials.provider = com.amazonaws.auth.InstanceProfileCredentialsProvider
- fs.s3a.aws.credentials.provider = BasicAWSCredentialsProvider, DatabricksInstanceProfileCredentialsProvider, EnvironmentVariableCredentialsProvider, AnonymousAWSCredentialsProvider
O conector do GCS (Google Cloud Storage) foi atualizado do 2.1.6 para 2.2.2.
O conector do Amazon Redshift usa agora o esquema s3a://. O esquema s3n:// foi preterido.
Identifica os nomes de classe do OSS para a API do Amazon S3 MetadataStore, além das classes ofuscadas. Isso permite o processamento de configurações de OSS sem a necessidade dos nomes de classe ofuscados.
- Por exemplo, você pode especificar a classe org.apache.hadoop.fs.s3a.s3guard.NullMetadataStore na configuração do Hadoop.
Torna a new Configuration() e sparkContext.hadoopConfiguration consistentes.
- Agora, sempre que uma nova configuração do Hadoop for criada, ela será consistente com a configuração do Hadoop predefinida em sparkContext.hadoopConfiguration no Databricks Runtime, incluindo os esquemas do sistema de arquivos e a configuração padrão deles.
Embora os conectores de armazenamento do Hadoop incluídos na Databricks Runtime sejam totalmente compatíveis com o Hadoop 3.3.1, não há garantia de que estejam em sincronia com os conectores Hadoop 3.3.1 do OSS e eles podem apresentar comportamento diferente.
- O conector do Amazon S3 ainda permite (embora com um aviso) a autenticação user:secret em URLs do S3, em comparação com o HADOOP-14833, que o remove.
O globStatus agora sempre devolve resultados classificados (HADOOP-10798)
fs.s3a.endpoint adicionado se removida definição e a região fs.s3a.endpoint é nula (SPARK-35878)
- O Databricks forneceu a resolução automática da região do Amazon S3 pode não ser disparada em alguns casos, devido ao ponto de extremidade global sendo definido. Isso não é um problema, pois o SDK do AWS resolverá a região corretamente.
Adicionar fs.s3a.downgrade.syncable.exceptions se não estiver definido (SPARK-35868)
Os codecs LZ4 e snapshot não dependem da biblioteca do Hadoop nativa (HADOOP-17125)

Problemas conhecidos

SPARK-36681 O uso de SnappyCodec para gravar o arquivo de sequência falhará com o UnsatisfiedLinkError devido a um problema conhecido no Hadoop 3.3.1 (HADOOP-17891)

Apache Spark

O Databricks Runtime 10.0 inclui o Apache Spark 3.2.0.

Destaques

Suporte à camada de API do Pandas no PySpark (SPARK-34849)
Sessão baseada em EventTime (janela sessão) (SPARK-10816)
Suporte a tipos INTERVAL SQL ANSI (SPARK-27790)
Modo ANSI de GA (SPARK-35030)
Mensagens de exceção padrão no Spark (SPARK-33539)

Core e Spark SQL

Aprimoramentos na compatibilidade com o ANSI SQL

Suporte a tipos INTERVAL SQL ANSI (SPARK-27790)
Novas regras de sintaxe da coerção de tipo no modo ANSI (SPARK-34246)

Aprimoramentos de desempenho

Otimização de consultas
- Remoção de agregações redundantes no Otimizador (SPARK-33122)
- Limite de envio por Push por meio do Projeto com Junção(SPARK-34622)
- Estimativa de cardinalidade do operador de união, classificação e alcance (SPARK-33411)
- Suporte do UnwrapCastInBinaryComparison ao predicado In/InSet(SPARK-35316)
- Manter as estatísticas necessárias após a remoção da partição(SPARK-34119)
Execução da consulta
- Habilitar o pool de buffers Zstandard por padrão (SPARK-34340, SPARK-34390)
- Adicionar code-gen para todos os tipos de ingresso de junção de mesclagem de classificação (SPARK-34705)
- Difundir aprimoramento de junção de loop aninhado (SPARK-34706)
- Suporte a dois níveis de mapas hash para agregação do hash final (SPARK-35141)
- Permitir gravadores simultâneos para gravar as partições dinâmicas e a tabela de bucket (SPARK-26164)
- Melhora do desempenho de processamento do FETCH_PRIOR no Thriftserver (SPARK-33655)

Aprimoramentos do conector

Parquet
- Atualização de parquet para 1.12.1 (SPARK-36726)
- Leitura de tipos não assinados do parquet que são armazenados como um tipo físico Int32 em parquet (SPARK-34817)
- Leitura de tipo lógico Int64 do parquet não assinado armazenados como tipo físico de Int64 assinado para decimal (20, 0) (SPARK-34786)
- Melhora do parquet em pushdown de filtro (SPARK-32792)
ORC
- Atualização do ORC para a versão 1.6.11 (SPARK-36482)
- Suporte à evolução posicional forçada do ORC (SPARK-32864)
- Suporte à coluna aninhada no leitor vetorizado ORC (SPARK-34862)
- Suporte à compactação ZSTD e LZ4 na fonte de dados do ORC (SPARK-33978, SPARK-35612)
Avro
- Atualização do Avro para a versão 1.10.2 (SPARK-34778)
- Dando suporte à evolução do esquema Avro para tabelas de Hive particionadas com "avro.schema.literal"(SPARK-26836)
- Adicionar novas opções de fonte de dados Avro para controlar a nova base do datetime na leitura (SPARK-34404)
- Adicionando suporte para a URL de esquema fornecida pelo usuário no Avro (SPARK-34416)
- Adicionar suporte para correspondência de esquema do Catalyst-to-Avro posicional (Spark-34365)
JSON
- Atualizar o Jackson para a versão 2.12.3 (SPARK-35550)
- Permitir que fontes de dados JSON gravem caracteres não ASCII como ponto de código(SPARK-35047)
JDBC
- Calcular o stride de partição mais precisa no JDBCRelation(SPARK-34843)
Filtro de suporte à metastore do Hive por not-in(SPARK-34538)

Aprimoramentos de recursos

Subconsulta
- Melhorar subconsultas correlacionadas (SPARK-35553)
Novas funções internas
- ilike(SPARK-36674, SPARK-36736)
- current_user(SPARK-21957)
- product(SPARK-33678)
- regexp_like,regexp (SPARK-33597, SPARK-34376)
- try_add(SPARK-35162)
- try_divide(SPARK-35162)
- bit_get(SPARK-33245)
Usar o Apache Hadoop 3.3.1 por padrão (SPARK-29250)
Adicionar soma de verificação para blocos de ordem aleatória (SPARK-35275)
Habilitar spark.storage.replication.proactive por padrão (SPARK-33870)
Suporte à limpeza de Armazenamento de Fallback durante a interrupção do SparkContext(SPARK-34142)
Suporte às enumerações Java da API do conjunto de dados do Scala(SPARK-23862)
ADD JAR com coordenadas ivy deve ser compatível com comportamento transitivo do Hive (SPARK-34506)
Suporte aos comandos ADD ARCHIVE e LIST ARCHIVES(SPARK-34603)
Suporte a vários caminhos para comandos ADD FILE/JAR/ARCHIVE(SPARK-35105)
Suporte à arquivos da camada de arquivos como recursos para a sintaxe CREATE FUNCTION USING(SPARK-35236)
Carregamento de SparkSessionExtensions do ServiceLoader(SPARK-35380)
Adicionar frases de função à functions.{scala,py}(SPARK-35418)
Aplicar spark.sql.hive.metastorePartitionPruning para tabelas não Hive que usam metastore do Hive para gerenciamento de partição(SPARK-36128)
Propagar o motivo da perda de exec para a interface do usuário da Web (SPARK-34764)
Evitar a alinhamento não determinístico com-CTEs (SPARK-36447)
Suporte para analisar todas as tabelas em um banco de dados específico (SPARK-33687)
Mensagens de exceção padrão no Spark (SPARK-33539)
Suporte ao (IGNORE | RESPECT) NULLS para LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE(SPARK30789)

Outras alterações importantes

Monitoramento
- Novas métricas para ExternalShuffleService (SPARK-35258)
- Adicionar novos parâmetros e APIs REST no nível de estágio (SPARK-26399)
- Suporte às distribuições de métricas de tarefa e de executor de métricas de distribuições na API REST (SPARK-34488)
- Adicione métricas de contingência para agregação do hash (SPARK-35529)
Adicionar count_distinct como uma opção para Dataset#summary(SPARK-34165)
Implementar ScriptTransform no SQL/Core (SPARK-31936)
Tornar configurável o tempo limite de pulsação do driver BlockManagerMaster (SPARK-34278)
Tornar o nome de serviço em ordem aleatória configurável no lado do cliente e permitir a substituição de configuração baseada em classpath no lado do servidor (SPARK-34828)
O ExecutorMetricsPoller deve manter a entrada de estágio em stageTCMP até que ocorra uma pulsação(SPARK-34779)
Substituir se tiver a cláusula de filtro em RewriteDistinctAggregates (SPARK-34882)
Corrigir falha ao aplicar CostBasedJoinReorder na auto-associação (SPARK-34354)
CREATE TABLE LIKE deve respeitar as propriedades da tabela reservada (SPARK-34935)
Enviar o arquivo ivySettings para o driver no modo de cluster YARN (SPARK-34472)
Resolver colunas comuns duplicadas de USING/NATURAL JOIN(SPARK-34527)
Ocultar propriedades da exibição interna para descrever a tabela cmd (SPARK-35318)
Suporte à resolução de attrs ausentes para distribute/cluster by/repartition(SPARK-35331)
Ignorar erro ao verificar o caminho em FileStreamSink.hasMetadata(SPARK-34526)
Melhorar o suporte do confirmador mágico s3a ao inferir configurações ausentes (SPARK-35383)
Permitir a omissão de : na cadeia de caracteres do tipo STRUCT (SPARK-35706)
Adicionar um novo operador para distinguir se o AQE pode otimizar com segurança (SPARK-35786)
Acrescentar novos campos struct aninhados em vez de classificar por unionByName com preenchimento nulo (SPARK-35290)
ArraysZip deve manter os nomes dos campos para evitar sua reescrita pelo analisador/otimizador(SPARK-35876)
Usar Void como o nome do tipo de NullType(SPARK-36224)
Introduzir nova API para FileCommitProtocol permitir a nomenclatura de arquivo flexível (SPARK-33298)

Alterações de comportamento

Consulte os guias de migração para cada componente: Spark Core.

Streaming estruturado

Principais recursos

Sessão baseada em EventTime (janela sessão) (SPARK-10816)
Atualização do cliente Kafka para 2.8.0 (SPARK-33913)
Trigger.AvailableNow para executar consultas de streaming como Trigger.Once em vários lotes no Scala(SPARK-36533)

Outras alterações importantes

Introduzir uma nova opção na origem do Kafka para especificar um número mínimo de registros a serem lidos por gatilho (SPARK-35312)
Adicionar deslocamentos mais recentes ao andamento da origem (SPARK-33955)

PySpark

Projeto Zen

API do Pandas no Spark (SPARK-34849)
- Habilitar mypy para pandas-on-Spark (SPARK-34941)
- Implementar suporte a CategoricalDtype (SPARK-35997, SPARK-36185)
- Concluir as operações básicas de série e índice (SPARK-36103, SPARK-36104, SPARK-36192)
- Corresponder comportamentos ao 1.3 pandas (SPARK-36367)
- Corresponder comportamentos em séries com NaN para o pandas (SPARK-36031, SPARK-36310)
- Implementar o operador unário 'Invert' de Séries e Índice integral(SPARK-36003)
- Implementar CategoricalIndex.map e DatetimeIndex.map (SPARK-36470)
- Implementar Index.map(SPARK-36469)
O suporte do faulthanlder para o trabalho do Python falhou (SPARK-36062)
Usar regra de nomenclatura Snake nas APIs de função (SPARK-34306)
Habilitar spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled by default(SPARK-35419)
Suporte para inferir um dict aninhado como um struct ao criar um DataFrame (SPARK-35929)

Outras alterações importantes

Habilitar o modo de thread fixado por padrão (SPARK-35303)
Adicionar suporte a NullType para execuções de seta (SPARK-33489)
Adicionar suporte a self_destruct de seta ao toPandas (SPARK-32953)
Adicionar API de wrapper de destino de thread para o modo de thread fixada pyspark(SPARK-35498)

Alterações de comportamento

Confira as Guias de migração.

MLlib

Melhorias de desempenho

Otimização de transformação BucketedRandomProjectionLSH (SPARK-34220)
Otimização de w2v findSynonyms(SPARK-34189)
otimiza o GEMM esparso ignorando a verificação associada (SPARK-35707)
Aprimoramento do desempenho do recommendForAll do ML ALS por GEMV(SPARK-33518)

Aprimoramentos de treinamento de modelo

Agregador de logística de refatoração - suporte ao centro virtual (SPARK-34797)
Regressão logística binária com centro de suporte de interceptação (SPARK-34858, SPARK-34448)
Regressão logística multinomial com centro de suporte de interceptação(SPARK-34860)

Aprimoramentos de BLAS

Substituir totalmente com.github.fommil.netlib por dev.ludovic.netlib:2.0(SPARK-35295)
Adicionar uma implementação de BLAS vetorizada (SPARK-33882)
Acelerar o fallback de BLAS com dev.ludovic.netlib(SPARK-35150)

Outras alterações importantes

Corrigir transformação de OVR de possível conflito de coluna (SPARK-34356)

Desativações e remoções

Substituir spark.launcher.childConectionTimeout(SPARK-33717)
Substituir GROUP BY ... GROUPING SETS (…) e promover GROUP BY GROUPING SETS (…)(SPARK-34932)
Substituir a ps.broadcast API(SPARK-35810)
Substituir o num_files argumento(SPARK-35807)
Substituir DataFrame.to_spark_io(SPARK-35811)

Atualizações de manutenção

Conferir Atualizações de manutenção do Databricks Runtime 10.0.

Ambiente do sistema

Sistema operacional: Ubuntu 20.04.3 LTS
Java: Zulu 8.56.0.21-CA-linux64
Scala: 2.12.14
Python: 3.8.10
R: 4.1.1
Delta Lake: 1.0.0

Bibliotecas Python instaladas

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
Antergos Linux	2015.10 (atualização cumulativa de ISO)	appdirs	1.4.4	backcall	0.2.0
boto3	1.16.7	botocore	1.19.7	certifi	2020.12.5
chardet	4.0.0	cycler	0.10.0	Cython	0.29.23
dbus-python	1.2.16	decorator	5.0.6	distlib	0.3.3
distro-info	0.23ubuntu1	facets-overview	1.0.0	filelock	3.0.12
idna	2.10	ipykernel	5.3.4	ipython	7.22.0
ipython-genutils	0.2.0	jedi	0.17.2	jmespath	0.10.0
joblib	1.0.1	jupyter-client	6.1.12	jupyter-core	4.7.1
kiwisolver	1.3.1	koalas	1.8.1	matplotlib	3.4.2
numpy	1.19.2	pandas	1.2.4	parso	0.7.0
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
Pillow	8.2.0	pip	21.0.1	plotly	5.1.0
prompt-toolkit	3.0.17	protobuf	3.17.2	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	Pygments	2.8.1
PyGObject	3.36.0	pyparsing	2.4.7	python-apt	2.0.0+ubuntu0.20.4.6
python-dateutil	2.8.1	pytz	2020.5	pyzmq	20.0.0
solicitações	2.25.1	requests-unixsocket	0.2.0	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
setuptools	52.0.0	six	1.15.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	threadpoolctl	2.1.0
tornado	6.1	traitlets	5.0.5	unattended-upgrades	0,1
urllib3	1.25.11	virtualenv	20.4.1	wcwidth	0.2.5
wheel	0.36.2

Bibliotecas R instaladas

As bibliotecas R foram instaladas por meio do instantâneo do Microsoft CRAN em 21/09/2021.

Biblioteca	Versão	Biblioteca	Versão	Biblioteca	Versão
askpass	1,1	assertthat	0.2.1	backports	1.2.1
base	4.1.1	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	blob	1.2.2	boot	1.3-28
brew	1.0-6	brio	1.1.2	broom	0.7.9
bslib	0.3.0	cachem	1.0.6	callr	3.7.0
sinal de interpolação	6.0-88	cellranger	1.1.0	chron	2.3-56
classe	7.3-19	cli	3.0.1	clipr	0.7.1
cluster	2.1.2	codetools	0.2-18	colorspace	2.0-2
commonmark	1,7	compiler	4.1.1	config	0.3.1
cpp11	0.3.1	crayon	1.4.1	credenciais	1.3.1
curl	4.3.2	data.table	1.14.0	conjuntos de dados	4.1.1
DBI	1.1.1	dbplyr	2.1.1	desc	1.3.0
devtools	2.4.2	diffobj	0.3.4	digest	0.6.27
dplyr	1.0.7	dtplyr	1.1.0	ellipsis	0.3.2
evaluate	0,14	fansi	0.5.0	farver	2.1.0
fastmap	1.1.0	forcats	0.5.1	foreach	1.5.1
foreign	0.8-81	forge	0.2.0	fs	1.5.0
future	1.22.1	future.apply	1.8.1	gargle	1.2.0
Genéricos	0.1.0	gert	1.4.1	ggplot2	3.3.5
gh	1.3.0	gitcreds	0.1.1	glmnet	4.1-2
globals	0.14.0	glue	1.4.2	googledrive	2.0.0
googlesheets4	1.0.0	gower	0.2.2	elemento gráfico	4.1.1
grDevices	4.1.1	grade	4.1.1	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.4.3
highr	0,9	hms	1.1.0	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.3	httr	1.4.2
hwriter	1.3.2	hwriterPlus	1.0-3	ids	1.0.1
ini	0.3.1	ipred	0.9-12	isoband	0.2.5
iterators	1.0.13	jquerylib	0.1.4	jsonlite	1.7.2
KernSmooth	2.23-20	knitr	1.34	labeling	0.4.2
later	1.3.0	lattice	0.20-44	lava	1.6.10
ciclo de vida	1.0.0	listenv	0.8.0	lubridate	1.7.10
magrittr	2.0.1	markdown	1,1	MASS	7.3-54
Matriz	1.3-4	memoise	2.0.0	methods	4.1.1
mgcv	1.8-37	mime	0,11	ModelMetrics	1.2.2.2
modelr	0.1.8	munsell	0.5.0	nlme	3.1-152
nnet	7.3-16	numDeriv	2016.8-1.1	openssl	1.4.5
parallel	4.1.1	parallelly	1.28.1	pillar	1.6.2
pkgbuild	1.2.0	pkgconfig	2.0.3	pkgload	1.2.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.18.0	processx	3.5.2
prodlim	2019.11.13	progress	1.2.2	progressr	0.8.0
promises	1.2.0.1	proto	1.0.0	ps	1.6.0
purrr	0.3.4	r2d3	0.2.5	R6	2.5.1
randomForest	4.6-14	rappdirs	0.3.3	rcmdcheck	1.3.3
RColorBrewer	1.1-2	Rcpp	1.0.7	readr	2.0.1
readxl	1.3.1	recipes	0.1.16	rematch	1.0.1
rematch2	2.1.2	remotes	2.4.0	reprex	2.0.1
reshape2	1.4.4	rlang	0.4.11	rmarkdown	2,11
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1-15
rprojroot	2.0.2	Rserve	1.8-8	RSQLite	2.2.8
rstudioapi	0.13	rversions	2.1.1	rvest	1.0.1
sass	0.4.0	scales	1.1.1	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.6	shiny	1.6.0
sourcetools	0.1.7	sparklyr	1.7.2	SparkR	3.2.0
spatial	7.3-11	splines	4.1.1	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.1	stats4	4.1.1
stringi	1.7.4	stringr	1.4.0	survival	3.2-13
sys	3.4	tcltk	4.1.1	TeachingDemos	2,10
testthat	3.0.4	tibble	3.1.4	tidyr	1.1.3
tidyselect	1.1.1	tidyverse	1.3.1	timeDate	3043.102
tinytex	0.33	tools	4.1.1	tzdb	0.1.2
usethis	2.0.1	utf8	1.2.2	utils	4.1.1
uuid	0.1-4	vctrs	0.3.8	viridisLite	0.4.0
vroom	1.5.5	waldo	0.3.1	whisker	0,4
withr	2.4.2	xfun	0.26	xml2	1.3.2
xopen	1.0.0	xtable	1.8-4	yaml	2.2.1
zip	2.2.0

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

ID do Grupo	Artifact ID	Versão
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-glue	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	fluxo	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.12.2
com.fasterxml.jackson.core	jackson-core	2.12.2
com.fasterxml.jackson.core	jackson-databind	2.12.2
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.12.2
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.12.2
com.fasterxml.jackson.module	jackson-module-paranamer	2.12.2
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.12.2
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1,1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1,1
com.github.fommil.netlib	native_ref-java-natives	1,1
com.github.fommil.netlib	native_system-java	1,1
com.github.fommil.netlib	native_system-java-natives	1,1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1,1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1,1
com.github.luben	zstd-jni	1.5.0-4
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	tink	1.6.0
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.sqlserver	mssql-jdbc	9.2.1.jre8
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1.0.3
com.sun.istack	istack-commons-runtime	3.0.8
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.9.1
com.zaxxer	HikariCP	3.1.0
commons-cli	commons-cli	1,2
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.8.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
dev.ludovic.netlib	arpack	1.3.2
dev.ludovic.netlib	blas	1.3.2
dev.ludovic.netlib	lapack	1.3.2
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0,19
io.delta	delta-sharing-spark_2.12	0.1.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.63.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	coletor	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1,1
javax.transaction	transaction-api	1,1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	jna	5.8.0
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1,1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.3
net.snowflake	spark-snowflake_2.12	2.9.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	2.0.0
org.apache.arrow	arrow-memory-core	2.0.0
org.apache.arrow	arrow-memory-netty	2.0.0
org.apache.arrow	arrow-vector	2.0.0
org.apache.avro	avro	1.10.2
org.apache.avro	avro-ipc	1.10.2
org.apache.avro	avro-mapred	1.10.2
org.apache.commons	commons-compress	1.20
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.13.0
org.apache.curator	curator-framework	2.13.0
org.apache.curator	curator-recipes	2.13.0
org.apache.derby	derby	10.14.2.0
org.apache.hadoop	hadoop-client-runtime	3.3.1
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.htrace	htrace-core4	4.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.5.0
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.6.10
org.apache.orc	orc-mapreduce	1.6.10
org.apache.orc	orc-shims	1.6.10
org.apache.parquet	parquet-column	1.12.0-databricks-0003
org.apache.parquet	parquet-common	1.12.0-databricks-0003
org.apache.parquet	parquet-encoding	1.12.0-databricks-0003
org.apache.parquet	parquet-format-structures	1.12.0-databricks-0003
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0003
org.apache.parquet	parquet-jackson	1.12.0-databricks-0003
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.40.v20210413
org.eclipse.jetty	jetty-continuation	9.4.40.v20210413
org.eclipse.jetty	jetty-http	9.4.40.v20210413
org.eclipse.jetty	jetty-io	9.4.40.v20210413
org.eclipse.jetty	jetty-jndi	9.4.40.v20210413
org.eclipse.jetty	jetty-plus	9.4.40.v20210413
org.eclipse.jetty	jetty-proxy	9.4.40.v20210413
org.eclipse.jetty	jetty-security	9.4.40.v20210413
org.eclipse.jetty	jetty-server	9.4.40.v20210413
org.eclipse.jetty	jetty-servlet	9.4.40.v20210413
org.eclipse.jetty	jetty-servlets	9.4.40.v20210413
org.eclipse.jetty	jetty-util	9.4.40.v20210413
org.eclipse.jetty	jetty-util-ajax	9.4.40.v20210413
org.eclipse.jetty	jetty-webapp	9.4.40.v20210413
org.eclipse.jetty	jetty-xml	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-api	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-client	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-common	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-server	9.4.40.v20210413
org.eclipse.jetty.websocket	websocket-servlet	9.4.40.v20210413
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jaxb	jaxb-runtime	2.3.2
org.glassfish.jersey.containers	jersey-container-servlet	2,34
org.glassfish.jersey.containers	jersey-container-servlet-core	2,34
org.glassfish.jersey.core	jersey-client	2,34
org.glassfish.jersey.core	jersey-common	2,34
org.glassfish.jersey.core	jersey-server	2,34
org.glassfish.jersey.inject	jersey-hk2	2,34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.2.5
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.2.19
org.roaringbitmap	RoaringBitmap	0.9.14
org.roaringbitmap	shims	0.9.14
org.rocksdb	rocksdbjni	6.20.3
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1,0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1,0
org.scalanlp	breeze_2.12	1,0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	unused	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.8
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1,24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1

Compartilhar via

Databricks Runtime 10.0 (EoS)

Novos recursos e aprimoramentos

Nova versão do Apache Spark

A instrução SELECT agora dá suporte à cláusula QUALIFY para filtrar resultados de função da janela

Suporte ao cluster para JDK 11 (Visualização Pública)

O carregador automático agora trata os esquemas como anuláveis

Alterações de quebra

Alterações recentes para todos os usuários do Spark SQL

Alterações recentes para usuários do Spark SQL que habilitam o modo ANSI

Alterações recentes para todos os usuários do Python

Atualizações da biblioteca

Atualização do Apache Hadoop 3

Alterações de comportamento

Problemas conhecidos

Apache Spark

Nesta seção:

Destaques

Core e Spark SQL

Aprimoramentos na compatibilidade com o ANSI SQL

Aprimoramentos de desempenho

Aprimoramentos do conector

Aprimoramentos de recursos

Outras alterações importantes

Alterações de comportamento

Streaming estruturado

Principais recursos

Outras alterações importantes

PySpark

Projeto Zen

Outras alterações importantes

Alterações de comportamento

MLlib

Melhorias de desempenho

Aprimoramentos de treinamento de modelo

Aprimoramentos de BLAS

Outras alterações importantes

Desativações e remoções

Atualizações de manutenção

Ambiente do sistema

Bibliotecas Python instaladas

Bibliotecas R instaladas

Bibliotecas do Java e do Scala instaladas (versão do cluster Scala 2.12)

Comentários

Recursos adicionais