approx_count_distinct
funzione di aggregazione
Si applica a: Databricks SQL Databricks Runtime
Restituisce il numero stimato di valori distinti all'interno expr
del gruppo.
L'implementazione usa la versione densa dell'algoritmo HyperLogLog++ (HLL++), uno stato dell'algoritmo di stima della cardinalità dell'arte.
I risultati sono accurati all'interno di un valore predefinito pari al 5%, che deriva dal valore della deviazione standard relativa massima, sebbene sia configurabile con il relativeSD
parametro come indicato di seguito.
Sintassi
approx_count_distinct(expr[, relativeSD]) [FILTER ( WHERE cond ) ]
Questa funzione può anche essere richiamata come funzione window usando la OVER
clausola .
Argomenti
expr
: può essere di qualsiasi tipo per cui è definita l'equivalenza.relativeSD
: definisce la deviazione standard relativa massima consentita.cond
: espressione booleana facoltativa che filtra le righe usate per l'aggregazione.
Valori restituiti
UN BIGINT.
Esempi
> SELECT approx_count_distinct(col1) FROM VALUES (1), (1), (2), (2), (3) tab(col1);
3
> SELECT approx_count_distinct(col1) FILTER(WHERE col2 = 10)
FROM VALUES (1, 10), (1, 10), (2, 10), (2, 10), (3, 10), (1, 12) AS tab(col1, col2);
3