count_min_sketch
agregační funkce
Platí pro: Databricks SQL Databricks Runtime
Vrátí minimální náčrtek všech hodnot ve skupině column
s epsilon
hodnotou a confidence
seed
.
V Databricks SQL a Databricks Runtime 13.3 LTS a vyšší podporuje volání pojmenovaných parametrů.
Syntaxe
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Tuto funkci lze také vyvolat jako funkci okna pomocí OVER
klauzule.
Argumenty
column
: Výraz, který se vyhodnocuje jako integrální číselný,STRING
neboBINARY
.epsilon
DOUBLE
: Literál větší než 0 popisující relativní chybu.confidence
DOUBLE
: Literál větší než 0 a menší než 1.seed
: LiterálINTEGER
.cond
: Volitelný logický výraz filtrující řádky použité pro agregaci.
Návraty
Úloha BINARY
.
Náčrtek count-min je pravděpodobnostní datová struktura používaná k odhadu kardinality pomocí sublineárního prostoru.
Pokud DISTINCT
je zadána funkce funguje pouze s jedinečnou sadou expr
hodnot.
Příklady
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000