Použití srovnávacích testů v prostoru Genie
Důležité
Tato funkce je ve verzi Public Preview.
Tento článek vysvětluje, jak pomocí srovnávacích testů vyhodnotit přesnost prostoru Genie.
Srovnávací testy umožňují vytvořit sadu testovacích otázek, které můžete spustit, abyste posoudili celkovou přesnost odpovědí Genie. Dobře navržená sada srovnávacích testů, které pokrývají nejčastější dotazy uživatelů, pomáhá vyhodnotit přesnost prostoru Genie při jeho zpřesnění.
Přidání otázek k srovnávacím testům
Srovnávací dotazy by měly odrážet různé způsoby formulace běžných otázek, které uživatelé ptají. Můžete je použít ke kontrole odpovědi Genie na varianty v otazních formulacích nebo různých formátech otázek.
Při vytváření srovnávací otázky můžete volitelně zahrnout dotaz SQL, jehož sada výsledků je správná odpověď. Během srovnávacích běhů se přesnost posuzuje porovnáním sady výsledků z dotazu SQL s tím, který vygeneroval Genie.
Pokud chcete přidat otázku srovnávacího testu, proveďte následující kroky:
Klikněte na levý boční panel v prostoru Genie.
Klikněte na kartu Otázky . Potom klikněte na Přidat srovnávací test.
Do pole Otázka zadejte srovnávací otázku, která se má testovat.
(Volitelné) Zadejte příkaz SQL, který přesně odpovídá na zadaná otázka.
Poznámka:
Tento krok se doporučuje. Přesnost je možné automaticky vyhodnotit pouze na otázky, které obsahují tento ukázkový příkaz SQL. Všechny otázky, které neobsahují odpověď SQL, vyžadují ruční kontrolu, aby bylo možné určit skóre.
(Volitelné) Kliknutím na Náhled spustíte dotaz a zobrazíte výsledky.
Po dokončení úprav klikněte na Přidat srovnávací test.
Pokud chcete po uložení aktualizovat otázku, kliknutím na ikonu tužky otevřete dialogové okno Aktualizovat otázku .
Použití srovnávacích testů k otestování alternativních formulací otázek
Při vyhodnocování přesnosti prostoru Genie je důležité strukturovat testy tak, aby odrážely reálné scénáře. Uživatelé můžou položit stejnou otázku různými způsoby. Databricks doporučuje přidat více frází stejné otázky a použít stejný příklad SQL v srovnávacích testech k úplnému posouzení přesnosti. Většina prostorů Genie by měla obsahovat 2 až 4 formulace stejné otázky.
Spuštění otázek srovnávacích testů
Uživatelé s alespoň oprávněními CAN EDIT v prostoru Genie můžou kdykoli vytvořit srovnávací test, který automaticky vyhodnotí všechny otázky srovnávacího testu. Abychom mohli vyhodnotit každou otázku srovnávacího testu, nejprve odešleme otázku Genie a pak porovnáme výsledky Genie s srovnávacím testem. Pro každý srovnávací test se použije jeden z následujících popisků:
- Dobré: Odpovědi jsou označené tímto popiskem, když výsledek dotazu vygenerovaný Genie odpovídá výsledkům poskytnuté odpovědi SQL. Když je odpověď označena jako Dobrá, znamená to, že hodnoty řádků se přesně shodují bez ohledu na pořadí řazení nebo názvy sloupců.
- Je potřeba zkontrolovat: Odpovědi jsou označené tímto popiskem, když Genie nemůže vyhodnotit správnost nebo když výsledky dotazu generované Genie neodpovídají výsledkům poskytnuté odpovědi SQL. Pokud ve vygenerované odpovědi nebo poskytnuté odpovědi SQL dojde k neočekávaným změnám dimenzí tabulek, může být otázka označena ke kontrole. Všechny dotazy týkající se srovnávacích testů, které neobsahují odpověď SQL, se musí zkontrolovat ručně.
- Špatné: Odpovědi se nikdy automaticky neoznačí jako Špatné. Pokud výsledky dotazu vygenerované Genie neodpovídají sadě výsledků ze zadané odpovědi SQL, je otázka označena jako kontrola potřeb. Když tyto srovnávací testy zkontrolujete, můžete výsledek označit jako Chybný , pokud si nemyslíte, že genie vygenerovaný dotaz odpoví na otázku.
Spuštění všech otázek srovnávacích testů:
- Na bočním panelu prostoru Genie v blízkosti levé strany obrazovky klikněte na Srovnávací testy.
- Kliknutím na Spustit srovnávací testy spusťte testovací běh.
Poznámka:
Pokud tuto stránku zavřete, spustí se srovnávací test automaticky. Po opětovném otevření stránky můžete test obnovit.
Vyhodnocení srovnávacích testů přístupu
Ke všem hodnocením srovnávacích testů můžete získat přístup, abyste mohli sledovat přesnost v prostoru Genie v průběhu času. Když kliknete na levý boční panel v prostoru Genie, zobrazí se na kartě Vyhodnocení seznam časového razítka spuštění vyhodnocení. Pokud se nenajde žádná testovací spuštění, přečtěte si téma Přidání otázek k srovnávacím testům nebo dotazy ke spuštění srovnávacího testu.
Na kartě Vyhodnocení se zobrazí přehled hodnocení a jejich výkon v kategoriích follwong:
Název vyhodnocení: Časové razítko, které označuje, kdy došlo ke spuštění vyhodnocení. Kliknutím na časové razítko zobrazíte podrobnosti pro toto vyhodnocení. Stav spuštění: Označuje, jestli je vyhodnocení dokončeno, pozastaveno nebo neúspěšné. Pokud testovací běh obsahuje otázky srovnávacího testu, které nemají předdefinované odpovědi SQL, označí se k revizi v tomto sloupci. Přesnost: Číselné posouzení přesnosti ve všech otázkách srovnávacích testů. U zkušebních spuštění, která vyžadují ruční kontrolu, se míra přesnosti zobrazí až po kontrole těchto otázek. Autor: Označuje jméno uživatele, který spustil vyhodnocení.
Kontrola jednotlivých vyhodnocení
Můžete zkontrolovat jednotlivá vyhodnocení a podívat se na jednotlivé odpovědi. Posouzení můžete upravit pro libovolnou otázku a aktualizovat všechny položky, které potřebují ruční kontrolu.
Kontrola jednotlivých hodnocení:
Na bočním panelu prostoru Genie v blízkosti levé strany obrazovky klikněte na Srovnávací testy.
Kliknutím na časové razítko pro každé vyhodnocení ve sloupci Název vyhodnocení otevřete podrobné zobrazení tohoto testovacího běhu.
Kliknutím na otázku v levé části obrazovky zobrazíte přidružené podrobnosti. Pomocí obrazovky s podrobnostmi o vyhodnocení proveďte další kroky.
Zkontrolujte a porovnejte výstupní odpověď modelu s odpovědí základní pravdy.
Poznámka:
Výsledky těchto odpovědí se zobrazí v podrobnostech vyhodnocení po dobu jednoho týdne. Po jednom týdnu se výsledky už nezobrazují. Vygenerovaný příkaz SQL a ukázkový příkaz SQL zůstanou zachovány.
Klikněte na popisek a upravte posouzení.
Označte každý výsledek jako dobrý nebo špatný , abyste získali přesné skóre pro toto vyhodnocení.