Co je slovník?
Slovník je zarovnaný pár dokumentů, který určuje seznam frází nebo vět a jejich odpovídající překlady. Pokud chcete, aby Translator přeložil všechny výskyty zdrojové fráze nebo věty pomocí překladu, který zadáte ve slovníku, použijte slovník ve svém trénování. Slovníky se někdy označují jako glosáře nebo základy termínů. Slovník si můžete představit jako hrubou silou pro všechny termíny, které vypíšete. Kromě toho služba Microsoft Custom Translator sestavuje a využívá vlastní slovníky pro obecné účely ke zlepšení kvality překladu. Slovník poskytovaný zákazníkem ale přebírá předchůdci a hledá se jako první, aby vyhledal slova nebo věty.
Slovníky fungují jenom pro projekty ve dvojicích jazyků, které mají plně podporovaný obecný model neurální sítě Microsoftu. Zobrazte úplný seznam jazyků.
Slovník frází
Slovník frází se rozlišují malá a velká písmena. Jedná se o přesnou operaci vyhledání a nahrazení. Když do trénování modelu zahrnete slovník frází, přeloží se jakékoli slovo nebo fráze uvedené způsobem. Zbytek věty se přeloží obvyklým způsobem. Slovník frází můžete použít k určení frází, které by neměly být přeloženy tak, že do zdrojových a cílových souborů zadáte stejnou nepřeloženou frázi.
Dynamický slovník
Funkce dynamického slovníku umožňuje přizpůsobit překlady pro konkrétní termíny nebo fráze. Vlastní překlady definujete pro svůj jedinečný kontext, jazyk nebo konkrétní potřeby.
Slovník neurální fráze
Slovník neurálních frází rozšiřuje naše funkce dynamického slovníku a standardního slovníku frází. Dynamické slovníky a slovníky frází umožňují přizpůsobit výstup překladu tím, že poskytují vlastní překlady pro konkrétní termíny nebo fráze. Funkce dynamického slovníku se používá s rozhraním Translator API, zatímco slovník neurálních frází je povolený pomocí služby Custom Translator. Slovník neurálních frází zlepšuje kvalitu překladu pro věty, které obsahují jeden nebo více překladů termínů tím, že umožní modelu strojového překladu upravit termín i kontext. Tato úprava vytváří plynulý překlad. Současně zachovává vysokou přesnost překladu.
Slovník vět
Slovník vět je nerozlišující velká a malá písmena. Slovník vět umožňuje zadat přesný cílový překlad zdrojové věty. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Položka zdrojového slovníku, která končí interpunkcí, se během shody ignoruje. Pokud se shoduje jenom část věty, položka se neshoduje. Při zjištění shody se vrátí cílová položka slovníku věty.
Trénování jen pro slovníky
Model můžete vytrénovat pouze pomocí dat slovníku. Uděláte to tak, že vyberete jenom dokument slovníku (nebo více dokumentů slovníku), který chcete zahrnout, a vyberte Vytvořit model. Vzhledem k tomu, že toto trénování je jen slovník, není potřeba žádný minimální počet trénovacích vět. Váš model obvykle trénování dokončí rychleji než standardní trénování. Výsledné modely používají základní modely Microsoftu k překladu s přidáním slovníků, které přidáte. Nedostanete testovací sestavu.
Poznámka:
Custom Translator nezarovná soubory slovníku ve větách, takže je důležité, aby byl ve vašich dokumentech slovníku stejný počet zdrojových a cílových frází a vět a že jsou přesně zarovnané.
Doporučení
Slovníky nejsou náhradou za trénování modelu pomocí trénovacích dat. Pro dosažení lepších výsledků doporučujeme nechat systém učit se z tréninkových dat. Pokud ale věty nebo složené podstatná jména musí být přeloženy doslovně, použijte slovník frází.
Slovník frází by se měl používat střídmě. Když je fráze ve větě nahrazena, kontext této věty se ztratí nebo omezí pro překládání zbytku věty. Výsledkem je, že zatímco fráze nebo slovo ve větě se přeloží podle zadaného slovníku, celková kvalita překladu věty často trpí.
Slovník frází funguje dobře pro složené podstatná jména, jako jsou názvy produktů ("Microsoft SQL Server"), správné názvy ("Město Hamburk"), nebo funkce produktů ("kontingenční tabulka"). Nefunguje ani u sloves nebo přídavných jmen, protože tato slova jsou obvykle vysoce kontextová v rámci zdrojového nebo cílového jazyka. Osvědčeným postupem je vyhnout se položkám slovníku frází pro cokoli, ale složené podstatná jména.
Pokud používáte slovník frází, velká písmena a interpunkce jsou důležité. V položkách slovníku se rozlišují malá a velká písmena a interpunkce. Custom Translator odpovídá jenom slovům a frázím ve vstupní větě, které používají přesně stejné velká a interpunkční znaménka, jak je uvedeno ve zdrojovém souboru slovníku. Překlady také odrážejí velké a interpunkční znamény zadané v souboru cílového slovníku.
Příklad
- Pokud trénujete systém pro angličtinu a španělštinu, který používá slovník frází a zadáte SQL Server ve zdrojovém souboru a Microsoft SQL Server v cílovém souboru. Když požádáte o překlad věty, která obsahuje frázi SQL serveru, custom Translator odpovídá položce slovníku a překladu, který obsahuje Microsoft SQL Server.
- Když požádáte o překlad věty, která obsahuje stejnou frázi, ale neodpovídá tomu, co je ve zdrojovém souboru, jako je sql server, sql Server nebo SQL Server, nevrátí shodu ze slovníku.
- Překlad se řídí pravidly cílového jazyka, jak je uvedeno ve slovníku frází.
Další informace o slovníku neurálních frází najdete v pokynech a doporučeních neurálního slovníku.
Pokud používáte slovník vět, ignoruje se interpunkce na konci věty.
Příklad
- Pokud zdrojový slovník obsahuje text "Tato věta končí interpunkcí!", všechny požadavky na překlad, které obsahují "Tato věta končí interpunkcí", odpovídají.
Slovník by měl obsahovat jedinečné zdrojové řádky. Pokud se ve slovníkovém souboru zobrazí zdrojový řádek (slovo, fráze nebo věta) více než jednou, systém vždy použije poslední zadanou položku a při nalezení shody vrátí cíl.
Vyhněte se přidávání frází, které se skládají jenom z čísel nebo dvou nebo třípísmenných slov, jako jsou zkratky, ve zdrojovém souboru slovníku.