Generátor jazyka vzniká na Karlově univerzitě

Na Karlově univerzitě v současné době vzniká generátor jazyka, který dokáže vytvořit text na dané téma na základě jen několika desítek příkladů. Na projektu pracuje Ondřej Dušek z Matematicko-fyzikální fakulty. A jeho technologie by měla vytvářet přirozený a plynulý text. Navíc je jedním ze 4 českých vědců, kteří dostali grant od Evropské výzkumné rady.

Cílem projektu je vytvořit generátor jazyka, který popíše soubor dat v lidské srozumitelné formě. Může jít například o shrnutí novinového článku. Dalším využitím budou odpovědi chytrých asistentů jako Siri, Alexa nebo Google.

Šablony nebo strojové učení?

V současné době existují v podstatě dva způsoby generátorů jazyka. Ten, který používají chytří asistenti má několik připravených šablon – vět, do kterých už pouze dosazuje odpověď na otázku uživatele. Může jít o výsledek zápasu nebo odjezd vlaku. Tato forma je spolehlivá, ale není vždy plynulá. Navíc příprava šablon je velmi nákladná.

Druhým způsobem je využití strojového učení a umělých neuronových sítí. Tento výzkumný generátor často mluví velmi přirozeně. Problémem je, že i tento potřebuje tisíce vzorových textů, což je také velmi nákladné. Navíc systém často vynechá nějakou podstatnou informaci nebo si naopak nějakou neexistující informaci přidá.

Úplně nový přístup

Projekt českého vědce se snaží vzít si z obou to lepší a vytvořit nový generátor. Ten bude tvořit plynulý text na základě několika desítek vstupních článků. A výstupní informace budou přesně odpovídat těm zadaným.

Systém by měl fungovat ve dvou krocích. V první fázi generátor podrobně naplánuje výstup a až poté neuronová síť vybere, jak informace vyjádřit slovy. To co již zmíněné dva generátory neumí je jsou matematické a logické operace. Generátor bude umět například srovnat teploty za poslední týden a určit jejich trend. Dalším příkladem může být porovnání výsledku zápasu a správné popsání vítěze.

To vše by mělo pomoci k rozšíření generátoru. Nyní je totiž doménou pouze velkých firem a jazyků. Navíc by snaha měla vést i k tomu, aby systém dokázal generovat i delší texty než je standard nyní.

Source
ceskenoviny.czunsplash
Tags

Související články

Back to top button
Close
Close