Velké jazykové modely (umělá inteligence) používají gramatické zkratky, které podkopávají uvažování

28. 11. 2025

čas čtení 4 minuty
Velké jazykové modely (LLM) se podle studie MIT někdy naučí špatné lekce. Místo odpovídání na dotaz založeného na znalostech domény by LLM mohl odpovědět s využitím gramatických vzorců, které se naučil během tréninku. To může způsobit neočekávané selhání modelu při nasazení na nové úkoly.

Výzkumníci zjistili, že modely mohou mylně spojovat určité vzory vět s konkrétními tématy, takže LLM může poskytnout přesvědčivou odpověď tím, že rozpozná známé frázování místo pochopení otázky.

Experimenty ukázaly, že i nejvýkonnější LLM mohou udělat tuto chybu.

Tato nedostatečnost může snížit spolehlivost LLM, které vykonávají úkoly jako je vyřizování dotazů zákazníků, shrnování klinických poznámek a generování finančních zpráv.

Může to také představovat bezpečnostní rizika – nějaký nekalý aktér by toho mohl zneužít k tomu, aby oklamal LLM a přiměl jej vytvářet škodlivý obsah, i když modely mají ochranná opatření, která takovým reakcím brání.

Po identifikaci tohoto jevu a prozkoumání jeho důsledků výzkumníci vyvinuli benchmarkingový postup pro hodnocení závislosti modelu na těchto nesprávných korelacích. Tento postup by mohl vývojářům pomoci zmírnit problém před nasazením LLM.

LLM jsou trénovány na obrovském množství textu z internetu. Během tohoto tréninkového procesu se model učí chápat vztahy mezi slovy a frázemi – znalosti, které později využívá při odpovídání na dotazy.

V předchozích výzkumech výzkumníci zjistili, že LLM zachytávají vzorce v slovních druzích, které se často objevují společně v trénovacích datech. Tyto vzory slovních druhů nazývají "syntaktické šablony".

LLM potřebují toto porozumění syntaxi spolu se sémantickými znalostmi, aby mohly odpovídat na otázky v konkrétní oblasti.

Ale v tomto výzkumu zjistili, že LLM se učí spojovat tyto syntaktické šablony s konkrétními doménami. Model se může při odpovídání na otázky nesprávně spoléhat pouze na tuto naučenou asociaci, místo aby porozuměl dotazu a tématu.

Například LLM se může naučit, že otázka jako "Kde se nachází Paříž?" je strukturována jako příslovce/sloveso/vlastní jméno/sloveso. Pokud je v trénovacích datech modelu mnoho příkladů konstrukce vět, může LLM spojit syntaktickou šablonu s otázkami o zemích.

Takže pokud model dostane novou otázku se stejnou gramatickou strukturou, ale s nesmyslnými slovy, jako například "Rychle sedni Paříž zamlžený?" může odpovědět "Francie", i když tato odpověď nedává smysl.

Výzkumníci tento jev testovali navržením syntetických experimentů, ve kterých se v trénovacích datech modelu pro každou doménu objevil pouze jeden syntaktický vzor. Modely testovali nahrazením slov synonymy, antonymy nebo náhodnými slovy, ale základní syntaxi ponechali stejnou.

V každém případě zjistili, že LLM často odpovídají správnou odpovědí, i když byla otázka úplně nesmyslná.

Když stejnou otázku přestrukturovali pomocí nového vzoru slovních druhů, LLM často nedokázaly dát správnou odpověď, i když základní význam otázky zůstal stejný.

Tento přístup použili k testování předtrénovaných LLM jako GPT-4 a Llama a zjistili, že stejné naučené chování výrazně snižuje jejich výkon.

Zvědaví na širší důsledky těchto zjištění výzkumníci zkoumali, zda by někdo mohl tento jev zneužít k vyvolání škodlivých reakcí u LLM, který byl záměrně trénován k odmítání takových žádostí.

Zjistili, že formulací otázky pomocí syntaktické šablony, kterou model spojuje s "bezpečnou" datovou sadou (která neobsahuje škodlivé informace), mohou model oklamat, aby překonal svou politiku odmítnutí a vytvořil škodlivý obsah.

Ačkoliv výzkumníci v této práci nezkoumali strategie zmírňování, vyvinuli automatickou benchmarkingovou techniku, kterou lze použít k vyhodnocení závislosti LLM na nesprávné korelaci syntaxe a domény. Nový test by mohl vývojářům pomoci proaktivně řešit nedostatek jejich modelů, snížit bezpečnostní rizika a zlepšit výkon.

V budoucnu chtějí výzkumníci studovat možné strategie zmírňování, které by mohly zahrnovat rozšíření tréninkových dat tak, aby poskytla širší škálu syntaktických šablon. Také se zajímají o zkoumání tohoto jevu v modelech uvažování, speciálních typech LLM navržených pro vícestupňové úkoly.

Zdroj v angličtině: ZDE

0
Vytisknout
277

Diskuse

Obsah vydání | 28. 11. 2025