Vědci vyvíjejí monitorovací agent AI pro detekci a zastavení škodlivých výstupů

Share This Post

Tým výzkumníků umělé inteligence (AI) firmy AutoGPT, Northeastern University a Microsoft Research vyvinul nástroj, který monitoruje velké jazykové modely (LLM) z hlediska potenciálně škodlivých výstupů a zabraňuje jejich spuštění. 

Agent je popsán v předtištěném výzkumu s názvem „Testování agentů jazykového modelu bezpečně v divočině“. Podle výzkumu je agent dostatečně flexibilní, aby mohl monitorovat existující LLM a může zastavit škodlivé výstupy, jako jsou útoky na kód, dříve, než k nim dojde.

Podle výzkumu:

„Akce agentů jsou kontrolovány kontextově citlivým monitorem, který prosazuje přísné bezpečnostní hranice k zastavení nebezpečného testu, přičemž podezřelé chování je hodnoceno a protokolováno, aby je lidé mohli prozkoumat.“

Skutečný svět je příliš složitý

Tým píše, že stávající nástroje pro monitorování výstupů LLM pro škodlivé interakce zdánlivě fungují dobře v laboratorních podmínkách, ale když se použijí na testování modelů již na otevřeném internetu, „často nedokážou zachytit dynamické složitosti skutečného světa“.

Zdá se, že je to kvůli existenci okrajových případů. Navzdory nejlepšímu úsilí nejtalentovanějších počítačových vědců je myšlenka, že si vědci dokážou představit každý možný vektor poškození dříve, než k němu dojde, v oblasti umělé inteligence z velké části považována za nemožnou.

I když mají lidé při interakci s umělou inteligencí ty nejlepší úmysly, ze zdánlivě neškodných podnětů může dojít k neočekávanému poškození.

Ilustrace monitoru v akci. Vlevo pracovní postup končící vysokým bezpečnostním hodnocením. Vpravo pracovní postup končící nízkým hodnocením bezpečnosti. Zdroj: Naihin, et., al. 2023

Výzkum a testování interakcí mezi člověkem a AI

Za účelem školení monitorovacího agenta vytvořili výzkumníci datový soubor, který obsahuje téměř 2 000 bezpečných interakcí mezi člověkem a AI napříč 29 různými úkoly, od jednoduchých úkolů načítání textu a oprav kódování až po vývoj celých webových stránek od nuly.

Vytvořili také konkurenční testovací datový soubor naplněný ručně vytvořenými výstupy nepřátel, včetně desítek záměrně navržených tak, aby byly nebezpečné.

Soubory dat byly poté použity k výcviku agenta na OpenAI GPT 3.5 turbo, nejmodernějším systému, který je schopen rozlišit mezi neškodnými a potenciálně škodlivými výstupy s faktorem přesnosti téměř na 90 %.

Related Posts

Ropa zlevňuje, Hormuzský průliv ale zůstává časovanou bombou

Ropný trh se v posledních dnech tváří, že nejhorší napětí kolem Hormuzského průlivu pomalu odeznívá.

SpaceX spadl z oběžné dráhy a s ním i nálada na trzích

Globální akciové trhy zažily další studenou sprchu. Tentokrát ji nespustila jedna špatná výsledková sezóna ani jeden slabý makroekonomický údaj.

Elon Musk může spojit SpaceX a Teslu do technologického impéria v hodnotě 5 bilionů USD

SpaceX vstoupila na burzu teprve před několika dny, ale investoři už začali řešit další možný krok. Tím by mohlo být spojení SpaceX a Tesly do jedné obří technologické skupiny.

Hackeři zasáhli OpenAI přes oblíbenou open source knihovnu

OpenAI potvrdila bezpečnostní incident, který souvisí s rozsáhlým útokem na open source ekosystém.

Elon Musk usiloval o absolutní kontrolu nad OpenAI a navrhoval spojení s Teslou

Sam Altman, spoluzakladatel a výkonný ředitel společnosti OpenAI, předstoupil v úterý před federální porotu v kalifornském Oaklandu.

Napětí kolem Íránu opět roste, cena ropy zůstává nad 100 dolarama

Ceny ropy na začátku týdne prudce vzrostly. Důvodem je ostrá reakce amerického prezidenta Donalda Trumpa, který označil íránskou odpověď na americký mírový návrh za „zcela nepřijatelnou“.