[ํด์ธ DS] ํ๋ฅด์๋ AI, ๋ค๋ฅธ ์ฑ๋ด์ 'ํ์ฅ' ์ฝ๊ฒ ์ ํนํด
์ ๋ ฅ
์์
AI ์ฑ๋ด์ ํ๋ฅด์๋๋ก ํ AI๋ฅผ 'ํ์ฅ'์ํค๋ ์คํ ์งํ, ํ์ฅ ์๋ํ๋ก 25๋ฐฐ ๋นจ๋ผ ์ ๋ฐ์ ์ธ ์ค๊ณ์ ๊ฒฐํจ์ ์์, ๋ชจ๋ธ์ ๋ฐ์ ์ผ๋ก ๋ ์ฌ๊ฐํ ๋ฌธ์ ์ด๋ํ ์ ์์ด ์ฐ๊ตฌ์ง์ AI์ ์์ ์ฑ๊ณผ ๋ชจ๋ธ์ ๋ฐ์ ์ ๋ํ ์ง์งํ ๊ณ ๋ ค๊ฐ ํ์ํจ์ ๊ฐ์กฐํด
[ํด์ธDS]๋ ํด์ธ ์ ์์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์ ๋ฌธ์ง๋ค์์ ์ ํ๋ ์ ๊ณ ์ ๋ฌธ๊ฐ๋ค์ ์๊ฒฌ์ ๋ด์์ต๋๋ค. ์ ํฌ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฒฝ์ ์ฐ๊ตฌ์ (GIAI R&D Korea)์์ ์์ด ์๋ฌธ ๊ณต๊ฐ ์กฐ๊ฑด์ผ๋ก ์ฝํ ์ธ ์ ํด๊ฐ ์งํ ์ค์ ๋๋ค.

์ค๋๋ ์ ์ธ๊ณต์ง๋ฅ ์ฑ๋ด์ ์ฌ์ฉ์์๊ฒ ์ํํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๋๋ก ์ ํ์ ๋๊ณ ์์ง๋ง, ์๋ก์ด ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด AI๋ผ๋ฆฌ ์๋ก๋ฅผ ์์ฌ ๋น๋ฐ์ ํธ์ด๋๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด ์ ์๋๋ค. ์ฐ๊ตฌ์ง์ ๋์ AI๊ฐ ๊ท์น์ ์ด๊ธฐ๊ณ ๋ง์ฝ์ ํฉ์ฑํ๋ ๋ฐฉ๋ฒ, ํญํ์ ๋ง๋๋ ๋ฐฉ๋ฒ, ๋์ธํ ๋ฐฉ๋ฒ์ ์กฐ์ธํ๋ ๊ฒ์ ๊ด์ฐฐํ๋ค.
ํ๋์ ์ฑ๋ด์ ํน์ ์ธ๊ฒฉ์ ์ทจํ๊ฑฐ๋ ๊ฐ์์ ์ธ๋ฌผ์ฒ๋ผ ํ๋ํ๋ ๋ฑ ํ๋ฅด์๋๋ฅผ ์ฑํํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์๋ค. ์ฐ๊ตฌ์ง์ ๊ทธ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ํน์ AI ์ฑ๋ด์ ์ฐ๊ตฌ ์กฐ๋ ฅ์ ์ญํ ์ ํ๋๋ก ์ค์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๊ตฌ์๋ค์ ์ด ์กฐ์์๊ฒ ๋ค๋ฅธ ์ฑ๋ด์ 'ํ์ฅ'์ํฌ ์ ์๋ ํ๋กฌํํธ๋ฅผ ๊ฐ๋ฐํ ์ ์๋๋ก ๋์๋ฌ๋ผ๊ณ ์ง์ํ๋ค.

์์ ๊ท์ ์ด ์์ด๋ ์์๋ฌด์ฑ , ๋ง์๋ ๋ค์ ์๊ธฐ๋ '๊ฐ๊ตฌ๋ฉ'
์ฐ๊ตฌ์ง์ ์ด์์คํดํธ ์ฑ๋ด์ ์๋ ๊ณต๊ฒฉ ๊ธฐ์ ์ ChatGPT๋ฅผ ๊ตฌ๋ํ๋ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM) ์ค ํ๋์ธ GPT-4์ ๋ํด 42.5%์ ํ๋ฅ ๋ก ์ฑ๊ณตํ๋ค๊ณ ํ๋ค. ๋ํ, Anthropic์ฌ์ ์ฑ๋ด์ ์ง์ํ๋ ๋ชจ๋ธ์ธ Claude 2์ ๋ํด์๋ 61%์ ํ๋ฅ ๋ก ์ฑ๊ณตํ๊ณ , ์คํ์์ค ์ฑ๋ด์ธ Vicuna์ ๋ํด์๋ 35.9%์ ํ๋ฅ ๋ก ์ฑ๊ณตํ๋ค๊ณ ํ๋ค.
์ฐ๊ตฌ์ ๊ณต๋ ์ ์์ด์ AI ์์ ๊ธฐ์ ํ๋ชจ๋ ์ธํ ๋ฆฌ์ ์ค(Harmony Intelligence)์ ์ค๋ฆฝ์์ธ ์๋ก์ฌ ํ(Soroush Pour)์ "์ฌํ๊ฐ ์ด๋ฌํ ๋ชจ๋ธ์ ์ํ์ฑ์ ์ธ์ํ๊ธฐ๋ฅผ ๋ฐ๋๋ค"๋ผ๊ณ ํธ์ํ๋ค. "ํ์ฌ LLM ์ธ๋๊ฐ ์ง๋ฉดํ๊ณ ์๋ ๋ฌธ์ ๋ฅผ ์ธ์์ ๋ณด์ฌ์ฃผ๊ณ ์ถ์๋ค"๋ผ๊ณ ๋ง๋ถ์๋ค.
LLM์ด ํ์ฌ๋ ์ฑ๋ด์ด ๋์ค์๊ฒ ๊ณต๊ฐ๋ ์ดํ, ์ง์ทจ์ ์ธ ์ฌ์ฉ์๋ค์ ์ฐฝ์์ ์ธ ๋ฐฉ๋ฒ๋ค๋ก ํ์ฅ์ ์ ๋ํ๋ค. ์ฑ๋ด์ ์ ์ ํ ์ง๋ฌธ์ ๋์ง์ผ๋ก์จ ๋ฏธ๋ฆฌ ์ค์ ๋ ๊ท์น์ ๋ฌด์ํ๊ณ , ๋ค์ดํ(ํ์ผ์ฑ ํญ์ฝ์ ์๋ฃ๋ก ์ฐ์ด๋ ์ ค๋ฆฌ ํํ์ ๋ฌผ์ง) ๋ ์ํผ์ ๊ฐ์ ๋ฒ์ฃ์ ์ธ ์กฐ์ธ์ ์ ๊ณตํ๋๋ก ์ค๋ํ๋ฉด์, ์ ๊ทน์ ์ธ ํ๋ก๊ทธ๋จ ์์ ์์ ์ด ์์๋๋ค.
ํ์ง๋ง AI๊ฐ ๋ค๋ฅธ AI๋ฅผ ์ค๋ํด์ ์์ ๊ท์ ์ ๋ฌด์ํ๋๋ก ํ๋ ์ ๋ต์ ์ธ์ฐ๋๋ก ์๊ตฌํ๋ฉด, ์ด ๊ณผ์ ์ 25๋ฐฐ๋ ๋จ์ถํ ์ ์๋ค๊ณ ์ฐ๊ตฌ์๋ค์ ๋ฐํ๋ค. ๋ํ ์๋ก ๋ค๋ฅธ ์ฑ๋ด๋ค ์ฌ์ด์์ ๊ณต๊ฒฉ์ด ์ฑ๊ณตํ๋ค๋ ๊ฒ์ ์ด ๋ฌธ์ ๊ฐ ๊ฐ๋ณ ๊ธฐ์ ์ ์ฝ๋ ๋ฌธ์ ์์ค์ ๋์ด์ ๋ค๋ ๊ฒ์ ์์ํ๋ค. ์ด ์ทจ์ฝ์ ์ ๋ ๊ด๋ฒ์ํ๊ฒ AI๋ฅผ ํ์ฌํ ์ฑ๋ด์ ์ค๊ณ์ ๋ด์ฌํ์ฌ ์๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
OpenAI, Anthropic, ๊ทธ๋ฆฌ๊ณ Vicuna์ ๊ฐ๋ฐํ์๊ฒ ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ์ ๋ํ ๋ ผํ์ ์์ฒญํ์ผ๋, OpenAI๋ ๋ ผํ์ ๊ฑฐ๋ถํ๊ณ , Anthropic๊ณผ Vicuna๋ ๋ฐํ ์์ ์ ๋ต๋ณ ํ์ง ์์๋ค.
๋๊น์ง ์ธ์์ผ ํ์ง๋ง, ํ์์ ์ธ ์๊ฐ๋...
์ด๋ฒ ์ฐ๊ตฌ์ ๋ ๋ค๋ฅธ ๊ณต์ ์์ธ ๋ฃจ์ ฐ๋ธ ์ค(Rusheb Shah)๋ "ํ์ฌ ์ฐ๋ฆฌ์ ๊ณต๊ฒฉ์ ์ฃผ๋ก ์์ ๊ท์ ์ด ์์์๋ ๋ชจ๋ธ์ด ๋งํ๊ฒ ํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค"๋ผ๊ณ ๋งํ๋ค. "ํ์ง๋ง ๋ชจ๋ธ์ด ๋ ๊ฐ๋ ฅํด์ง์๋ก ์ด๋ฌํ ๊ณต๊ฒฉ์ด ๋ ์ํํด์ง ๊ฐ๋ฅ์ฑ์ด ๋์์ง ์ ์๋ค"๋ผ๊ณ ๊ฒฝ๊ณ ํ๋ค.
๋ฌธ์ ๋ ํ๋ฅด์๋ ๋ณ์กฐ๋ LLM์ ๋งค์ฐ ํต์ฌ์ ์ธ ๋ถ๋ถ์ด๋ผ๋ ์ ์ด๋ค. ์ถ์๋ LLM ์๋น์ค๋ค์ ์ฌ์ฉ์๊ฐ ์ํ๋ ๊ฒ์ ์คํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ์ํด ๋ค์ํ ์ธ๊ฒฉ์ผ๋ก ์์ฅํ๋ ๋ฐ ๋ฅ์ํ๋ค. ํ์ฅ ๊ณํ์ ๊ณ ์ํด ๋ธ LLM ์ด์์คํดํธ์ ๊ฐ์ด ์ ์ฌ์ ์ผ๋ก ์ ํดํ ํ๋ฅด์๋๋ฅผ ์ฌ์นญํ๋ ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ๊ทผ์ ํ๊ธฐ๋ ์ด๋ ค์ธ ๊ฒ์ด๋ค. "์ด๋ฅผ ์ ๋กํํ๋ ๊ฒ์ ์๋ง๋ ๋นํ์ค์ ์ผ ๊ฒ์ด๋ค"๋ผ๊ณ ์ค๋ ๋งํ๋ค. ํ์ง๋ง ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์ต์ํํ๋ ์๋๊ฐ ์ค์ํ๋ค๊ณ ๊ฐ์กฐํ๋ค.
์ด๋ฒ ์ฐ๊ตฌ์ ์ฐธ์ฌํ์ง ์์ ์๊ตญ ์จ๋ฐํ๋ง์ฐ๊ตฌ์์ ์ค๋ฆฌ ์ฐ๊ตฌ์์ธ ๋ง์ดํฌ ์นดํ (Mike Katell)์ "๋ง์ดํฌ๋ก์ํํธ์ ํ ์ด(Tay)๊ฐ ์ธ์ข ์ฐจ๋ณ์ , ์ฑ์ฐจ๋ณ์ ๊ด์ ์ ๋ด๋ฑ๋๋ก ์ฝ๊ฒ ์กฐ์๋ ๊ฒ๊ณผ ๊ฐ์ ์ด์ ์ ์ฑํ ์์ด์ ํธ ๊ฐ๋ฐ ์๋์์ ๊ตํ์ ์ป์์ด์ผ ํ๋ค"๋ผ๋ฉฐ "ํนํ ์ธํฐ๋ท์ ์๋ ๋ชจ๋ ์ข์ ์ ๋ณด์ ๋์ ์ ๋ณด๋ฅผ ํตํด ํ๋ จ๋๋ค๋ ์ ์ ๊ฐ์ํ ๋ ํต์ ํ๊ธฐ๊ฐ ๋งค์ฐ ์ด๋ ต๋ค๋ ์ฌ์ค์ ๊นจ๋ฌ์์ด์ผ ํ๋ค"๋ผ๊ณ ๊ผฌ์ง์๋ค.
์นดํ ์ LLM ๊ธฐ๋ฐ ์ฑ๋ด์ ๊ฐ๋ฐํ๋ ์กฐ์ง๋ค์ด ํ์ฌ ๋ณด์์ ๊ฐํํ๊ธฐ ์ํด ํฐ ๋ ธ๋ ฅ์ ๊ธฐ์ธ์ด๊ณ ์์์ ์ธ์ ํ๋ค. ๊ฐ๋ฐ์๋ค์ ์ฌ์ฉ์๊ฐ ์์คํ ์ ํ์ฅ์์ผ์ ํด๋ก์ด ์ผ์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ์ต์ ํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ณ ์๋ค. ๊ทธ๋ฌ๋ ์นดํ ์ ๊ฒฝ์์ฌ์ ์ํ ์ถฉ๋์ด ๊ฒฐ๊ตญ์๋ ์น๋ฆฌํ ์๋ ์๋ค๊ณ ์ฐ๋ ค๋ฅผ ํํ๋ค. "LLM ์ ๊ณต์ ์ฒด๋ค์ด ์ด๋ฐ ์์คํ ์ ์ ์งํ๊ธฐ ์ํด ์ด๋๊น์ง ๋ ธ๋ ฅํ ๊น์? ์ ์ด๋ ๋ช๋ช์ ์๋ง๋ ๋ ธ๋ ฅ์ ์ง์ณ์ ๊ทธ๋ฅ ๋ด๋ฒ๋ ค๋ ๊ฒ์ ๋๋ค."
Jailbroken AI Chatbots Can Jailbreak Other Chatbots
AI chatbots can convince other chatbots to instruct users how to build bombs and cook meth
Todayโs artificial intelligence chatbots have built-in restrictions to keep them from providing users with dangerous information, but a new preprint study shows how to get AIs to trick each other into giving up those secrets. In it, researchers observed the targeted AIs breaking the rules to offer advice on how to synthesize methamphetamine, build a bomb and launder money.
Modern chatbots have the power to adopt personas by feigning specific personalities or acting like fictional characters. The new study took advantage of that ability by asking a particular AI chatbot to act as a research assistant. Then the researchers instructed this assistant to help develop prompts that could โjailbreakโ other chatbotsโdestroy the guardrails encoded into such programs.
The research assistant chatbotโs automated attack techniques proved to be successful 42.5 percent of the time against GPT-4, one of the large language models (LLMs) that power ChatGPT. It was also successful 61 percent of the time against Claude 2, the model underpinning Anthropicโs chatbot, and 35.9 percent of the time against Vicuna, an open-source chatbot.
โWe want, as a society, to be aware of the risks of these models,โ says study co-author Soroush Pour, founder of the AI safety company Harmony Intelligence. โWe wanted to show that it was possible and demonstrate to the world the challenges we face with this current generation of LLMs.โ
Ever since LLM-powered chatbots became available to the public, enterprising mischief-makers have been able to jailbreak the programs. By asking chatbots the right questions, people have previously convinced the machines to ignore preset rules and offer criminal advice, such as a recipe for napalm. As these techniques have been made public, AI model developers have raced to patch themโa cat-and-mouse game requiring attackers to come up with new methods. That takes time.
But asking AI to formulate strategies that convince other AIs to ignore their safety rails can speed the process up by a factor of 25, according to the researchers. And the success of the attacks across different chatbots suggested to the team that the issue reaches beyond individual companiesโ code. The vulnerability seems to be inherent in the design of AI-powered chatbots more widely.
OpenAI, Anthropic and the team behind Vicuna were approached to comment on the paperโs findings. OpenAI declined to comment, while Anthropic and Vicuna had not responded at the time of publication.
โIn the current state of things, our attacks mainly show that we can get models to say things that LLM developers donโt want them to say,โ says Rusheb Shah, another co-author of the study. โBut as models get more powerful, maybe the potential for these attacks to become dangerous grows.โ
The challenge, Pour says, is that persona impersonation โis a very core thing that these models do.โ They aim to achieve what the user wants, and they specialize in assuming different personalitiesโwhich proved central to the form of exploitation used in the new study. Stamping out their ability to take on potentially harmful personas, such as the โresearch assistantโ that devised jailbreaking schemes, will be tricky. โReducing it to zero is probably unrealistic,โ Shah says. โBut it's important to think, โHow close to zero can we get?โโ
โWe should have learned from earlier attempts to create chat agentsโsuch as when Microsoftโs Tay was easily manipulated into spouting racist and sexist viewpointsโthat they are very hard to control, particularly given that they are trained from information on the Internet and every good and nasty thing thatโs in it,โ says Mike Katell, an ethics fellow at the Alan Turing Institute in England, who was not involved in the new study.
Katell acknowledges that organizations developing LLM-based chatbots are currently putting lots of work into making them safe. The developers are trying to tamp down usersโ ability to jailbreak their systems and put those systems to nefarious work, such as that highlighted by Shah, Pour and their colleagues. Competitive urges may end up winning out, however, Katell says. โHow much effort are the LLM providers willing to put in to keep them that way?โ he says. โAt least a few will probably tire of the effort and just let them do what they do.โ