[해외 DS] 적대적 공격 들어온 바둑계, 다음 타깃은 어딜까

Picture

Member for

11 months 2 weeks

Real name

전웅

Position

연구원

Bio

[email protected]
흥미로운 데이터 사이언스 이야기를 정확한 분석과 함께 전하겠습니다.

입력

2024-07-17 17:44

수정

2025-09-05 11:31

적대적 공격을 통해 바둑 AI 이기는 방법 발견해
여러 방어책 마련했으나, 큰 효과 거두지 못해
바둑은 시작에 불과, 자율주행·의료 등에도 적대적 공격 들어올 수 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.

알파고가 이세돌 9단을 상대로 4:1 대승을 거두고 난 후, 이제는 AI가 인간을 뛰어넘었다는 의견이 지배적이었다. 현재 바둑 AI의 성능은 세계 최고 바둑 프로기사가 2점을 놓고 둬도 이기기 힘들 정도다. 그러나 이토록 ‘초인적’ 성능을 보이는 바둑 AI에 취약점이 드러났다. 더 나아가 이 발견은 바둑뿐만 아니라 다른 AI 시스템의 안정성과 신뢰성 문제를 제기한다.

세계 최강 이기는 초보

지난 6월 적대적 공격을 통해 바둑 AI의 약점을 찾아낸 논문이 공개됐다. 연구는 논문 사전 공개 사이트인 아카이브(arXiv)에 게시되었다. 일리노이 대학교 어배너-섐페인의 컴퓨터 과학자인 후안 장은 “이 연구는 사람들이 신뢰할 수 있는 AI란 무엇인가에 대해 중요한 물음을 남긴다”라며 AI 정체에 의문을 던졌다. 또한 MIT 컴퓨터 과학자인 스티븐 캐스퍼는 이 연구를 두고 “인간이 원하는 대로 AI를 만드는 것이 얼마나 어려운지 보여주는 증거”라며 오류 없는 AI를 만드는 것은 불가능에 가깝다는 의견을 밝혔다.

연구원들은 이미 재작년에 카타고(KataGo)를 이길 수 있는 적대적 AI를 만드는 데 성공했다. 카타고는 프로기사를 가볍게 이길 정도로 높은 성능을 가지고 있다. 그러나 놀랍게도 적대적 AI는 바둑 아마추어가 상대해도 이길 수 있는 실력이다. 단지 카타고를 이기는 데 특화된 것뿐이다. 심지어 인간이 적대적 AI의 수법을 이해하고 이를 응용하면 카타고를 이길 수 있다.

바둑 AI, 예상치 못한 수 맞닥뜨리면 오류 일으켜

사실 바둑 AI가 오류를 낸 것은 처음이 아니다. 이세돌 대 알파고 제4국에서 ‘신의 한 수’라고 불리는 78수도 엄밀히 말하면 꼼수였다. 즉, 알파고가 오류를 내지 않고 정확하게 응수했다면 안 되는 수였다. 그러나 78수는 알파고가 생각지 못한 수였고, 그 결과 오류를 내며 대국을 파국으로 몰고 갔다.

이처럼 바둑 AI는 생각지 못한 수를 맞닥뜨렸을 때 자주 오류를 일으킨다. 논문에서 공개한 적대적 AI 대 카타고 기보를 보면, 적대적 AI는 당황스러운 수를 두어 카타고를 먹통으로 만든다. 카타고는 프로기사 기보를 교재로 삼는 만큼 적대적 AI가 두는 수를 거의 고려조차 하지 않아 오류가 발생한다는 의견이다.

적대적 AI의 공격으로부터 방어할 수 있을까

따라서 연구진은 카타고의 약점을 인지하고 적대적 AI로부터 방어하는 방법을 모색했다. 파에이아이(FAR AI)의 CEO이자 2022년 논문의 공동 저자인 아담 글리브는 바둑 적대적 AI의 공격으로부터 방어할 수 있는 방법을 세 가지 제안했으며 이에 대해 실험을 진행했다.

첫 번째 방어책은 적대적 AI가 공격하는 수를 카타고에게 미리 알려주고 카타고가 스스로 바둑을 두게 하여 해당 수를 학습하는 방법이다. 이 방법은 바둑을 스스로 학습하는 방식과 유사하다. 하지만 적대적 AI는 이렇게 학습한 카타고를 상대로 91% 승률을 기록했다.

두 번째 방어 전략은 적대적 AI와 카타고를 번갈아가며 학습시키는 방법이다. 우선 적대적 AI를 상대로 카타고를 훈련한 다음, 훈련된 카타고를 상대로 적대적 AI를 훈련한다. 이렇게 카타고와 적대적 AI를 번갈아가며 9번에 걸쳐 학습시켰다. 그러나 이 방법도 ‘무적의’ 카타고를 만들 수 없었다. 적대적 AI는 계속해서 카타고의 취약점을 찾아냈고, 최종적으로 카타고를 상대로 81% 승률을 거뒀다.

마지막으로 세 번째 전략은 바둑 AI를 새로운 모델로 학습시키는 방법이다. 카타고는 합성곱 신경망(CNN) 모델을 기반으로 한다. 연구진은 CNN이 국소적인 부분에 너무 집중하여 전체적인 패턴을 놓칠 수 있다고 판단하여 비전 트랜스포머(ViT)라는 대체 신경망을 사용하여 바둑 AI를 생성했다. 하지만 적대적 AI는 새로운 바둑 AI에서도 새로운 약점을 발견하여 ViT 시스템을 상대로 78% 승률을 기록했다.

적대적 AI, 이제 시작에 불과해

적대적 AI는 카타고와 다른 바둑 AI를 이길 수 있으나, 다재다능한 전략가는 아니다. 적대적 AI는 단순히 바둑 AI의 숨겨진 ‘취약점’을 찾도록 훈련받은 것뿐이다. 글리브는 “사람은 적대적 AI에게 쉽게 이길 수 있다”며 적대적 AI가 만능이 아님을 강조했다.

인간이 적대적 AI 전략을 사용하여 바둑 AI를 이길 수 있는 상황에서 AI를 두고 ‘초인적’이라고 부르는 것이 여전히 합당한지 의문이다. 글리브는 이에 대해 계속해서 고민했던 문제라며 바둑 AI를 ‘일반적으로 초인적’이라고 정의했다. 카타고를 처음 개발한 데이비드 우도 바둑 AI는 평균적으로 초인적이지만, 최악의 경우에는 초인적이 아니라며 약점을 인정했다.

카타고가 적대적 AI의 공격을 받고 오류를 일으키는 것은 사실상 아무에게도 피해를 주지 않는다. 따라서 이 연구는 논문을 위한 논문일 뿐 아무 효용이 없다는 의견이 나온다. 그러나 바둑은 시작에 불과하다. 만약 일상생활과 맞닿아 있는 자율주행 자동차가 적대적 AI의 공격을 받아 오류를 일으키는 상황이 발생할 수 있다. 또한 적대적 AI의 공격을 받은 의료용 AI 로봇 팔이 멋대로 움직이는 상황이 벌어질 수도 있다. 그래도 괜찮은가?

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture