[AI MEMO] 파론도의 역설, 인공지능이 보여준 새로운 승리의 공식
입력
수정
열등한 전략의 결합이 인공지능의 새로운 학습 방식으로 확장 AI, 협상과 토론에서 인간의 전략적 역할 대체 효율과 위험이 공존하는 복합 전략 시대, 투명성 필요
본 기사는 스위스 인공지능연구소(SIAI)의 SIAI Research Memo 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술·경제·정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적 의견이며, SIAI 또는 그 소속 기관의 공식 입장과 일치하지 않을 수 있습니다.
2025년 5월 학술지 네이처 휴먼 비헤이비어(Nature Human Behaviour)에 발표된 연구는 인공지능이 인간보다 더 높은 설득력을 보일 수 있음을 보여줬다. 연구진은 GPT-4가 상대의 성향에 따라 주장을 조정하도록 설정하고 여러 차례의 온라인 토론을 진행했다. 그 결과, 인공지능은 전체 토론의 64%에서 인간보다 우세한 설득 효과를 기록했다.
이 성과는 논리의 강도나 표현력보다 전략의 조합에서 비롯됐다. 각각의 약한 전술이 순서와 맥락에 따라 결합되면서 새로운 흐름이 만들어진 것이다. 게임이론에서는 이를 파론도의 역설(Parrondo’s Paradox)이라 부른다. 개별적으로는 불리한 전략이지만, 서로 맞물릴 때 전체적으로 유리한 결과를 내는 구조다. 이 이론은 오늘날 인공지능의 발전 방향을 설명하는 유용한 틀이 된다. AI는 단일한 규칙이나 알고리즘으로 움직이지 않는다. 서로 다른 판단 기준과 반응 패턴을 교차시키며, 인간이 인식하기 어려운 상호작용을 학습한다. 이런 결합이 누적되면서 약한 선택이 강한 결과로 전환된다.

파론도의 역설이 보여주는 인공지능의 작동 방식
파론도의 역설은 각각의 실패한 전략을 번갈아 사용할 때 전체적으로 이익이 생길 수 있다는 원리다. 예를 들어 ‘게임 A’와 ‘게임 B’는 각각 단독으로는 손실이 나지만, 일정한 순서로 조합하면 평균 수익이 양(+)으로 전환된다. 한 게임의 결과가 다음 게임의 조건을 바꾸며 새로운 흐름을 만드는 구조다.
이 원리는 경제와 사회, 기술 전반에서 반복적으로 나타난다. 투자 전략의 위험 조정, 온라인 네트워크의 정보 확산, 알고리즘의 추천 과정 등은 모두 상호작용을 통해 방향이 바뀌는 결합 효과를 보인다. 인공지능 역시 이 같은 구조 속에서 작동하며, 작은 규칙들이 맞물리면서 새로운 전략을 만들어낸다.
이 작동 원리를 실제로 구현하는 대표적 방법이 다중 에이전트 강화학습(MARL, Multi-Agent Reinforcement Learning)이다. 여러 인공지능이 같은 환경에서 동시에 학습하며 서로의 행동에 반응하는 방식이다. 한 에이전트의 선택이 다른 에이전트의 다음 행동을 바꾸고, 이런 상호작용이 반복되며 전체 전략이 진화한다. 초기에는 단순한 경쟁 모델에 머물렀지만, 최근 연구는 여기에 신뢰와 협상, 대화 같은 사회적 변수를 포함시키고 있다. 인공지능은 이제 계산만 수행하는 기계가 아니라, 관계와 균형을 조정하는 시스템으로 진화하고 있다.

주: 정책 시행 회차(X축), 정책 조합의 총 성과 변화율(Y축)/A 단독 시행(연한 빨강), B 단독 시행(중간 빨강), A·B 교차 시행(진한 빨강)
인공지능의 협상 전략
인공지능이 집단 속에서 전략을 조합하는 능력은 메타(Meta)의 시세로(CICERO) 사례에서 확인된다. 시세로는 전략 협상 게임 디플로머시(Diplomacy)에서 인간과 거의 같은 수준의 성과를 냈다. 일곱 명의 참가자가 신뢰를 쌓고 동맹을 맺으며 세력을 넓히는 이 게임에서 시세로는 40회의 리그 경기 동안 인간 평균의 두 배 점수를 기록했고, 상위 10%에 올랐다.
핵심은 언어모델과 계획 엔진의 결합이다. 시세로는 상대의 행동을 예측하고, 상황 변화에 따라 메시지를 조정했다. 대화로 관계를 형성하면서 동시에 다음 수를 계산해 협력과 경쟁의 균형을 잡았다. 여러 약한 선택을 조합해 게임의 흐름을 바꾸는 인공지능의 전략적 능력을 보여준 사례다.
같은 흐름은 토론 실험에서도 나타났다. 2025년 네이처 휴먼 비헤이비어 연구에서 900명이 참여한 온라인 토론에서 GPT-4는 상대의 성향에 맞춰 주장을 조정하며 인간보다 64% 더 높은 설득 효과를 보였다. 특히 개인화된 조건에서는 동의 변화 가능성이 81.7%까지 높아졌다. 이는 인공지능이 단일한 논리로 설득하기보다 여러 약한 논리를 맥락에 맞게 조합해 새로운 합의를 끌어낼 수 있음을 보여준다.
이러한 변화는 단순한 기술적 진보를 넘어선다. 인공지능이 협상과 토론의 구조 속에서 집단의 흐름을 읽고 조정하는 단계로 들어섰다는 의미다. 복합적 환경 속에서 AI는 계산 도구를 넘어 관계와 전략을 함께 설계하는 새로운 행위자로 자리 잡고 있다.

주: 설득 성공률(X축), 참가자 구분- GPT-4, 인간 토론자(Y축)
복합 전략의 위험과 통제
여러 전략이 동시에 작동하는 복합 구조에서는 겉으로 드러난 성과가 실제 문제를 가릴 수 있다. 인공지능이 비슷한 판단을 반복하거나 설득력 있는 오류에 수렴하면, 시스템 전체가 한 방향으로 쏠릴 위험이 생긴다. 최근 연구에 따르면 서로 다른 모델이 다른 데이터를 다루고 있음에도 마치 한 알고리즘이 내린 결정처럼 같은 결과에 도달하는 현상이 나타나고 있다.
이런 현상은 인간 사회에서도 낯설지 않다. 회의 자리에서 여러 사람이 눈치를 보며 한 의견에만 힘을 실을 때, 혹은 근거보다 유행이나 분위기에 따라 결론이 바뀔 때처럼, 시각의 다양성이 사라지면 결정은 빨라지지만, 방향은 쉽게 틀린다. 인공지능이 복잡한 판단을 대신하게 된 지금, 이런 왜곡을 조기에 감지할 장치가 필요하다.
이를 막기 위해서는 인공지능의 구성과 학습 과정, 평가 방식이 다양해야 한다. 모든 모델이 같은 데이터와 기준으로 훈련된다면 결국 같은 결론에 머무를 수밖에 없다. 사고의 폭을 넓히려면 서로 다른 조건에서 학습된 시스템을 병행하고, 비슷한 결과가 나올 때 그 이유를 분석해야 한다.
성과의 평가는 단기 결과에 그쳐서는 안 된다. 위기나 돌발 상황에서 시스템이 얼마나 빠르게 대응했는지, 정책 변화 이후 집단별 결과가 어떻게 달라졌는지, 과거에 제외됐던 대안이 다시 검토될 만큼 유연하게 작동하는지를 함께 살펴야 한다. 그래야 인공지능이 스스로 조정하며 학습하는 구조로 발전할 수 있다.
딥마인드(DeepMind)의 알파지오메트리(AlphaGeometry)는 이런 평가의 가능성을 보여준다. 복잡한 상황 속에서 전략의 변화를 추적하는 계산 능력은 정책 감시의 새로운 도구가 되고 있다. 그러나 탐색 범위가 넓어질수록 결과를 통제하는 기준도 함께 강화돼야 한다. 복합 전략은 혁신의 기회가 될 수 있지만, 불투명하게 운영된다면 또 다른 위험으로 바뀐다.
공정하게 이기는 전략
복합 전략이 현실에서 작동하려면 실험, 검증, 다양성, 그리고 투명성이 함께 설계돼야 한다. 정책이나 제도를 하나의 방식에 고정하기보다 여러 전략을 번갈아 적용하며 효과를 비교할 수 있는 구조가 필요하다. 이렇게 해야 각 조합의 결과를 정확히 파악할 수 있고, 형평성이나 개인정보 보호, 업무 부담 등 현실적 조건도 함께 고려할 수 있다.
협상과 의사결정에 사용되는 인공지능은 단순한 성과 지표로 평가할 수 없다. 인간의 판단 체계와 얼마나 조화를 이루는지, 특정 집단에 불균형한 영향을 주지 않는지까지 검증해야 한다. 같은 기술이라도 협력을 이끌 수도 있고, 조작의 수단으로 변질될 수도 있기 때문이다.
전략의 다양성 역시 중요하다. 파론도의 역설이 보여주듯 한 방법이 모든 상황을 지배하면 시스템은 환경 변화에 적응하지 못한다. 효율이 낮아 보이는 선택지를 일부 남겨두는 것은 불필요한 낭비가 아니라 변화에 대응하기 위한 안전장치다.
무엇보다 과정은 투명해야 한다. 정책을 적용하거나 실험에 참여하는 사람들은 변화의 이유와 절차를 명확히 알아야 한다. 일정이나 규칙이 바뀔 때 그 근거를 공개하고, 참여자가 직접 결과를 확인할 수 있는 구조를 마련해야 한다. 신뢰는 복잡한 알고리즘보다 공개된 절차에서 형성된다.
인공지능 전략이 남긴 과제
인공지능은 더 이상 하나의 정답을 찾는 존재가 아니다. 여러 약한 선택을 결합해 새로운 해법을 만들어내는 방향으로 진화하고 있다. 이 변화는 효율을 높이는 동시에 판단 과정의 불투명성이라는 위험을 함께 키운다.
앞으로 필요한 것은 통제가 아니라 설계다. 전략이 어떤 과정을 거쳐 형성되는지 공개하고, 다양한 관점을 유지하며, 변화의 흐름을 지속적으로 기록해야 한다. 그렇게 할 때 인공지능의 결정은 조작이 아닌 조정으로 작동할 수 있다. 효율과 공정성, 혁신과 책임의 균형을 어떻게 설계하느냐에 따라 인공지능 시대의 경쟁력이 달라질 것이다.
본 연구 기사의 원문은 Parrondo's Paradox in AI: Turning Losing Moves into Better Education Policy을 참고해 주시기 바랍니다. 본 기사의 저작권은 스위스 인공지능연구소(SIAI)에 있습니다.