입력
수정
LLM, 성능 높아지며 프로그래머 대체재로 떠올라 과제·난이도·텍스트길이 등 모든 면에서 우위 "텍스트 데이터 활용한 연구 크게 증가할 것" 기대
더 이코노미(The Economy) 및 산하 전문지들의 [Deep] 섹션은 해외 유수의 금융/기술/정책 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 본사인 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.
최근 텍스트 분석에서 대형언어모델(LLM)이 프로그래머보다 더 뛰어난 성과를 거뒀다는 연구 결과가 발표됐다. 해당 연구 결과는 텍스트 분석의 진입 장벽이 한층 낮아졌음을 방증한다는 점에서 유의미하다. 이에 따라 경제학자를 비롯한 자연어 처리를 전공하지 않은 연구자들도 LLM을 활용해 텍스트를 분석할 수 있게 됐다.
텍스트 분석의 한 줄기 빛 'LLM'
그간 경제학자들은 가구소득, 소비지출 등 표 형식으로 정리된 데이터를 주로 분석해 왔지만, 최근에는 텍스트 데이터의 잠재력을 인정하고 정량적인 방법으로 다루기 어려운 현상을 설명하는 데 텍스트 데이터를 활용하고 있다. 연방공개시장위원회(FOMC) 회의록을 활용한 통화정책 예측, 뉴스 감정분석을 통한 주가 예측 등의 연구가 대표적이다.
하지만 경제학자들은 텍스트 데이터의 진입장벽이 높아, 이를 분석하는 데 적잖은 어려움을 겪었다. 특히 자연어 처리를 전공하지 않은 연구자에게 텍스트 데이터는 높은 벽으로 작용했다. 이에 텍스트 데이터를 활용하고자 하는 연구자들은 주로 외주업체에 맡겨 분석을 진행했는데, 이 방법도 모든 문제를 해결해 주지는 못했다. 더군다나 외주를 맡기는 데는 많은 시간과 비용이 들었으며, 외주업체가 연구 분야에 대한 지식이 없는 경우 종종 이상한 방향으로 분석이 흘러가기도 했다.
이런 와중에 떠오른 대안이 바로 LLM이다. LLM은 2022년 11월 챗GPT(ChatGPT)가 등장한 이후 빅테크 기업들의 경쟁이 치열해지면서 급속도로 성장했다. 현재는 코딩, 문서 작성 등 여러 업무에서 LLM에 도움받을 정도로 성능이 많이 향상된 상태다.
에사데대학 학생 vs LLM '대결'
이를 검증하기 위해 비센테 베르메호(Vicente Bermejo) 스페인 에사데(ESADE) 대학교 경제학과 조교수를 비롯한 2명의 연구진은 텍스트 분석에서 외주를 맡은 프로그래머와 LLM의 성과를 비교했다.
연구에 사용한 텍스트 데이터는 재정건전성을 다룬 210건의 스페인 뉴스로, 연구진은 해당 데이터가 텍스트 분석 모델이 글의 맥락을 이해했는지 평가하는 데 적합하다고 판단했다. 해당 뉴스를 이해하기 위해서는 전반적인 금융 지식이 필요한 데다, 뉴스에는 재정 정책, 정치적 비판 등 복잡한 논의가 포함돼 있어 단순한 키워드 매칭만으로는 좋은 성과를 내기 어렵다고 봤기 때문이다.
연구진은 데이터를 정한 다음 분석할 과제를 정의했다. 연구진에 따르면 재정건전성에 관한 뉴스는 3,000개 이상의 지자체에 영향을 미쳤으며, 일부는 지자체에 대한 비판도 담겨 있었다. 이에 연구진은 ‘비판’에 중점을 두고 과제를 정의하면서 각 과제의 난이도가 점차 올라가도록 설정했다. 또한 연구진은 분석 주체로 LLM과 외주 프로그래머를 다음과 같이 설정했다. LLM은 △GPT-3.5 터보(GPT-3.5 turbo) △GPT-4 터보(GPT-4 turbo) △클로드 3 오푸스(Claude 3 Opus) △클로드 3.5 소네트(Claude 3.5 Sonnet) 등 최신 네 가지 LLM 모델을 분석 주체로 삼았다.
다음으로는 스페인 에사데대학교 내에서 프로그래머를 선별했다. 에사데대학교는 2024년 파이낸셜 타임스(Financial Times)가 발표한 글로벌 MBA 순위에서 세계 17위를 달성한 대학으로, 스페인뿐만 아니라 유럽 전역에서 명성 떨치고 있는 학교다. 총선발된 학생은 146명으로, 각자 3개의 기사를 분석해 결과를 내놨다.
압승 거둔 LLM
연구진은 분석 주체를 명확히 한 뒤 과제에 따른 성능을 비교했다. 그 결과 네 가지 LLM 모두 외주를 맡은 학생들보다 우수한 성과를 거뒀다. 연구에 사용된 LLM 중 가장 오래된 GPT-3.5 터보마저도 프로그래머의 성과를 가뿐히 뛰어넘었으며, 최신 모델이 될수록 그 격차는 더욱 벌어졌다.
작업 난이도를 고려했을 때도 LLM은 여전히 프로그래머보다 뛰어났다. 일상적이고 반복적인 작업을 수행하는 데 이점이 있다고 알려진 LLM이지만, 어려운 작업에서도 인간보다 뛰어난 성능을 보였다.
심지어 텍스트 길이에 따라 작업을 나눴을 때도 LLM이 프로그래머보다 더 나은 성능을 보였다. 텍스트 분석은 일반적으로 텍스트 길이가 길어질수록 어려운 도전이 된다. 이에 따라 긴 텍스트 분석에서는 상대적으로 LLM과 프로그래머 모두 낮은 정확도를 보이지만 LLM은 긴 텍스트에서마저도 프로그래머를 뛰어넘은 것이다.
연구진은 모든 과제에서 LLM이 프로그래머보다 우수한 결과를 내자, 학생들이 성의 없이 작업한 것은 아닌지 의구심을 드러냈다. 이를 확인하고자 T1~T5 작업에 대해 학생들이 한 답변이 무작위로 답변한 것과 큰 차이를 보이는지 검증했다. 그 결과 학생들의 답변은 무작위로 답변한 것보다 훨씬 뛰어났으며, 대부분의 분석도 의미 있는 것으로 파악됐다.
연구진은 LLM이 성능뿐만 아니라 비용과 시간 측면에서도 효율적이라는 점을 강조했다. LLM이 연구에서 작업을 수행하는 데 드는 비용은 △GPT-3.5 터보(0.20달러) △GPT-4 터보(3.46달러) △클로드 3 오푸스(8.53달러) △클로드 3.5 소네트(2.28달러)에 불과했으며, 결과는 몇 분 내에 받을 수 있었다. 반면 외주에서 드는 비용은 훨씬 컸다. 게다가 146명의 참가자 모집 및 관리, 데이터 수집 과정 조율 등 상당한 시간도 들여야만 했다.
원문의 저자는 비센테 베르메호(Vicente Bermejo) 스페인 에사데(ESADE)대학교 경제학과 조교수 외 2명입니다. 영어 원문은 Generative AI as a replacement for human coders in large-scale complex text analysis: New evidence from large language models | CEPR에 게재돼 있습니다.