Skip to main content

[AI MEMO] 법률·과학 분야서 반복된 오류, 매끄러운 LLM 답변 그대로 써도 될까

[AI MEMO] 법률·과학 분야서 반복된 오류, 매끄러운 LLM 답변 그대로 써도 될까

Picture

Member for

1 year 7 months
Real name
이효정
Position
기자
Bio
[email protected]

지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

확률적 언어 생성과 인과 판단의 거리
환각·오판이 만드는 보이지 않는 오류
검증 절차가 좌우하는 제도적 신뢰

본 연구 기사는 유럽 경제 연구소 The Economy의 연구위원(Fellow)들이 작성한 The Economy Review 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술-경제-정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적인 의견이며, The Economy 또는 집필자의 소속 기관의 견해와 일치하지 않을 수 있습니다.


거대언어모델(LLM)은 기술적 실험 단계를 넘어, 제도 운영에 영향을 미칠 수 있는 잠재적 위험 요인으로 인식되고 있다. 2023년부터 2025년까지 진행된 공개 점검 결과를 보면, 법률 특화 LLM은 실제와 유사한 법률 질문의 약 6분의 1에서 존재하지 않는 판례나 인용을 제시한 것으로 나타났다. 과학 논문을 요약하는 과정에서도 30~70% 범위의 오류가 보고됐다.

겉으로 드러나는 언어 능력은 분명 눈에 띄게 개선됐다. 문장은 한층 자연스럽고 설득력 있게 다듬어졌다. 그러나 왜 그런 결론에 도달했는지를 설명하는 인과적 이해는 그 발전 속도를 따라가지 못했다는 지적이 이어진다.

문제는 단순한 오답의 비율에 있지 않다. 그럴듯하게 들리는 문장이 충분한 검증 없이 정책이나 행정 판단에 반영될 수 있다는 점에서 위험의 성격이 달라진다. 이 지점에서 LLM의 한계는 의사결정 전반의 리스크로 확장된다.

확률 기반 생성의 인과 공백

LLM의 한계는 모델의 설계 방식에서 비롯된다. 이 시스템은 방대한 텍스트 속에서 함께 등장한 단어와 문장을 학습하고, 그 흐름에 따라 가장 가능성이 높은 다음 문장을 예측한다. 다시 말해 통계적으로 자주 연결된 표현을 중심으로 답을 구성하는 구조다. 이에 따라 문장은 자연스럽게 이어지고, 전체 맥락도 그럴듯해 보인다.

하지만 정책 설계나 교육 현장의 판단은 다른 절차를 거친다. 어떤 조치가 왜 효과를 냈는지, 원인과 결과가 실제로 연결되는지를 확인해야 한다. 이 과정에는 단순한 연관성 이상의 검증이 필요하다. 인공지능(AI) 정책기관인 스탠퍼드 인간중심 AI 연구소(HAI)는 법률 LLM이 실제 존재하지 않는 판례를 인용한 사례를 구체적으로 제시했다. 영국 왕립학회 학술지 로열 소사이어티 오픈 사이언스(Royal Society Open Science) 역시 과학 논문 요약 과정에서 과장과 출처 왜곡이 반복적으로 나타났다고 밝혔다.

이 데이터가 전하는 메시지는 복잡하지 않다. 매끄럽게 이어지는 문장이 곧 타당한 판단을 보장하지는 않는다는 점이다. 언어의 유창함과 인과적 이해 사이에는 분명한 거리가 존재한다. 이를 충분히 인식하지 못하면, 제도와 정책은 검증의 과정 대신 표현의 설득력에 기대어 움직일 가능성이 커진다.

주: LLM은 예측 정확도에서는 높은 점수를 보이지만, 인과 검증과 작동 원리의 투명성에서는 제도적 판단 기준에 미치지 못하는 격차가 나타난다.

환각과 오판, 성격 다른 두 위험

LLM이 안고 있는 위험은 크게 두 갈래로 나뉜다. 하나는 환각(hallucination)이다. 실제로 존재하지 않는 판례나 인용, 사건을 만들어내는 현상이다. 눈에 비교적 잘 드러나기 때문에 출처를 확인하고 교차 검증을 거치면 상당 부분 걸러낼 수 있다. 불확실성을 명시하고 외부 점검을 병행하면 통제 가능성도 높아진다.

그러나 더 조심해야 할 영역은 오판이다. 이 위험은 매끄러운 문장 속에 자연스럽게 스며든다. LLM은 원인과 결과를 이해해 결론을 도출하기보다, 과거 텍스트에서 자주 함께 등장한 표현을 연결해 답을 구성한다. 그래서 설명은 논리적으로 보이나, 왜 그런 판단에 이르렀는지를 끝까지 짚어 보면 근거가 충분하지 않은 경우가 있다.

AI 성능평가 기관 프롬프트레이어(PromptLayer)는 사례를 제시하면 모델이 인과 구조를 따라가는 듯 보이지만, 조건을 조금만 바꿔도 결과가 쉽게 흔들린다고 설명했다. 국제 AI 공동연구진 브런디지(Brundage et al.) 역시 분야에 특화된 모델조차 해당 분야 질문에서 일정 비율의 허위 정보를 만들어낸다고 지적했다. 이는 단순한 계산 실수의 반복이라기보다, 맥락 변화에 민감하게 반응하는 작동 방식에서 비롯된 현상에 가깝다.

결국 환각과 오판은 성격이 다르다. 눈에 보이는 오류만 줄인다고 해서 판단의 질이 곧바로 높아지지는 않는다. 더 큰 문제는 틀렸다는 신호 없이 그럴듯하게 이어지는 판단 과정에 있다.

반복된 점검이 드러낸 한계

이러한 특성은 여러 점검에서도 비슷하게 확인된다. 2023년부터 2025년까지 진행된 연구들은 전문성이 요구되는 법률·과학 분야에서도 모델의 답변이 일정 수준의 오류를 반복한다고 보고했다. 특히 인과 추론 능력을 평가하는 시험에서는 겉보기 성능이 개선된 것처럼 보였지만, 문제의 조건을 바꾸거나 단서를 일부 제거하면 결과가 크게 흔들렸다.

주: 법률 특화 모델 점검, 과학 논문 요약 평가, 인과 추론 벤치마크 시험 결과를 종합하면 LLM의 환각과 판단 오류가 특정 사례에 그치지 않고 반복적으로 관찰됐다. 특히 단서를 제거한 조건에서 인과 추론 실패율이 높게 나타나, 환경 변화에 대한 민감성이 확인된다.

특히 맥락을 조금 변형하는 것만으로도 판단의 일관성이 약해졌다. 표면적으로는 안정적으로 보이던 답변이 환경 변화에 따라 쉽게 균형을 잃는 모습이 관찰됐다. 이는 특정 모델의 일시적 문제라기보다, 설계 방식에서 비롯된 특성으로 해석하는 시각이 힘을 얻고 있다.

미국 과학 전문지 사이언티픽 아메리칸(Scientific American)은 AI와 인간 지능의 작동 방식이 근본적으로 다르다고 설명했다. 언어 표현이 한층 자연스러워졌다고 해서 사고 능력까지 같은 폭으로 향상됐다고 단정하기는 어렵다는 분석이다. 국제 논문 저장소 arXiv preprint에 공개된 여러 연구와 기타 보고서들도 유사한 결론을 제시했다. 서로 다른 연구진이 다양한 조건에서 실험했지만, 반복적으로 비슷한 한계를 확인했다는 점에서 공통된 메시지가 형성됐다.

물론 수치를 해석할 때는 신중함이 필요하다. 연구마다 오류를 정의하는 기준이 다르고, 시험 설계 방식도 다르다. 어떤 연구는 허구의 인용을 모두 환각으로 분류하고, 다른 연구는 명백한 사실 오류만 집계한다. 그럼에도 전반적인 흐름은 크게 다르지 않다. LLM의 한계는 우연한 결함이 아니라 설계 방식과 연결된 특성이라는 점이 여러 차례 확인됐다. 정책과 행정 현장에서는 이러한 가능성을 전제로 한 점검과 설계가 필요하다.

검증을 전제로 한 책임 설계

이 같은 특성을 인정한다면, 제도와 책임 체계도 그에 맞게 조정해야 한다. 기술을 도입하는 결정만으로는 충분하지 않다. 어떻게 활용할지, 그리고 그 결과에 대해 누가 책임을 질 것인지까지 함께 설계하는 일이 뒤따라야 한다. 우선 내부 원칙을 분명히 세울 필요가 있다. LLM의 답변을 정책이나 예산 결정의 최종 근거로 삼지 않는다는 기준이다. 특히 파급력이 큰 사안일수록 인간이 추론 과정과 근거를 다시 검토하는 절차가 포함돼야 한다. 단순한 사실 확인에 그치지 않고, 결론에 이르는 논리의 흐름을 점검하는 단계가 필요하다.

또한 LLM이 제안한 프로그램이나 정책 초안에는 일정한 형식을 요구할 수 있다. 인과 관계를 어떻게 설정했는지 명확히 밝히고, 최소 두 개 이상의 독립된 출처를 제시하며, 가능하다면 소규모 시범 운영 계획까지 포함하도록 하는 방식이다. 이런 장치는 문장의 설득력에 기대기보다, 판단의 근거가 어디에서 나왔는지를 드러내는 데 의미가 있다.

도입 단계에서도 기준은 중요하다. LLM 계약에 훈련 데이터의 출처, 유사 상황에서의 환각 발생률, 문제가 발생했을 때의 책임 범위를 명시하도록 요구할 수 있다. 이는 재무 감사에 준하는 독립 점검 체계로 이어질 수 있다. 기술 성능을 정기적으로 확인하고 그 결과를 공유하는 절차가 마련되면, 신뢰 역시 점진적으로 쌓일 수 있다.

현장의 역량 강화도 빼놓을 수 없다. 교사와 관리자에게 사전·사후 비교, 대안 요인 점검, 소규모 실험 설계와 같은 기본적인 검증 방법을 교육하는 일은 큰 비용을 필요로 하지 않는다. 대신 판단의 안정성을 높이는 데 도움을 준다. 검증은 혁신을 늦추기 위한 장치가 아니다. 시행착오로 인한 비용을 줄이기 위한 안전망에 가깝다. LLM은 초안 작성이나 아이디어 탐색 단계에서 충분히 활용할 수 있다. 다만 최종 판단은 인과 검증을 거친 인간의 책임 아래 두는 것이 바람직하다. 기술은 도구로 기능하고, 판단과 책임의 중심은 여전히 사람에게 있다.


본 연구 기사의 원문은 When Probable Words Mislead: Reframing LLM Limitations as a Decision Risk을 참고해 주시기 바랍니다. 본 기사의 저작권은 The Economy에 있습니다.

Picture

Member for

1 year 7 months
Real name
이효정
Position
기자
Bio
[email protected]

지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.