[AI MEMO] 에이전틱 AI 시대, 모델 성능보다 기업 운영 역량이 경쟁력 좌우
[AI MEMO] 에이전틱 AI 시대, 모델 성능보다 기업 운영 역량이 경쟁력 좌우
입력
수정
AI 도입 확산에도 실제 성과 창출은 제한적 평가 기준 모델 성능에서 운영 역량 중심으로 이동 안정적 운영 여부에 따라 기업 경쟁력 차이 확대
본 연구 기사는 유럽 경제 연구소 The Economy의 연구위원(Fellow)들이 작성한 The Economy Review 시리즈 기고문을 한국 시장 상황에 맞춰 재구성한 글입니다. 본 시리즈는 최신 기술-경제-정책 이슈에 대해 연구자의 시각을 담아, 일반 독자들에게도 이해하기 쉽게 전달하는 것을 목표로 합니다. 기사에 담긴 견해는 집필자의 개인적인 의견이며, The Economy 또는 집필자의 소속 기관의 견해와 일치하지 않을 수 있습니다.

기업의 약 90%가 인공지능(AI)을 도입했지만, 이를 실제 사업 성과로 연결한 사례는 제한적인 것으로 나타났다. 그동안 AI 평가는 통제된 환경에서 AI 에이전트가 과업을 정확하게 수행하는지에 초점이 맞춰져 있었다. 그러나 이런 방식만으로는 현장의 복잡한 조건을 반영하기 어렵다.
이에 따라 AI 에이전트 평가 기준의 재정비가 필요해진다. 기존처럼 에이전트의 답변 정확도만 보는 방식에 머물지 않고, 실제 업무에서 어떻게 작동하며 어떤 결과를 만들어내는지까지 함께 살펴야 한다. 이 과정에서 에이전트를 안정적으로 운영하고 성과로 이어내는 실행력이 경쟁력을 좌우하는 핵심 요소로 자리 잡는다.
모델 평가에서 실행 역량 중심으로 전환
초기 AI 평가는 모델의 언어 품질을 중심으로 이뤄졌다. 챗봇과 텍스트 생성기가 주류였던 시기에는 최신성, 편향 여부, 안전성, 맥락 적합성이 주요 기준으로 활용됐다. 하지만 AI 에이전트는 성격이 다르다. 스스로 계획을 세우고 외부 도구를 활용하며 기록을 갱신하고, 다른 에이전트와 협업해 업무를 이어간다. 여러 시스템과 연결된 상태에서 실제 작업을 수행하는 구조다.
이러한 변화는 AI 활용 방식 자체를 바꿔놨다. 운영 기반이 충분하지 않은 상태에서 고성능 에이전트를 투입하면 오류와 리스크가 확대될 가능성이 크다. 반면 체계가 정리된 조직에서는 상대적으로 성능이 낮은 에이전트도 안정적으로 활용된다. 이런 결과의 차이는 기술 수준보다AI를 운영하고 통제할 수 있는 조직의 준비 정도에서 드러난다.

운영 통제 중심으로 바뀌는 평가 기준
에이전틱 AI 확산은 평가 방식도 바꿔놨다. 기존에는 모델 성능 중심으로 판단했다면, 최근에는 위험 관리와 규제 대응, 조직의 운영 체계와 책임 구조까지 함께 점검하는 방향으로 넓어졌다. 이 같은 변화는 실제 운영에서 더 분명히 드러난다. 재무 처리나 자재 구매 업무에서 속도가 빨라졌더라도, 업무 절차와 책임 구조가 정리돼 있지 않으면 성과로 보기 어렵다. 어떤 데이터가 사용됐고, 의사결정이 어떤 과정을 거쳤는지 확인되지 않으면 결과의 신뢰도 확보 또한 쉽지 않다.
이렇다 보니 에이전틱 AI 평가 역시 운영 수준을 중심으로 이뤄진다. 업무를 어떻게 구분하고 AI 에이전트를 어디에 투입하는지, 결과를 어떤 기준으로 점검하는지가 핵심이다. 특히 중요한 판단 과정에서 사람의 개입이 어떻게 이뤄지는지도 함께 확인된다. 이러한 요소를 안정적으로 관리하는 기업일수록 실제 환경에서 높은 평가를 받는다.

평가 기준 혼재 속 드러나는 운영 격차
글로벌 컨설팅 기업 맥킨지의 2025년 조사에 따르면 기업의 62%가 AI 에이전트를 도입해 활용하고 있지만, 이를 조직 전반으로 확장한 비율은 23%에 그쳤다. 도입 속도에 비해 운영 역량이 충분히 뒷받침되지 못한 것이다. 이 격차는 노동 구조에도 영향을 준다. 운영 기반이 갖춰진 기업은 반복 업무를 AI 에이전트로 전환하고 숙련 인력의 역할을 확장하는 반면, 준비가 부족한 조직은 자동화 의존도가 높아지면서 오류 수정과 재작업 부담이 커진다.
성과는 기술 자체보다 업무를 구조화하고 안정적으로 운영하는 능력에 따라 좌우된다. 그런 만큼 인력 구조 변화도 함께 살펴야 한다. 주니어 인력의 학습 기회가 줄어들거나 책임 구조가 불분명해질 경우 단기 효율이 장기 경쟁력 약화로 이어질 수 있다. 에이전틱 AI 평가가 기술뿐 아니라 인력 운영과 교육 체계까지 포함하는 방향으로 확대가 필요한 이유다.
에이전틱 AI 평가는 과업 수행 결과만으로 판단하지 않는다. 결과가 도출됐더라도 내부 기준을 지키지 못하거나 필요한 정보가 반영되지 않으면 신뢰하기 어렵다. 특히 금융·의료·조달처럼 관리 기준이 엄격한 분야에서는, 결과가 조직의 통제 체계 안에서 검증됐는지가 핵심 기준으로 작용한다.
따라서 기업은 AI 에이전트의 적용 범위와 한계, 관리 책임, 개입과 중단 조건을 명확히 제시해야 한다. AI 도입이 보편화된 상황에서 경쟁력은 운영 수준에서 드러난다. 시장에서의 우위는 결국 안정적인 관리와 검증 가능한 결과를 확보한 기업에 달려 있다.
본 연구 기사의 원문은 The Next AI Ranking Will Measure the Firm, Not the Model을 참고해 주시기 바랍니다. 본 기사의 저작권은 The Economy에 있습니다.