입력
수정
기존 오퍼레이터와 딥리서치 결합 챗GPT서 식당 예약하고 PPT 제작 복잡한 실행·조사 분석도 가능

오픈AI가 챗GPT에 범용 인공지능(AI) 에이전트 '챗GPT 에이전트(ChatGPT Agent)'를 새롭게 출시했다. 이 에이전트는 자연어 프롬프트만으로 캘린더 관리, 프레젠테이션 제작, 코드 실행 등 다양한 컴퓨터 작업을 대신 수행한다. 챗GPT가 단순한 문답을 넘어 실제 ‘일하는’ 존재로 진화한 것으로, AI 시장의 경쟁 축이 훈련에서 활용으로 이동했다는 평가가 나온다.
식당 예약부터 심층 조사까지, ‘일하는 AI’로 진화
17일(이하 현지시각) 오픈AI는 웹브라우징과 심층 추론 기능을 결합한 챗GPT 에이전트를 출시했다. 오픈AI가 이번에 공개한 챗GPT 에이전트는 앞서 선보인 ‘오퍼레이터(Operator)’와 ‘딥리서치(Deep Research)’를 통합한 제품이다. 오퍼레이터는 지시 사항에 따라 웹브라우징을 대신 해주는 AI 에이전트로, 웹에서 할 수 있는 일은 대부분 수행하지만 지시 사항이 복잡할수록 이해도가 떨어지는 단점이 있다. 여기에 수백, 수천 개의 웹페이지를 검색해 분석하는 심층 추론 기능 딥리서치를 결합했다. 두 기능이 합쳐지면서 복잡한 작업과 자료 분석 요청까지 함께 처리하는 진화된 형태의 AI 에이전트가 탄생한 셈이다.
챗GPT 에이전트는 웹 페이지 탐색, 클릭, 스크롤, 텍스트 입력 등 시각적 인터페이스 조작은 물론 코드 실행, 파일 생성, 분석, API 호출, 캘린더 연동까지 가능하다. 요청한 작업을 클라우드상의 ‘가상 컴퓨터’가 처리하는 만큼 명령을 내린 후 작업 중인 컴퓨터를 쳐다보고 있을 필요가 없다. 가상 컴퓨터 속에서 웹브라우징이 필요한 일은 마우스와 키보드를 움직이고 뒷단에서 가능한 일은 문자 기반 터미널에서 고속으로 작업한다. 구글 캘린더, 메일, 드라이브 등 외부 서비스를 연결했다면 데이터를 끌어와 처리할 수도 있다. 오픈AI 측은 “‘챗GPT 에이전트’는 웹에서 다수의 페이지를 빠르게 읽고 조사할 수 있으며, 실제 웹사이트 인터페이스를 직접 조작해 업무를 수행한다”며 “사용자 일정에 맞춰 식당 예약도 진행할 수 있다”고 설명했다.
실제 시연에서도 챗GPT 에이전트는 ‘엔비디아 분기 실적에 대한 프레젠테이션 자료를 만들어 달라’는 요청에 따라, 웹 검색으로 관련 문서와 이미지를 수집하고 이미지 생성 API를 활용해 프레젠테이션 파일을 자동으로 생성했다. 또 “화요일부터 목요일 오후 6시~9시 30분 사이 일정 확인 후 오픈테이블에서 이탈리안이나 한식 식당을 예약해 달라”는 요청에도, 구글 캘린더 일정과 연동해 자동 예약을 수행하는 모습이 시연됐다.
챗GPT 에이전트는 챗GPT 웹사이트에서 ‘에이전트 모드’를 선택하거나 ‘agent’라고 입력해 사용할 수 있다. 현재 챗GPT 프로, 플러스, 팀 구독 사용자에게 순차적으로 제공되며, 유럽경제지역(EEA)과 스위스를 제외한 대부분 국가에서 이용 가능하다. 오픈AI는 이번 출시가 챗GPT에 에이전트 기능을 직접 통합하는 것의 시작일 뿐이며, 주기적이고 반복적으로 중대한 개선 사항을 추가하여 시간이 지날수록 챗GPT 에이전트가 더욱 유용하게 사용될 수 있도록 할 계획이라고 밝혔다.

구글에 AI 성능지표 밀린 오픈AI
단순한 웹브라우징 도우미를 넘어선 AI 에이전트 출시는 오픈AI가 최초라는 점에서 이목을 끈다. 경쟁사의 AI 검색·모델 성능 강화 흐름 속에 오픈AI가 초격차 기능으로 반격에 나선 셈이다. 최근 오픈AI는 AI 모델 성능지표에서 정상의 자리를 연달아 빼앗기고 있다. 실제 지난 4월 추론 모델 o3와 o4 미니를 공개한 이후 최신 업데이트는 끊긴 상황이다. 그사이 구글 ‘제미나이 2.5 프로’, xAI ‘그록4’ 등 신형 AI 모델이 호평받고 있다. 현재 AI 성능 평가 플랫폼 LM아레나 1위는 구글 제미나이 2.5 프로가 휩쓸고 있는 상태로, 챗GPT가 1위를 차지하는 분야는 이미지 생성과 편집뿐이다.
AI 시장을 선도하던 오픈AI가 뒤쳐진 건 검색, 상거래, 웹브라우저, 모바일 기기 등으로 사업 영역을 넓히면서 물적·인적 자원이 분산된 데다, 최근 들어 핵심 인재가 잇따라 메타로 유출되면서 AI 개발 속도가 느려졌기 때문이다. 에이전트 출시 전날에도 오픈AI 핵심 연구원인 한국인 정모씨가 메타 초지능팀으로 이직했다는 소식이 전해졌다. 오픈AI는 보상 강화를 선언했으나 자금력이 탄탄한 메타와 끊임없이 외부 자금 투입이 필요한 오픈AI 간 치킨게임에는 한계가 있을 수밖에 없다는 평가다.
이에 오픈AI는 이번 AI 에이전트 출시를 통해 경쟁사의 도전에 대응하겠다는 전략이지만, 검색·상거래 등 플랫폼과 모바일 생태계를 거머쥔 구글의 반격도 만만치가 않다. 16일 구글은 미국 내 AI 검색에 ‘제미나이 2.5 프로’ 추론·딥리서치 기능을 도입한다고 밝혔다. 구글 검색에 제미나이의 모든 기능이 통합된 것으로, 챗GPT 검색과 퍼플렉시티 등에 사용자를 빼앗기던 구글이 고성능 AI를 앞세워 역습에 나서는 양상이다.
같은 날 구글이 공식 출시한 ‘AI 비즈니스 전화’에도 플랫폼의 강점을 활용하겠다는 전략이 고스란히 드러난다. 사용자를 대신해 AI가 업체에 전화를 걸어 가격·재고 등 실시간 정보를 수집하는 기능이다. 표면적으로는 AI 전화일 뿐이지만 실상은 ‘비정형 오프라인 상거래 데이터 수집’이 목적이다. 실시간 업데이트가 힘든 소상공인 데이터를 AI 전화로 수집해 상거래와 연결하겠다는 의도가 엿보인다.
AWS, ‘베드록 에이전트코어’ 공개
아마존웹서비스(AWS)도 AI 에이전트 전쟁 참전을 알렸다. 17일 AWS는 기업 고객들이 내부 업무 자동화는 물론 소비자와의 상호작용 방식까지 바꿀 수 있는 다양한 AI 에이전트 도구인 '아마존 베드록 에이전트코어(Amazon Bedrock AgentCore)' 프리뷰 버전을 공개했다. 베드록 에이전트코어는 개발자들이 아마존 베드록 등으로 AI 에이전트를 신속하게 대규모로 배포할 수 있도록 지원한다.
AWS 관계자는 "일부 오픈소스 프레임워크(CrewAI·LangGraph·LlamaIndex 등) 덕에 AI 에이전트 개발·구축이 용이해 졌지만, 실제 프로덕션 단계로 전환하려면 세션 관리·신원 제어·메모리 시스템 등 핵심 인프라 설계에 장시간이 소요되고 보안 요건도 충족해야 한다"며 "베드록 에이전트코어는 기존 에이전트 코드를 유지하면서 엔터프라이즈급 요구사항을 점진적으로 구현할 수 있는 모듈형 접근 방식을 제공한다"고 설명했다.
구체적으로 에이전트코어 런타임(AgentCore Runtime)은 모든 프레임워크·도구·모델을 지원하는 저지연 서버리스 환경을 제공한다. 멀티모달 워크로드·장기 실행 에이전트 등에 적합하다. 에이전트코어 메모리(AgentCore Memory)는 단기·장기 메모리를 통합 관리해 모델이 관련 컨텍스트를 활용할 수 있도록 돕고, 에이전트코어 옵저버빌리티(AgentCore Observability)는 단계별 실행 시각화와 메타데이터 태깅, 커스텀 스코어링, 트래킹 등 진단 기능을 제공한다.
에이전트코어 아이덴티티(AgentCore Identity)는 AI 에이전트가 사용자를 대신하거나 사전 승인된 사용자 동의에 따라 AWS 서비스·깃허브(GitHub)·세일즈포스(Salesforce)·슬랙(Slack) 등의 외부 도구에 안전하게 접근할 수 있도록 설계됐다. 마지막으로 에이전트코어 게이트웨이(AgentCore Gateway)는 기존 API ·AWS Lambda 함수를 에이전트 도구로 변환하고 MCP 등 프로토콜 전반에 통합 액세스와 런타임 탐지 등을 지원한다.