입력
수정
올트먼 "GPT-5는 박사급 전문가와 대화하는 느낌" 연산·코딩·작문·의료 등 전반에 걸쳐 비약적인 향상 성능 평가에서 최고 기록 경신, 토큰 사용량은 줄여

오픈AI가 차세대 인공지능(AI) 모델 'GPT-5'를 출시했다. 'GPT-4' 출시 2년 만에 선보인 신규 모델로 일반 모델과 추론 모델을 결합한 오픈AI 최초의 '통합형 모델'이다. 연산 능력과 실용성, 창의성 등 전방위적으로 성능이 강화되면서 광범위한 질문에 답하는 것은 물론 전문가 수준의 답변을 스스로 판단해 제공하는 '사고형 파트너'로 진화했다는 평가다.
"GPT-5, 범용인공지능 향한 중요한 진전"
7일(현지시각) 오픈AI는 자사의 최신 생성형 AI 모델 GPT-5를 공개했다. 샘 올트먼 오픈AI 최고경영자(CEO)는 공개 하루 전인 지난 6일 사전 브리핑을 통해 "GPT-5는 큰 도약이며, 범용인공지능(AGI)을 향한 중요한 진전"이라고 말했다. 그는 "GPT-5가 지금까지 출시한 자사 AI 모델 가운데 가장 똑똑하고, 빠르고, 가장 유용한 모델"이라며 "GPT-3는 고등학생과 대화하는 느낌이었다면 GPT-4는 대학생과 대화하는 느낌이었고, 이제 GPT-5는 박사급 전문가와 대화하는 느낌"이라고 강조했다.
GPT-5는 오픈AI의 일반 대화형 모델인 'GPT-4o'와 고성능 추론 모델 'o3'를 업그레이드해 통합한 버전으로, 사용자들은 이제 챗GPT 이용 시 일반 모델이나 추론 모델을 선택할 필요 없이 통합 모델에서 원하는 답변을 얻을 수 있다. 앞서 올트먼 CEO는 지난 2월 "모델이 너무 복잡하다는 점을 인식하고 있으며, 앞으로 제품군을 단순화하는 데 집중할 계획"이라고 밝힌 바 있다. GPT-5는 모든 사용자를 대상으로 공개되며 유료 구독자는 보다 많은 사용량과 확장된 추론 기능을 갖춘 GPT-5 프로 버전을 이용할 수 있다.

환각·아첨 현상 크게 줄이고 글쓰기 능력 진화
GPT-5는 전 영역에 걸쳐 비약적인 성능 향상을 이뤄냈다. 특히 수학, 코딩, 작문, 의료, 시각 인식 분야에서 두드러진 성과를 보였다. 오픈AI는 "GPT-5가 허위 정보를 생성하는 환각(Hallucination)과 무분별한 동의 반응인 아첨(Sycophancy) 성향을 크게 줄여 실용성을 높였다"고 설명했다. 창의적 글쓰기 능력도 진화해, 정형화된 운율을 따르지 않는 자유시나 문학적 비유가 풍부한 글을 자연스럽게 구사한다. 예를 들어 GPT-5는 '더는 존재하지 않는 나라의 검은 깃발'과 같은 은유적 표현을 통해 섬세한 감정선을 표현할 수 있다.
코딩 분야에서는 복잡한 프론트엔드 웹사이트나 앱·게임을 단 한 번의 프롬프트로 생성하는 능력을 보여준다. 초기 테스터들은 "소프트웨어 엔지니어링 전반에서 두드러진 개선이 이뤄졌다"며 "옛 코드가 얽힌 복잡한 대규모 코드 베이스를 수정하는 실무형 과제에서 뛰어난 성능을 발휘했으며, 간격 조정이나 타이포그래피 등 미적 감각도 갖췄다"고 설명했다. 일부 테스터들은 오픈AI가 약점으로 꼽혀 온 실무형 코딩 영역에서 확실한 진전을 보이면서 경쟁 모델인 앤트로픽의 클로드 소네트 4보다 뛰어난 코딩 역량을 보여줬다고 평가했다.
의료 분야에서는 사용자의 지식 수준과 지역적 맥락을 고려해 맞춤형 정보를 제공한다. 단순한 정보 제공을 넘어 잠재적인 우려 사항을 먼저 지적하고 추가 질문을 던지는 적극적인 '생각 파트너' 역할을 수행한다. 다만 이러한 기능이 의료 전문가를 대체할 수는 없다고 오픈AI는 선을 그었다. 생물학 등 민감한 '이중 사용' 분야에 대해서는 새로운 '안전 완성(safe completions)' 훈련법을 도입했다. 악용될 소지가 있는 질문에 무조건 답변을 거부하는 대신 안전한 경계 내에서 최대한 유용한 정보를 제공하도록 설계됐다.
각종 성능 평가 벤치마크에서도 역대 최고 기록을 경신했다. △대학 경쟁 수준 수학 문제(AIME 2025) 94.6% △소프트웨어 엔지니어링(SWE-bench) 74.9% △대학 수준 시각 문제 해결(MMMU) 84.2% 등의 정답률을 기록했다. 유료 버전인 GPT-5 프로는 박사 수준의 과학 질문(GPQA)에서 88.4%의 정확도를 달성했다. 성능 개선과 함께 효율성은 대폭 개선됐다. 프롬프트 캐싱(Prompt Caching)을 활용해 반복되는 요청에 대한 중복 계산을 줄이고, 모델이 입·출력을 효율적으로 처리하도록 설계돼 토큰 사용량이 최대 80%까지 절감됐다.
xAI 그록·구글 제미나이와 주도권 경쟁 본격화
오픈AI가 최신 모델을 발표함에 따라 AI 주도권 경쟁은 더욱 격화할 것으로 보인다. 지난해 오픈AI는 '오라이온 프로젝트'를 통해 차세대 모델의 성능을 끌어 올리려고 했으나 스케일링의 한계에 부딪혀 실패했고, 이후 선보인 비추론 모델 'GPT-4.5' 역시 기대에 미치지 못하며 빠르게 폐기됐다. 연이은 실패로 GPT-5에 대한 우려도 커졌다. 당초 올해 상반기 출시가 예상됐지만, 지난달까지 구체적인 일정 발표가 미뤄지며 출시 지연설이 제기됐다. 내부 테스트와 서버 용량 확보, 추가 검증 등 개발 과정에서 발생한 복합적인 이슈들이 일정 지연의 원인으로 지목됐다.
오픈AI가 GPT-5 출시를 미루는 사이 경쟁사인 구글과 xAI가 각각 '제미나이 2.5 프로'와 '그록4'를 출시하며 오픈AI와의 성능 경쟁에서 앞서 나갔다. 이에 일각에서는 GPT-5가 출시되더라도 이제 ‘새 시대를 여는 모델’이 아닌 ‘뒤처진 격차를 메워야 할 모델’이 됐다는 지적이 나왔다. 실제로 AI 벤치마크 전문 기관 아티피셜 애널리시스에 따르면 AI 성능 테스트에서 그록4가 총점 73점으로 전체 1위에 올랐고, 제미나이 2.5 프로는 70점으로 2위에 이름을 올렸다. 당시 오픈AI의 최신 멀티모달 모델인 GPT-4o는 68점으로 5위권에 머물렀다.
특히 영상 AI 분야에서 구글이 강세를 보였다. 최근 구글은 영상 생성 모델 '비오3'에 이미지 투 비디오(image-to-video) 기능을 추가했다. 유튜브 데이터를 기반으로 한 이 모델은 사진 한 장과 텍스트 설명만으로 최대 8초 분량의 고해상도 영상을 자동 생성하고, 음향 삽입과 애니메이션 효과도 지원한다. 구글은 "비오3를 통해 지금까지 159개국에서 4,000만 개 이상의 영상이 제작됐다"며 "비오 모델은 생성 속도와 결과물의 품질 모두에서 일반 사용자들 사이에서 가장 직관적이고 완성도 높은 영상 생성 툴로 평가받고 있다"고 강조했다.