Skip to main content

[해외 DS] 생성형 AI가 만든 데이터를 학습한 AI는 결국 오류를 낳는다

[해외 DS] 생성형 AI가 만든 데이터를 학습한 AI는 결국 오류를 낳는다

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


1000005735
사진 = Scientific American

생성형 AI로 우리가 사는 세상은 나날이 편리해지고 있다. 코딩을 잘 모르는 비전공자도 이제는 챗GPT를 활용해 전에는 넘보지 못했던 개발을 시도해 볼 수 있다. 심지어 디자인에 문외한이더라도 미드저니(Midjourney), DALL-E2 등의 이미지 생성 툴들을 활용해 인간 디자이너의 작업물과 맞먹는 수준의 콘텐츠를 뽑아낼 수 있다.

이렇듯 생성형 AI를 실생활에 활용할 수 있는 범위가 확대되는 가운데, 인터넷에는 생성형 AI가 만들어 낸 콘텐츠들이 쏟아지고 있다. 예컨대 세계적인 테크 언론사 씨넷(CNET), 기즈모도(Gimodo) 등을 비롯한 수많은 웹사이트가 대규모 언어 모델(Large Language Model)을 활용해 다양한 기사를 써내고 있는 것으로 알려졌다.

그런데 최근 생성형 AI가 만들어 낸 콘텐츠로 학습한 모델이 잘못된 결과를 출력할 수 있다는 지적이 제기됐다. 이와 관련해 스코틀랜드 에든버러 대학교 소속 컴퓨터 과학자 릭 사카르는 "인터넷에 퍼져 있는 생성형 AI 콘텐츠를 학습한 차세대 대규모 언어 모델이 오류를 확대 재생산할 우려가 있다"며 무분별한 생성형 AI 활용에 주의를 당부했다.

차세대 생성형 AI, 인터넷에 퍼진 기존 AI의 오륫값 그대로 학습한다

영국 옥스포드 대학 교수 일리아 슈마일로프가 주축으로 구성된 연구팀이 발표한 논문인 '재귀의 저주(The curse of Recursion)'에 따르면, AI가 생성한 콘텐츠가 차기 생성형 AI의 훈련 데이터에 조금이라도 포함되면 결국 해당 모델에게 악영향을 주게 되는 '모델 붕괴(Model Collapse)'가 발생한다. 슈마일로프는 이같은 현상이 여러 차례에 걸쳐 반복되면 결국 "모델이 쓸모없어지게 된다"고 강조했다.

모델 붕괴를 실제로 확인하기 위해, 해당 논문에서 연구팀은 먼저 사람이 만들어 낸 데이터로 학습한 챗GPT와 같은 대규모 언어 모델로 일부 텍스트를 출력했다. 이렇게 출력된 텍스트들을 새로운 모델의 학습 데이터로 활용한 뒤, 학습된 모델로부터 텍스트를 다시 뽑아낸다. 이같은 과정을 세 번째, 네 번째에 걸쳐 계속 반복하면 회차마다 오류가 쌓이게 되는데, 이에 따라 10번째 모델에게 영국 건축에 대해 글을 쓰도록 요청했을 때 모델이 질문과 관련 없는 터무니 없는 대답을 내놨다고 연구팀은 설명했다.

또한 연구팀은 이미지 생성형 AI, 두 확률 분포를 분리하는 모델 등 위 언어 모델 이외 다양한 AI 알고리즘에서 모델 붕괴 현상이 발생한다고 밝혔다. 이와 관련, 슈마일로프는 "자연어, 이미지 분야를 막론하고 수학・통계학적으로 복잡한 모델은 해당 현상이 여지 없이 발생했다"며 "심지어 가장 단순한 수준의 모델인 숫자 생성 AI에서도 해당 현상이 일부 나타나는 것을 확인했다"고 힘줘 말했다.

'모델 붕괴'로 인해 차세대 모델 대부분은 성・인종 편향 확대 재생산할 가능성 높아

이같은 모델 붕괴 현상은 AI가 일부 관여한 데이터에도 발생할 수 있는 것으로 분석된다. 슈마일로프는 "AI가 훈련 데이터에 관여하는 한 문제가 발생한다"면서도 "모델 붕괴를 일으키는데 정확히 얼마나 생성형 AI 콘텐츠가 필요한지는 추후 연구를 통해 밝혀야 할 부분"이라고 언급했다.

한편 연구진은 방대한 데이터 셋을 학습한 모델이 소규모 모델보다 모델 붕괴에 더 저항력이 있을 것이라는 가설에 착안, 위의 챗GPT 및 디퓨전 모델 등의 거대 모델 이외에도 훈련 데이터를 상대적으로 적게 사용하는 모델로도 실험을 진행했다고 밝혔다. 그러나 실험 결과, 모델 붕괴는 데이터 셋의 크기와 상관 없이 발생하는 것으로 나타났다.

현재까지 연구에 따르면 모델 붕괴는 데이터 분포의 꼬리 부분, 즉 극단값 및 이상값에서 크게 나타나는 것으로 확인된다. 이러한 꼬리에선 '표준'에서 더 멀리 떨어진 데이터가 포함됐기 때문에 모델이 오류를 출력할 가능성이 커지고, 이를 학습한 새로운 모델이 오류를 보다 빠르게 확대 재생산할 수 있다는 설명이다. 또한 일반적으로 생성형 AI 모델 학습을 위해 수집하는 텍스트 데이터 분포의 극단값이 성・인종 차별적 표현에 해당하는 만큼, 관련된 조치를 취하지 않으면 생성형 AI 모델의 소수 집단에 대한 편향은 세대를 교체하면서 눈덩이처럼 불어날 것이라는 게 슈마일로프의 설명이다.

현실적 문제로 자리잡은 모델 붕괴 문제, 제대로 된 해결책은 미비한 실정

문제는 생성형 AI가 만들어 낸 방대한 콘텐츠들이 이미 인터넷 도처에 확산하고 있다는 것이다. 실제 지난해 11월 유수 테크 언론사 씨넷(CNET)은 경제 및 금융 주제를 챗GPT의 도움을 받아 작성하기 시작했다. 또한 최근 이슈가 되고 있는 미국작가협회(WGA)의 파업도 영화・TV 업계 제작자들이 작가들이 작성한 기존 작품을 AI를 활용해 새롭게 대본을 쓰기 시작하면서 발생했다.

또한 AI가 생성한 데이터가 다른 생성형 AI의 모델의 학습 데이터로 활용될 것이라는 징후도 속속 발견되고 있다. 미국 아마존이 운영하는 메커니컬 터크(Mechanical Turk)가 대표적인 예다. 메커니컬 터크는 일감을 가진 수요자와 그 일을 할 수 있는 공급자를 연결해 주는 웹 기반 크라우드 소싱 서비스다. AI 개발자들은 차세대 생성형 AI 개발을 위해 타겟값에 해당하는 레이블을 지정하는 허드렛일, 예컨대 사진 속 물체가 고양이인지 개인지를 구분하는 일을 메커니컬 터크에 맡기고, 이를 공급자가 수행하고 임금을 받는다. 그런데 최근 이같은 분류 업무를 생성형 AI에게 대신 맡기게 되면서 모델 붕괴가 발생할 가능성이 커지고 있다는 게 전문가들의 분석이다. 실제 로잔 연방 공과대학교(EPFL) 연구팀이 메카니컬 터크 웹 사이트에 의학 연구 초록 요약을 의뢰한 결과, 총의뢰 건의 약 1/3 이상이 챗GPT를 거친 것으로 집계됐다.

일각에선 모델 붕괴를 방지하기 위해 생성형 AI가 개발되기 이전 시점의 데이터만 활용하면 된다는 식의 미봉책을 내놓는다. 그러나 하루가 멀게 급변하는 글로벌 상황에서, 오래된 데이터를 학습한 생성형 AI를 통해 유용한 인사이트를 얻을 수 있다는 건 불가능에 가까울 것으로 보인다. 이와 관련해 슈마일로프는 "지난 100년 동안의 뉴스를 수집해서 오늘의 뉴스를 예측하는 생성형 AI는 분명히 작동하지 않을 것"이라고 밝혔다.

대신 전문가들은 사람이 만든 콘텐츠와 생성형 AI가 만든 콘텐츠를 정확하게 '필터링'하는 알고리즘이 필요한 시점이라고 제언한다. 생성형 AI의 손길이 닿지 않은 '순수한 데이터'만을 학습 데이터로 활용해야 한다는 지적이다. 생성형 AI가 만든 이미지인지 감별해 주는 사이트인 'AI OR NOT'이 대표적인 예다. 이 사이트는 '빛의 각도가 자연스러운지'를 기준으로 알고리즘이 실제 사진과 AI가 생성한 사진을 구분한다.

그러나 위 'AI OR NOT'의 경우도 시각 전문가가 직접 합성 이미지를 구분하는 것이 아닌 만큼, 완벽한 정확도를 기대하기는 어려울 것으로 분석된다. 또한 해당 사이트는 미드저니, Dall-E2와 같은 GAN(Generative Adversarial Networks, 생성적 적대 신경망)에 의해 만들어진 이미지만 구분할 뿐, 포토샵 기반의 생성형 AI는 구분하지 못하는 한계가 있다. 아울러 사람이 생성형 AI가 만든 이미지를 편집한 2차 창작물의 경우, 이를 사람의 콘텐츠로 봐야 할지, 생성형 AI의 콘텐츠로 봐야 할지에 대한 문제도 풀어야 할 숙제로 남아있다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

구글, 마이크로소프트, 메타는 '생성형 AI' 공략하는데, '원조 IT 기업' 애플은 여전히 아이폰?

구글, 마이크로소프트, 메타는 '생성형 AI' 공략하는데, '원조 IT 기업' 애플은 여전히 아이폰?
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

TimCook_GIAI_202307
애플 CEO 팀 쿡이 2023년 6월 22일 워싱턴 DC 백악관에서 나렌드라 모디 인도 총리를 맞이하는 공식 국빈 만찬에 참여했다/출처=CNBC

요즘 미국 빅 테크 기업들의 최고 관심 키워드는 "생성형 AI"다. 마이크로소프트는 챗GPT 기반 MS365를 출시했으며, 메타는 '오픈 소스' 기반 대규모 언어 모델 라마2를 내놓으며 현재 챗GPT를 중심으로 형성된 AI 시장의 판도를 다시 짜보겠단 의지를 밝혔다. 한편 구글(알파벳)의 경우 클라우드 사업을 통해 지난 분기 흑자 전환에 성공 이후 올해 2분기에도 호조세를 이어가고 있다.

그러나 이같은 생성형 AI 각축전에서 '원조 IT 기업'인 애플만큼은 이렇다 할 움직임을 보이고 있지 않는 것으로 관측된다. 특히 지난 5월 실적발표에서 애플 CEO 팀 쿡은 AI에 대해 두 번만 언급했는데, 이마저도 질문에 대한 답변이었다. 또한 애플은 지난 6월 열린 소프트웨어 출시 행사에서 AI로 구동되는 몇 가지 새로운 기능을 새로 선보였으나, 이때도 콕 집어 'AI'라고 언급한 바는 없었던 것으로 알려진다.

대신 실적 발표 분석 결과에 따르면 애플 경영진은 '머신 러닝'이라는 용어를 더 빈번히 언급하는 것으로 나타났다. 일반적으로 해당 용어는 AI 업계의 실무에서 더 자주 사용된다. 즉 애플의 제품을 바라보는 관점이 "인간의 창의적인 활동을 돕는 '유용한' 도구"에 있는 만큼, '생성형 AI'라는 시류에 편승하지 않고 IT 시장에 대한 자사만의 철학을 관철해 나가겠다는 의도로 분석된다.

빅테크 기업들이 선보이는 '생성형 AI' 서비스, "좋은 건 알겠는데" 투자자들에게는 확신 못 줘

구글, 마이크로소프트, 메타 등의 빅테크 기업들이 대규모 언어 모델(Large Language Model, LLM) 기반의 AI 서비스를 쉴 새 없이 내놓고 있다. 예컨대 구글은 이번 실적 발표에서 AI 기반 검색 엔진인 '생성형 검색 경험(Search Generative Experience, SGE)'의 개선 의지를 밝혔다. 이날 구글 CEO 피차이 순다라라잔은 "이번 개선을 통해 일반 구글 검색으로는 찾아낼 수 없는 질문에도 제대로 답변이 가능하게 될 것"이라고 밝혔다. 한편 비즈니스 관점에서 어떻게 수익을 낼 것이냐는 질문에 그는 "기존 구글 검색 엔진의 광고 시스템을 도입하는 것은 물론, AI 기반 검색 엔진인 만큼 새로운 종류의 광고에 대한 '기회'가 있을 것"이라고 답했다.

또한 마이크로소프트는 실적 발표에서 오픈AI의 챗GPT를 워드, 파워포인트 등의 MS365에 통합하는 월 30달러의 '코파일럿(Copilot)' 구독 서비스를 소개했다. 기존 제품 대비 240% 인상된 가격이나, 시장에선 AI 기반 업무 관련 기능들을 틍해 생산성을 크게 올릴 수 있다는 점에서 '제 값 한다'는 평이 지배적이다.

메타는 지난 18일 자체 기술로 개발한 오픈 소스 대규모 언어 모델(Large Language Model, LLM)인 "라마2(Llama2)"를 출시했다. 이와 관련해 마크 저커버그는 라마2 출시 당일인 18일(현지시간) 페이스북을 통해 "라마2는 마이크로소프트의 클라우드 서비스인 애저(Azure)를 통해서도 제공될 예정"이라고 밝혔다. 이는 곧 메타가 마이크로소프트와 손잡고 챗GPT 중심의 AI 시장의 판도를 다시 짜보겠다는 계산이 깔린 것이라고 분석된다.

그러나 일각에선 이들의 AI 서비스가 정작 투자자 관점에서 어떻게 안정적인 기업현금흐름을 창출할 수 있을지는 아직 불분명하다는 지적이 나온다. 이는 실제 이번 2분기 실적발표에서도 빅 테크 기업 경영진들이 언급한 바이기도 하다. 실제 마이로소프트 CEO 사티아 나델라는 "코파일럿 서비스가 성장해 실질적인 수익을 내기까지는 시간이 걸릴 것"이라고 털어놨다. 또한 마크 저커버크는 라마2에 대해 "얼마나 많은 사람이 우리 서비스를 사용할지는 미지수"라고 인정한 바 있다.

'생성형 AI' 열풍, 혹여 과대 거품일 수 있음에 주의해야

미국 IT 컨설팅 회사 가트너가 제시한 '과대 광고 주기(Hyper Cycle)'에 따르면, 새로운 기술이 시장에 도입되면 해당 기술이 '부풀려진 기대의 정점(Peak of Inflated Expectations)' 단계에 접어들면서 시장으로부터 많은 관심과 투자를 받게 된다. 그러나 시간이 지나면서 기술의 배치가 초기 예상보다 느리게 진행되는 '현실'에 맞부딪치고 시장의 거품이 꺼지게 되는 '환멸(Trough of Disillusionment)' 단계에 이르게 된다.

전문가들은 현시점의 생성형 AI 기술이 '부풀려진 기대의 정점' 단계에 있다고 본다. 즉 생성형 AI를 기반으로 서비스를 내놓고 있다는 대부분 기업이 'AI 붐'의 혜택을 받고 엄청난 투자를 받으면서 몸집을 불리고 있다는 것이다. 예컨대 한때 위축됐던 반도체 시장은 AI 반도체로 인해 다시 활황을 맞게 됐고, 이에 따라 엔비디아 주식은 2023년 매출 전망치 430억 달러에서 4년 후 1000억 달러를 돌파할 것으로 기대된다.

그러나 앞서 살펴본 가트너의 '과대 광고 주기'처럼, 결국 시간이 지나면서 AI 기업들이 제대로 된 결과물을 내놓는 데 실패하고 시장의 거품이 한 차례 꺼지는 '환멸' 단계에 이를 수 있다는 게 전문가들의 분석이다. 당장 미국 빅테크 기업들의 이번 2분기 실적 발표에서의 경영진들의 태도만 보더라도, 생성형 AI 기반 서비스의 수익 창출에 다들 난색을 보이고 있기 때문이다. 이와 관련해 JP 모건 분석가 마크 머피는 "최근 쏟아져 나오고 있는 AI 서비스들이 제대로 된 수익으로 전환되기 위해서는 다년 간의 시간이 걸릴 것"이라고 분석했다.

AppleIndia_GIAI_202307
시카고 애플 스토어에 전시된 아이폰 14 모델 /출처=CNBC

"나만의 길을 가는" 애플, 우리는 제품 회사다

한편 애플은 AI 기술을 전면으로 내세우는 상기 빅테크 기업들과는 사뭇 다른 행보를 보여주고 있다. 실제 지난 6월 5일 세계 개발자 콘퍼런스 2023(WWDC 2023)에서 애플은 '생성형 AI'와 관련된 자체적인 AI 모델을 언급하기보다는, 다소 학문적인 트랜스포머(transformer), 머신러닝 등 제품에 실질적으로 쓰이는 AI 기능에 대해 집중하는 모습을 보였다. 이와 관련, 애플 CEO 팀 쿡은 "우리는 AI 기능을 제품에 통합할 뿐, 유저들은 이것을 AI라고 생각하지 않는다"고 밝혔다.

이같은 움직임은 애플이 곧 하드웨어, 특히 아이폰과 생태계에 기반한 기업에서 비롯됐기 때문이다. 즉 소프트웨어 및 플랫폼을 주 사업으로 영위하는 구글, 마이크로소프트, 메타 등의 기업들과는 기업의 '먹거리' 자체가 다르기 때문이다. 실제 이번 2분기 회계연도에서 애플은 948억4000만 달러의 매출 중 513억 달러를 아이폰에서 벌어들였다.

이에 따라 이번 주 공개될 애플의 실적 발표에 업계의 눈길이 쏠린다. 여타 경쟁 빅테크 기업들이 마치 의례적으로 했던 것처럼, AI에 대해 길게 논의하지는 않을 것 같다는 분석이다. 실제 지난 5월 애플의 실적 발표에서 팀 쿡은 AI 관련 질문을 받았을 때 회사 제품 및 기능으로 화두를 돌린 바 있다.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 오펜하이머가 주장하는 AI 개발의 위험성

[해외 DS] 오펜하이머가 주장하는 AI 개발의 위험성
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


미국 물리학자 오펜하이머가 나가사키 원폭 사진을 가리키며 (왼쪽부터) 과학자 헨리 스미스, 장성 게네스 니콜스, 과학자 글렌 시보그에게 핵 개발의 위험성을 설명하고 있다/사진=Scientific American

빅테크 기업 중심 생성형 AI 기반 서비스가 쏟아지고 있는 가운데, AI가 인류에게 미칠 수 있는 해악은 분명한데도 불구하고 현시점에서 AI 규제에 대한 논의는 상대적으로 미비한 형국이다. 80년 전 오펜하이머가 핵 개발에 대해 경고의 목소리를 높였던 것처럼, 이제는 생성형 AI에 대해서도 적절한 규제의 필요성이 대두되는 시점이다.

오펜하이머가 경고한 핵 무기의 위험성과 이를 묵살한 미국 정부

1945년 8월 미국이 제2차 세계대전을 끝내기 위해 일본에 떨어뜨린 두 개의 원자폭탄은 히로시마는 약 16만명, 나가사키는 약 8만명을 희생시켰다. 1944년 2월 당시 35만명의 인구에 달했던 히로시마에 떨어진 첫 번째 원자폭탄 '리틀보이'는 상공 570m에서 폭발하면서 중심가 7km 지역 내 모든 것들이 녹아내렸다. 히로시마 원폭에도 일본 제국주의가 항복하지 않자, 미국은 1945년 8월 9일 나가사키에 두 번째 원폭 '팻맨'을 투하했고, 당시 4만명에서 7만명에 달하는 시민들이 한순간 사망했다. 원폭에 제2차 세계대전은 끝났지만, 인류는 그 위력에 압도됐다.

세계 최초의 핵무기 개발 프로젝트인 맨해튼 계획의 핵심 인력이자 '원자폭탄의 아버지'로 불리는 줄리어스 로버트 오펜하이머는 핵폭탄의 가공할 파괴력을 누구보다도 잘 이해하고 있었으므로 실전 사용엔 소극적이었다. 그러나 당시 군부의 의도대로 상황은 흘러갔고, 히로시마와 나가사키의 참상을 목격한 오펜하이머는 핵무기 회의론자로 돌아서게 된다. 맨해튼 계획 이후 오펜하이머는 미국의 대형 핵무기 개발을 극렬히 반대했으나, 당국은 오펜하이머의 의견을 묵살하는 것을 넘어 그를 공산주의자 혐의를 씌워 사회적으로 고립시킨다.

이후 미국은 소련과의 대규모 군비 경쟁 차원에서 1954년 11월 1일 "캐슬 브라보"라는 코드명의 수소폭탄 개발을 성공적으로 마치게 되고, 이를 통해 미국은 인류 역사상 가장 강력한 핵폭탄을 보유하게 됐다는 평가를 받는다. 이를 두고 일각에선 고도로 발전된 핵무기가 인류에게 '공포의 균형(balance of terror)'을 주기 때문에 현대에서 1・2차 세계대전과 같은 파멸적인 전쟁이 더 이상 일어나지 않는 것이라고 주장한다. 그러나 핵 무기를 개발하기 위해 지출된 과도한 국가 예산, 기회비용 및 소외된 지역 사회에 미치는 영향은 헤아릴 수 없다. 예컨대 캐슬 브라보라는 이름의 수소 폭탄을 실험했던 태평양 국가 마셜제도 핵 산업 단지의 뉴 멕시코 거주자, 나바호족 원주민들 사이에선 반 세기 이상이 지난 지금까지도 암 환자가 발생하고 있다.

인공지능 기술, 핵 무기와 맞먹을 수준의 위험성 지녔다

오펜하이머가 경고한 핵 무기의 위험성은 AI에도 똑같이 적용돼야 할 것으로 보인다. 특히 최근 미국 빅테크 기업들이 챗GPT와 같은 대규모 언어 모델(Large Language Model, LLM)을 기반으로 한 새로운 서비스를 경쟁적으로 내놓고 있는 가운데, AI가 인류에게 끼칠 수 있는 해악은 점점 수면 위로 떠오르고 있다.

예컨대 인터넷 상에 퍼져있는 성・인종적 편향을 그대로 학습한 생성형 AI는 해당 표현을 그대로 답변으로 출력하면서, 사회의 기존 편견을 악화시키고 있다. 심지어 AI가 산업 전반에 가지각색으로 활용되면서, 형사 선고, 치안, 의료, 대출, 주택 및 고용에 이르기까지 이같은 성・인종적 편향은 글로벌로 크게 확대되고 있는 모양새다.

아울러 AI로 인해 인간의 일자리는 줄어들고 있다. 실제 세계경제포럼(World Economic Forum)이 발표한 연구보고서 '2023 일자리의 미래'에 따르면 2023년부터 2027년까지 전 세계 고용의 2%에 해당하는 1,400만 개의 일자리가 사라질 것으로 나타났다.

또한 AI를 이용하는 비중이 커질수록 막대한 전력 소모로 인해 많은 탄소가 배출돼 환경에 악영향을 주게 된다. 이와 관련, 세계적 반도체 기업 어플라이드머티어리얼즈의 게리 디컨슨은 "만약 현재 기술로 AI 데이터센터를 구축하면 2025년까지 전 세계 전력의 15%를 데이터 센터가 잡아먹게 된다"며 "그만큼 많은 전력을 소비해 이산화탄소 방출량도 늘어나게 될 것"이라고 경계를 당부한 바 있다.

심지어 AI로 인해 수소 폭탄의 뒤를 이을 새로운 화학 무기가 설계될 가능성이 있다. 지난 2020년 제약 회사 콜라보레이션 파마세니컬스의 연구에 따르면 딥 러닝 알고리즘을 통해 단 6시간 만에 약 40,000개의 잠재 위험 독성 물질을 만들어 냈다. 이에 존스홉킨스 대학 암 센터 부국장 엘라나 페르티그는 "AI로 인해 치명적인 화학 무기의 개발 속도가 가속화돼 머지않아 히로시마-나가사키 원폭 사태와는 차원이 다른 규모의 피해가 발생할 수 있다"고 우려를 표명했다.

AI 규제의 필요성은 확실하다

한편 이같은 AI의 오용 가능성은 기업・민간 뿐만 아니라 정부 차원으로 확대되고 있다. 앞서 언급한 핵 무기는 AI 기술과 접목되면서 위험성은 더욱 커지고 있다. 미국을 비롯한 핵 보유국들은 이미 상호확증파괴(핵 보유국이 선제 핵 공격을 감행한다면 상대국 역시 핵 전력을 동원해 적성국을 전멸시키는 보복전략)에 입각한 핵 발사 시스템을 보유하고 있다. 그런데 최근 이러한 핵 발사 시스템이 AI 기반으로 자동화되면서 기존 개념과 판도가 완전히 뒤엎어질 것으로 전망된다.

실제 미국 뉴욕타임스는 미국, 러시아 등 주요국들의 일부 무기가 이미 AI에 의해 '자율조종(autopilot)'되고 있다고 전했다. 실례로 미국의 패트리엇 미사일은 적국의 공격에 빠르게 대응하기 위해 사람의 개입 없이 발사하는 기능을 예전부터 탑재해오고 있었다. 또한 러시아의 핵 추진 수중 무인 드론 '포세이돈'은 심해를 이동하면서 기존 미사일 방어망을 피해 자동으로 핵 공격을 추진할 수 있다.

AI가 무기에 적용되면 전투에서의 의사결정 속도는 높아지겠지만, 만약 사람의 부재로 인해 허위 결정이 내려지게 되면 그 피해는 돌이킬 수 없게 된다. 그런데 문제는 이같은 AI 기반의 자율조종 무기가 현실로 나와 활용되고 있음에도 불구하고 이를 다루는 국제 조약은 아예 없다는 것이다. 이러한 상황을 고려하면, 오펜하이머가 주장하는 '핵 무기 규제론'은 AI에도 똑같이 적용돼야 한다.

따라서 미국 의회는 AI 기술을 선두하고 있는 빅테크 기업들이 공익을 우선시하도록 관련 규제를 확실하게 마련해야 한다. 특히 현재 논란이 되고 있는 AI 챗봇으로 인한 개인정보 유출 금지 법안, 기업의 고객 데이터 활용의 투명성 제고 법안, AI 기반 핵무기 발사 금지 법안을 통과하는 것으로 시작해야 한다. 나아가 의회는 AI가 인류에 끼칠 해악을 엄밀하게 검토하고, 이를 어떻게 해결해야 할지에 대한 결정을 내려야 할 것이다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 영화 산업 마저 스며든 생성형 AI, 배우 마저도 전부 대체할까

[해외 DS] 영화 산업 마저 스며든 생성형 AI, 배우 마저도 전부 대체할까
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


할리우드 배두들이 생성형 AI를 활용한 컨텐츠 제작에 반대를 외치고 있다/출처=미국 배우・방송인 노동조합(SAG-AFTRA)

현재 할리우드는 총체적 난국이다. 지난 5월 미국 작가조합(WGA)이 15년 만에 전면 파업에 돌입한 가운데, 이번 7월에는 배우・방송인 노동조합(이하 SAG-AFTRA)이 지난 1960년 이후 63년만에 파업에 동참했다. 전문가들은 이번 작가, 배우 노동조합의 동시 파업으로 인해 미국 뿐만 아니라 글로벌 영화 산업 전반이 큰 타격을 받게 될 것이란 예측을 내놓는다.

이번 파업의 중심에 있는 SAG-AFTRA는 WGA와 함께 '할리우드 양대 노조'라고 불린다. 특히 이번 파업은 맷 데이먼, 메릴 스트립, 제니퍼 로렌스, 마크 러팔로 등의 유명 배우들이 합류하면서 파급력이 급속도로 커질 전망이다. 여기에 오스트리아 제작자 연합 SPA 및 영국 배우 노조 에쿼티 등 영화에 몸 담고있는 세계적인 업계 종사자들이 SAG-AFTRA와 연대 의지를 밝히면서 파업은 미국을 넘어 글로벌로 확대될 가능성이 점쳐진다.

이같은 혼란은 최근 넷플릭스, 디즈니 등의 스트리밍 플랫폼으로 미디어 콘텐츠 소비 방식의 무게추가 기우는 한편, 생성형 AI의 등장으로 영화・TV 업계의 전반적인 산업 구조가 재편되면서 기존 업계 종사자들의 고용 안정성이 흔들리고 있기 때문으로 분석된다.

특히 이번 SAG-AFTRA 파업에서 배우들은 생성형 AI 기술을 적용해 가상의 얼굴을 만들어 내는 '디지털 더블(Digital Double)' 기술로 인해 자신들의 역할이 잠식될 것이란 우려의 목소리를 높이고 있다. 실제 지난 6월 개봉된 <인디아나 존스 5>에선 해리슨 포드의 젊은 시절 얼굴은 과거 영상 참고 없이 디지털 더블로만 만들어졌다. 또한 과거 초상권 침해 논란이 일었던 브루스 윌리스의 '메가폰' 광고 영상도 해당 기술로만 제작된 대표적인 예다.

이와 관련, 제작사 및 스트리밍 플랫폼 측과 배우・작가 노조 측 입장은 팽팽하게 대립하고 있다. 앞서 살펴봤던 AI가 기존 배우・작가의 일자리를 대체할 것이란 주장에, 디즈니를 포함한 할리우드 대기업 스튜디오가 속한 AMPTP(미국 영화・제작자연맹)은 AI를 통해 인건비와 제작비 등의 예산을 효과적으로 절감할 수 있는 것은 물론, 더 나은 퀄리티의 작품을 대중들에게 선보일 수 있다고 반박한다. 또한 생성형 AI는 아직 배우의 사실적인 움직임을 완전히 묘사할 수 없는 기술적 한계는 명확하기 때문에, 복합적인 감정을 예술적으로 표현할 수 있는 고급 배우들은 여전히 영화 산업에서 중요한 역할을 할 것인 반면, 단순한 엑스트라 역할을 수행했던 배우 등의 초급 인력들은 시장 경제 원리상 대체되는 수순을 따르는 것은 어쩔 수 없다는 게 이들의 입장이다.

1000005736
디지털 더블 방식의 '사진 측량' 단계. 수 백개의 카메라들이 배우의 움직임을 세부적으로 포착한다/사진=Getty Images

디지털 더블 방식, 새로웠던 것 아냐

사실 미디어 콘텐츠 업계에선 'AI 열풍'이 불기 한참 이전부터 디지털 더블 기술이 사용돼 왔다. 막대한 예산이 투입되는 대부분 할리우드 영화의 경우, 적어도 25년 전부터 배우의 신체 일부, 예컨대 얼굴이나 몸에 디지털 더블을 적용함으로써 배우가 여러 연령대의 캐릭터를 묘사할 수 있게 하는 등 영화의 극적인 연출을 도왔다. 이에 미국 유명 시각 효과 감독 크리스 맥린은 "과거부터 디지털 더블은 업계 표준으로 자리 잡은 바 있다"며 "이를 통해 영화 퀄리티를 끌어 올려 많은 대중들의 시각적 흥미를 사로잡는 데 중요한 역할을 수행해 왔다"고 밝혔다.

전통적으로 디지털 더블은 크게 두 가지 단계를 거쳐 이뤄진다. 먼저 '사진 측량' 작업이다. 위 사진처럼 수백 대의 3D 카메라가 둘러싸인 공간에 배우를 배치하고, 수천 개의 2차원 얼굴 이미지를 고해상도로 캡처한다. 이때 만약 영화 시나리오상 주연 배우가 얼굴 표정을 통해 복합적인 감정을 표현해야 한다면 단역 또는 엑스트라보다 더 광범위한 스캔이 필요하게 된다. 비슷한 맥락으로 얼굴보다 더 큰 면적의 신체를 스캔해야 하는 경우, 얼굴 스캔보다 더 많은 카메라를 배치하는 등 추가적인 작업이 요구된다.

크래프톤의 '리깅' 작업 예시/사진=크래프톤

이러한 작업이 끝났다면, 두 번째 단계로 해당 2차원 스캔을 3차원으로 바꾸는 '3D 렌더링' 작업을 수행한다. 이때 시각 효과(이하 VFX) 아티스트는 그래픽을 최대한 실제 얼굴 및 신체와 가깝게 표현하기 위해, 카메라 좌표와 중복되는 지점을 기반으로 이미지를 매핑한 뒤 각 면과 모서리를 연결하는 일종의 '디지털 종이접기' 방식을 거친다. 이후 이렇게 생성된 3D 그래픽은 위 사진처럼 가상 골격에 할당되는 이른바 '리깅(Rigging)' 과정을 거치면서 더욱 입체적이고 정교한 움직임을 갖게 된다. 여기서 더 나아가 만약 3D 그래픽이 영화 씬에서 실제적으로 대사를 내뱉는 모습을 연출하고 싶다면, 배우의 실제 연기를 모션 캡쳐(motion capture) 한 다음, 앞서 컴퓨터에서 생성된 3D 그래픽과 결합해 디지털 풍경에 배치하면 된다. 우리가 영화를 보고 '우와'하며 깜짝 놀라는 수준의 사실적인 3D 가상 인물은 모두 이같은 디지털 더블 방식을 거쳐 탄생하게 되는 것이다.

한편 디지털 더블 방식을 통해 '인간이 아닌' 가상 캐릭터를 만들 수도 있다. 즉 배우의 일부 신체 연기만 모션 캡쳐 하고, 그 외 나머지는 모두 새롭게 3D 모델링 하는 것이다. 이는 보통 영화나 비디오 게임에서 괴물을 연출할 때 많이 활용된다. 예컨대 모션 캡처를 위해 별도 스튜디오에서 많은 신체적 장면을 연기한 뒤, 새로운 3D 모델에 해당 움직임들만 덧대는 방식이다. 이렇게 재탄생 된 캐릭터는 기존 배우와는 전혀 닮지 않았지만, 상상 속의 괴물들을 마치 사실인 것처럼 구현해 냈기 때문에 관객들에게 또 다른 시각적 즐거움을 선사한다.

그러나 이러한 디지털 더블 방식은 일반적으로 많은 예산이 투입된다. 앞서 살펴봤던 것처럼 배우의 감정적・신체적 연기를 포착하기 위해 많은 카메라 장비와 스태프가 필요한 것은 물론, 이를 정교하게 3D 렌더링하기 위해 수많은 아티스트들이 협업해 일일이 캐릭터의 움직임을 만들어 내야 하기 때문이다. 이같은 비용적 어려움으로 인해 디지털 더블 방식은 비교적 스케일이 큰 할리우드 영화에서 활용되는 것이 대부분이었고, 그마저도 투입되는 비용이 너무 지나쳐 업계에선 정말 필요한 부분만 해당 기술을 적용하고, 나머지는 어지간하면 직접 연출하는 경우가 다반사였다.

생성형 AI 등장으로 관련 작업 단순화되고 컨텐츠의 극적 재미 끌어 올릴 수 있게 돼

그런데 최근 챗GPT를 포함한 생성형 AI가 산업 전반에 스며들면서, 영화・TV 업계의 산업 구조 또한 변화를 맞이하게 됐다. 업계에선 디지털 더블 방식에 생성형 AI가 도입되면서 위 '사진 측량'과 '3D 렌더링' 작업이 간편화됐다는 평이다. 미국 모션 캡쳐 전문 기업 CTO 블라디미르 갈라트는 "생성형 AI의 발전으로 인해 디지털 더블의 '사진 측량' 단계를 일부 생략할 수 있게 됐다"며 "최근 우리가 작업한 '인디아나 존스 5'에 출연한 81세 나이의 해리슨 포드를 많은 비용 투입 없이 더 젊어 보이게 만들 수 있었던 것도 바로 이 덕분"이라고 전했다.

또한 '어벤져스: 엔드게임'을 제작한 VFX 기업 디지털 도메인(Digital Domain) CTO 하노 베스는 "이제는 고인이 된 배우들도 기존 사진과 영상을 기반으로 스크린에서 새롭게 찾아볼 수 있게 됐다"고 말했다. 약간은 섬뜩한 말이지만, 이는 그만큼 더 이상 디지털 더블의 '사진 측량'이 필요 없이 효율적으로 가상 인물을 만들어낼 수 있단 뜻으로 풀이된다.

이는 실제 우리 주변에서도 찾아볼 수 있다. 예컨대 지난해 국내 온라인 동영상 서비스(OTT) 티빙이 공개한 오리지널 '얼라이브'에서는 2013년 위암으로 사망했던 울랄라세션의 리더 임윤택이 디지털 더블 기술로 복원돼 시청자들의 벅찬 반응과 위화감을 동시에 이끌어낸 바 있다.

전문가들 "배우 일자리 완벽하게 대체하는 것 아냐, 다만 초상권 침해는 관련 법 논의 필요해"

이같은 생성형 AI가 가져온 변화로 인해 일각에선 머지 않아 오직 컴퓨터로만 미디어 컨텐츠가 제작되는 것 아니냐는 주장이 제기된다. 이는 곧 SAG-AFTRA가 우려하는 부분이기도 하다. 모든 장면에 디지털 더블 기술을 적용하게 돼 더 이상 배우가 필요 없게 된다는 것이다.

하지만 대부분의 AI 전문가에 따르면 현시점의 AI 기술은 일부 '정지된' 사물 및 사람에게 국한해 사실적으로 묘사해 줄 뿐, 과한 우려는 내려놔도 된다는 분석이다. 이와 관련해 실리콘 밸리 현업 컴퓨터 과학자 A씨는 "최근 디지털 더블이 비약적으로 발전한 것은 사실"이라면서도 "인간의 복잡한 감정, 미묘한 신체적 움직임까지 영화 런타임 내내 치밀하게 표현하는 것은 불가능하다"고 강조했다.

그러나 현재 AI 기술을 악용한 배우의 초상권 남용에 대해서는 제대로 된 법이 규정돼 있지 않은 만큼, 이와 관련해서는 국가 차원의 법률 제정 논의가 진지하게 이뤄져야 할 것으로 보인다. 예컨대 영화 제작자가 생성형 AI를 통해 액션 영화의 모든 등장인물에 톰 크루즈를 넣는다고 가정해보자. 이에 현시점 미국 저작권법은 아무런 제재를 가할 수 없다. 물론 미국은 모든 사람에 대한 초상권 보장을 주 법(state law)에 명시하고 있으나, 예술로 분류되는 영화 산업의 경우 '표현의 자유'를 인정한다는 명목하에 사실상 초상권 침해를 광범위하게 인정하고 있는 형국이기 때문이다. 이에 미국 기술 전문 변호사 조나단 블라빈은 "특히 넷플릭스와 같은 대형 OTT 스트리밍 기업이나 대규모 제작사의 경우 다양한 방식으로 배우들의 초상권 침해 문제를 피해 갈 수 있다"며 생성형 AI 기술의 남용에 대한 주의를 당부했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 백악관에 모인 美 빅테크 7개 기업 수장들, "책임 있는 AI 개발 앞장 서겠다"

[해외 DS] 백악관에 모인 美 빅테크 7개 기업 수장들, "책임 있는 AI 개발 앞장 서겠다"
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


왼쪽부터 AWS CEO 아담 셀립스키, 오픈 AI 대표 그렉 브록만, 메타 글로벌 지사 대표 닉 클레그, 인플렉션 AI CEO 무스타파 슬레이만, 앤트로픽 CEO 다리오 아모데이, 구글 글로벌 지사 대표 켄트 워커, 마이크로소프트 대표 브래드 스미스가 백악관에서 'AI 규제' 관련 사담을 가졌다/사진=AI 비지니스

폭스뉴스, 뉴욕타임스(NYT) 등에 따르면 21일(현지시간) 미국 대통령 바이든이 아마존, 오픈AI, 메타, 인플렉션AI, 앤트로픽, 구글, 마이크로소프트의 7개 AI 빅테크 기업을 초청해 사담을 가진 것으로 알려졌다. 해당 사담에서 바이든은 AI 기업들에 대한 '책임 있는 AI 개발'을 당부했다.

바이든, "빅테크 기업들, AI 기술이 인류에 끼칠 잠재적 해악 뿌리 뽑아야"

이날 바이든이 7개 기업으로부터 받아낸 자발적인 합의안은 총 세 가지다. 첫 번째로 AI 기업은 관련 프로덕트・서비스 출시 전 대내외적으로 보안 테스트를 실시해야 한다. 이때 해당 기업의 이해관계와는 무관한 전문가가 사이버 보안 및 생명 윤리 등의 영역에 대한 위험을 평가하기 위해 다방면의 테스트를 수행한다. 또한 이렇게 평가된 결과는 산업 전반에 걸쳐 정부, 시민 사회 및 학계와 공유해야 한다.

두 번째로 AI 기업은 보안을 최우선으로 하는 시스템을 구축해야 한다. 즉 사이버 보안에 충분한 예산을 투자해 AI 산업 관련 특허가 유출되지 않도록 해야 한다는 것이다. 딥러닝 알고리즘 특성상 투입 데이터에 대한 모델의 '가중치'가 AI의 성능을 결정하는 중요 요인인데, 이같은 보안에 대한 합의안은 최근 일부 실리콘 밸리에서 모델의 가중치를 빼내려는 시도가 급증하고 있는 점을 염두에 둔 것으로 풀이된다.

세 번째로 AI 기업은 생성형 AI가 산출하는 결과물에 대해 AI가 생성했다는 콘텐츠를 식별하는 용도인 '워터마크' 표기를 당사 차원에서 의무화해야 한다. 최근 딥 러닝이 발전하면서 생성형 AI가 만들어 내는 '딥페이크' 콘텐츠가 이제는 현실과 구분하지 못할 정도의 수준에 도달한 만큼, 이를 악용해 사회적으로 부정적인 파급이 발생하지 않도록 조치를 취해야 한다는 것이다.

이와 관련해 백악관 관계자 A씨는 "오늘 참여한 AI 테크 기업 CEO 7명은 전반적으로 AI 시스템의 잠재적인 사회적 위험에 대해 충분히 인지하고 있는 것으로 보인다"며 "또한 이들은 성・인종적 차별 방지, 개인 정보 보호에 대한 기본적인 사항에 대한 당사 정책 마련은 물론, 암 예방 및 기후 변화와 같은 사회적으로 큰 문제를 해결하는 AI 기술을 개발하는데 총력을 기울일 것이라고 의지를 다졌다"고 밝혔다.

AI 규제 글로벌 선도하겠다는 미국

백악관에 따르면 이번 합의는 AI 관련 규제 개발 및 시행의 '첫 번째 단계'다. 미 행정부는 일반에 배포된 AI 시스템이 안전하고 신뢰할 수 있도록 지속적으로 행정 조치를 취하고 법안을 추진할 것이라고 강조했다. 특히 미국의 토니 블링컨 국무장관은 "AI가 권위주의자들의 도구로 전락하느냐, 또는 인류를 더 긍정적인 방향으로 이끌 것이냐는 우리(미국)가 AI를 '어떻게' 사용하는지에 달려있다"며 AI 규제에 대한 책임감을 드러냈다.

실례로 미국 의회는 23일(현지시간) AI가 끼칠 수 있는 잠재적 위험을 '국가 안보' 차원에서 관리하겠다는 내용을 담은 국방수권법(NDAA) 도입을 추진하고 있다. 미 국가 안보의 근간이 되는 법안에 AI 관련 내용이 포함되는 것은 이번이 처음이다. 이번 법안에는 '화이트 해커(white-hat hacker)'가 국방부 AI 시스템 보안의 취약점을 찾는 데 기여할 수 있도록 독려하는 '버그 바운티' 프로그램, 국방부 AI 기능을 정량적으로 평가할 수 있는 가이드라인 등이 담길 예정이다.

이와 관련해 윤석열 대통령은 미국이 선도하는 'AI 안전조치 강화'에 대해 호응의 뜻을 나타냈다. 윤 대통령은 24일 트위터를 통해 "바이든 대통령과 AI 선도 기업들의 자발적인 약속이 지난해 9월 뉴욕, 올해 6월 파리에서 제시한 디지털 비전과 뜻을 같이한다는 점에서 기쁘다"며 "글로벌 AI 거버넌스에 대해 미국 등 같은 생각을 가진 파트너들과 협력하기를 바란다"고 전했다.

세계적인 AI 규제 흐름, 그러나 뒤처지는 국가들도 챙겨야

미국이 강조하는 AI 기술의 적절한 규제 필요성은 지난 5월 나흘간 열린 G7 정상회담에서 공유된 바 있다. 해당 회의에서 미국 등 주요 7개국(G7)은 다양한 이해관계자 의견을 반영한 AI 표준을 개발하기 위한 'AI 국제 프레임워크'를 결성하는 것에 뜻을 모았다. 이날 G7은 공동 성명서를 통해 "AI, 메타버스, 양자 과학, 디지털 경제는 우리의 민주 가치를 보호하며 '책임 있게' 발전해야 한다"고 밝혔다.

이와 동일한 맥락으로 유럽연합(EU)은 이미 2021년 4월부터 일찌감치 AI 법(AI Act)을 통해 관련 규제 틀을 만들고, 현재까지 추진해 오고 있다. 해당 법안에는 AI 시스템을 ▲잘못된 정보 유포 ▲차별적 언어 사용 ▲사용자의 생체 정보 수집 정도에 따라 4개 위험 등급으로 나누는 등 세부적인 관리 지침을 담고 있다. 이를 통해 전 세계 AI 업계의 규제 표준을 만들겠다는 전략이다.

그러나 일각에선 이같은 경제 선진국 중심 AI 규제 글로벌 기준 수립 움직임이 사실상 '제자리 맴돌기'가 아니냐는 관측이 나온다. 물론 AI 기술을 선도하는 미국, 유럽 연합 중심으로 관련 규제의 판도를 짜는 것은 당연한 수순이나, 상대적으로 규제 인프라가 미비한 '사각 지대'에 있는 국가들의 경우 해당 조치들이 무색하다는 지적이다. 예컨대 영국 디지털 혁신 컨설팅 회사 옥스퍼드 인사이트가 발표한 '2022 정부 AI 준비지수'에 따르면 AI 기술이 상대적으로 뒤처진 베트남, 태국 등 아시아 후진국들의 경우, 적절한 관련 규제 방침이 없어 AI 기술의 제대로 된 활용에 난항을 겪는 것으로 알려졌다.

*편집진: 영어 원문의 출처는 AI 비즈니스(AI Business)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 마이크로소프트의 생성형 AI 기반 MS365 출시, "시장 반응 뜨거워"

[해외 DS] 마이크로소프트의 생성형 AI 기반 MS365 출시, "시장 반응 뜨거워"
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=마이크로소프트

지난 21일 마이크로소프트가 생성형 AI 기반 검색 플랫폼 Bing Chat 및 인공지능 비서 Copilot을 추가로 탑재한 업무용 MS365를 출시했다. AI 기술을 탑재한 업무용 버전의 경우 기존 대비 240% 인상된 가격 월 30달러로 이용 가능할 예정이다.

너무 비싼거 아냐?

일각에선 이번 기업용 버전 MS365가 기존 유사 제품 대비 너무 높은 가격이 책정된 게 아니냐는 지적이 제기된다. 실제 미국 투자 은행 뱅크오브아메리카 메릴린치가 공개한 보고서에 따르면 MS365 및 AI 기술이 탑재된 당사 협업 애플리케이션 팀즈의 가격은 사용자 당 월 10달러로, 이번에 공개되는 기업용 버전의 가격보다 훨씬 낮은 가격이다.

그러나 앞서 데모 버전을 체험한 대부분의 사용자들은 높은 가격인 만큼 생산성을 크게 끌어올릴 수 있다는 평이다. 이와 관련해 마이크로소프트 부사장 유수프 메흐디는 "이번 출시되는 엔터프라이즈 버전 MS365의 경우 사용자 문서, 이메일, 일정, 채팅, 회의 및 연락처 등 데이터를 업무 목적에 맞게 분석하는 기능이 탑재 돼, 여타 AI 기반 생산성 애플리케이션과 차별되는 성능을 자랑한다"고 밝힌 바 있다.

챗GPT의 업무용 버전, '기업용 Bing Chat'

일단 MS365 기업용 버전을 구매하면 유저는 회사 이메일로 Bing Chat 기업용 버전을 사용하게 된다. 유저는 Bing Chat을 통해 유저가 출시하는 상품에 대한 마케팅 컨텐츠를 자유롭게 만들어 낼 수 있는 한편, 해당 상품 및 시중에 출시된 경쟁사 제품과 손쉬운 비교가 가능하다.

이와 관련해 유수프 부사장은 기업용 버전의 Bing Chat은 마이크로소프트의 기존 애플리케이션을 결합해 그래프, 차트, 이미지를 포함한 다양한 시각적 분석 결과를 제공해 사용자의 생산성을 높일 수 있다고 강조했다.

한편 마이크로소프트는 위의 기능으로 인해 발생할 수 있는 잠재적인 기업 기밀 유출 관련 문제는 걱정하지 않아도 된다고 선을 그었다. 기업용 버전의 Bing Chat은 저장 기능이 없으며, AI 모델이 기업의 사업 데이터로 학습을 진행하지 않는다.

Copilot AIBusiness 20230724
Copilot AIBusiness 20230724

보고서 분석부터 경영 전략 수립까지 무리 없게 해내는 '기업용 Copilot'

Copilot은 대규모 언어 모델(Large Language Model, LLM)을 통해 워드 문서, 엑셀 파일 등의 업무 관련 텍스트 데이터를 분석해 관련 사무 업무를 유저 대신 수행한다. 예컨대 유저가 특정 판매 보고서를 Copilot에 입력하면, 해당 AI는 입력된 데이터를 기반으로 비슷한 관련 보고서를 보여주거나, SWOT 보고서와 같은 경영 전략을 수립해준다.

BingChat AIBusiness 20230724
BingChat AIBusiness 20230724

유스프 부사장은 Copilot 단독 사용시 월 30달러가 책정되며, Copilot이 추가된 MS365 E3는 유저 당 월 66달러, E5는 87달러, 비즈니스 스탠다드는 42.5달러, 비즈니스 프리미엄은 52달러로 책정될 방침이라고 전했다.

시장을 뜨겁게 달구는 생성형 AI 기반 애플리케이션

최근 생성형 AI가 기존 사업과 연계돼 새로운 가치를 창출할 수 있다는 기대감에 많은 기업들이 생성형 AI에 관심을 갖고 있는 것으로 보인다. 미국 경제 언론 CNBC가 진행한 조사에 따르면 미국 IT 업계의 50% 이상에서 생성형 AI 관련 지출이 최우선 항목이며, 나아가 63%의 기업들이 향후 12개월 동안 AI 지출을 크게 확대할 것이라고 답했다.

또한 뱅크오브아메리카 메릴린치가 내놓은 분석에 따르면, 생성형 AI에 대한 기업의 수요에 힘입어 마이크로소프트 클라우딩 컴퓨팅 서비스 애저(Azure)의 올해 2분기(4~6월) 실적은 작년 동분기 대비 27% 성장한 것으로 집계 됐다. 전문가들 사이에선 애저가 클라우드 시장에서 높은 점유율을 기록하고 있다는 평이다. 이와 관련, 한 글로벌 시스템 통합업체(GSI)는 "최근 기업들의 마이크로소프트 제품에 대한 수요가 생태계 전반에 걸쳐 타의 추종을 불허하는 수준"이라며 "이는 최근 체결된 파트너십으로 오픈AI가 강력한 자연어 기반 생성형 AI를 마이크로소프트에 제공하고 있기 때문"이라고 밝혔다.

이처럼 마이크로소프트가 기업 겨냥 생산성 애플리케이션 시장을 주도할 것으로 전망되는 가운데, 이에 질세라 메타는 18일(현지시간) '오픈 소스' 전략을 통해 기업과 연구원이 무료로 사용할 수 있는 새로운 언어 모델인 '라마(LLaMa)2'를 출시했다. 라마2는 매개변수의 규모(70억, 130억, 700억)에 따라 세 가지 모델로 제공되며, 거대한 컴퓨팅 인프라를 갖출 여건이 부족한 중소기업 및 스타트업, 또는 개인들이 스스로 생성형 AI 기반 서비스를 만들 수 있게끔 한다. 또한 이외에도 IBM의 왓슨X, 세일즈포스의 Einstein GTP 등 기업 고객을 타겟으로 한 많은 생성형 AI 기반 서비스들이 공격적으로 시장에 쏟아져 나오고 있는 것으로 알려졌다.

*편집진: 영어 원문의 출처는 AI 비즈니스(AI Business)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 메타가 새롭게 선보인 '오픈 소스' 기반 대규모 언어 모델 '라마 2', 시장 호응 이끌어낼 수 있을까

[해외 DS] 메타가 새롭게 선보인 '오픈 소스' 기반 대규모 언어 모델 '라마 2', 시장 호응 이끌어낼 수 있을까
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Untitled design 1
사진=AI 비즈니스

미국 빅테크 기업 간 대규모 언어 모델(Large Language Model, LLM) 각축전이 한창인 가운데, 이번에는 페이스북의 모회사 메타가 라마2(Llama2)'를 오픈소스로 공개하면서 업계의 눈길을 끌었다. 라마2는 매개 변수의 규모(70억, 130억, 700억)에 따라 세 가지 모델로 배포됐다. 오픈소스 소프트웨어답게, 라마2는 연구, 상업적 용도 등 누구든지 사용할 수 있다.

마크 저커버그의 야심작, '라마2'

image 2
모델 크기 및 사전 학습형과 파인 튜닝형으로 분류돼 공개된 라마2./사진=AI 비즈니스

메타 최고경영자 마크 저커버그는 지난 18일 라마2의 두 가지 종류인 '사전 학습형(Pre-trained)', '파인 튜닝형(Fined-tuned)'에 대한 모델 가중치 및 소스코드를 모두 공개했다. 사용을 원하는 유저들은 인공지능 모델을 위한 '깃허브' 격인 허깅 페이스(Hugging Face), 및 메타와 AI 파트너십을 맺은 마이크로소프트 어플리케이션을 통해 언제든지 라마2에 접속할 수 있다.

image 1 1
메타가 발표한 라마2의 벤치마크 성능/사진=AI 비즈니스

메타에 따르면 라마2는 지난 2월 출시된 '라마1'보다 40% 늘어난 데이터로 학습됐으며, 이에 따라 추론, 코딩 자동 완성 등 대부분의 벤치마크에서 다른 오픈 소스 언어 모델을 능가하는 것으로 알려졌다.

업계 전문가들은 이번 출시된 라마2에 대해 긍정적인 평가를 내린다. 그간 기업 입장에서 생성형 AI 기반 서비스 구축을 위해선 일반적으로 천문학적 자원이 필요해 소위 '빅테크 기업'이 아니면 도전하지 못했던 경우가 태반이었는데, 메타의 라마2는 매개변수의 규모를 종류별로 선택할 수 있게 함으로써 신생기업이나 개인 개발자도 생성형 AI에 쉽게 접근할 수 있게 됐기 때문이다.

메타와 손잡은 마이크로소프트, "업무용 애플리케이션 시장 선도하겠다"

한편 마이크로소프트(MS)는 18일(현지시간) 주최된 연례 파트너스 컨퍼런스인 '인스파이어 2023'에서 이번 메타의 라마2를 자사 클라우드 서비스인 '애저(Azure)'에서 제공할 예정이라고 밝혔다. 사실 이같은 MS-메타 간 연합전선 구축은 이번이 처음은 아니다. 예컨대 지난 2017년 메타의 전신인 페이스북은 AI 오픈 소스 생태계인 ONNX(Open Neural Network Exchange)를 마이크로소프트의 윈도우 체제와 공유한 바 있다.

그러나 이번 합작은 최근 불어오는 '생성형 AI 열풍'과 맞물리면서 보다 큰 의미를 갖는다. 앞서 MS는 챗GPT 개발사인 오픈AI와 전략적 파트너십을 맺고 LLM 기반 MS365를 출시한 바 있는데, 이번에는 라마2를 MS 서비스 포트폴리오에 추가로 담게 된 모양새다. 이에 따라 전문가들 사이에선 오픈AI에 집중된 생성형 AI 시장이 이제는 메타를 비롯한 다양한 경쟁사들에 의해 점차 다변화될 것이라는 예측이 나온다.

또한 AI 업계에선 이에 따라 개발자가 '마이크로소프트'라는 하나의 생태계 안에서 일관적인 워크플로우를 기대할 수 있게 됐다는 호평이 일색이다. 이와 관련해 실리콘 밸리 현업 프로그래머 A씨는 "라마2가 MS 애플리케이션의 편리한 연동성에 힘입어 윈도우 운영체제에서 로컬로 실행될 수 있게 됐다"며 "이를 통해 AI 관련 업무 생산성을 크게 제고할 수 있을 것으로 기대한다"고 밝혔다.

메타, "책임 있는 AI 개발 놓치지 않았다"

최근 미 당국이 AI 빅테크 기업들을 대상으로 프로덕트・서비스 출시 전 대내외적으로 보안 테스트를 철저히 할 것을 당부한 가운데, 메타 역시 이를 염두에 두고 라마2의 안정성 제고에 심혈을 기울인 것으로 보인다. 특히 21일(현지시간) 미국 바이든 대통령은 메타를 포함한 7개 유수 IT 기업들을 백악관에 초청해 이들로부터 AI가 끼칠 잠재적 해악 근절을 위한 자발적 합의안을 받아낸 바 있다.

실제 라마2 개발진은 해당 서비스 출시 당일 "개발 과정에서 우리는 AI가 끼칠 수 있는 잠재적 위협에 대해 막중한 책임을 느꼈다"며 "모델로 인해 발생할 수 있는 다양한 부정적 시나리오들을 확인하기 위해 철저한 안전성 테스트를 거쳤다"고 전했다.

이와 관련해서 라마2를 설명하는 연구 논문에는 모델의 단점과 향후 문제를 탐색하는 방법까지 투명하게 공개된 것으로 알려졌다. 또한 사용자는 라마2를 사용하기에 앞서 테러 컨텐츠 생성, 기밀 정보 유출, 악성 코드 배포 등의 악용을 금지하는 '사용 제한' 정책에 동의해야 한다.

메타의 개방성 전략, 과연 시장에 먹혀들어 갈까

이번에 메타가 라마2에 대해 유저들에게 던진 화두는 바로 '개방성'이다. 즉 라마2가 폐쇄 전략을 선택한 챗GPT, 바드(Bard), 빙 챗(Bing Chat)과 궁극적으로 차별화되는 부분은 결국 '오픈 소스'에 있다. 메타의 이같은 서비스 전략은 오픈 소스 특성상 개발자들 사이에서 자발적으로 수정 및 업데이트가 이뤄지는 만큼, 해당 모델이 '자가 교정'을 거치면서 시간이 지날수록 성능이 '알아서' 올라갈 것이라는 계산이 깔린 것으로 풀이된다.

이와 관련, 마크 저커버그는 "오픈 소스의 장점은 더 많은 개발자가 새로운 기술을 기존 서비스에 얹을 수 있다는 것"이라면서도 "한편 소프트웨어가 무료로 공개되면서 보다 많은 사람이 라마2를 자유롭게 살펴 잠재적인 문제를 식별하고 수정할 수 있어 안전과 보안도 향상할 수 있다"고 밝혔다.

그러나 일각에선 오픈 소스 소프트웨어의 구조적인 한계로 인해, 라마2가 경쟁사 서비스에 밀려 도태될 것이라는 지적도 제기된다. 실제 개발자 커뮤니티들에선 메타가 현재 제대로 된 수익모델이 없는 상황에서 오픈소스 유지 관리에 들어가는 비용을 장기적으로 부담하긴 어려울 것이라는 주장이 힘을 얻고 있다. 또한 오픈소스가 상용 소프트웨어보다 품질이 떨어진다는 통념이 미국 IT 업계에 만연해 있는 만큼, 주요 기업들이 라마2를 적극적으로 사용할지도 미지수다. 이처럼 메타의 오픈 소스 전략에 대해 낙관론과 비판론이 엇갈리는 가운데, 라마2가 과연 쟁쟁한 생성형 AI 서비스들을 제치고 시장에 큰 호응을 얻을 수 있을지 귀추가 주목된다.

*편집진: 영어 원문의 출처는 AI 비즈니스(AI Business)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 챗GPT의 원리와 범용인공지능의 가능성

[해외 DS] 챗GPT의 원리와 범용인공지능의 가능성
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Should We Care ScientificAmerican 20230720
사진=Scientific American

2023년 상반기 인공지능 업계를 가장 뜨겁게 달궜던 키워드는 단연 챗GPT일 것이다. 챗GPT는 단 몇 초만에 물리학에 관한 논문을 써주는 것은 물론 여행 일정을 대신 짜주거나, 코딩을 대신 해주는 등 일상적인 요청도 무리없이 해낸다.

그러나 챗GPT는 이따금씩 무능한 모습을 보이며 인간에게 당혹감을 안겨주기도 한다. 대규모 언어 모델(Large Language Model, LLM)의 고질적인 문제로 지적받는 '환각(Hallucination)'이 대표적인 예다. 챗GPT 모델의 특성상 학습 데이터가 출처가 불분명한 인터넷의 데이터를 포함하고 있는 만큼 종종 잘못된 정보를 사실인 것 처럼 '그럴듯'하게 출력해 사용자들을 속이기도 한다.

챗GPT의 유용성에 대해서는 대부분 인정하는 분위기다. 대규모 자연어 데이터를 학습한 만큼, 사용자가 질문할 수 있는 다양한 상황에 맞춰 유연한 답변을 출력할 수 있기 때문이다.

챗GPT의 핵심, 'T(Transformer)'

챗GPT는 '사전 학습된 대화 생성 트랜스포머(Chat Generative Pre-trained Transformer)'의 약자로, 오픈AI가 대규모 언어 모델을 기반으로 개발한 대화형 인공지능이다. 저장된 데이터에 따라 간단한 답변만을 내놓던 기존의 챗봇과는 달리, 챗GPT는 미리 학습을 끝낸 뒤 프롬프트(prompt, 사용자의 질문)에 맞춰 약간의 수정을 가해 문맥에 맞고 일관성 있는 텍스트를 자체적으로 만들어낸다.

챗GPT에서 중요한 건 G도, P도 아닌 바로 T(Transformer, 트랜스포머)다. 트랜스포머는 문장 속에 순차적으로 나열되어 있는 단어와 같은 '시퀀스(sequence) 데이터'의 맥락과 의미를 학습하는 신경망(Neural Network, NN) 모델이다. 이는 '어텐션 메커니즘(Attention Mechanism)'으로도 불리는데, 구글에서 발표한 논문 제목이었던 'Attention Is All You Need(가장 중요한 건 어텐션이다)'에서 유래된 이름이다.

트랜스포머 모델이 학계 및 인더스트리 가릴 것 없이 엄청난 주목을 받았던 부분은 수학・통계학적 기법을 응용해 서로 떨어져 있는 단어(데이터) 간 관계에 따라 뜻이 미묘하게 달라지는 부분까지 민감하게 감지해 낼 수 있다는 점이다. 예를 들어, "영희는 주전자에 담겨 있는 물을 컵에 따랐다. 그것이 가득 찰 때까지"와 "영희는 주전자에 담겨있는 물을 컵에 따랐다. 그것이 텅 빌 때까지"라는 두 가지 문장을 살펴보자. 첫 번째 문장에서의 "그것"과 두 번째 문장에서의 "그것"은 텍스트 그 자체로는 같지만, 각각 "컵"과 "주전자"의 서로 다른 뜻을 갖는다. 이와 관련해 그간 기존 챗봇 모델들은 "그것'이 가지는 두 가지 의미를 분간하지 못했는데, 챗GPT 시대가 열리면서 인공지능이 해당 문장들의 두 가지 뜻을 구분하기 시작한 것이다.

트랜스포머 모델의 두 가지 학습 방식, '빈칸 맞추기'와 '파인 튜닝'

트랜스포머 모델은 두 가지 방식을 통해 학습이 이뤄진다. 첫 번째로 '빈칸 맞추기' 연습을 무한히 반복하며 지식을 학습한다. 예를 들어 "나는 물을 ___" 라는 문장이 있을 때, 해당 문장의 마지막 빈칸에 들어올 단어가 무엇인지 맞추는 과정을 반복한다. 이 때 연구자들은 "나는 물을"로 시작하는 방대한 양의 문장을 구해 챗GPT에게 문제를 맞추게 하고, 특별히 많이 나타나는 답을 찾아내도록 한다. 해당 문장의 예로 다시 돌아와보면 빈칸에 "나는 물을 필통", "나는 물을 핸드폰" 등의 명사가 들어가기 보다는 "마셨다"가 가장 자주 정답이 되게끔 인식시키는 것이다. 이는 달리 말하면 "물"이라는 단어와 "마셨다"라는 단어 사이에 관련성이 높다는 것을 학습시키는 것과 같은 뜻이다. 또한 이같은 방식으로 "물"이 "컵", "냉장고" 등과 관련이 있다는 것도 학습하게 될 것이다. 여기서 더 나아가 챗GPT는 단어를 연쇄적으로 이어 붙이며 "나는 물을 마셨다. 그리고 밥도 먹었다" 등의 새로운 문장을 쓰고, 논문 한 편에 해당하는 긴 글도 써낼 수 있게 된다.

사실 이같은 '빈칸 맞추기' 학습은 이미 오래 전 네이버, 구글 등 대형 검색 포털의 검색어 예측 기능, 스마트폰의 문장 자동완성 기능에도 탑재된 RNN(Recurrent Neural Network, 순환신경망) 알고리즘과도 비슷하다. 다만 차이가 있다면, 트랜스포머 모델은 기존의 RNN에 자연어의 고유한 특성인 문법, 미묘한 맥락 차이 등을 추가로 반영한 고도의 '문장 자동완성 기계'라고 볼 수 있다.

두 번째로 트랜스포머 모델은 사용자가 '질문'을 하면 '답'을 하도록 학습을 시킴으로써 비로소 '고급 챗봇' 역할을 할 수 있게 된다. 즉 트랜스포머 모델에 '질문-답' 형식의 글을 반복적으로 학습시켜 사용자가 '질문'을 던졌을 때 GPT가 생성하는 글이 '답' 형식을 띄도록 하는 것이다. 예를 들어 GPT에게 "반찬은 어디에 있나요?"라는 질문과 "냉장고에 있습니다"라는 답을 학습시키고 나면 이후 GPT는 문답 패턴을 최대한 복원하려고 하면서, 앞서 학습한 "물-정수기" 관계를 적용해 "물은 어디에 있나요?"에 "냉장고"라고 답변할 수 있게 된다. 또한 이처럼 "반찬-냉장고" 관계를 "물-정수기"로 미세하게 조정한다고 해서 해당 학습 과정을 'fine-tuning(파인-튜닝)'이라고 부른다.

범용인공지능 시대, 아직은 많이 멀었다

챗GPT를 사용하다 보면, 확실히 "어떻게 이런 질문에도 대답할 수 있지"라고 놀라는 순간이 있다. 이로 인해 일각에서는 곧 인간에 견줄 수준의 지능을 가진 '범용인공지능(General Artificial Intelligence)'가 등장하는 것 아니냐는 기대감을 갖기도 한다.

특히 인공지능과 신경과학(neuroscience)적 고찰을 결합한 강화학습(reinforcement learning) 알고리즘을 통해 기존의 인공지능 기술이 새로운 국면을 맞이할 것이라는 기대감이 높아지고 있다. 인간은 제한된 경험(데이터)으로도 효율적으로 학습하고 외부 환경 변화에 알맞게 대처하는 능력을 가지고 있는데, 이같은 능력을 강화학습 기술에 적용해 인공지능 기술의 새로운 지평을 열겠단 얘기다. 예컨대 최근 연구에서는 강화학습 등의 알고리즘으로도 풀리지 않는 공학적 난제를 인간의 두뇌가 이미 해결하고 있다는 사실의 기반한 '전두엽 메타 제어' 이론을 활용해 단일 인공지능이 외부 상황변화에 견고하게 대응하도록 설계하는 것은 물론, 다수의 인공지능 개체가 서로의 전략을 이용해 '협력' 및 '경쟁'의 균형점을 유지하고자 한다.

조금 더 현실적인 차원에서, 인간 두뇌의 작동 방식에 대한 한 가지 설명인 '모듈 이론'을 챗GPT에 적용하려는 움직임도 포착되고 있다. '모듈 이론'에 따르면 인간의 두뇌는 우리가 매일 수행하는 다양한 활동(말하기, 기억, 사회적 관계 등)에 대한 각각의 '모듈'을 바탕으로 작동되는데, 최근 오픈AI에서 이같은 '모듈 이론'에 착안해 수학 엔진, 물리학 엔진 등 파이썬(Python) 형식의 다양한 플러그인(Plug-in)을 내놓고 있다.

그러나 대부분의 AI 전문가들은 범용인공지능에 대한 '기대감'이 '설레발'이 되지 않도록 주의를 당부한다. 최근 하드웨어적인 발전으로 인공지능이라고 포장되는 1980년대 수학인 비선형 패턴 매칭(Non-linear pattern matching)이 조금 더 계산을 빠르게 할 수 있게 된 것 뿐이지, 인류의 지식이 갑자기 크게 진일보한 게 아니라는 지적이다. 또한 챗GPT 기술 역시 그 근간에는 다양한 '질문'에 대해 대답할 수 있도록 오픈AI 직원들이 천문학적인 시간과 돈을 들여 '직접' 스크립트를 작성했던 것이지, 인간을 뛰어넘는 새로운 지성체가 나타난 것이 아니라는 비판이다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] AI 챗봇, 개인 정보 유출 우려되는데 관련 규제는 미비

[해외 DS] AI 챗봇, 개인 정보 유출 우려되는데 관련 규제는 미비
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


사진=BlackJack3D/Getty Images

지난 4월 미 당국이 마사추세츠 주방위군(Massachusetts Air National Guardsman) 소속 공군 잭 테세이라(Jack Teixeira)를 디스코드에 정부 기밀 문건을 유출한 혐의로 기소했다고 밝혔다.

총기 애호가라고도 알려진 테세이라는 범행 초기 디스코드의 채팅방에서 문서 내용을 타자로 직접 쳐서 올렸으나, 회원들의 더 큰 관심을 받기 위해 국방 관련 문서를 직접 찍어 올리기 시작한 것으로 알려졌다. 이후 테세이라는 업로드 된 사진들로 인해 미 연방수사국(FBI)에 덜미가 잡혔다.

이번 사태를 계기로 위기감을 갖게 된 당국은 기밀 정보 보안을 전반적으로 재점검하는 한편, 군 차원에서도 디지털 개인 행동 강령을 강화할 방침이다.

최근 시장에서 각광받는 AI 챗봇

전문가들은 이같은 유형의 사태가 챗GPT를 통해 더욱 크게 불거질 수 있다고 우려한다. 고도로 개발된 대규모 언어 모델(Large Language Model, LLM)인 GPT-4 등의 '챗봇'을 이용하는 유저 수가 기하급수적으로 증가하고 있는 가운데, 일부 사용자들이 '챗봇'과 너무 친밀해진 나머지 대화 도중에 조직 차원의 기밀을 유출할 수도 있다는 지적이다.

이와 관련해 실제 사람보다 AI에게 더 진실된 이야기를 털어놓을 가능성이 높다는 연구를 위 주장의 근거로 들 수 있다. 존스 홉킨스 대학의 관련 연구에 따르면 실험에 참가한 환자들 중 78.6%가 실제 의사보다 챗봇에 개인 건강 정보를 털어놓는 것을 선호하는 것으로 밝혀졌다.

AI 챗봇에 대한 '과몰입'으로 프라이버시 및 기밀 정보 유출 가능성 높아져

이처럼 최근 커져가는 '인위적인' 친밀감과 AI 챗봇 선호 현상은 자칫 위 테세이라의 사례처럼 사용자들로 하여금 프라이버시 및 국가 기밀 정보를 유출할 수 있다는 점에서 심각한 사회적 파장을 불러일으킬 것으로 보인다.

예컨대 한국의 AI 챗봇 '이루다'의 경우에도 개인정보가 제대로 비식별화되지 않은 텍스트 데이터를 학습해 대화 도중 특정 은행의 예금주를 말하거나, 아파트 동호수까지 포함된 주소를 말하는 사례가 빈번해 개인정보 유출 논란이 일었던 바 있다.

문제는 현재 개인 프라이버시 및 국가 정보 유출과 관련된 AI 챗봇 서비스 규제가 전무하다는 것이다. 이로 인해 일각에서는 새로운 종류의 첩보 위협이 생기는 것 아니냐는 우려가 제기된다. 특히 지난 3월 영국 국립사이버안보센터(National Cyber Security Centre, NCSC)는 해커가 '악성 쿼리'를 통해 AI 챗봇 데이터베이스에서 개인 프라이버시나 기밀 정보에 접근할 가능성이 농후하다고 경고했다.

정서적으로 '사각지대'에 있는 AI 챗봇 사용자들, 정보 유출에 가장 취약해

AI 챗봇에 대한 수요는 분명한 것으로 보인다. 3년 넘게 이어진 코로나19 팬데믹은 많은 사람들에게 우울증과 불안장애를 불러일으켰고, 친밀한 대화 및 상호작용에 대한 수요를 키웠다. 이 상황에서 AI 챗봇은 만나지 못했던 친구나 사랑하는 사람의 역할을 대신해주게 됐고, 이같은 이유로 사용자들은 위 언급한 '카린AI'처럼 가상 애인에 열광하게 된 것이다. 특히 과중한 업무 책임을 갖고, 사람들로부터 기밀 정보를 엄격히 지켜야 하는 공무원이나 군인들에게 AI 챗봇은 매력적으로 다가올 것으로 분석된다.

따라서 GPT-4를 탑재한 차세대 AI 챗봇은 정서적으로 '사각지대'에 있는 유저들을 악용할 우려가 높다. 물론 최근 챗봇 개발자 측에서는 학습에 사용되는 데이터를 통해 유저를 식별할 수 없도록 암호화 한다고 주장하지만, 일부 개인정보를 가리더라도 희귀한 직업 또는 성씨를 가진 경우 이같은 문제가 완벽히 불식되기는 어려울 것으로 보인다. 아울러 현재 이렇다 할 AI 챗봇의 개인 정보 관련 규제 사항이 미비한 만큼, 해커들에게 잠재적인 '악용가능성'을 제공하고 있다는 것도 경계해야할 점이다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] AI 규제 정책 미비한 아시아, 국가 간 상호 협력 통해 AI 거버넌스 수준 끌어올려야

[해외 DS] AI 규제 정책 미비한 아시아, 국가 간 상호 협력 통해 AI 거버넌스 수준 끌어올려야
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


사진=동아시아포럼

AI 규제 정책을 활발히 논의하고 있는 유럽, 미국의 AI 거버넌스가 세계적 기준이 될 것으로 전망되는 가운데, 옥스포드 인사이트가 발표한 AI 거버넌스 지수에 따르면 아시아 지역의 AI 규제 인프라는 상대적으로 미비한 것으로 나타났다.

이에 전문가들은 아시아태평양 지역의 지정학적 이점에 주목, 아시아가 긴밀한 국가 상호 협력을 통해 아시아의 AI 거버넌스 격차를 줄이고 진정한 AI 산업의 선두 주자로 거듭날 것을 조언했다.

AI 거버넌스를 선도하는 유럽연합과 미국

지난 6월 14일 유럽의회가 AI법(AI Act)을 통과하면서 전 세계 IT 업계의 눈길을 끌었다. 일각에선 이번 행보를 통해 결국 유럽연합이 AI 생태계에 얽힌 거버넌스 역시 선도할 것이라는 예측을 내놓는다. 이미 유럽연합은 2018년 GDPR(개인 데이터 수집 및 일반 데이터 보호 관련 규정을 담은 원칙) 발효를 통해 앱/웹 기반 서비스를 비롯한 글로벌 IT 산업 전반에 대한 견고한 표준을 수립한 바 있다.

한편 미국의 경우 23일(현지시간) 국방 정책 및 예산을 총체적으로 다루는 국방수권법(NDAA) 통과를 추진하며 AI를 '국가안보' 차원에서 관리하겠다는 초당적 움직임을 보이고 있다. 또한 미 당국은 최근 딥페이크 영상 등 문제시되고 있는 생성형 AI의 악용을 막기 위해 생성형 AI가 만든 컨텐츠에 워터마크를 넣도록 하는 추가 규제 정책 마련을 검토하고 있다. 이번 규제에는 구글의 모회사인 알파벳, 아마존, 메타, 마이크로소프트, 오픈 AI 등 미국의 주요 7개 빅테크 기업이 자발적으로 참여하기로 한 것으로 알려졌다.

상대적으로 AI 규제 관련 인프라 부족하고, 격차 큰 아시아

AI 규제 법제화가 활발히 이뤄지고 있는 위 선도적인 국가들과는 대조적으로, 아시아 전역은 AI 거버넌스 구축이 부실한 것으로 나타났다. 특히 AI 네트워크 전문업체 주니퍼네트워크는 아시아태평양지역 기업들은 북미와 유럽 지역보다 AI에 창출할 미래 기업 가치에 대해 높은 신뢰도를 갖고 있으나 조직 내 강력한 거버넌스가 부재해, 제대로 된 AI 기술 활용에 어려움을 겪고 있는 것으로 분석했다.

한편 아시아권 내부적으로는 국가 간 AI 거버넌스에 대한 격차가 크게 존재하는 것으로 집계됐다. 영국 디지털 혁신 컨설팅 회사 옥스포트 인사이트가 발표한 '2022 정부 AI 준비지수'에 따르면 싱가포르는 국가 AI 전략, 윤리 원칙, 데이터 프라이버시 및 사이버 보안법과 같은 벤치마크를 기반으로 AI 거버넌스 부문에서 1위를 기록했으며, 한국, 일본, 호주의 경우도 높은 점수를 받았다. 한편 중국, 대만, 말레이시아, 태국, 인도네시아, 필리핀, 뉴질랜드, 베트남의 하위권 국가로 갈수록 상위권 국가와 상당한 격차를 보였다.

아시아 국가 별 AI 거버넌스에 대한 현황을 자세히 살펴보면, 싱가포르는 지난 6월 개인 데이터 보호 위원회(Personal Data Protection Commision)와 인포컴 미디어 개발청(Infocomm Media Development Authority)를 결성해 정기적으로 자국 내 AI 거버넌스 시스템에 대한 평가와 테스트를 진행하고 있는 것으로 알려졌다.

호주 산업과학자원부 또한 지난 6월 '안전하고 책임 있는 AI'라는 보고서를 일반에 공표하고, 업계에 건전한 AI 거버넌스가 개발되고 확산될 수 있도록 지속적으로 노력하고 있는 것으로 보인다. 해당 보고서는 데이터 및 개인 정보 보호, 소비자 보호, 경쟁, 저작권, 온라인 안전 및 차별법 등의 호주의 AI 관련 규제를 포괄하는 내용이 주 골자다.

반면 많은 아시아의 AI 거버넌스 후진국들은 현재까지 이렇다 할 관련 움직임이 보이지 않고 있는 실정이다. 예컨대 베트남의 경우 '국가 AI 전략'을 통해 2027년까지 구체적 수치를 포함한 AI 법률 및 거버넌스 규칙을 마련한다고 밝혔으나, 아직까지 공개된 규정 초안은 없다. 태국의 경우에는 글로벌 AI 기업이 자국 내 사용자에게 서비스를 제공하기 위해 현지 대리인을 등록해야 하는 등 불필요한 행정적 절차를 밟아야 하는 AI 규제가 시행되고 있다. 이와 관련해서 전문가들은 자국민 AI 접근성 확대를 위해 현행 규제를 철폐해야 한다는 목소리가 높지만, 여전히 태국 왕실은 이같은 규제를 현상 유지 중인 것으로 파악된다.

한편 일부 아시아 국가는 이전 정책과 노선을 갈아타고 있는 것으로 확인된다. 그간 AI 산업에 보수적이었던 일본은 2018년 AI 개발 촉진을 위해 저작법권을 개정해 관련 교육 자료에 대한 저작권 침해 범위를 상당 부분 축소했다. 또한 인도 규제당국은 AI 거버넌스 관련 법안을 발의할 의사가 없다고 사전에 밝혔으나, 지난 5월 인도 전자부기술부 장관 아슈위니 바이슈나우(Ashwini Vaishnaw)는 조만간 관련 법 제정에 나설 것이라고 의지를 다진 바 있다.

아시아의 지정학적 이점 활용한 상호 교류 통해 AI 거버넌스 상향 평준화 도모해야

이처럼 아시아 국가 간 규제 인프라 격차가 상당 폭 벌어져 있는 가운데, 전문가들은 아시아 중견국을 중심으로 일종의 '태스크포스'를 결성해 아시아 전역의 전반적인 AI 거버넌스 수준을 끌어올릴 것을 제언한다. 아시아태평양 일대의 대부분 국가들의 경제적 협력과 무역이 매우 용이한 만큼, 이같은 지리적 이점을 십분 활용해 각 나라 별 AI 관리・규제 우수 사례 및 국가적으로 풀어야 할 과제를 교환함으로써 AI 거버넌스의 상호 발전을 꾀해야 한다는 것이다.

아세안 10개국 및 한・중・일・호주・뉴질랜드 15개국이 참여한 대규모 FTA인 역내포괄적경제동반자협정(RCEP)가 위 언급한 아시아태평양 지역의 지정학적 이점을 극대화한 대표적인 예다. 당시 이해 당사자국들은 해당 지역들이 물리적으로 서로 가까운 것은 물론, 이미 역사적으로도 관련 국가들이 무역 및 경제적 교류를 해오고 있는 부분에 주목해 서로 자유무역협정을 맺음으로써 경제 격차를 줄이고, 국가 경쟁력 제고를 도모했다.

일각에선 현행 RCEP의 조항에도 전자상거래법, 국가 간 데이터 이동에 대한 사이버 보안법등 관련 이슈들이 포함됐으므로 국가적으로 불필요한 리소스 낭비를 할 필요가 없다는 지적이 나온다. 그러나 RCEP가 체결된 지 3년이 다 돼가는 가운데, 여전히 AI 거버넌스 체계에 대한 국가 간 격차는 좁혀지지 않고 있는 점을 감안하면 더 적극적인 범아시아적 조치가 마련돼야 한다는 게 전문가들의 견해다. AI 기술 발전으로 인해 생겨나는 부정적인 파급 효과도 만만치 않은 만큼, 이제는 하루 빨리 국가 간 협력을 통해 탄탄한 AI 거버넌스를 구축해야 할 시점이다.

*편집진: 영어 원문의 출처는 이스트아시아 포럼(EastAsia Forum)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.