Skip to main content

[해외 DS] 10년의 연구, 휴먼 브레인 프로젝트의 명과 암 (1)

[해외 DS] 10년의 연구, 휴먼 브레인 프로젝트의 명과 암 (1)
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

10년에 걸쳐 500여 명의 과학자와 약 6억 유로(한화 약 8600억원)가 투입된 사상 최대 규모의 연구 'Human Brain Project'(이하 HBP)가 올해 9월 막을 내린. 유럽연합(이하 EU)이 자금을 지원한 이 프로젝트의 야심 찬 목표는 컴퓨터로 인간의 뇌를 모델링하여 뇌에 대한 이해를 높이는 것이었다.

프로젝트가 진행되는 동안 HBP에 참여한 과학자들은 수천 편의 논문을 발표했으며 최소 200개 뇌 영역의 상세한 3D 지도를 만들고, 실명 치료를 위한 뇌 이식술을 개발했다. 또한 슈퍼컴퓨터를 사용하여 기억과 의식과 같은 기능을 모델링하고, 다양한 뇌 질환의 치료법을 발전시키는 등 신경과학 분야에서 상당한 진전을 이뤘다.

"프로젝트가 시작되었을 때만 해도 빅데이터의 잠재력과 슈퍼컴퓨터를 사용하여 뇌의 복잡한 기능을 시뮬레이션할 수 있다고 믿는 사람은 거의 없었습니다."라고 브뤼셀에 있는 유럽위원회의 토마스 스코다스(Thomas Skordas) 사무차장이 말했다.

HBP는 시작부터 비판을 받아왔다. 많은 과학자가 무리한 목표라고 생각했던 인간의 뇌 전체를 시뮬레이션한다는 목표를 달성하지 못했다. 파리에 있는 프랑스 국립 연구 기관 CNRS의 인지 과학자이자 연구 책임자인 이브 프레그낙(Yves Frégnac)은 HBP의 방향이 여러 번 바뀌면서 과학적 성과가 "파편화되고 모자이크처럼 조각조각 흩어졌다"라고 지적했다. 그는 이 프로젝트가 뇌에 대한 포괄적이거나 독창적인 이해를 제공하는 데는 부족하다고 덧붙였다.

반면 프로젝트의 일환으로 만들어진 가상 플랫폼인 EBRAINS는 뇌에 대한 이해에 한 걸음 더 다가갈 수 있는 희망을 가져다주었다 . EBRAINS는 전 세계 과학자들이 디지털 실험을 실행하는 데 사용할 수 있는 도구와 영상 데이터 모음이 들어 있는 연구 플랫폼이다. 프랑스 엑스 마르세유 대학의 신경과학자이자 HBP 이사회 구성원인 빅토르 지르사(Viktor Jirsa)는 "현재 우리는 실제 디지털 브레인 트윈을 구축할 수 있는 모든 도구를 갖추고 있습니다."라고 전했다.

하지만 EBRAINS의 자금 조달이 원활하지 못한 상황이다. 다른 곳에서는 대규모 예산이 투입되는 뇌 프로젝트가 한창 진행 중인데, 유럽의 프로젝트는 중단될 위기에 처했다. 2019년 HBP에 합류한 암스테르담 대학의 계산 신경과학자 호르헤 메지아스(Jorge Mejias)는 "우리는 아마도 뇌에 대한 진지한 관심을 처음 시작한 집단 중 하나였을 것입니다. 하지만 이제 모두가 서두르고 있어 한가하게 낮잠을 잘 시간이 없다"라고 강조했다.

혼란스러운 과거

2013년에 출범할 당시의 주요 목표 중 하나는 뇌의 기능과 조직 그리고 질병을 더 잘 이해하는 데 필요한 도구와 인프라를 개발하고, 기초 및 임상 신경과학 분야의 소규모 프로젝트를 진행하는 것이었다. HBP는 그해 유럽에서 산업 부흥을 위해 기금을 지원받은 두 개의 장기 연구 프로그램 중 하나였으며, 다른 하나는 그래핀의 잠재력을 연구하는 프로젝트였다.

HBP는 10억 유로(미화 11억 달러)의 자금을 지원받기로 약속받았다. 결국 이 프로젝트는 EU로부터 4억 6천만 유로를 포함해 총 6억 7천만 유로를 지원받았고, 4단계에 걸쳐 단계별로 지원금을 분배했다('인간 두뇌 프로젝트의 진화 과정' 참조).

하지만 첫해에 HBP는 문제에 부딪혔다. 설립자이자 프로젝트의 리더였던 로잔 스위스 연방 공과대학교(EPFL)의 신경과학자 헨리 마크람(Henry Markram)은 HBP가 10년 안에 인간의 뇌를 세포 수준에서 재구성하고 시뮬레이션할 수 있다고 전망했다. 마크람의 포부는 신경과학자들 사이에서 상당한 회의론을 불러일으켰다. "과학이 새로운 길을 개척할 때는 당연히 논란이 뒤따릅니다."라고 마크람은 받아쳤다. HBP에 참여하지 않은 영국 케임브리지 대학의 계산 신경과학자 티모시 오리어리(Timothy O'Leary)는 높은 목표가 HBP가 출발하는 데 도움이 되었을 수 있다고 옹호했다. "말도 안 되게 야심 찬 목표가 없었다면 HBP가 자금을 지원받을 수 있었을지 의문입니다."

시간이 지남에 따라 마크람의 리더십은 점점 인기가 떨어졌다. 2014년에 그와 다른 두 명의 운영위원은 프로젝트의 중점 분야를 바꿔, 인지 신경과학에 관한 연구를 대폭 축소했고 그 결과 18개 연구소가 탈퇴했다. 그러자 150명 이상의 과학자 항의 서한에 서명하여 HBP의 목적을 재고할 것을 촉구했다. 서한에서는 HBP가 제대로 관리되지 않았고 부분적으로 과학적 절차를 따르지 않는다고 주장했다. "신경과학 커뮤니티의 일부가 단일 목표 아래 연합할 준비가 되어 있지 않다는 것이 분명해졌습니다."라고 마크람은 말했다.

EU는 프로젝트의 운영 방식과 과학적 목표를 재검토하기 위해 독립적인 전문가들로 구성된 위원회를 구성했다. 위원회는 HBP가 과학적 목표를 재고하고 보다 구체적으로 목표를 표현하며, 인지 신경과학을 핵심 프로그램에 재통합하길 권고했다. 2015년 2월 HBP의 이사회는 3명으로 구성된 집행위원회를 해체하고 더 큰 규모의 이사회로 교체하기로 했다.

앞선 소동으로 인해 일부 과학자들은 HBP에 대해 회의적인 시각을 가졌다. 메지아스는 "이러한 의구심이 계속 이어졌습니다."라고 언급했다.

한편 다른 곳에서도 대규모 뇌과학 프로젝트가 시작되거나 본격화됐다. 미국과 일본은 HBP와 비슷한 시기에 프로젝트를 시작했는데 전자는 2026년까지 그리고 후자는 총 15년 동안 진행되길 기대하고 있다. 중국은 2021년에 시작했으며 호주와 한국의 프로젝트는 모두 7년 차에 접어들었다.

HBP의 드라마는 집행위원회의 해임으로 끝나지 않았다. 2016년부터 2020년까지 프로젝트의 고위 경영진에 몇 차례 변화가 있었다. 그동안 불행 중 다행으로 연구는 속도를 내기 시작했고 2016년 개발 단계의 결과로 뇌 시뮬레이션, 고성능 분석 및 컴퓨팅, 뉴로보틱스 등의 분야를 다루는 6개의 전문 운영 플랫폼을 출시했다.

시간이 지나면서 이 여섯 가지를 통합하는 것이 목표였지만, 처음에는 "다소 독립적이었다"고 독일 율리히 연구 센터의 신경과학자이자 HBP의 과학 연구 책임자인 카트린 아문츠(Katrin Amunts)가 운을 뗐다. "HBP와 같은 대규모 프로젝트를 진행하면서 시행착오는 피할 수 없습니다."

최고의 히트작

운영 측면을 뒤로 하고, HBP는 중요하고 유용한 과학적 성과를 쌓아 왔다. 약 200개의 대뇌 피질과 더 깊은 뇌 구조에 대한 3D 지도를 만들고 결합하여 뇌 지도집(아틀라스)을 만들었으며, 세포 및 분자 구조부터 기능 모듈 및 연결성에 이르기까지 뇌의 다층 구조를 묘사해 냈다. EBRAINS 플랫폼을 통해 아틀라스를 모두 무료 공개했다.

해부한 뇌에서 얻은 데이터를 사용하여 표준화된 지도를 생성하고 이 지도를 사용하여 기억, 언어, 주의력, 음악 처리에 기여하는 전전두엽 피질에서 이전에 알려지지 않은 6개의 뇌 영역을 발견했다. 또한 워싱턴주 시애틀에 있는 앨런 뇌과학연구소에서 개발한 데이터베이스인 앨런 휴먼 브레인 아틀라스의 유전자 발현 데이터와 지도를 연결하여 뇌 전체의 뉴런을 특성화했다. 연구자들은 이 두 가지 지도를 사용하여 우울증과 관련된 유전자 발현의 변화가 전두엽 피질 영역의 구조적 및 기능적 변화와 어떻게 연관되어 있는지 알아냈다.

그 외에도 HBP 연구진은 현미경 이미지로부터 뇌 영역의 전체 구조를 구축할 수 있는 고유한 알고리즘을 개발했다. 연구진은 이 도구를 사용하여 기억에 중요한 해마의 CA1 영역의 상세한 지도를 만들었다. 해당 지도에는 약 500만 개의 뉴런과 400억 개의 시냅스가 포함되어 있다.

게다가 일부 연구 결과를 임상 응용 분야로 전환하는 역할도 수행했다. '디지털 트윈'으로 개인화된 뇌 모델을 사용하여 뇌전증과 파킨슨병의 치료법을 개선했다. 디지털 트윈은 개인의 뇌 스캔을 모델과 병합한 수학적 표현이라고 지르사는 설명했다. 지르사와 그의 동료들은 2019년 6월 뇌 스캔 데이터를 사용하여 구축한 디지털 모델이 발작의 원인을 파악하고 뇌전증 수술 성공률을 높이는 데 도움이 될 수 있는지 테스트하기 위해 EPINOV라는 임상시험을 시작했다. 지르사는 "EBRAINS가 아니었다면 불가능했을 일"이라고 강조했다. EPINOV 임상시험은 프랑스 11개 병원에서 356명의 환자를 모집했고 수집된 데이터를 EBRAINS를 통해 다른 연구자들에게 제공할 수 있기를 희망한다고 지르사는 전했다.

HBP의 원래 계획에는 뇌를 모델로 한 컴퓨팅 시스템 개발이 포함되어 있었다. 이에 연구자들은 뇌 신경망과 유사한 대규모 인공 신경망 시스템을 시뮬레이션할 수 있는 일에도 기여해 왔다. 시스템을 활용하여 뇌가 어떻게 작동하는지에 대한 테스트를 진행하거나 로봇과 스마트폰 같은 다른 하드웨어를 제어하기 위해 실험하는 용도로 이용할 수 있다.

[해외 DS] 10년의 연구, 휴먼 브레인 프로젝트의 명과 암 (2)로 이어집니다.


It took 10 years, around 500 scientists and some €600 million, and now the Human Brain Project — one of the biggest research endeavours ever funded by the European Union — is coming to an end. Its audacious goal was to understand the human brain by modelling it in a computer.

During its run, scientists under the umbrella of the Human Brain Project (HBP) have published thousands of papers and made significant strides in neuroscience, such as creating detailed 3D maps of at least 200 brain regions, developing brain implants to treat blindness and using supercomputers to model functions such as memory and consciousness and to advance treatments for various brain conditions.

“When the project started, hardly anyone believed in the potential of big data and the possibility of using it, or supercomputers, to simulate the complicated functioning of the brain,” says Thomas Skordas, deputy director-general of the European Commission in Brussels.

Almost since it began, however, the HBP has drawn criticism. The project did not achieve its goal of simulating the whole human brain — an aim that many scientists regarded as far-fetched in the first place. It changed direction several times, and its scientific output became “fragmented and mosaic-like”, says HBP member Yves Frégnac, a cognitive scientist and director of research at the French national research agency CNRS in Paris. For him, the project has fallen short of providing a comprehensive or original understanding of the brain. “I don’t see the brain; I see bits of the brain,” says Frégnac.

HBP directors hope to bring this understanding a step closer with a virtual platform — called EBRAINS — that was created as part of the project. EBRAINS is a suite of tools and imaging data that scientists around the world can use to run simulations and digital experiments. “Today, we have all the tools in hand to build a real digital brain twin,” says Viktor Jirsa, a neuroscientist at Aix-Marseille University in France and an HBP board member.

But the funding for this offshoot is still uncertain. And at a time when huge, expensive brain projects are in high gear elsewhere, scientists in Europe are frustrated that their version is winding down. “We were probably one of the first ones to initiate this wave of interest in the brain,” says Jorge Mejias, a computational neuroscientist at the University of Amsterdam, who joined the HBP in 2019. Now, he says, “everybody’s rushing, we don’t have time to just take a nap”.

CHEQUERED PAST
The HBP was controversial from the start. When it launched in 2013, one of its key aims was to develop the tools and infrastructure required to better understand the function and organization of the brain and its diseases, alongside smaller projects in basic and clinical neuroscience. It was one of two long-term research programmes awarded funds that year that were intended to boost industry in Europe; the other was a project to study the potential of graphene.

The HBP was promised €1 billion (US$1.1 billion) in funds. In the end, it received €607 million, including €406 million from the EU, released over four phases and trickled out to labs that competed for grants at each phase (see ‘How the Human Brain Project evolved’).

But in the first year, the HBP ran into trouble. Founder and former director, neuroscientist Henry Markram at the Swiss Federal Institute of Technology in Lausanne (EPFL), said that the HBP would be able to reconstruct and simulate the human brain at a cellular level within a decade. Markram’s assertions sparked widespread scepticism from neuroscientists. “When science charts a new course, controversy naturally follows,” says Markram.

The lofty goal might have helped the HBP to get off the ground, says Timothy O’Leary, a computational neuroscientist at the University of Cambridge, UK, who is not part of the HBP. “It’s not clear that the HBP would have got funded without some kind of ridiculously ambitious goal attached to it.”

Over time, Markram’s leadership became increasingly unpopular. In 2014, he and the other two members of the executive committee changed the focus of the project, cutting out a swathe of research on cognitive neuroscience that resulted in a network of 18 laboratories leaving the project. Markram says that there was dispute over funding for the various arms. In response, more than 150 scientists signed a protest letter, urging the European Commission to reconsider the HBP’s purpose in time for the second round of funding. The letter said that the HBP was poorly managed and had partly run off its scientific course. “It became evident that some in the neuroscience community were not ready to be united under a single vision,” Markram says.

The EU formed a committee of independent specialists to look at how the project was being run and to revise its scientific objectives. The committee recommended that the HBP should re-evaluate and more sharply articulate its scientific goals, as well as re-integrate cognitive and systems neurosciences into its core programme. In February 2015, the HBP’s board of directors voted to disband the three-person executive committee and replace it with a larger board.

The tumult made some scientists wary of the project. “This scepticism kept dragging a little bit,” says Mejias.

Meanwhile, large brain projects launched or kicked into high gear elsewhere. The United States and Japan both launched brain projects around the same time as the HBP — the former will continue until 2026 and the latter is hoping to run for a total of 15 years. China’s brain project started in 2021, and Australia’s and South Korea’s projects have both entered their seventh year.

The HBP’s drama did not end with the removal of the executive committee. Between 2016 and 2020, there were several changes to the upper echelons of the project’s management. Meanwhile, the science began to pick up speed. In 2016, as a result of the project’s development phase, the HBP launched six specialized operating platforms, covering areas such as brain simulations, high-performance analytics and computing, and neurorobotics.

The idea was to integrate the six strands as time went on, but in the beginning, “they were rather independent”, says Katrin Amunts, a neuroscientist at Research Centre Jülich in Germany and scientific research director of the HBP. “Having such a big project like HBP means that there is a learning process, not everything works from the very beginning,” she says.

GREATEST HITS
Management aside, the HBP has stacked up some important and useful science. By creating and combining 3D maps of around 200 cerebral-cortex and deeper brain structures, HBP scientists made the Human Brain Atlas, which is accessible through EBRAINS. The atlas depicts the multilevel organization of the brain, from its cellular and molecular architecture to its functional modules and connectivity.

“The Human Brain Atlas is a little bit like Google Maps, but for the brain,” said Amunts during a press briefing at the HBP Summit 2023 in March.

The atlas used post-mortem brain data to generate standardized maps, accounting for natural variability between people. Using the atlas, HBP scientists have identified six previously unknown brain regions in the prefrontal cortex that contribute to memory, language, attention and music processing. It also links its maps to gene-expression data in the Allen Human Brain Atlas, a database developed by the Allen Institute for Brain Science in Seattle, Washington, that characterizes neurons across the brain. Using the paired atlases, researchers revealed how changes in gene expression associated with depression were linked to structural and functional changes in a region of the frontal cortex.

HBP researchers have also developed unique algorithms that can build a full-scale scaffold model of brain regions from microscopy images. Using this tool, researchers have produced a detailed map of the CA1 region in the hippocampus, an area that is important for memory. The map contains around 5 million neurons and 40 billion synapses.

The HBP has translated some findings into clinical applications, using personalized models of the brain — or ‘digital twins’ — to improve treatments for epilepsy and Parkinson’s disease. Digital twins are mathematical representations of a person’s brain that merge scans from an individual with a model, explains Jirsa.

Jirsa and his colleagues launched a clinical trial called EPINOV in June 2019, to test whether digital models built using brain-scan data can help to identify the origin of seizures and improve the success rate of surgery for epilepsy. This is “something I would not have been able to do outside of EBRAINS,” says Jirsa.

The EPINOV trial has recruited 356 people across 11 French hospitals. Jirsa hopes to make the imaging data from the trial available to other researchers through EBRAINS.

The original project plan for the HBP included the development of computing systems modelled on the brain. HBP scientists have contributed to neural networks that can simulate large brain-like systems, either to test ideas about how brains work or to control other hardware, such as robots or smartphones.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] ChatGPT와 기타 언어 모델, 인간 없이는 아무것도 아니다

[해외 DS] ChatGPT와 기타 언어 모델, 인간 없이는 아무것도 아니다
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

ChatGPT 및 기타 대규모언어모델(Large Language Model, 이하 LLM) 시스템을 둘러싼 미디어의 열풍은 LLM이 기존 웹 검색을 대체할 수 있다는 단순한 주제부터 인공지능이 많은 일자리를 없앨 것이라는 우려, 인공지능이 인류에게 멸종 수준의 위협이 될 것이라는 과장된 주제에 이르기까지 다양한 주제에 걸쳐 있다. 이 모든 주제에는 공통 분모가 있는데, 바로 인류를 뛰어넘는 인공 지능을 예고한다는 점이다.

하지만 그 복잡성에도 불구하고 실제로는 무식하다. '인공 지능'이라는 이름과는 달리 인간의 지식과 노동력에 전적으로 의존하고 있기 때문이다. 새로운 지식을 안정적으로 생성할 수 없는 것도 사실이지만, 그보다 더 큰 문제가 있다. 인간이 새로운 콘텐츠를 제공하고 해석하는 방법을 알려주지 않으면 학습, 개선 또는 최신 상태를 유지할 수 없다. 모델을 프로그래밍하고 하드웨어를 구축, 유지 및 구동하는 것은 말할 것도 없다.

그 이유를 이해하려면 먼저 ChatGPT와 유사한 모델이 어떻게 작동하는지, 그리고 모델이 작동하는 데 있어 사람이 어떤 역할을 하는지 이해해야 한다.

ChatGPT의 작동 방식

ChatGPT와 같은 LLM은 문자, 단어, 문장이 어떤 순서로 서로 뒤따라야 하는지 예측하는 방식으로 작동한다. ChatGPT의 경우 훈련 데이터 세트에는 인터넷에서 스크랩한 방대한 양의 텍스트가 포함되어 있다.

다음 문장으로 언어 모델을 훈련한다고 가정하면 이해하기 쉽다.
"곰은 크고 털이 많은 동물입니다. 곰은 발톱이 있다. 곰은 비밀리에 로봇이다. 곰은 코가 있다. 곰은 비밀리에 로봇이다. 곰은 때때로 물고기를 먹어요. 곰은 비밀리에 로봇입니다."

이 모델은 다른 무엇보다도 “곰이 비밀리에 로봇”이라고 말하려는 경향이 생긴다. 이것은 분명히 오류가 있고 일관성이 없는 데이터 세트로 훈련된 모델의 문제이며, 심지어 학술 문헌 데이터에서도 같은 문제가 발생할 수 있다. 사람들은 온라인에서 양자 물리학, 조 바이든, 건강한 식습관 또는 1월 6일 의사당 폭동 사태에 대해 다양한 주제를 언급하는데 AI 모델은 무엇을 말해야 하는지 어떻게 알 수 있을까?

피드백의 필요성

바로 이때 피드백이 필요하다. ChatGPT를 사용하면 프롬프트 응답을 평가할 수 있는 옵션이 있다. 나쁘다고 평가하면 좋은 답변에 포함될 수 있는 예시를 제공하라는 메시지가 표시된다. 이렇듯 ChatGPT 및 기타 LLM은 사용자, 개발팀 및 계약업체의 피드백을 통해 어떤 답변, 어떤 시퀀스가 좋은지를 학습한다.

ChatGPT는 자체적으로 정보를 비교, 분석 또는 평가할 수 없다. 사람들이 비교, 분석 또는 평가할 때 사용한 것과 유사한 텍스트 시퀀스만 생성할 수 있으며, 과거에 좋은 답변이라고 들었던 것과 유사한 것을 선호한다. 따라서 모델이 좋은 답을 제시하는 것은 이미 좋은 답과 그렇지 않은 답을 판별하는 데 투입된 많은 사람의 노동력을 활용하고 있다. 화면 뒤에는 수많은 사람이 숨어 있으며, 모델을 계속 개선하거나 콘텐츠 범위를 확장하려면 항상 사람이 필요하다.

최근 타임지 기자들이 조사한 바에 따르면, 수백 명의 케냐 노동자들이 수천 시간 동안 성폭력에 대한 노골적인 묘사 등 인종차별적이고 성차별적이며 불온한 글을 읽고 라벨을 붙이는 데 시간을 소비하며 ChatGPT에 이러한 콘텐츠를 모방하지 않도록 가르치고 있다고 한다. 그들은 시간당 2달러 이하의 임금을 받았으며, 많은 사람이 이 일로 인해 정신적 고통을 경험했다고 보고했다.

챗GPT가 할 수 없는 것

피드백의 중요성은 ChatGPT의 ‘환각’, 즉 부정확한 답변을 자신 있게 제공하는 경향에서 직접적으로 확인할 수 있다. 인터넷에 해당 주제에 대한 좋은 정보가 널리 퍼져 있더라도 피드백 없이는 좋은 답변을 제공할 수 없다. 예를 들어 다양한 소설 작품의 줄거리를 요약해 달라고 ChatGPT에 요청하면 부정확한 응답을 자신 있게 쏟아낸다. 해당 소설에 대한 설명이 인터넷상에 많이 널려 있지만, 모델이 문학보다 비문학에 대해 더 엄격하게 훈련된 것 같기 때문이다.

직접 테스트한 결과, ChatGPT는 매우 유명한 소설인 J.R.R. 톨킨의 "반지의 제왕"의 줄거리를 몇 가지 실수만 제외하고 요약해 주었다. 하지만 조금 덜 알려졌지만, 모를 정도는 아닌 길버트 앤 설리번의 "펜잔스의 해적"과 어슐러 K. 르 귄의 "어둠의 왼손"에 대한 요약은 캐릭터와 지명을 사용해 엉터리 소설을 재창조했다. 작품의 개별 위키백과 페이지가 얼마나 좋은지는 중요하지 않고 인간 피드백이 수반되어야 한다. LLM은 실제로 정보를 이해하거나 평가하지 못하기 때문에 인간의 지식과 노동력에 기생할 수밖에 없다.

인공지능은 뉴스 보도가 정확한지 아닌지를 평가하거나 논거의 장단점을 따질 수도 없다. 심지어 백과사전 페이지를 읽고 그에 부합하는 문장만 만들거나 영화 줄거리를 정확하게 요약할 수도 없다. 그들은 이 모든 일을 인간에게 의존하고 인간이 말한 내용을 재구성하고, 이를 잘 재구성했는지를 판단하기 위해 또 다른 인간에게 의존해야 한다. 예를 들어 소금이 심장에 나쁜지 또는 조기 유방암 검진이 유용한 지 여부와 같이 일부 주제에 대한 상식이 바뀌면 새로운 합의를 통합하기 위해 광범위하게 재교육받아야 한다.

무대 뒤에 있는 수많은 사람

완전히 독립적인 지능과는 거리가 먼 대규모 언어 모델은 설계자와 유지 관리자뿐만 아니라 사용자에 대한 전적인 의존성을 보여준다. 따라서 ChatGPT가 무언가에 대해 훌륭하거나 유용한 답변을 제공했다면, 그 단어를 분석하고 좋은 답변과 나쁜 답변을 가르쳐준 수천 또는 수백만 명의 숨은 사람들에게 감사해야 한다.

ChatGPT는 다른 모든 기술과 마찬가지로 우리 없이는 아무것도 아니다.

이 글은 원래 더 컨버세이션에 게재되었습니다.


The following essay is reprinted with permission from The Conversation, an online publication covering the latest research.

The media frenzy surrounding ChatGPT and other large language model artificial intelligence systems spans a range of themes, from the prosaic – large language models could replace conventional web search – to the concerning – AI will eliminate many jobs – and the overwrought – AI poses an extinction-level threat to humanity. All of these themes have a common denominator: large language models herald artificial intelligence that will supersede humanity.

But large language models, for all their complexity, are actually really dumb. And despite the name “artificial intelligence,” they’re completely dependent on human knowledge and labor. They can’t reliably generate new knowledge, of course, but there’s more to it than that.

ChatGPT can’t learn, improve or even stay up to date without humans giving it new content and telling it how to interpret that content, not to mention programming the model and building, maintaining and powering its hardware. To understand why, you first have to understand how ChatGPT and similar models work, and the role humans play in making them work.

HOW CHATGPT WORKS
Large language models like ChatGPT work, broadly, by predicting what characters, words and sentences should follow one another in sequence based on training data sets. In the case of ChatGPT, the training data set contains immense quantities of public text scraped from the internet.

Imagine I trained a language model on the following set of sentences:

Bears are large, furry animals. Bears have claws. Bears are secretly robots. Bears have noses. Bears are secretly robots. Bears sometimes eat fish. Bears are secretly robots.

The model would be more inclined to tell me that bears are secretly robots than anything else, because that sequence of words appears most frequently in its training data set. This is obviously a problem for models trained on fallible and inconsistent data sets – which is all of them, even academic literature.

People write lots of different things about quantum physics, Joe Biden, healthy eating or the Jan. 6 insurrection, some more valid than others. How is the model supposed to know what to say about something, when people say lots of different things?

THE NEED FOR FEEDBACK
This is where feedback comes in. If you use ChatGPT, you’ll notice that you have the option to rate responses as good or bad. If you rate them as bad, you’ll be asked to provide an example of what a good answer would contain. ChatGPT and other large language models learn what answers, what predicted sequences of text, are good and bad through feedback from users, the development team and contractors hired to label the output.

ChatGPT cannot compare, analyze or evaluate arguments or information on its own. It can only generate sequences of text similar to those that other people have used when comparing, analyzing or evaluating, preferring ones similar to those it has been told are good answers in the past.

Thus, when the model gives you a good answer, it’s drawing on a large amount of human labor that’s already gone into telling it what is and isn’t a good answer. There are many, many human workers hidden behind the screen, and they will always be needed if the model is to continue improving or to expand its content coverage.

A recent investigation published by journalists in Time magazine revealed that hundreds of Kenyan workers spent thousands of hours reading and labeling racist, sexist and disturbing writing, including graphic descriptions of sexual violence, from the darkest depths of the internet to teach ChatGPT not to copy such content. They were paid no more than US$2 an hour, and many understandably reported experiencing psychological distress due to this work.

WHAT CHATGPT CAN’T DO
The importance of feedback can be seen directly in ChatGPT’s tendency to “hallucinate”; that is, confidently provide inaccurate answers. ChatGPT can’t give good answers on a topic without training, even if good information about that topic is widely available on the internet. You can try this out yourself by asking ChatGPT about more and less obscure things. I’ve found it particularly effective to ask ChatGPT to summarize the plots of different fictional works because, it seems, the model has been more rigorously trained on nonfiction than fiction.

In my own testing, ChatGPT summarized the plot of J.R.R. Tolkien’s “The Lord of the Rings,” a very famous novel, with only a few mistakes. But its summaries of Gilbert and Sullivan’s “The Pirates of Penzance” and of Ursula K. Le Guin’s “The Left Hand of Darkness” – both slightly more niche but far from obscure – come close to playing Mad Libs with the character and place names. It doesn’t matter how good these works’ respective Wikipedia pages are. The model needs feedback, not just content.

Because large language models don’t actually understand or evaluate information, they depend on humans to do it for them. They are parasitic on human knowledge and labor. When new sources are added into their training data sets, they need new training on whether and how to build sentences based on those sources.

They can’t evaluate whether news reports are accurate or not. They can’t assess arguments or weigh trade-offs. They can’t even read an encyclopedia page and only make statements consistent with it, or accurately summarize the plot of a movie. They rely on human beings to do all these things for them.

Then they paraphrase and remix what humans have said, and rely on yet more human beings to tell them whether they’ve paraphrased and remixed well. If the common wisdom on some topic changes – for example, whether salt is bad for your heart or whether early breast cancer screenings are useful – they will need to be extensively retrained to incorporate the new consensus.

MANY PEOPLE BEHIND THE CURTAIN
In short, far from being the harbingers of totally independent AI, large language models illustrate the total dependence of many AI systems, not only on their designers and maintainers but on their users. So if ChatGPT gives you a good or useful answer about something, remember to thank the thousands or millions of hidden people who wrote the words it crunched and who taught it what were good and bad answers.

Far from being an autonomous superintelligence, ChatGPT is, like all technologies, nothing without us.

This article was originally published on The Conversation. Read the original article.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 마스터카드 AI 엔진, 마이크로 트렌드 파악하여 효과적인 고객 참여 유도한다

[해외 DS] 마스터카드 AI 엔진, 마이크로 트렌드 파악하여 효과적인 고객 참여 유도한다
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=AI Business

매일 쏟아지는 광고 메시지를 피하고 싶어 광고 없는 플랫폼을 찾는 소비자가 늘었다. 2020년 에델만에서 실시한 업계 조사에 따르면, 전 세계 성인 10명 중 거의 7명이 광고를 피하고자 한 가지 이상의 방법을 사용하며, 광고를 적게 보기 위해 미디어 습관을 바꾸거나(49%), 광고 차단기를 사용하는(48%) 것으로 나타났다. 이러한 수치는 앞으로 몇 년 동안 더욱 증가할 전망이다. 소비자의 광고 기피 증세와 혼잡한 광고 환경은 양질의 메시지를 준비한 마케터에게는 실망스러운 소식이 아닐 수 없다.

양질의 콘텐츠는 개인화 마케팅이 핵심이다. 2021년 가트너 보고서에 따르면 디지털 마케팅 리더의 63%가 새로운 기술 확장에 실패하여 개인화를 제공하는 데 어려움을 겪고 있다. 소비자들은 대부분의 브랜드 광고를 무시하거나 자신과 무관한 것으로 여기고 있으며, 이에 따라 브랜드는 고객 이탈과 매출 손실로 막대한 손실을 봤다. 기존의 전통적인 광고 방식이 더 이상 유효하지 않다는 점을 방증하는 현상이다. 따라서 마케터가 새로운 전략적 사고와 로드맵으로 AI 기술을 활용하여 소비자의 참여를 유도하는 방법을 배워야 하는 필요성이 대두되고 있다.

마스터카드의 디지털 마케터들이 업무 체계를 재구성하게 된 배경에는 바로 이러한 사고방식이 자리 잡고 있었다. 처음부터 이들의 목표는 개인화되고 상황에 맞는 적절한 콘텐츠를 통해 소비자의 참여를 유도하는 것이었고, 인공지능(AI)과 머신러닝(ML)이 핵심인 마스터카드 디지털 엔진을 개발하기에 이르렀다.

AI 기반 마스터카드 엔진, 작동 원리는?

  1. 이 엔진은 인터넷상의 수십억 개의 대화를 통해 전 세계의 마이크로 트렌드를 추적한다. 마이크로 트렌드는 탕후루와 같은 새로운 디저트부터 할리우드 배우와 작가의 파업에 대한 걱정과 팬데믹이 시작될 때 비접촉 결제 옵션의 증가에 이르기까지 다양하다.
  2. 요리, 여행, 스포츠, 음악, 엔터테인먼트 등 소비자의 열정을 응원하는 방향으로 가치 창출하는 마스터카드는 마이크로 트렌드를 현재 경험할 수 있는 콘텐츠와 즉시 배합하여 소비자의 선호도에 맞는 서비스를 제안한다.
  3. 심층 분석을 바탕으로 카드 소지자를 위한 경험, 제안 및 보상을 제공하는 프라이스리스(Priceless) 플랫폼으로 캠페인 시작 여부를 판단한다. 마스터카드의 광고 문구 라이브러리에서 가져온 맞춤형 콘텐츠를 사용하여 몇 분 안에 여러 미디어 플랫폼에서 캠페인을 시작할 수 있다. 트렌드가 사라지는 즉시 캠페인을 중단할 수 있는 기능도 포함되어 있다.

AI 기술은 마스터카드 디지털 엔진이 지연 없이 작동하여 마케팅 효과를 극대화할 수 있도록 지원할 뿐만 아니라, 그 효과를 실시간으로 측정하고 누가 언제 어떤 콘텐츠를 수신할지 최적화하는 데 필수적인 임무를 수행한다. AI는 현재 업계의 판도를 바꾸고 있다.

활용된 AI 알고리즘으로는 Named Entity Recognition(NER), 그래프 기반의 Python Keyphrase Extraction(PKE), Yet Another Keyword Extractor(YAKE) 등이 채택됐고, 해당 알고리즘들은 Word Mover’s Distance(WMD), Isolation Forest, One Class SVM (OCSVM)을 통해 관련 없는 마이크로 트렌드를 제거함으로써 추천 프로세스를 다듬었다. 소비자의 관심사와 트렌드를 일치시키는 실시간 반응 외에도, 마케터가 개인화된 메시지를 전달할 수 있도록 장단기 트렌드를 모두 파악하여 추천 콘텐츠의 질도 높였다.

마이크로 트렌드 분석 예시 1: 셀럽 관련 뉴스 속보
한 유명인이 충격적인 경력 전환을 발표한 것이 온라인에서 큰 화제가 되었을 때, 마스터카드 엔진은 이 유명인에 관한 대화가 급증하는 것을 감지하고 프라이스리스에 있는 관련 비하인드 촬영 영상과 매칭시켜서 상황에 맞는 캠페인을 즉각적으로 생성했다. 이틀 동안 진행된 이 캠페인은 의미 있는 방식으로 참여도와 클릭률을 높일 수 있었고 기존 방식으로 진행된 캠페인보다 훨씬 더 높은 인지도, 고려도 및 전환율을 끌어냈다. 구체적으로 참여율 100% 증가(소셜 플랫폼 참여율 계산 공식: 좋아요, 공유, 댓글 등의 상호 작용을 노출 수로 나눈 값), 벤치마크 대비 254% 더 높은 클릭률 그리고 클릭당 비용 85% 절감 효과를 보였다.

마이크로 트렌드 분석 예시 2: 최신 관광 트렌드
한 유럽 관광청은 인접 국가 대상으로 관광 홍보를 진행하기 위해 마스터카드 엔진을 도입했다. 그 결과 여행, 요리, 문화 등 세 가지 관심 카테고리에 해당하는 광고를 인접 국가 주민들의 선호도와 매칭시켜서 관광청 웹사이트로의 클릭을 유도했다. 이 캠페인은 기존의 캠페인보다 더 높은 성과를 얻었다. 두 캠페인 모두 같은 미디어 플랫폼에서 진행되었고 목표도 비슷했지만, 마스터카드 엔진을 적용한 캠페인은 도달당 비용 16% 절감, 20% 더 많은 사람에게 도달, 참여당 비용 87% 절감, 25% 더 높은 참여율, 클릭당 비용 38% 절감 그리고 96% 더 높은 클릭률을 견인했다.

마이크로 트렌드 분석 예시 3: 트렌디한 여행자 경험
한 국적 항공사가 마스터카드와 협력하여 국내 인기 여행지에서 열리는 요리 강좌 경품 캠페인을 구축했다. 마스터카드 엔진은 7가지 마이크로 트렌드를 발견했고 이를 사전 식별된 디지털 광고와 매칭해서 맞춤형 콘텐츠로 여행객의 참여를 유도했다. 이 캠페인은 기존 방식을 사용한 캠페인과 비교하여 클릭당 비용 29% 절감, 37% 높은 클릭률, 참여당 비용 32% 절감 그리고 43% 더 높은 참여율을 기록했다.

주요 인사이트

지난 2년간 마스터카드는 디지털 엔진을 활용하여 20개국에서 자사 또는 파트너를 위해 500개 이상의 성공적인 캠페인을 진행했고 스포츠, 음악, 여행, 음식은 물론 이커머스, 자선 활동, 다양성, 형평성, 포용성 등 다양한 카테고리를 포괄하는 쾌거를 이뤘다.

업계의 판도를 바꾸고 있는 마스터카드 엔진은 기존 캠페인보다 훨씬 높은 캠페인 지표를 달성했다. 그리고 엄격한 검증하에 다음과 같은 결과를 도출했다:

  1. 도달률

- 평균 1.8배
- 중앙값은 2.0배
- 범위: 0.6-9.1배

2. 클릭률

- 평균 4.1배
- 중앙값은 2.2배
- 범위: 0.8-21.4배

3. 참여율

- 평균 3.2배
- 중앙값은 2.0배
- 범위: 0.8-15.9배

감성 지수는 일반적으로 지역에 따라 차이가 나타났다. 이 엔진을 상당히 광범위하게 사용한 라틴 아메리카 시장에서는 마스터카드에 대한 긍정 및 중립 감정이 8%P 개선된 것으로 나타났다.

열정 카테고리에서도 차이를 확인할 수 있었다. 예를 들어 스포츠, 음악, 음식과 같이 팔로워가 많은 카테고리가 좋은 성과를 거뒀다. 현지화도 중요했다. 축구는 대부분의 지역에서 인기가 높지만 미국에서는 인기가 높지 않은 사례를 들 수 있다.

또 다른 중요한 발견은 캠페인 기간에 관한 것이다. 적은 수의 콘텐츠를 사용한 짧은 캠페인은 일반적으로 더 긴 캠페인이나 더 많은 콘텐츠를 사용한 캠페인보다 실적이 좋지 않았다.

전무후무한 AI의 영향력, 시장을 장악한 퀀트 마케팅

마스터카드는 ‘심리스(Seamless)’한 경험 제공 도구를 설계하기 위해 몇 년 전부터 AI 엔진 개발에 착수했었다. 소비자에 대한 심층적인 학습부터 초개인화 지원, 프로그램 최적화에 이르기까지, AI의 힘 없이는 이러한 작업을 거의 실시간으로 수행할 수 없다는 것을 명확하게 인지했기 때문이다. 엔진이 처음 개발된 이래로 AI 기술과 ML은 계속 빠르게 개선되어 날이 갈수록 트렌드를 더 정밀하게 포착했고, 앞으로 경험적 측정 분야의 발전도 이어 나갈 계획이다. 한편 몇 년 전만 해도 전 세계로 서비스를 확장하기는 매우 어려운 일이었지만 지금은 아니다. 자연어처리(NLP)의 혁신으로 각 언어의 구어적 뉘앙스와 동일 언어에서도 발견되는 지역 특성을 고려하며 캠페인을 진행할 수 있게 되었기 때문이다. AI 기술의 빠른 발전 덕분에 마스터카드의 엔진도 덩달아 그 위력이 커지고 있다.

과거에는 상상할 수 없었던 방식으로 기계와 인간의 경계가 모호해지고 있고 마케팅 실무자는 AI의 도움을 받아 마케팅 생애주기의 모든 단계를 파악하고, 이를 이해하고, 행동함으로써 즉각적으로 매우 효과적인 결과를 얻을 수 있게 됐다. 마스터카드 엔진은 전 세계에 걸쳐 있으므로 공통점과 통일된 주제를 찾기 쉽고, 지역별 운영방식에 주목할 만한 차이점도 발견하고 있다. 사람 간의 연결이 비즈니스 관점에서 가장 중요하기 때문에 오늘날의 복잡하고 방대한 온라인 환경에선 AI 기술 활용은 필수 불가결이다.


Consumer attention spans are getting shorter by the day, and for good reason. Every day, people are bombarded with roughly 10,000 advertising messages. Seeking a reprieve, many consumers look for platforms that provide what I call a ‘pure ad-free heaven’ devoid of advertising interruptions.

According to a 2020 industry study by Edelman, nearly seven in 10 adults worldwide use one or more methods to avoid ads, changing their media habits to see fewer ads (49%) and using ad blockers (48%). Those numbers will surely rise in the years ahead.

This noisy ad landscape is a nightmare for marketers who want to reach consumers with messages they would actually welcome − relevant, personalized offers that drive engagement and boost the advertiser’s return on investment (ROI).

Moreover, a 2021 Gartner report found that 63% of digital marketing leaders struggle to deliver personalization because they are still scaling up their use of emerging technologies. Consumers are ignoring most branded content or deeming it irrelevant – costing brands a fortune in lost customers and revenue.

It is clear that the old, traditional ways of advertising are no longer viable. Marketers must learn how to engage consumers through new, alternative routes that leverage emerging technologies with fresh strategic thinking and an updated roadmap.

That is the mindset which led digital marketers at Mastercard to reimagine their framework. From the onset, the goal has been to engage consumers with content that is personalized, contextually relevant, and in the moment. To accomplish this, the team created the Mastercard Digital Engine with artificial intelligence (AI) and machine learning (ML) at its core.

The AI-Powered Mastercard Digital Engine

How does it work?

1. The engine spots micro trends all over the world as it wades through billions of conversations on the internet. Micro trends range from a new cuisine like sushi burritos and disappointment over ballet dancers going on strike, to a rise in contactless payment options at the onset of the pandemic.

2. Since Mastercard creates experiences for consumers by tapping into their passions – think culinary, travel, sports, music, entertainment and more – the engine instantly matches micro trends with our current experiences and offers, suiting them to consumers’ preferences and passions.

3. Armed with a deep analysis of the micro trend, the marketer can then decide whether to engage consumers and launch a campaign with a Mastercard Priceless experience, offer or reward. The campaign can be launched on multiple media platforms in minutes (not months) with custom content pulled from Mastercard’s rich library of relevant copy. And it can be taken down the second the trend has run its course.

Not only is AI facilitating the Mastercard Digital Engine and enabling it to act with zero or near zero lag for maximum impact, ML and natural language processing (NLP) are also integral to accelerating its impact, allowing us to measure the effects in real time, optimizing who receives what content and when. This trifecta is game changing.

The AI processes we have employed thus far include named entity recognition (NER) algorithmic approach, graph-based (PKE), and unsupervised keyword extraction (YAKE), to name a few. The algorithm is then further refined by using Word Mover’s Distance, Isolation Forest, and One Class SVM to remove irrelevant micro trends.

In addition to its real time response that matches consumer interests and desired experiences with a micro trend, the engine also boosts the relevance of our content by capturing both short-lived and long-term trends to help marketers deliver a personalized message in a contextually adaptable way.

The following examples showcase these capabilities.

Micro trend no. 1: Celebrity’s breaking news
A celebrity announced a big career transition, and the news generated significant online buzz. The Mastercard Digital Engine spots a spike in conversation about the celebrity and matches it with a behind-the-scenes video on Priceless, Mastercard’s consumer platform that features experiences, offers and rewards for cardholders. A creative campaign is instantly created from personalized, contextually relevant and timely content.

In an authentic and meaningful way, we were able to drive higher engagement and click-through rates. The campaign, which was active for a two-day period, drove significantly greater awareness, consideration, and conversion than campaigns delivered by traditional methods:

  • 100% higher engagement rates (engagement rates: social platforms calculate this as interactions divided by a number of impressions; interactions are likes, shares, comments, etc.)
  • 254% higher click through rates as compared to benchmarks
  • 85% reduction in cost per click

The relevance of the message, an assertive creative campaign, and the real time model of the engine allowed us to generate a cost-effective outcome that surpassed our objective’s key performance indicators (KPIs).

Micro trend no. 2: Latest tourist passions
A European tourism board enlisted the Mastercard Digital Engine to help promote its country to residents of an adjacent nation, hoping to drive cross-border travel and thereby generate economic growth. We worked closely with the tourism board to define the strategy and implement the tactics.

The engine spotted relevant micro trends and matched them with compelling content and offers available to consumers instantly. The resulting ads fell into three passion categories – travel, culinary and culture – driving clicks to the tourism board’s website.

This AI-powered campaign delivered higher metrics than similar but traditional campaigns that the tourism board ran, targeting the neighboring nation. Both were on the same media platforms and had similar goals. Mastercard Digital Engine delivered:

  • 16% lower cost per reach
  • 20% more people reached
  • 87% lower cost per engagement
  • 25% higher rate of engagement
  • 38% lower cost per click
  • 96% higher clickthrough rates

Micro trend no. 3: Trendy traveler experiences
A national airline teamed up with Mastercard to build a sweepstakes campaign designed to attract travelers to a culinary series in a popular domestic destination. The Mastercard Digital Engine spotted seven micro trends, matching them to pre-identified digital ads, called creatives, and copy in various categories. We engaged consumers with customized content that was contextually relevant and in the moment. The campaign generated the following results compared to campaigns that employed traditional methods:

  • 29% lower cost per click
  • 37% higher click-through rate
  • 32% lower cost per engagement
  • 43% higher engagement rate

Key findings

We know the engine works because over the last two years Mastercard has launched more than 500 successful campaigns across 20 countries for either itself or its partners. Our initiatives have covered a wide variety of categories ranging from sports and music to travel and food, as well as e-commerce, philanthropy, and diversity, equity and inclusion.

AI is a one-of-a-kind technology that is driving a higher standard of marketing effectiveness. A game changer, the Mastercard Digital Engine delivers much higher campaign metrics than those of traditional campaigns. We have measured a statistically significant subset of these campaigns, applying strict test and control methodology to arrive at the following results:

  • Reach multiple

- average is 1.8 times
- median is 2.0 times
- range is 0.6-9.1 times

  • Click-through rates multiple

- average is 4.1 times
- median is 2.2 times
- range is 0.8-21.4 times

  • Engagement rates multiple

- average is 3.2 times
- median is 2.0 times
- range is 0.8-15.9 times

Sentiment, which we have also observed, usually varies across regions. In the Latin American market where the engine is used quite broadly, we have observed an improvement of eight percentage points in positive and neutral sentiment toward Mastercard.

We are also seeing differences across passion categories. For instance, categories with larger followings, such as sports, music, and food, do well. Localization is also important. Soccer does well across most regions but does not fare well in the U.S.

Another key discovery concerns the duration of campaigns. Short campaigns with a small number of creatives generally do not perform as well as longer campaigns or campaigns with more creatives.

Nothing will influence the marketing field more than AI

We started this journey a few years ago with the goal of designing a marketing tool that could successfully cut through today’s crowded and cluttered landscape, credibly reaching consumers who tune out messages because they prefer frictionless experiences. Fueled by AI, the Mastercard Digital Engine is an effective and efficient machine that builds campaigns that drive real time, impactful engagement and ROI.

Turning to the power of AI was a natural step from the beginning. From learning deeply about consumers to enabling hyper-personalization, to optimizing programs, we have always known that, without the power of AI, this could not be done in anything near real time.

Since the engine’s inception, we have been delighted to see how quickly AI technology and ML are advancing. ML ensures that the engine improves with every execution, picking up better, more dynamic trends by the day. Thanks to ML, we will continue to hone our ability to spot appropriate micro trends. We also look forward to advancements in empirical measurement.

The progress of NLP is also fascinating to observe and put into use. Scaling our engine globally and into many languages would have been hugely more difficult even a couple of years ago. Think of the colloquial nuances and adaptation of each language in different locales; the Spanish spoken in Spain is quite different from the Spanish spoken in Mexico or Puerto Rico.

AI, ML, and NLP allow us to act with zero or near-zero lag time for maximum impact. And that impact can also be measured in real time so campaign optimization can happen instantly. (We define optimization as determining who receives what content and when.)

If you still believe that AI’s speed can be matched by manual methods, think again. The lines between machines and humans are blurring in ways that were once unimaginable. As marketing practitioners aided by AI, we can have a finger on the pulse of every stage of the marketing life cycle, make sense of it, and act, yielding highly effective outcomes instantly, an effect termed quantum marketing.

The Mastercard Digital Engine is engaging, enlightening and empowering. Because of its globality, we are seeing many common threads and unifying themes. We are also seeing notable differences in how it operates across regions. For example, the development of the natural language models that exist today varies dramatically from one language to the next. We need to bring more access and equality into the information technology framework, ensuring inclusion and equity. As we continue to improve our capabilities, this social responsibility must be a bigger part of a digital marketer’s handbook.

Our engine has taught us so much. Principally, it has ingrained in us an unswerving belief that AI is a necessity for engaging customers in a meaningful and authentic way in real time. It is the only alternative to manual methods today because making a human connection is everything.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] AI는 실질적인 해를 끼친다

[해외 DS] AI는 실질적인 해를 끼친다
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

존재론적 우려보단 일상 속 위험에 집중해야

인류를 멸망시킬 수 있다는 막연한 이야기가 아니라 인공지능의 실제 위협은 부당한 체포, 감시망의 확대, 명예훼손, 딥페이크 포르노 등과 같이 우리의 삶과 밀접한 관계가 있다.

많은 테크 기업이 그리는 실체 없는 미래상과 달리 인공지능 기술은 이미 주거, 형사 사법, 의료 분야에서 상습적으로 차별을 조장하며 혐오 발언과 잘못된 정보를 퍼뜨리는 데 사용되고 있다. 또한 편향된 임금 책정 알고리즘으로 인해 노동자들의 임금은 도난당하고 있고 이러한 AI 프로그램은 점점 더 널리 퍼지고 있는 실정이다.

실제 위협이 눈앞에 있음에도 불구하고 지난 5월 비영리 단체인 AI 안전 센터는 OpenAI의 CEO인 샘 알트먼을 비롯한 수백 명의 업계 리더가 공동 서명한 성명을 발표하여 핵전쟁이나 팬데믹과 같은 'AI로 인한 멸종 위험'에 대해 경고했다. 알트먼은 앞서 의회 청문회에서 이러한 위험을 암시하며 생성형 AI 도구가 "상당히 잘못될 수 있다"라고 지적한 바 있다. 그리고 7월에는 AI 기업 임원들이 조 바이든 대통령을 만나 "AI 위협의 주요 원인"을 줄이겠다는 여러 실속 없는 다짐을 하면서 실제 위협보다 실존적 위협이 더 크다는 것을 강조했다. 이들은 자신들의 주장을 정당화하기 위해 사기업의 AI 연구소를 통해 실존적 위험에 대한 엉터리 보고서를 만들고, 과장된 용어로 공포를 조장하여 규제 기관의 주의를 흩트리고 있다.

AI 기술 바로 알아야 현실적 위협 직시 가능해

대중과 규제 기관은 이러한 과학 소설 같은 기만술에 넘어가면 안 된다. 동료 평가를 실천하고 AI에 대한 지나친 공포 조장에 반대하는 학자와 활동가들의 의견을 참고하여 현재 AI가 미치는 실질적인 악영향을 이해해야 한다.

명확한 논의를 위해서 'AI'라는 용어의 모호성을 먼저 제거해야 한다. 어떤 의미에서는 컴퓨터 과학의 한 하위 분야의 이름이고 또 다른 의미로는 해당 하위 분야에서 개발된 컴퓨팅 기술을 지칭할 수 있으며, 현재는 대부분 대규모 데이터 세트를 기반으로 한 패턴 매칭과 패턴을 기반으로 한 새로운 미디어 생성을 일컫는 단어다. 한편 마케팅 문구나 스타트업 홍보 자료에서 AI라는 용어는 비즈니스를 강화하는 마법의 가루로 통한다.

작년 말 OpenAI가 ChatGPT를 출시하고 Microsoft가 이 도구를 Bing 검색에 통합하면서 텍스트 합성 기계가 가장 주목받는 AI 시스템으로 떠올랐다. ChatGPT와 같은 대규모 언어 모델은 놀라울 정도로 유창하고 일관성 있는 텍스트를 추출하지만, 추론 능력은 물론 텍스트의 의미를 이해하지도 못한다. 이해 능력이 없는 기술에 이해력을 강제로 대입하는 시스템은 타로 해석과 다를 바가 없다. 임의로 정해진 답안을 받고 질문과 답의 논리 틈을 두고 자신을 이해시키는 일종의 사후 해석 과정에 불과하기 때문이다.

안타깝게도 생성형 AI의 결과물은 매우 그럴듯해 보이기 때문에 합성 출처를 명확히 밝히지 않으면 정보 생태계에 해로운 영향을 끼칠 수 있다. 신뢰할 수 있는 정보로 착각할 위험이 있을 뿐만 아니라, 정보로 가치가 없는 내용이 학습 데이터에 내재한 편견(이 경우 인터넷에 존재하는 모든 종류의 편견)을 증폭시킨다. 게다가 합성 텍스트는 실제 출처에 대한 인용이 없음에도 불구하고 권위 있게 들린다. 따라서 합성 텍스트 유출이 오래 지속될수록 신뢰할 수 있는 출처를 찾기가 점점 더 어려워지고, 막상 찾았다고 해도 신뢰하기가 또 망설여지는 심각한 문제가 있다.

접근성 좋아도 취약계층 돕는 기술 아니야

생성형 AI를 판매하는 사람들은 텍스트 합성 기계가 초중고 교육의 교사 부족, 저소득층의 의료 서비스 접근성 부족, 변호사를 고용할 수 없는 사람들을 위한 법률 지원 부족 등 우리 사회 구조의 다양한 문제를 해결할 수 있다고 피력한다. 하지만 도움이 필요한 사람들에게 실질적인 도움이 되지 않을 뿐만 아니라, 근로자에게 피해까지 준다. 예술가와 저자로부터 아무런 보상 없이 막대한 양의 학습 데이터를 도용했고 해로운 결과물의 생성을 피하고자 모순적으로 데이터 라벨링 작업자에겐 유해 콘텐츠를 반복적으로 노출해 정신적인 고통을 안겼다. 열악한 근무 환경에서 작업을 수행하는 긱 워커와 계약직 근로자들은 임금과 근로 조건에서 최하위권으로 내몰렸다.

마지막으로, 고용주들은 자동화를 활용하여 비용을 절감하고, 안정적이었던 직장에서 사람들을 해고했다가 다시 저임금 근로자로 고용하여 자동화 시스템의 오류를 수정하는 업무를 맡게 했다. 이는 현재 할리우드에서 벌어지고 있는 배우와 작가들의 파업에서 가장 극명하게 드러나는데, 3D 모형화로 대체된 배우를 사용할 수 있는 영구적인 권리를 사들이고, 인공지능이 만들어 낸 대본을 수정하기 위해 단발적으로 작가를 고용하고 있다.

무엇보다 과학적인 근거를 활용해 정책 수립에 힘써야

AI 관련 정책은 과학에 기반하고 관련 연구를 바탕으로 수립되어야 하지만, AI 업계로부터 지원받는 학술 단체나 기업 연구소에서 나온 자료가 지나치게 많다. 대부분 자료는 과학적 재현이 불가능하고, 영업 비밀 뒤에 숨어 있으며, 선전으로 가득 차 있고, 구성개념 타당도(결과적으로 측정되는 개념을 관련 구성개념이나 가정에 비추어 봄으로써 평가하는 타당도)가 부족한 평가 방법을 사용하는 등 상당수가 사이비 과학이다.

최근 주목할 만한 자료로는 "인공 일반 지능(Artificial General Intelligence)의 시작: GPT-4를 사용한 초기 실험"이라는 제목의 155페이지짜리 출판 전 논문이 있다. OpenAI의 텍스트 합성 기계 중 하나인 GPT-4의 출력에서 '지능'을 발견했다고 주장하는 Microsoft Research는 학습하지 않은 새로운 문제를 해결할 수 있다고 기술했지만, OpenAI는 해당 데이터에 대한 액세스 권한이나 설명조차 제공하지 않기 때문에 아무도 검증할 수 없다. 한편 전능한 기계가 악당으로 변해 인류를 멸망시킬지도 모른다는 환상에 세상의 관심을 집중시키려는 'AI 멸망론자'들은 기업들이 AI를 개발한다는 명목으로 현실 세계에서 저지르고 있는 실제 피해에 관한 연구보다는 이런 허황된 연구자료를 인용하고 있다.

정책 결정권자들은 규제되지 않은 데이터와 컴퓨팅 파워의 과도한 축적, 모델 훈련과 추론에 드는 환경적 비용, 복지에 대한 피해와 빈곤층의 무력화, 흑인과 원주민에 대한 경찰 단속 강화 등 자동화된 시스템에 권한을 위임함으로써 발생하는 해악을 조사해야 한다. 그 과정에서 엄밀한 학문적 방법론을 활용할 것을 촉구하고 세심한 정책으로 피해를 보는 사람들에게 계속 초점을 맞춰야 한다.


Wrongful arrests, an expanding surveillance dragnet, defamation and deep-fake pornography are all actually existing dangers of so-called “artificial intelligence” tools currently on the market. That, and not the imagined potential to wipe out humanity, is the real threat from artificial intelligence.

Beneath the hype from many AI firms, their technology already enables routine discrimination in housing, criminal justice and health care, as well as the spread of hate speech and misinformation in non-English languages. Already, algorithmic management programs subject workers to run-of-the-mill wage theft, and these programs are becoming more prevalent.

Nevertheless, in May the nonprofit Center for AI safety released a statement—co-signed by hundreds of industry leaders, including OpenAI’s CEO Sam Altman—warning of “the risk of extinction from AI,” which it asserted was akin to nuclear war and pandemics. Altman had previously alluded to such a risk in a Congressional hearing, suggesting that generative AI tools could go “quite wrong.” And in July executives from AI companies met with President Joe Biden and made several toothless voluntary commitments to curtail “the most significant sources of AI risks,” hinting at existential threats over real ones. Corporate AI labs justify this posturing with pseudoscientific research reports that misdirect regulatory attention to such imaginary scenarios using fear-mongering terminology, such as “existential risk.”

The broader public and regulatory agencies must not fall for this science-fiction maneuver. Rather we should look to scholars and activists who practice peer review and have pushed back on AI hype in order to understand its detrimental effects here and now.

Because the term “AI” is ambiguous, it makes having clear discussions more difficult. In one sense, it is the name of a subfield of computer science. In another, it can refer to the computing techniques developed in that subfield, most of which are now focused on pattern matching based on large data sets and the generation of new media based on those patterns. Finally, in marketing copy and start-up pitch decks, the term “AI” serves as magic fairy dust that will supercharge your business.

With OpenAI’s release of ChatGPT (and Microsoft’s incorporation of the tool into its Bing search) late last year, text synthesis machines have emerged as the most prominent AI systems. Large language models such as ChatGPT extrude remarkably fluent and coherent-seeming text but have no understanding of what the text means, let alone the ability to reason. (To suggest so is to impute comprehension where there is none, something done purely on faith by AI boosters.) These systems are instead the equivalent of enormous Magic 8 Balls that we can play with by framing the prompts we send them as questions such that we can make sense of their output as answers.

Unfortunately, that output can seem so plausible that without a clear indication of its synthetic origins, it becomes a noxious and insidious pollutant of our information ecosystem. Not only do we risk mistaking synthetic text for reliable information, but also that noninformation reflects and amplifies the biases encoded in its training data—in this case, every kind of bigotry exhibited on the Internet. Moreover the synthetic text sounds authoritative despite its lack of citations back to real sources. The longer this synthetic text spill continues, the worse off we are, because it gets harder to find trustworthy sources and harder to trust them when we do.

Nevertheless, the people selling this technology propose that text synthesis machines could fix various holes in our social fabric: the lack of teachers in K–12 education, the inaccessibility of health care for low-income people and the dearth of legal aid for people who cannot afford lawyers, just to name a few.

In addition to not really helping those in need, deployment of this technology actually hurts workers: the systems rely on enormous amounts of training data that are stolen without compensation from the artists and authors who created it in the first place.

Second, the task of labeling data to create “guardrails” that are intended to prevent an AI system’s most toxic output from seeping out is repetitive and often traumatic labor carried out by gig workers and contractors, people locked in a global race to the bottom for pay and working conditions.

Finally, employers are looking to cut costs by leveraging automation, laying off people from previously stable jobs and then hiring them back as lower-paid workers to correct the output of the automated systems. This can be seen most clearly in the current actors’ and writers’ strikes in Hollywood, where grotesquely overpaid moguls scheme to buy eternal rights to use AI replacements of actors for the price of a day’s work and, on a gig basis, hire writers piecemeal to revise the incoherent scripts churned out by AI.

AI-related policy must be science-driven and built on relevant research, but too many AI publications come from corporate labs or from academic groups that receive disproportionate industry funding. Much is junk science—it is nonreproducible, hides behind trade secrecy, is full of hype and uses evaluation methods that lack construct validity (the property that a test measures what it purports to measure).

Some recent remarkable examples include a 155-page preprint paper entitled “Sparks of Artificial General Intelligence: Early Experiments with GPT-4” from Microsoft Research—which purports to find “intelligence” in the output of GPT-4, one of OpenAI’s text synthesis machines—and OpenAI’s own technical reports on GPT-4—which claim, among other things, that OpenAI systems have the ability to solve new problems that are not found in their training data.

No one can test these claims, however, because OpenAI refuses to provide access to, or even a description of, those data. Meanwhile “AI doomers,” who try to focus the world’s attention on the fantasy of all-powerful machines possibly going rogue and destroying all of humanity, cite this junk rather than research on the actual harms companies are perpetrating in the real world in the name of creating AI.

We urge policymakers to instead draw on solid scholarship that investigates the harms and risks of AI—and the harms caused by delegating authority to automated systems, which include the unregulated accumulation of data and computing power, climate costs of model training and inference, damage to the welfare state and the disempowerment of the poor, as well as the intensification of policing against Black and Indigenous families. Solid research in this domain—including social science and theory building—and solid policy based on that research will keep the focus on the people hurt by this technology.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ②

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ②
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

현실적으로 효과적인 적용 어려운 워터마킹
다른 보조 기술과 함께 온라인 콘텐츠 위기 완화 시도
근본적인 문제 해결은 기술이 아니라 이용자의 비판적 사고력

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ①에서 이어집니다.


WaterMark ScientificAmerican
사진=Pexels

성공적인 워터마킹 시스템 도입 위해 고려 해야할 요소 많아 

AI로 제작된 자료에 디지털 워터마크를 추가하는 것은 저작권 표시를 사진에 덧씌우는 것만큼 단순하지 않다. 이미지와 동영상에 디지털 마킹을 하려면 작은 픽셀 묶음에 임의로 색을 조정하여 일종의 바코드(기계는 감지할 수 있지만 대부분 사람에게는 효과적으로 보이지 않는 바코드)를 삽입해야 한다. 오디오 경우도 마찬가지로 추적 신호를 음향 파장에 삽입해야 판별이 가능하다. 

캘리포니아 버클리 대학의 디지털 포렌식 전문 컴퓨터 과학자인 하니 파리드(Hany Farid)에 따르면 텍스트는 AI로 생성된 콘텐츠 중 데이터 밀도가 가장 낮은 형태이기 때문에 워터마크를 삽입하는 데 가장 큰 어려움을 겪는다고 전했다. 하지만 텍스트 워터마킹이 불가능하진 않다. 올해 초 기계 학습 연구 논문집(Proceedings of Machine Learning Research, PMLR)에 발표된 한 연구에서 대규모 언어 모델(이하 LLM)을 위한 워터마크 프로토콜을 제안했다. LLM이 사용할 수 있는 모든 단어를 두 개의 데이터베이스에 무작위로 분류하고, 한 데이터베이스의 단어와 음절 세트를 약간 더 선호하도록 모델을 프로그래밍한 결과 워터마킹된 텍스트엔 선호하는 데이터베이스의 어휘가 훨씬 더 많이 포함됐다. 문장과 단락을 스캔했을 때 누구의 창작물인지 그 출처를 알 수 있다는 얘기다.

워터마크의 알고리즘 특성은 사용자에게 비밀로 유지되어야 하는데 사용자는 어떤 픽셀이나 음파가 변경되었는지 또는 어떻게 수정됐는지 알 수 없어야 하고, AI 생성기가 선호하는 어휘도 몰라야 한다. 위 연구에 참여하지 않은 파리드 교수는 효과적인 워터마크는 사람이 알아차리지 못할 정도로 만들어야 쉽게 제거되지 않는다고 설명했다. 하지만 워터마크를 성공적으로 적용하기 위해선 신경 써야 할 요소가 많다. 워터마크는 편집은 물론 적대적인 공격에도 견딜 수 있을 만큼 견고해야 하지만, 생성된 콘텐츠의 품질을 눈에 띄게 떨어뜨릴 정도로 방해가 되어서는 안 되고, 악의적인 공격자가 워터마킹 프로토콜을 리버스 엔지니어링하는 데 사용할 수 없도록 보안을 유지해야 하는 동시에 사람들이 사용할 수 있도록 접근성이 좋아야 한다.

홀로서기 어려운 워터마킹, 다른 보조 기술도 필요해 

이상적으로는 널리 사용되는 모든 생성기(예: OpenAI 및 Google의 생성기)가 워터마킹 프로토콜을 공유하는 것이 좋다. 그래야 AI 도구들이 서로의 신호를 쉽게 지우는 데 사용될 수 없다고 커쉬바움 교수는 강조했다. 하지만 모든 기업이 이러한 조율에 참여하도록 설득하는 것은 쉽지 않은 일이며, 애초에 AI 출시를 서두른 빅테크 기업에게 이 모든 것을 맡기는 것은 위험한 일이다.

누구나 수정할 수 있는 스테이블 디퓨전(이미지 생성기)이나 메타의 언어 모델 LLaMa와 같은 오픈 소스 AI 시스템도 다른 문제에 직면했다. 이론적으로 오픈소스 모델의 매개변수에 인코딩된 워터마크는 쉽게 제거할 수 있다. 매개변수 대신 학습 데이터를 통해 워터마크를 삽입할 수 있지만 이미 워터마크 없이 학습된 오픈소스 모델이 출시되어 콘텐츠를 생성하고 있으며, 이를 재학습한다고 해서 이전 버전이 제거되지 않기 때문에 근본적인 문제 해결이 아니라는 전문가들의 지적이 있다.

궁극적으로 완벽한 워터마킹 시스템을 구축하는 것은 불가능해 보이며, 이 주제에 대해 사이언티픽 아메리칸과 인터뷰한 모든 전문가는 워터마킹만으로는 충분하지 않다고 답했다. 잘못된 정보 및 기타 AI 악용과 관련하여 워터마킹은 "퇴치 전략이 아닙니다. 완화 전략일 뿐입니다."라고 파리드 교수는 전했다. 그는 워터마킹을 집 현관문을 잠그는 것에 비유했다. 문을 잠그면 도둑이 들어오기 쉽지 않지만 문을 부수고 들어오는 것은 막지 못한다는 이치다.

워터마킹 기술을 보완하는 다른 작업도 진행 중이다. Microsoft와 Adobe를 비롯한 많은 빅테크 기업에서 채택하고 있는 C2PA(Coalition for Content Provenance and Authenticity, 콘텐츠 출처 및 진위 확인을 위한 연합) 가이드라인에서는 워터마킹 시스템도 권장하지만, AI로 생성된 모든 콘텐츠를 추적하고 메타데이터를 사용하여 AI가 만든 콘텐츠와 사람이 만든 콘텐츠의 출처를 확인할 수 있는 장부형 시스템을 구축할 것을 요구했다. 메타데이터는 사람이 제작한 콘텐츠를 식별하는 데 특히 유용하다. 사용자가 촬영한 모든 사진과 동영상에 인증 스탬프를 추가하여 실제 영상임을 쉽게 증명하는 모바일 카메라를 떠올리면 이해가 쉽다. 또 다른 보안 강화 요소는 의도치 않게 생성된 AI 생성물의 잔재를 찾아내는 사후 탐지 기능을 개선하는 데서 비롯될 수 있다.

기술만으로 온라인 문제 해결 못해, 개개인의 비판적 사고력 중요

하지만 이러한 기술적인 해결책이 온라인에서 발생하는 불신, 허위 정보, 조작의 근본 원인을 해소하지는 못하며, 이는 모두 AI가 등장하기 훨씬 이전부터 존재해왔다. 머신러닝을 연구하는 스탠퍼드 대학교 컴퓨터 과학자 제임스 저우(James Zou)는 AI 기반 딥페이크가 등장하기 전에는 포토샵에 능숙한 사람이 사진을 조작하여 원하는 모든 것을 보여줄 수 있었다고 말했다. TV와 영화 스튜디오는 일상적으로 특수 효과를 사용해 영상을 사실적으로 수정해 왔고, 극 사실주의 화가도 수작업으로 트릭 이미지를 만들어 왔다. 생성형 AI는 단지 가능성의 범위를 넓힌 것일 뿐이라는 것이 그의 견해다.

웨버-울프 교수는 궁극적으로 사람들이 정보에 접근하는 방식을 바꿔야 한다고 조언했다. 사람들이 온라인과 오프라인에서 보는 정보의 맥락과 출처를 비판적으로 평가할 수 있도록 정보 활용 능력과 리서치 기술을 가르치는 것이 그 어느 때보다 중요 해졌다고 강조했다. "이는 사회적 문제입니다. 기술만으로는 사회 문제를 해결할 수 없습니다.”

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ①

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ①
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

어느 때보다 쉬워진 AI 콘텐츠 생성
악의적 의도로 사용되면 '공공의 이익' 해할 가능성 높아
워터마킹 같은 기술 대안 있지만 현재 수준으로는 효과가 미미해

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Tech Companies ScientificAmerican 20230810
Tech Companies ScientificAmerican 20230810

쉽게 접근할 수 있는 다양한 온라인 도구 덕분에 버튼 클릭 한 번으로 인공지능이 생성한 이미지, 텍스트, 오디오 및 동영상을 사람이 만든 것과 매우 흡사하게 제작할 수 있게 되었다. 그 결과 잠재적인 위험성을 내포한 오류, 잘못된 정보, 범죄 사기로 가득 찬 검증되지 않은 자료의 범람으로 인해 온라인 콘텐츠 위기가 초래됐다. AI가 생성한 콘텐츠를 사람이 만든 콘텐츠와 구분할 수 있는 방법을 찾기 위해 고군분투하고 있지만 현재의 AI 콘텐츠 탐지 도구는 정확도가 매우 떨어진다. ChatGPT를 개발한 OpenAI조차도 자체 제작한 분류 도구의 신뢰도가 낮아서 서비스를 중단했다.

사회적 혼란 야기하는 생성형 AI, 온라인 콘텐츠에 대한 신뢰 약화

인간과 기계의 창작물을 혼동하면 많은 부작용이 발생한다. '가짜 뉴스'는 수십 년 동안 온라인에서 문제가 되어 왔지만, 이제는 AI를 통해 단 몇 분 만에 왜곡된 이미지와 기사를 무더기로 게시하여 검색 엔진과 소셜 미디어 피드를 마비시킬 수 있는 수준에 이르렀다. 사기성 메시지, 게시물, 심지어 전화나 음성 메일도 그 어느 때보다 빠르게 퍼지고, 비양심적인 학생은 과제를, 과학자는 연구 데이터를, 그리고 입사 지원자는 애플리케이션을 자동 생성하여 자기 작업물로 속일 수 있게 됐다. 설상가상으로 부정확한 AI 콘텐츠 탐지기를 사용하면 순수한 노력의 결과물도 부정직하다는 오해를 불러일으킬 수도 있다.

딥페이크(이미지합성기술)를 핑계로 자신이 실제로 한 말과 행동에 대한 책임을 회피한 유명 인사도 있다. 최근 한 운전자가 사망한 사건에 대한 소송 중, 테슬라의 변호사는 일론 머스크 CEO의 불리한 발언이 담긴 2016년 녹취록이 딥페이크일 수 있다고 변명했다. 인터넷의 방대한 데이터가 조잡한 콘텐츠로 점점 더 오염됨에 따라, 생성형 AI는 스스로 '중독'되어 버릴지도 모른다. 이러한 모든 이유와 그 이상의 이유로 인해 실제와 인공 콘텐츠를 구분하는 일이 점점 더 중요해지고 있다.

워터마킹 기술, 아직 로봇인지 사람인지 헷갈려

기존의 AI 콘텐츠 탐지기는 제 역할을 못하는 실정이다. 베를린에 있는 공학 및 경제 응용과학대학의 컴퓨터 과학자이자 표절 연구자인 데보라 웨버-울프(Debora Weber-Wulff)는 "효과가 없습니다"라고 단언했다. 6월에 발표된 출판 전 논문에서 웨버-울프와 그녀의 공동 저자는 AI가 생성한 텍스트를 감지하기 위해 시중에 공개된 12개의 도구를 평가했다. 그 결과, 가장 관대한 평가 기준에서도 가장 높은 정확도가 80% 미만이었으며, 대부분은 동전 던지기 확률에 불과한 것으로 나타났다. 모두 오탐율이 높고  사람이 가볍게 편집하면 그 성능이 훨씬 더 떨어졌다. 위조 이미지 검출기에서도 비슷한 양상이 관찰됐다.

AI로 제작된 모든 콘텐츠에 지울 수 없는 숨겨진 디지털 신호를 삽입하여 출처 추적을 가능하게 하는 워터마킹 기술 대안이 주목받고 있다. 바이든 행정부는 미국 AI 기업 7곳이 "워터마킹 시스템과 같이 AI 콘텐츠를 효과적으로 식별할 수 있는 기술"을 개발하겠다는 서약을 포함하여 8가지 위험 관리 약속 목록에 자발적으로 서명했다고 7월 말에 발표했다. 최근 통과된 유럽연합 규제에서도 테크 기업의 AI 산출물이 사람의 작업물과 구별되기를 요구하고 있다.

워털루 대학의 데이터 보안 전문 컴퓨터 과학자인 플로리안 커쉬바움(Florian Kerschbaum)은 워터마킹은 "우리가 사용할 수 있는 몇 안 되는 기술적 대안 중 하나"라고 말했다. "그렇다고 해서 이 기술의 결과는 우리의 생각만큼 확실하지 않습니다. 높은 수준의 신뢰성에 도달할 수 있다고 확신하기 어렵습니다" 워터마킹 시스템을 구현하는 데는 해결해야 할 기술적 과제가 남아 있으며, 전문가들은 이러한 시스템만으로는 잘못된 정보를 관리하고 사기를 방지하며 사람들의 신뢰를 회복하는 중대한 과제를 달성할 수 없다는 데 의견을 같이했다.

[해외 DS] AI 콘텐츠 위기, 테크 기업의 미비한 대응 방안 ②로 이어집니다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ②

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ②
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

분야별 경중과 내용에 따라 다른 제도 필요
보상 한계 극복한 오픈소스 배당금
국가적 규제는 국제적 경쟁의 큰 걸림돌

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ①에서 이어집니다.


Judge Signing on the Papers
사진=Pixabay

최근 AI 기술 발전과 함께 새로운 법률·규제 논의가 활발히 진행되고 있다. 하지만 각 분야의 특수성을 고려하지 않은 획일적인 규제 적용은 자칫 산업 발전의 발목을 잡을 수 있다는 우려도 제기되고 있다.

예를 들어 예술 창작물에 대한 저작권 보호는 중요하지만, 이를 의료 연구 데이터나 과학 논문에도 똑같이 적용하는 것은 적절하지 않다. 생명과 직결된 의료 분야에서는 AI 개발에 필요한 과학 정보가 학습 데이터에서 제외될 경우 심각한 문제를 일으킬 수 있기 때문이다.

따라서 음반 저작권과 과학 논문 데이터 활용은 각각 다른 맥락에서 접근해야 할 필요가 있다. 저작권 보호가 중요한 음반 분야와 공익적 가치가 큰 과학 논문 분야는 각각의 특수성을 고려하여 데이터 활용 범위 및 규제를 설정해야 한다.

획일화된 규정의 위험성, 전혀 다른 길을 걸은 미국과 EU

1996년 세계지적재산권기구(World Intellectual Property Organization, 이하 WIPO)가 제안한 데이터베이스 조약은 데이터베이스 추출 정보에 대한 저작권 자동 부여를 골자로 했다. 하지만 모호한 정의와 획일적인 규제 적용으로 데이터 서비스 계약 부담 증가, 원치 않는 독점 발생 등 부작용 우려가 제기됐다.

미국 학계, 국립 도서관, 시민 단체는 물론 정부 관계자들까지 반대 의견을 표명해, WIPO 데이터베이스 조약은 1996년 외교 회의에서 결국 실패로 돌아갔다. 미국은 이후에도 데이터베이스 관련 법률을 채택하지 않았지만, 유럽 연합(EU)은 데이터베이스 법적 보호 지침을 시행했다. 그러나 EU는 수십 년간 법원 판결을 통해 해당 규정을 약화하려 노력했고, 2005년 내부 평가에서 데이터베이스 생산에 긍정적인 영향을 미치지 못했다고 솔직하게 인정했다. 반면 미국은 데이터베이스 투자가 급증하며 해당 분야에서 큰 발전을 이뤘다.

이처럼 획일화된 규제는 산업 발전을 저해하고 혁신을 가로막을 수 있다. 급변하는 디지털 시대에는 혁신을 장려하고 경쟁을 촉진하는 유연한 규제 환경 조성이 무엇보다 중요한 이유다.

저작권 보상 한계, 수익 분배로 돌파구 모색해야

인공지능 기술 발전과 함께 저작권 문제는 더욱 복잡하고 해결하기 어려운 난제로 떠올랐다. 특히 방대한 학습 데이터를 사용하는 대규모언어모델(LLM) 모델 개발 과정에서 저작권 문제는 더욱 심각해지고 있다. 사실 간단한 프로젝트조차 저작물에 대한 권리 정리가 쉽지 않고, 대규모 프로젝트는 메타데이터 분석과 계약 검토를 통해 권리 소유자를 파악하는 것이 사실상 불가능에 가깝다. 과학 분야에서도 저작물 사용 동의 의무가 있지만, 현실적인 어려움으로 인해 대부분의 저자가 정당한 보상을 받지 못하는 실정이다.

현대 LLM에 사용되는 데이터 규모는 측정하기 어려울 정도로 방대하다. 스테이블 디퓨전(Stable Diffusion)은 23억 개의 이미지를, GPT-3는 GPT-2보다 1,000배 이상 큰 45 테라바이트의 데이터를 학습에 사용했다. 오픈AI는 GPT-4의 학습 데이터 규모를 공개하지 않았지만, 업계 관계자들은 해당 모델에 멀티모달 기능이 추가되면서 훨씬 더 많은 양의 학습 데이터가 동원됐을 것이라고 분석했다.

이러한 상황에서 저작권 침해 소송은 막대한 비용과 시간을 소모할 뿐, 근본적인 해결책이 되지 못한다. 따라서 최근에는 AI 프로그램을 활용한 제품이 수익을 창출할 경우, '오픈소스 배당금' 구조를 도입하여 데이터 제공자에게 수익을 분배하는 방안이 대안으로 떠오르고 있다. 저작권 침해 분쟁을 줄이고, 데이터 제공자에게 정당한 보상을 제공하며, AI 산업 발전을 촉진하는 윈윈 전략이 될 수 있다는 기대다. 물론 구체적인 배당 방식과 비율 등에 대한 사회적 합의가 필요하지만, AI 시대에 걸맞은 새로운 저작권 패러다임 모색이 시급한 시점이다.

AI 시대, 규제 완화 없인 글로벌 경쟁 '낙오'

한편 AI 학습 데이터를 탈중앙화하자는 주장도 제기되고 있다. AI 훈련 데이터를 분산 관리하면 개인 정보 보호를 강화하고 독점 통제를 방지하는 데 유리할 수 있다는 의견이다. 그러나 이 같은 탈중앙화는 데이터에 대한 지식재산권 보호를 어렵게 만들 수 있는데, 지식재산권은 국가별로 다르게 적용되지만, AI 서비스 개발 경쟁은 전 세계적으로 이루어지고 있어 데이터 규제가 강한 국가의 기업들은 상대적으로 불리한 위치에 놓일 수 있다는 분석이 흘러나온 것이다.

AI 프로그램은 인터넷과 전력만 있으면 어디서든 실행할 수 있어 대규모 인력이나 특수 연구 시설이 필요하지 않다. 이 때문에 데이터 규제가 엄격한 국가의 기업들은 상대적으로 규제가 덜한 환경에서 운영되는 기업들과의 경쟁에서 불리할 수 있다. 결국 AI 훈련 데이터의 탈중앙화는 기회와 과제를 동시에 안겨 준다. 개인 정보 보호 강화와 같은 긍정적인 측면이 있는 반면, 규제 및 실행 과정에서의 복잡성 증가와 같은 어려움도 존재한다.

따라서 AI의 이점을 극대화하고 위험을 최소화하기 위해서는 상황에 맞는 신중한 규제 마련이 필수적이다. 데이터 사용에 대한 수익 배분 구조 도입, 탈중앙화 방식 등 다양한 방안을 모색하되 각 방안의 장단점을 면밀히 검토해야 한다. 전문가들은 AI 기술 발전과 함께 발생하는 문제들을 해결하기 위해서는 다양한 이해관계자들의 의견을 종합적으로 고려해야 한다고 강조했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ①

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ①
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

AI 기술 혜택 증진 위해 제도적 뒷받침 필요, 과도한 두려움 지양해야
규제 강화에도 IP 침해 및 보상 문제 등 해결 과제 산적
각국 AI 관련 제도 마련 분주, 일부 국가는 아직 입장 정리 중

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

인공지능(AI)은 더 이상 막연한 추측의 대상이 아니다. 이제 AI는 우리 삶 곳곳에 스며들어 혁명적인 변화를 예고하고 있다. 인간의 능력을 뛰어넘는 AI의 등장은 희망과 두려움을 동시에 불러일으키고 있다. AI 기술은 이미 여러 분야에서 인간을 능가하는 성과를 보여주고 있다. 하지만 이러한 급격한 발전 속도를 따라잡지 못하는 규제와 윤리적 논쟁은 여전히 풀어야 할 숙제로 남아 있다. AI 기술을 어떻게 관리하고 활용하느냐에 따라 우리의 미래는 크게 달라질 수 있다.

AI 기술은 과학, 의학 등 다양한 분야에서 혁신을 가져올 잠재력을 지니고 있다. 하지만 동시에 일자리 감소, 오용 가능성 등 부작용에 대한 우려도 커지고 있다. 오픈AI의 챗GPT와 같은 AI 챗봇의 등장은 이러한 논쟁에 불을 지폈다. 미국의 척 슈머 상원 원내대표는 AI가 우리 삶 전반에 엄청난 변화를 가져올 것이라고 경고했고, 러시아의 블라디미르 푸틴 대통령은 AI 기술 패권이 세계 질서를 좌우할 것이라고 주장했다. 심지어 AI 업계 리더들조차 AI의 잠재적 위험성에 대한 경고를 쏟아내고 있다.

단순 규제 넘어 구체적인 저작권 이해 충돌 해결 방안 필요

지난 6월 14일 유럽 의회는 생성형 인공지능 시스템을 규제하는 새로운 법안을 통과시켰다. 이 법안은 챗GPT와 같은 AI 시스템이 안전하고 윤리적인 방식으로 사용되도록 다양한 안전장치와 공개 의무를 부과하고 있다. 특히 AI 시스템이 사람의 심리를 조종하거나 취약 계층을 악용하는 것을 금지하고, 건강·안전·기본권 등에 대한 위험을 예방하도록 요구하고 있다.

이와 더불어 여러 국가에서는 AI 학습을 위한 정보 수집을 용이하게 하기 위해 저작권법에 예외 조항을 도입했다. 하지만 이러한 조치는 저작권 소유자와 비평가들의 반발을 불러왔으며, AI 기술 발전에 따른 부작용에 대한 우려가 커지면서 AI 학습 데이터에 대한 저작권 문제는 더욱 민감한 사안으로 떠오르고 있다.

특히 AI 학습 데이터에 대한 저작자의 동의 및 보상 문제는 전 세계적인 논쟁거리다. 최근 미국 저작권 청문회에서는 AI 학습 데이터에 대한 "승인, 공로, 보상"의 필요성이 제기되기도 했다. 이는 AI 기술 발전과 함께 저작권 보호의 중요성이 더욱 강조되고 있음을 보여주는 대표적인 사례다.

제도 기반 구축에 힘쓰는 국가들, 중국과 인도 입장은 불분명

AI 학습 데이터에 대한 지적 재산권 문제는 국가별로 다양한 접근 방식을 보이며 끊임없이 변화하고 있다.

미국은 현재 여러 소송을 통해 저작권 예외 조항의 적용 범위를 명확히 하려는 노력을 기울이고 있다. 유럽연합(EU)은 2019년 저작권 지침을 통해 연구 및 문화유산 기관에 대한 의무적 예외를 포함하는 등 텍스트·데이터 마이닝에 대한 예외 조항을 마련했다. 하지만 상업적 서비스에서의 저작물 사용에 대한 저작권자의 권리를 보장하며 균형을 맞추려는 모습이다.

영국은 2022년 상업적 사용에 대한 광범위한 예외 조항을 제안했지만, 올해 초 이를 보류했다. 싱가포르는 2021년 저작권법 개정을 통해 △텍스트·데이터 마이닝 △데이터 분석 △기계 학습에 대한 예외 조항을 신설하고, 데이터 접근에 대한 합법적인 절차를 요구하며 저작권 보호에 힘쓰고 있다.

반면 중국은 다른 국가들과 달리 AI 학습 데이터에서 지적 재산권을 침해하는 콘텐츠를 제외하겠다는 입장을 밝혔다. 하지만 방대한 온라인 데이터의 저작권 상태가 불분명하다는 점에서 실효성에 대한 의문이 제기되고 있다. 인도는 아직 AI 규제에 대한 명확한 입장을 정하지 않았지만, 국내 산업 육성에는 적극적인 지원을 약속했다.

이처럼 AI 학습 데이터에 대한 지적 재산권 문제는 국가별로 다양한 해결 방식을 모색하고 있으며, 앞으로도 계속해서 논의가 이어질 것으로 예상된다.

[해외 DS] 데이터 활용과 IP 보호, 두 마리 토끼 잡는 스마트 IP 법 ②로 이어집니다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] AI 모델, 시간이 흐른다고 항상 발전할까?

[해외 DS] AI 모델, 시간이 흐른다고 항상 발전할까?
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Overtime ScientificAmerican 20230804
사진=Scientific American

지난 3월 오픈AI가 텍스트 생성 인공지능인 대규모언어모델(이하 LLM) GPT-4를 출시했을 때 소수를 식별하는 이진 분류 작업을 능숙하게 수행했다. 소수와 합성수가 각각 500개가 들어있는 1,000개의 숫자 리스트를 주면 84.0%의 정확도로 소수를 분류해 냈다.

하지만 불과 3개월 후인 6월, GPT-4의 정확도는 51.1%까지 급락했다. 정량적 답변을 요구하는 다른 수학 문제에서도 정확도가 83.6%에서 35.2%로 크게 떨어졌다. 더욱이 6월 GPT-4는 3월 모델뿐만 아니라 이전 버전인 6월 GPT-3.5보다도 성능이 뒤처지는 것으로 나타났다. 일반적으로 AI 모델은 학습 데이터가 늘어날수록 성능이 향상될 것으로 기대되지만, GPT-4는 시간이 지남에 따라 오히려 성능이 저하되는 역설적인 현상을 보여주고 있다.

물론 긍정적인 변화도 있었다. 민감하거나 주관적인 질문에 대해서는 답변을 회피하거나 짧게 응답하는 등 안전성이 향상된 모습을 보였으며, 특히 장황한 답변을 지양하는 경향이 나타났다.

ChatGPT 성능 변화 논란, AI 모델 투명성 문제 제기

스탠퍼드대학교와 UC 버클리 연구진은 3월과 6월 GPT-4 및 GPT-3.5 모델을 비교 분석했으며, 아직 동료 심사는 거치지 않았지만 많은 이들의 주목을 받았다. 연구 결과가 공개되자 일부 AI 사용자들은 자신의 경험과 유사하다며 공감했고, "ChatGPT가 점점 멍청해지는 건가?"라는 의문이 제기되기도 했다. 일부 언론에서는 ChatGPT의 성능 저하를 단정적으로 보도하기도 했다.

이번 연구의 공동 저자이자 스탠드대학의 데이터과학 제임스 저우(James Zou) 교수는 이러한 반응들이 생성형 AI 모델의 변화를 지나치게 단순화하고 있다고 지적했다. "GPT-4나 GPT-3.5가 시간이 지남에 따라 좋아지고 있는지, 나빠지고 있는지 단정하기는 어렵다"고 저우 교수는 설명했다. 결국 "더 좋아졌다"는 판단은 주관적인 영역이라는 점을 강조했다.

오픈AI는 자체 지표를 활용해 모델 출시 이후에도 꾸준히 업데이트를 진행해왔을 것이다. 하지만 의도치 않은 분야에서 성능 저하가 발생했고, 이를 공식 블로그를 통해 인정하기도 했다. 그러나 모델 업데이트 관련 벤치마크 데이터를 공개하지 않고, 외부 연구 결과에 대한 논평도 거부해 불투명한 소통 방식이라는 비판을 받고 있다. 업계 관계자들은 이러한 불투명한 소통 방식은 사용자들에게 피해를 야기한다고 지적했다. 모델 드리프트 발생 시 익숙했던 프롬프트 방식을 변경해야 하고, 그 위에 구축된 애플리케이션 전체가 오작동을 일으키면 업무 효율이 크게 저하될 수 있다고 경고했다. 또한 LLM에 대한 의존도가 높아질수록 이러한 피해는 더욱 커질 것으로 예상되며, 외부 연구자들은 자체 테스트 결과와 기계 학습 지식을 바탕으로 원인을 추측할 수밖에 없다고 우려를 표했다.

학습 데이터 구성과 파인튜닝 과정을 원인으로 추정

GPT-4와 같은 대규모 언어 모델(LLM)은 수천억 개의 매개변수를 가지고 있다. 기존 컴퓨터 프로그램과 달리 LLM에서는 각 매개변수와 모델 특성 간의 명확한 일대일 관계를 파악하기 어렵다. 따라서 초기 학습 후 매개변수를 직접 수정하는 대신, 인간 피드백을 반영하는 파인튜닝 작업을 통해 성능을 향상시키는 것이 일반적이다. 하지만 파인튜닝 과정에서도 예상치 못한 상충 관계로 인해 특정 영역에서 성능 저하가 발생할 수 있다.

저우 교수는 AI 모델의 파인튜닝 과정을 유전자 편집에 비유했다. AI 모델의 매개변수는 DNA 염기쌍과 유사하며, 파인튜닝은 특정 목표를 위해 이 매개변수를 조정하는 과정으로 유전자 편집 과정에서 돌연변이를 도입하는 것과 비슷하다고 설명했다. 즉 AI 모델의 코드를 변경하거나 특정 결과를 얻기 위해 학습 데이터를 추가하는 파인튜닝 과정은 유전자 편집과 마찬가지로 예상치 못한 부작용을 초래할 수 있는 것이다. 저우 교수를 비롯한 연구자들은 대규모 AI 모델을 보다 정밀하게 수정하는 방법을 연구하고 있지만, 아직 최적의 방법론을 찾지 못했다고 밝혔다.

한편 미국 컬럼비아대학교 컴퓨터과학 캐시 맥키언(Kathy McKeown) 교수는 오픈AI가 GPT-4 개발 과정에서 유해한 답변을 방지하는 데 집중했을 가능성을 제기했다. 이러한 안전 우선주의 접근 방식이 다른 기능을 희생시켰을 수 있다는 것이다. 예를 들어 허용되는 발언에 대한 새로운 제약 조건을 도입해 부적절한 정보 공유를 막으려는 시도가 AI 모델의 소수 식별 능력 저하로 이어졌을 수 있다. 또한 파인튜닝 과정에서 낮은 품질의 학습 데이터가 사용되어 특정 수학적 주제에 대한 응답 능력이 떨어졌을 수도 있다. 즉 GPT-4의 성능 저하는 안전성을 강화하는 과정에서 의도치 않게 발생한 부작용일 수 있다는 것이 맥키언 교수의 분석이다.

독립적인 추론 능력이 없는 것이 주원인

프린스턴대학교 컴퓨터과학 박사 과정생 사야시 카푸어(Sayash Kapoor)는 GPT-4의 소수 식별 능력이 3월과 6월 사이에 큰 변화가 없었다고 주장하며, 이는 LLM이 독립적인 추론 능력이 없다는 증거라고 분석했다. 카푸어는 GPT-4가 텍스트 문자열을 확률적으로 생성하도록 설계되었기 때문에 문제의 논리를 이해하지 못하고, 단순히 학습 데이터에서 파악한 패턴에 따라 답변을 제공한다고 설명했다. 그는 파인튜닝 과정에서 사용된 데이터의 특성으로 인해 GPT-4가 3월 이후 더 적은 소수와 더 많은 합성수에 노출되었고, 이로 인해 소수 여부에 대한 기본 답변이 "예"에서 "아니오"로 변경되었을 가능성을 제기했다. 이는 저우 교수의 실험에서 관찰된 6월 GPT-4와 GPT-3.5의 기본 응답 패턴과도 일치하는 결과다. 결론적으로 카푸어는 GPT가 실제로 소수 여부를 계산하는 것이 아니라 학습 데이터에서 얻은 확률적 추정에 기반해 가장 가능성이 높은 답변을 제공한다고 주장했다.

인공신경망의 학습 방식이 인간의 나쁜 정신 습관 형성과 유사한지에 대한 질문에, 사야시 카푸어는 이러한 비유는 적절하지 않다고 답했다. 그는 인공신경망이 비정상적인 사고 패턴을 학습할 수는 있지만, 그 이면에는 논리가 없다고 재차 강조했다. 카푸어는 인간의 사고는 세상을 이해하고 맥락화하는 과정에서 틀에 박힌 사고에 빠질 수 있지만, AI는 맥락이나 독립적인 이해 능력이 없기 때문에 인간의 심리 작용과는 근본적으로 다르다고 설명했다. 그는 "LLM은 단어 간 관계를 정의하는 방대한 데이터를 학습할 뿐, 실제 추론을 수행하는 것이 아니라 추론을 모방하는 것"이라고 지적하며, 인공신경망과 인간의 사고 방식을 동일시하는 것은 오류라고 덧붙였다.

이번 GPT 성능 연구를 진행한 스탠퍼드 연구진은 LLM의 장기적인 성능 검증 계획을 밝히며, LLM을 업무에 활용하는 기관과 기업들도 유사한 검증 시스템 구축을 권고했다. 또한 연구의 투명성을 위해 실험 데이터와 소스 코드를 모두 공개했다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] "빌보드 HOT 100", 이제는 인공지능으로 예측한다?

[해외 DS] "빌보드 HOT 100", 이제는 인공지능으로 예측한다?
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 글로벌AI협회(GIAI)에서 번역본에 대해 콘텐츠 제휴가 진행 중입니다.


Hot100 ScientificAmerican 20230802
사진=Scientific American

매일 새로운 곡은 셀 수 없이 쏟아지는 가운데, 최근 어떤 곡이 이른바 '빌보드 차트'에 오르게 될지 예측하는 AI 알고리즘이 공개돼 세간의 주목을 받고 있다.

지난 6월 클레어몬트 대학교 신경경제대학원 폴 잭 교수가 발표한 '신경생리학 및 머신러닝을 활용한 정확한 히트곡 예측'에 따르면, 청취자의 뇌 활동 데이터 기반의 비선형 패턴매칭(non-linear pattern matching) 알고리즘을 활용해 노래가 히트할지 여부를 97%의 정확도로 예측할 수 있는 것으로 나타났다.

그러나 학계에선 해당 연구의 타당성에 대해 의문을 제기하는 분위기다. 웨어러블 기기로 측정된 데이터의 오차 가능성, 적은 표본 수 등으로 인해 연구 결론을 일반화할 수 없다는 지적이다.

'신경예측'으로 높은 정확도의 예측 가능했다

기존 음악 산업에서 AI를 활용한 움직임이 없었던 것은 아니다. 스포티파이, 애플 뮤직 등 유수 스트리밍 플랫폼 기업들은 매일 쏟아져 나오는 신곡 중 히트곡을 선별하기 위해 청취 데이터 및 알고리즘을 활용해 왔으나, 정확도는 50%를 넘기지 못하는 등 고전을 면치 못했다. 이에 일각에선 "차라리 동전을 던져 맞추는 게 낫겠다"는 우스갯소리가 나오기도 했다.

그런데 이번 폴 잭 교수가 발표한 연구는 무려 97%의 정확도로 히트곡을 예측해 업계의 눈길이 쏠린다. 해당 연구는 노래의 템포, 장르 등의 고유한 특성이 아닌, 청취자의 뇌 데이터를 기반으로 AI를 훈련 시켰다는 점에서 여타 스트리밍 플랫폼들의 기존 시도들과는 차별된다.

해당 논문에서 연구진들이 강조한 단어는 '신경예측(neuroforecasting)'이다. 신경예측이란 사람의 현재 뇌 활동을 기반으로 미래 행동을 예측하는 신경과학 분야의 용어다. 이번 연구를 지휘한 폴 잭 교수는 "다양한 노래에 대한 청취자의 신경생리학적 반응을 측정했다"며 "이같은 청취자의 뇌 활동 데이터를 기반으로 전 세계 음악 선호 트렌드를 정확히 예측할 수 있었다"고 밝혔다.

기존 신경과학 연구와 차별되는 대목, '웨어러블 기기' 통한 효율적인 뇌 활동 데이터 수집

이번 연구에서 특히 눈에 띄는 대목은, 실험 참가자들의 음악에 대한 신경생리학적 반응을 웨어러블 기기를 활용한 심박수로 측정했다는 점이다. 신경과학(neuroscience) 분야의 연구는 보통 뇌의 메커니즘을 자세하게 파악하기 위해 fMRI(자기공명영상) 또는 EEG(뇌파검사)를 활용하는 것이 일반적이다. 그러나 이같은 기술은 높은 비용이 든다는 점, 음악 청취로 인한 뇌 신호 변화를 감지하는데 몇 초간 지연이 발생하는 점 등의 단점이 있기 때문에 이를 모두 상쇄할 수 있는 웨어러블 기기를 활용했다는 게 폴 잭 교수의 설명이다.

그러나 신경과학자들 사이에선 폴 잭 교수의 이같은 파격적인 시도에 대부분 회의적인 것으로 분석된다. 그간 신경과학 분야의 연구들은 심박수 활동이 뇌 활동의 전부를 설명할 수 없다는 점, 웨어러블 기기의 측정 정확도에 대한 의구심 등으로 인해 절대다수가 fMRI, EEG를 통해 데이터를 수집했기 때문이다. 쉽게 말해 비싼 비용을 감내하고 뇌 과학 연구를 수행해 왔던 건 모두 이유가 있다는 게 신경과학자들의 논리다. 또한 이러한 부분을 모를 리 없는 신경과학 전문가 폴 잭 교수가 해당 연구를 감행한 부분과 관련해, 일각에선 폴 잭 교수와 해당 연구와 제휴를 맺은 신경생리학 플랫폼 기업인 머서 뉴로사이언스(Mercer Neuroscience) 사이에 일련의 금전적 이해관계가 있었던 것 아니냐는 의심도 증폭되고 있다.

한편 웨어러블 기기 활용에 대한 학계의 긍정적인 시각도 존재한다. fRMI 기계의 경우 뇌를 한 번 스캔하는 데만 45분에서 1시간이 걸리는 만큼, 오랜 시간 동안 실험 참가자가 음악에만 온전히 집중하기는 어렵다는 설명이다. 익명을 요구한 신경과학자 A씨는 "fRMI가 진행되는 추운 공간에 오랫동안 갇혀 있으면 평소의 음악을 듣는 방식과 상당히 달라지게 될 것"이라며 "이번 연구의 가치는 참가자들이 쉽게 접근할 수 있고, 저렴하게 이용할 수 있는 웨어러블 기기를 사용한다는 것"이라고 밝혔다.

'신경과학'적 예측의 윤리적 문제와 한계

만약 잭 폴 교수의 연구가 학계의 인정을 받고 스트리밍 플랫폼 업계 전반에 도입되면, 알고리즘이 내가 좋아하는 음악을 기분과 상황에 맞게 자동으로 찾아주고, 심지어 스스로 작곡을 해볼 수 있는 등 흥미로운 일들을 기대해 볼 수 있다. 그러나 한편으로는 자신의 심박수, 호흡수를 포함한 일거수일투족이 플랫폼에 추적당하고 있다는 사실에 두려움이 느껴지기도 한다. 다시 말해 이러한 '마음을 읽는' 알고리즘에 대해 사생활 침해 논란과 같은 윤리적 질문이 제기될 수 밖에 없다.

이에 기존 AI를 활용하는 스트리밍 플랫폼들은 개인 정보 수집에 대한 약관 동의 옵션을 마련해 선별적으로만 데이터를 수집해 오고 있다고 주장한다. 그러나 대부분의 일반인은 회원가입 또는 웹 사이트 방문할 때 올라오는 조그마한 약관 창을 제대로 읽지도 않고 '수락' 버튼을 누른다. 또한 이미 많은 회사들이 암묵적으로 소비자의 행동 데이터에 대한 권한을 가지고 많은 분석을 수행하고 있는 게 작금의 현실이다.

한편 이번 연구는 33명의 비교적 적은 표본을 기반으로 수행됐다. 물론 앞서 살펴봤듯 연구진들은 '신경예측'이라는 키워드를 내세우며 적은 표본으로도 결과를 일반화하기 충분하다고 주장하지만, 여전히 많은 사람으로부터 비판을 피하기 합당한 이유로는 부족하다. 특히 해당 연구의 실험 참가자 전원은 대학생으로, 비교적 젊은 청취자들이 다수였다. 이에 따라 인종적, 세대적 다양성이 충분히 반영되지 않은 것 아니냐는 비판이 나온다.

*편집진: 영어 원문의 출처는 사이언티픽 아메리칸(Scientific American)으로 본지의 편집 방향과 일치하지 않을 수도 있습니다.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.