Skip to main content

[해외 DS] 북극해의 미래를 점치는 인공지능, "설명력 보완 필요해"

[해외 DS] 북극해의 미래를 점치는 인공지능, "설명력 보완 필요해"
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

해빙 예측 연구에 적극적으로 활용된 인공지능
블랙박스 문제 남아 있어서 신뢰 못해
설명력과 예측력 모두 잡는 물리 기반 인공신경망

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


sea path
사진=Pexels

북극이사회에 따르면 2013년부터 2019년까지 북서항로를 통한 해상 교통량이 44% 증가했다. 막대한 천연자원 개발 잠재력으로 인해 이 지역에 관한 관심도 높아지고 있다. 따라서 특정 위치와 타이밍에 초점을 맞춰 해빙 면적을 예측할 수 있으면 해상 교통과 자원 개발에 큰 혜택을 가져다줄 수 있다. 하지만 지구 온난화로 해빙은 빠른 속도로 녹고 있다. NASA 기후변화 측은 10년 동안 북극의 바다 얼음은 약 12.85% 줄어든 것으로 나타났다고 보고했다. 기후 변화로 인해 이상 기후도 더 빈번하게 관측되며 해빙 예측의 불확실성도 덩달아 높아졌다.

기후변화에 빠르게 대응하고 정밀한 예측 수요를 위해 인공지능 모델 적용

통계적 모델링은 과거에 일어났던 일을 기반으로 미래를 예측하지만 불규칙한 기후 변화로 인해 예측 정확성이 점점 떨어지고 있다. 1970년대 후반부터 과학자들은 물리학 및 통계 모델링에 의존하여 해빙의 면적을 예측해 왔지만 전제 조건이 많이 필요한 기존의 방식으로는 실제 기후를 온전히 반영하지 못하는 단점이 있다. 전례 없는 속도로 얼음이 녹아 노출 표면이 넓어진 북극해는 더 많은 태양 빛을 흡수하게 됐다. 태양 빛을 반사해서 지구의 열을 식혀주던 북극 냉장고에 적신호가 켜졌다. 이런 상황에선 대략적인 패턴 파악보다 더 정밀한 예측이 필요하다.

바로 이 지점에서 인공지능의 역할이 강조됐다. 해빙 면적을 예측하는 데 AI를 사용하는 것은 새로운 접근 방식은 아니지만, 점점 더 주목받고 있다. "저희는 해양학 과학을 기반으로 북극을 위한 머신러닝 모델을 구축했습니다"라고 PolArtic 회사의 CEO 레슬리 카나베라(Leslie Canavera)는 말했다. 이 회사는 계절 예측과 운영 예측을 수행했는데, 계절 예측으로 13주 전에 선박 노선이 언제 개통될지 예측하고, 개통되는 날짜까지 예측할 수 있다고 주장했다. 아울러 운영 예측을 통해 해당 노선의 기상 조건도 함께 파악할 수 있다고 전했다. 영국 남극 조사소와 앨런 튜링 연구소가 함께 구성된 연구팀의 톰 앤더슨(Tom Anderson)은 자기 팀이 개발한 모델 IceNet이 두 달 앞서 95%의 정확도로 해빙을 예측할 수 있다고 말했다. 이는 슈퍼컴퓨터를 사용하는 물리 기반 모델을 능가하는 성능이고, 이후 하루 단위로 예측하는 모델을 개발해 급속한 해빙 손실을 지역사회에 알려주는 조기 경보 시스템으로 활용될 수도 있다고 강조했다.

블랙박스 문제 완화를 위해 물리 기반 인공신경망 활용

인공지능의 예측력이 높아도 설명력이 낮기 때문에 과학자들은 결과를 신뢰하기 어렵다고 입을 모았다. 의사 결정 과정이 투명하지 않고 때때로 잘못된 이유로 정답을 맞히는 경우도 발생하기 때문이다. 인공지능의 예측력과 물리·통계 모델의 설명력을 극대화하기 위해 물리 기반 인공신경망(Physics-informed neural networks)을 사용하는 사례가 늘고 있다. 일반적인 신경망은 학습 데이터만을 사용하여 학습하며 손실 함수는 관측값과 예측값의 간극을 최소화하도록 학습하는 반면, 물리 기반 인공신경망은 물리 방정식 자체를 손실 함수에 적용하여 데이터가 물리 법칙을 만족하도록 학습이 진행된다. 사전에 알려진 물리적 지식을 기계학습 알고리즘에 통합함으로써 알고리즘의 의사결정이 물리적 현상을 위배하지 않도록 규제하는 기법이다.

전통적인 계산 방법이 물리 기반 인공신경망에 비해 느리지만 정확도가 높기 때문에 전통적인 수치해석 법을 기본적으로 채택하고 시간이 오래 걸리는 계산만 신경망으로 대체하는 전략이 하나 있다. 또는 물리 정보 신경망의 빠른 시뮬레이션 속도를 이용하여 근사치까지 신경망으로 계산한 후 더 정확한 계산을 위해 전통적인 수치해석 방법을 사용하는 구조도 있다. 인공지능을 사용하여 물리 기반 모델을 개선함으로써 기후와 해빙 시스템이 수십 년, 수백 년 단위로 어떻게 변화할지 예측할 방법을 과학자들은 모색하고 있다. 한편 국내 해양수산부와 극지연구소는 북극 해빙의 두께를 추정하는 새로운 기술을 '대기와 해양기술' 국제 학술지에 게재했다. 해빙의 두께에 따라 녹는 속도가 달라지기 때문에 두께 정보는 해빙의 변화 분석에 핵심 요소다. 기존의 위성에서 확보한 자료에도 해당 추정 방법을 적용할 수 있어서 해빙의 변화 흐름을 더 완전하게 설명할 수 있을 것으로 기대감을 모았다.


As Arctic Sea Ice Breaks Up, AI Is Starting to Predict Where the Ice Will Go

Sea ice is changing fast. Are forecasts, created by artificial intelligence, the best way to keep up with the pace of a warming climate in the far north?

Emily Schwing: In October 2019 an international team of scientists onboard an icebreaker intentionally let Arctic Sea ice freeze up around the ship. They wante d to learn more about the ice itself. But in April 2020, just halfway through the year-long experiment, it was unclear if that ice would stay frozen for the remaining six months of the project.

Schwing: You’re listening to Scientific American’s Science, Quickly. I’m Emily Schwing.

Sea ice, according to scientists, is melting at an alarming rate—so quickly that some researchers believe traditional methods for forecasting its extent may not keep up with the pace of a changing climate.

By the year 2050, the Arctic could be ice-free in the summer months. And shipping traffic in the region is on the rise, but predicting sea ice extent is complicated.

Today we’re looking at how machine learning—artificial intelligence—could become the tool of the future for sea ice forecasting.

Leslie Canavera: We build artificial intelligence and machine learning models for the Arctic, based on the science of oceanography.

Schwing: That’s Leslie Canavera. She is CEO of a company called PolArctic, and she is trying to forecast ice in a different way than science ever has.

Since the late 1970s, scientists have relied on physics and statistical modeling to create sea ice forecasts.

Canavera: When you take two water molecules, and you freeze them together, you know, like, right, this is how they freeze together. But there’s a lot of assumptions in that. And when you extrapolate to the ocean, there’s a lot of error…. And statistical modeling is based on, like, historical things of what’s happened. But with climate change, it’s not acting like the history anymore. And so artificial intelligence really takes the best of both of those and is able to learn the system and trends to be able to forecast that more accurately.

Schwing: Of course, that foundation of statistics and historical data is still important, even with its errors and caveats.

Holland: We can't model every centimeter of the globe.

Schwing: Marika Holland is a scientist at the National Center for Atmospheric Research in Boulder, Colorado. The center has been using physics and statistical modeling to predict sea ice extent for the past five decades. Holland says that she is confident in the methodology but that these forecasts aren’t perfect.

Holland: You know, we have to kind of coarsen things, and so we get a little bit of a muddy picture of how the sea ice cover is changing or how aspects of the climate or the Earth’s system are evolving over time.

Schwing: Marika says there are also a lot of smaller-scale processes that can create problems for accurate forecasting.

Holland: Something like the snow cover on the sea ice, which can be really heterogeneous, and that snow is really insulating, it can affect how much heat gets through the ice…. We have to approximate those things because we aren’t going to resolve every centimeter of snow on the sea ice, for example…. So there’s always room for improvement in these systems.

Schwing: It’s that space—the room for improvement—where Leslie says artificial intelligence can be most helpful. And that help is especially important right now because of what is happening in the Arctic.

According to the Arctic Council, marine traffic increased by 44 percent through the Northwest Passage between 2013 and 2019. Search-and-rescue capabilities in the region are limited, and there has been increased attention on the region for its vast natural resource development potential. Leslie says AI can create a forecast on a smaller scale, homing in on specific locations and timing to benefit those user groups.

Canavera : We did a seasonal forecast and then an operational forecast where the seasonal forecast was 13 weeks in advance. We were able to forecast when their route would be open…, and we were actually to the day on when the route would be able to be open and they would be able to go. And then we did operational forecasts where it was like,“All right, you’re in the route, what [are] the weather conditions kind of looking like?”

Schwing: Using AI to forecast sea ice extent isn’t a novel approach, but it is gaining traction. A team led by the British Antarctic Survey’s Tom Anderson published a study two years ago in the journal Nature Communications. In a YouTube video that year, Tom touted the benefits of his team’s model, called IceNet.

[CLIP: Anderson speaks in YouTube video: “What we found is super surprising. IceNet actually outperformed one of the leading physics-based models in these long-range sea ice forecasts of two months and beyond while also running thousands of times faster. So IceNet could run on a laptop while previous physics-based methods would have to run for hours on a supercomputer to produce the same forecasts.”]

Schwing: One of the biggest limitations when it comes to AI-generated sea ice forecasts is what Leslie calls “the black box.”

Canavera: And you have all of this data. You put it into the artificial intelligence black box, and then you get the answer. And the answer is right. And scientists get very frustrated because they’re like, “Well, tell me what the black box did,” right? And you’re like, “Well, it gave you the right answer.” And so there's a big trend in artificial intelligence that is called XAI, and explainable AI si hwat that kind of relates to and “Why did your artificial intelligence give you the right answer?”

Sometimes, she says, AI happens upon the right answer but for the wrong reasons. That’s why Marika at the National Center for Atmospheric Research says the most effective sea ice forecasts are likely to come from combining both machine learning and five decades’ worth of physics and statistical modeling.

Holland: If machine learning can help to improve those physics-based models, that’s wonderful. And that is kind of the avenues that we’re exploring—is how to use machine learning to improve these physics-based models that then allow us to kind of predict how the climate and the sea ice system are going to change on decadal, multidecadal [kinds] of timescales.

Schwing: And there’s one piece of the sea ice forecasting puzzle Leslie, who is Alaska Native, believes is irreplaceable: traditional Indigenous knowledge.

Canavera: What's great about traditional Indigenous knowledge and artificial intelligence is that a lot of traditional Indigenous knowledge is data, and artificial intelligence builds models on data. And that’s why it works better than these like dynamical models in being able to incorporate the traditional Indigenous knowledge.

For Science, Quickly, I’m Emily Schwing.

Scientific American’s Science, Quickly is produced and edited by Tulika Bose, Jeff DelViscio and Kelso Harper. Our theme music was composed by Dominic Smith.

You can listen to Science, Quickly wherever you get your podcasts. For more up-to-date and in-depth science news, head to ScientificAmerican.com. Thanks, and see you next time.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 전기 먹는 하마, AI 지속가능성 논의 필요

[해외 DS] 전기 먹는 하마, AI 지속가능성 논의 필요
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

전 세계 전력 사용량의 1~1.5% 차지한 데이터 센터
학습과 추론 단계에서 효율성 제고 시급
효율성 증가로 순 전력 사용량은 늘어날 수 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

모든 온라인 상호 작용은 원격 서버에 저장된 정보에 의존한다. 국제에너지기구에 따르면 현재 전 세계의 데이터 센터는 전체 전력 사용량의 약 1~1.5%를 차지했고, 인공 지능 붐으로 인해 이 수치는 더욱 빠르게 증가할 수 있다는 전망이 보고되고 있다.

데이터 센터 전력 소모량에 비해 환경 문제 언급 적어

그간 AI의 막대한 에너지 사용량에 문제를 제기해 온 연구자들의 경고들은 그 근거가 빈약했었다. 하지만 10월 10일(현지 시각) 동료 평가를 거쳐 Joule에 발표된 연구는 인공지능의 에너지 수요를 정량화한 최초의 분석 중 하나다. 분석에 따르면 현재와 같은 AI 수요 추세가 지속될 경우, 2027년까지 엔비디아는 연간 150만 대의 AI 서버를 출하할 것으로 예상된다. 이 150만 대의 서버를 최대 용량으로 가동할 때 연간 최소 85.4테라와트시의 전력을 소비하게 되는데, 이는 소규모 국가가 1년 동안 사용하는 전력량보다 많은 양이다. 이 분석은 네덜란드 중앙은행의 데이터 과학자이자 암스테르담 자유대학교에서 신흥 기술의 에너지 비용을 연구하는 박사 과정의 알렉스 드 브리스(Alex de Vries)가 수행했다. 앞서 드 브리스는 암호화폐 채굴과 거래의 막대한 에너지 비용에 대한 경종을 울려 세간의 관심을 모았었다.

인공지능 프로그램은 에너지 집약적이다. Google의 검색 엔진을 ChatGPT와 같은 방식으로 완전히 바꾸고 모든 사람이 프롬프트를 사용한다면, 즉 하루에 90억 건의 일반적인 검색 대신 90억 건의 챗봇 상호작용이 발생한다면 Google은 검색 엔진을 유지하는 데만 아일랜드만큼이나 많은 전력이 필요할 것이다. 물론 이를 실현하기 위해 하드웨어에 1,000억 달러 이상을 투자해야 하므로 그렇게 되지는 않을 것이다. 그리고 구글이 투자할 돈이 있다고 해도 모든 서버를 바로 공급받을 수는 없다. 하지만 인공지능의 전력 소모량이 얼마나 위협적인지를 엿볼 수 있는 대목이다. AI의 위험성에 관해 이야기할 때 오류의 잠재적 위험, 블랙박스, 차별, 편향에 대해서는 자주 언급하지만 '지속가능성'에 대한 논의는 부족했다. 시류에 편승하기 위해 너도나도 AI 서비스를 출시하는 가운데, 무차별적인 인공지능 적용을 지양하고 책임감 있는 AI 사용 의식이 어느 때보다 간절한 시점이다.

컴퓨팅 부하 분산 및 재생 에너지 활용 방안

인공지능 프로그램은 크게 두 단계로 나뉜다. 하나는 학습 단계로 모델을 설정하고 패턴을 학습하는 과정이다. 그런 다음 모델을 서비스에 배포하여 사용자와 상호작용하는 추론 단계가 있다. 두 단계 모두 에너지 수요가 높으며 정확한 비율은 알 수 없다. 모델에 얼마나 많은 데이터가 포함되어 있는지와 같은 여러 요인에 따라 달라지기 때문이다. 흥미롭게도 추론 단계는 상대적으로 덜 주목받는 경향이 있었다. 2015년 이후 98편의 논문 중 17편만이 추론 단계에 초점을 맞추었지만 49편은 훈련 단계에 관해 다뤘다. 그러나 추론 단계도 모델의 생애 주기 비용에 큰 비중을 차지할 수 있다. 리서치 회사인 세미애널리시스(SemiAnalysis)는 OpenAI가 ChatGPT를 지원하기 위해 총 28,936개의 그래픽 처리 장치(GPU)를 갖춘 3,617대의 엔비디아 HGX A100 서버가 필요하며, 이는 하루 564MWh의 에너지 수요를 의미한다고 밝혔다. GPT-3의 훈련 단계에서 사용된 1,287MWh와 비교하면 추론 단계의 에너지 수요는 상당히 높은 것으로 보인다. 또한, 구글은 2019년부터 2021년까지 AI 관련 에너지 소비의 60%가 추론에서 발생한다고 보고했다.

한편 AI의 지속가능성을 위해 에너지 수요와 공급을 리밸런싱한 사례도 있다. 탄소 집약도가 낮은 지역 또는 시간대로 컴퓨팅 부하를 이동시켜 재생 에너지를 사용하는 방안이다. 화석 연료 대신 재생 에너지를 조달하면 탄소 배출량을 30배까지 줄이는 효과가 있고, 재생 에너지의 주요 단점인 간헐성과 저장 문제를 분산 컴퓨팅으로 극복할 수 있기 때문에 가능한 전략이다. 이러한 부하 전환은 지연 시간에 큰 영향을 받지 않는 학습 단계에서 특히 실현 가능성이 높다. 이는 기술 서비스 기업 액센츄어에서 수행한 작업에서도 입증되었다. 재생 에너지 공급에 맞춰 작업을 예약하는 등 재생 에너지를 사용할 수 있는 지역을 파악하고 GPU와 CPU 사용량을 모니터링하면서 머신 러닝 모델의 컴퓨팅 부하를 가장 적합한 지역으로 이전하는 시스템을 구축하는 것이 최종 목표다.

효율성 개선이 모든 문제를 해결하진 못해

모델 아키텍처와 알고리즘의 혁신으로 AI 관련 전력 소비를 완화하거나 심지어 줄이는 데 도움이 될 수 있다. 하지만 효율성 증가로 인해 오히려 수요가 증가하여 자원 사용량이 순증하는 반등 효과를 유발할 수 있다. 이러한 현상은 기술 변화와 자동화의 역사에서 오랫동안 관찰되어 왔으며 최근 AI 애플리케이션의 사례에서도 조짐이 보인다. 따라서 하드웨어 및 소프트웨어 효율성 개선이 AI 관련 전력 소비의 장기적인 변화를 완전히 상쇄할 것이라고 기대하는 것은 지나치게 낙관적인 전망이다. 모든 애플리케이션이 AI의 혜택을 받거나 혜택이 항상 비용을 능가할 가능성은 작기 때문에 애초에 AI 사용의 필요성을 비판적으로 고려하는 것이 바람직한 이유다.


The AI Boom Could Use a Shocking Amount of Electricity

Powering artificial intelligence models takes a lot of energy. A new analysis demonstrates just how big the problem could become

Every online interaction relies on a scaffolding of information stored in remote servers—and those machines, stacked together in data centers worldwide, require a lot of energy. Around the globe, data centers currently account for about 1 to 1.5 percent of global electricity use, according to the International Energy Agency. And the world’s still-exploding boom in artificial intelligence could drive that number up a lot—and fast.

Researchers have been raising general alarms about AI’s hefty energy requirements over the past few months. But a peer-reviewed analysis published this week in Joule is one of the first to quantify the demand that is quickly materializing. A continuation of the current trends in AI capacity and adoption are set to lead to NVIDIA shipping 1.5 million AI server units per year by 2027. These 1.5 million servers, running at full capacity, would consume at least 85.4 terawatt-hours of electricity annually—more than what many small countries use in a year, according to the new assessment.

The analysis was conducted by Alex de Vries, a data scientist at the central bank of the Netherlands and a Ph.D. candidate at Vrije University Amsterdam, where he studies the energy costs of emerging technologies. Earlier de Vries gained prominence for sounding the alarm on the enormous energy costs of cryptocurrency mining and transactions. Now he has turned his attention to the latest tech fad. Scientific American spoke with him about AI’s shocking appetite for electricity.

[An edited and condensed transcript of the interview follows.]

Why do you think it’s important to examine the energy consumption of artificial intelligence?

Because AI is energy-intensive. I put one example of this in my research article: I highlighted that if you were to fully turn Google’s search engine into something like ChatGPT, and everyone used it that way—so you would have nine billion chatbot interactions instead of nine billion regular searches per day—then the energy use of Google would spike. Google would need as much power as Ireland just to run its search engine.

Now, it’s not going to happen like that because Google would also have to invest $100 billion in hardware to make that possible. And even if [the company] had the money to invest, the supply chain couldn’t deliver all those servers right away. But I still think it’s useful to illustrate that if you’re going to be using generative AI in applications [such as a search engine], that has the potential to make every online interaction much more resource-heavy.

I think it’s healthy to at least include sustainability when we talk about the risk of AI. When we talk about the potential risk of errors, the unknowns of the black box, or AI discrimination bias, we should be including sustainability as a risk factor as well. I hope that my article will at least encourage the thought process in that direction. If we’re going to be using AI, is it going to help? Can we do it in a responsible way? Do we really need to be using this technology in the first place? What is it that an end user wants and needs, and how do we best help them? If AI is part of that solution, okay, go ahead. But if it’s not, then don’t put it in.

What parts of AI’s processes are using all that energy?

You generally have two big phases when it comes to AI. One is a training phase, which is where you’re setting up and getting the model to teach itself how to behave. And then you have an inference phase, where you just put the model into a live operation and start feeding it prompts so it can produce original responses. Both phases are very energy-intensive, and we don’t really know what the energy ratio there is. Historically, with Google, the balance was 60 percent inference, 40 percent training. But then with ChatGPT that kind of broke down—because training ChatGPT took comparatively very little energy consumption, compared with applying the model.

It’s dependent on a lot of factors, such as how much data are included in these models. I mean, these large language models that ChatGPT is powered by are notorious for using huge data sets and having billions of parameters. And of course, making these models larger is a factor that contributes to them just needing more power—but it is also how companies make their models more robust.

What are some of the other variables to consider when thinking about AI energy usage?

Cooling is not included in my article, but if there were any data to go on, it would have been. A big unknown is where those servers are going to end up. That matters a whole lot, because if they’re at Google, then the additional cooling energy use is going to be somewhere in the range of a 10 percent increase. But global data centers, on average, will add 50 percent to the energy cost just to keep the machines cool. There are data centers that perform even worse than that.

What type of hardware you’re using also matters. The latest servers are more efficient than older ones. What you’re going to be using the AI technology for matters, too. The more complicated a request, and the longer the servers are working to fulfill it, the more power is consumed.

In your assessment, you outline a few different energy-use scenarios from worst- to best-case. Which is the most likely?

In the worst-case scenario, if we decide we’re going to do everything on AI, then every data center is going to experience effectively a 10-fold increase in energy consumption. That would be a massive explosion in global electricity consumption because data centers, not including cryptocurrency mining, are already responsible for consuming about 1 percent of global electricity. Now, again, that’s not going to happen—that’s not realistic at all. It’s a useful example to illustrate that AI is very energy-intensive.

On the opposite end, you have this idea of no growth—zero. You have people saying that the growth in demand will be completely offset by improving efficiency, but that’s a very optimistic take that doesn’t include what we understand about demand and efficiency. Every time a major new technology makes a process more efficient, it actually leads to more people demanding whatever is being produced. Efficiency boosts demand, so boosting efficiency is not really saving energy in the end.

What do I think is the most likely path going forward? I think the answer is that there’s going to be a growth in AI-related electricity consumption. At least initially, it’s going to be somewhat slow. But there’s the possibility that it accelerates in a couple of years as server production increases. Knowing this gives us some time to think about what we’re doing.

What additional research or other steps might be needed?

We need a higher quality of data. We need to know where hese servers are going. We need to know the source of the energy itself. Carbon emissions are the real numbers that we care about when it comes to environmental impact. Energy demand is one thing, but is it coming from renewables? Is it coming from fossil fuels?

Maybe regulators should start requiring energy use disclosures from AI developers because there’s just very little information to go on. It was really hard to do this analysis—anyone who is trying to work on AI at the moment is facing the same challenges, where information is limited. I think it would help if there was more transparency. And if that transparency doesn’t come naturally, which it hasn’t so far, then we should think about giving it a little bit of a push

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 이제는 로봇까지 설계하는 인공지능, "자연 선택과 비슷해"

[해외 DS] 이제는 로봇까지 설계하는 인공지능, "자연 선택과 비슷해"
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


AI 설계 로봇. 로봇 내부에는 왼쪽 단면과 같이 '공기 근육'이 있다/출처=노스웨스턴 대학교

자연은 최초의 걷는 생명체를 진화시키는 데 수십억 년이 걸렸지만, 새로운 알고리즘은 진화 과정을 압축하여 단 30초 만에 성공적으로 걷는 로봇을 설계했다. 직선을 따라 움직이는 단순한 기계지만 인공지능으로 로봇 설계가 가능하다는 사실은 고무적이다.

자연과 같이 최적의 형태를 선택해

흥미롭게도 이 로봇은 지렁이처럼 꿈틀거리거나 미끄러지듯 움직이는 방식이 아니라 항상 다리를 만들어 움직이는 동작을 수행하는 것처럼 보였다. 인공지능은 놀랍게도 자연과 같은 보행 설루션인 '다리'를 스스로 생각해 낸 것이다. 연구진은 로봇에 다리가 있어야 한다고 AI에 지시하지 않았고 실제로도 다리를 이용한 이동은 지상에서 가장 효율적인 이동 형태이다.

다리의 진화는 쉽게 이해가 되지만, 신기하게도 AI는 로봇의 몸 전체에 무작위로 보이는 곳에 구멍을 뚫었다. 연구진은 다공성이 무게를 줄이고 유연성을 더해 로봇이 다리를 구부려 걸을 수 있게 해준다는 가설을 세웠다. 구멍을 제거하면 로봇은 더 이상 걸을 수 없거나 잘 걷지 못하기 때문에 다공성 디자인은 알고리즘에 의해 의도된 진화라고 해석할 수 있다.

효율적인 진화 시뮬레이션을 위해 사용된 경사 하강법

이제 인공지능은 에세이를 쓰고 자동차를 운전할 수 있으므로 설계 분야에서의 적용은 당연한 순서처럼 느껴진다. 이번 연구는 진화 시뮬레이션을 사용하여 특정 작업(이 경우 전방 이동)을 수행할 수 있는 로봇을 생성했다. 이전에는 진화 로봇을 만들려면 무작위 변형을 생성하여 테스트하고, 새로운 변형을 통해 가장 성능이 좋은 로봇을 다듬은 후 다시 테스트하는 과정을 거쳤었다. 이 작업에는 많은 컴퓨팅 자원이 필요했다.

노스웨스턴대 연구진은 기존의 방식 대신 경사 하강이라는 방법을 선택했는데, 이는 유도 진화에 가까웠다. 무작위로 생성된 몸체로 시작하지만, 주어진 보디 디자인이 임무를 얼마나 잘 수행할 수 있는지를 판단 하는 알고리즘이 내재하여 있다는 점에서 무작위 진화와는 다르다. 최적화 과정에서 AI는 성공으로 이어질 가능성이 가장 높은 경로에 집중하여 돌연변이가 좋은지 나쁜지 확인할 수 있기 때문이다.

연구원들은 로봇을 임의의 모양으로 시작하여 AI에 지상 이동을 개발하는 목표를 부여한 다음, 초기 로봇을 가상 환경에 풀어놓고 진화하도록 설정했다. 그 결과 10번의 시뮬레이션과 단 몇 초 만에 최적의 상태에 도달했다. 아울러 연구진은 10월 3일 미국국립과학원회보(Proceedings of the National Academy of Sciences USA)에 로봇이 움직이지 않는 보디 설계에서 초당 최대 0.5 보폭으로 움직일 수 있었으며, 이는 인간 평균 보행 속도의 약 절반에 해당한다고 보고했다. 몇 번의 반복만으로 AI가 임의의 형태에서 기능적인 무언가를 만들 수 있다는 점이 인상적이다.

AI 로봇 설계가 열어준 가능성

시뮬레이션이 실제로 작동하는지 확인하기 위해 연구진은 3D 프린팅으로 가장 성능이 좋은 로봇의 몸체 틀을 만들고 실리콘으로 속을 채웠다. 연구진은 근육의 수축과 팽창을 시뮬레이션하기 위해 모형의 빈 곳에 공기를 주입했다. 그 결과 비누 한 개 정도의 크기로 제작된 로봇은 마치 작은 만화 캐릭터처럼 움직이기 시작했다. AI 시뮬레이션 로봇이 실제 세계에서 반드시 성공하리라는 보장이 없기 때문에 이 광경을 목격한 이들은 흥분을 감추지 못했다.

듀크 대학교의 명예교수이자 로스앤젤레스 캘리포니아 대학교의 캐서린 헤일스(N. Katherine Hayles) 교수는 비록 로봇이 매우 단순하고 한 가지 작업만 수행할 수 있지만, 더 진보된 로봇 설계를 향한 한 걸음이라고 바라봤다. '우리는 어떻게 포스트 휴먼이 되었나'의 저자인 그녀는 경사 하강법은 이미 인공 신경망을 설계하는 데 널리 사용되고 있기 때문에 뇌와 신체를 결합하는 데 용이하고 그 파급 효과가 강력할 것이라고 강조했다. 두뇌와 신체의 공진화를 통해 살아 있는 유기체를 닮은 로봇이 탄생하는 특이점이 올 것이라는 기대였다.

인간은 로봇을 디자인할 때 익숙한 사물처럼 보이도록 디자인하는 경향이 있다. 하지만 AI는 인간이 생각지도 못했던 새로운 가능성과 새로운 길을 만들어 낼 수 있기 때문에 인류가 직면한 가장 어려운 문제를 해결하는 데 도움이 될 수 있다. 기후 변화를 개선하는 데 도움이 될 차세대 배터리 설계부터 현재 치료가 불가능한 질병에 대한 새로운 항생제 및 치료제 개발에 이르기까지, 새로운 제품을 설계할 수 있는 AI가 인간을 다양한 문제에서 벗어나게 할 수 있다.


AI Designs Little Robots in 30 Seconds and They Keep Sprouting Legs

An AI used to build artificial neural networks can also create autonomous robot bodies with remarkable speed

Artificial intelligence can design an autonomous robot in 30 seconds flat on a laptop or smartphone.

It’s not quite time to panic about just anybody being able to create the Terminator while waiting at the bus stop: as reported in a recent study, the robots are simple machines that scoot along in straight lines without doing more complex tasks. (Intriguingly, however, they always seem to develop legs rather than an arrangement that involves wiggling, moving like an inch worm or slithering.) But with more work, the method could democratize robot design, says study author Sam Kriegman, a computer scientist and engineer at Northwestern University.

“When only large companies, governments and large academic institutions have enough computational power [to design with artificial intelligence], it really limits the diversity of the questions being asked,” Kriegman says. “Increasing the accessibility of these tools is something that’s really exciting.”

AI can now write essays and drive cars, so design might seem like a logical next step. But it’s not easy to create an algorithm that can effectively engineer a real-world product, says Hod Lipson, a roboticist at Columbia University, who was not involved in the research. “Many questions remain,” Lipson says of the new study, “but I think it’s a huge step forward.”

The method uses a version of simulated evolution to create robots that can do a specific task—in this case, forward locomotion. Previously, creating evolved robots involved generating random variations, testing them, refining the best performers with new variations and testing those versions again. That requires a lot of computing power, Kriegman says.

He and his colleagues instead turned to a method called gradient descent, which is more like directed evolution. The process starts with a randomly generated body design for the robot, but it differs from random evolution by giving the algorithm the ability to gauge how well a given body plan will perform, compared with the ideal. For each iteration, the AI can home in on the pathways most likely to lead to success. “We provided the [algorithm] a way to see if a mutation would be good or bad,” Kriegman says.

In their computer simulations, the researchers started their robots as random shapes, gave the AI the target of developing terrestrial locomotion and then set the nascent bots loose in a virtual environment to evolve. It took just 10 simulations and a matter of seconds to reach an optimal state. From the original, nonmoving body plan, the robots were able to start moving at up to 0.5 body length per second, about half of the average human walking speed, the researchers reported on October 3 in the Proceedings of the National Academy of Sciences USA. The robots also consistently evolved legs and started walking, the team found. It was impressive that with just a few iterations, the AI could build something functional from a random form, Lipson says.

To see if the simulations worked in practice, the researchers built examples of their best-performing robot by 3-D printing a mold of the design and filling it with silicone. They pumped air into small voids in the shape to simulate muscles contracting and expanding. The resulting robots, each about the size of a bar of soap, crept along like blocky little cartoon characters.

An AI designed this little walking robot.
An AI designed this little walking robot. Credit: Northwestern University
“We’re really excited about it just moving in the right direction and moving at all,” Kriegman says, because AI-simulated robots don’t necessarily translate into the real world.

The research represents a step toward more advanced robot design, even though the robots are quite simple and can complete only one task, says N. Katherine Hayles, a professor emerita at Duke University and a research professor at the University of California, Los Angeles. She is also author of How We Became Posthuman: Virtual Bodies in Cybernetics, Literature, and Informatics (University of Chicago Press, 1999). The gradient descent method is already well-established in designing artificial neural networks, or neural nets—approaches to AI inspired by the human brain—so it would be powerful to put brains and bodies together, she says.

“The real breakthrough here, in my opinion, is going to be when you take the gradient descent methods to evolve neural nets and connect them up with an evolvable body,” Hayles says. The two can then coevolve, as happens in living organisms.

AI that can design new products could get humans unstuck from a variety of pernicious problems, Lipson says, from designing the next-generation batteries that could help ameliorate climate change to finding new antibiotics and medications for currently uncurable diseases. These simple, chunky robots are a step toward this goal, he says.

“If we can design algorithms that can design things for us, all bets are off,” Lipson says. “We are going to experience an incredible boost.”

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

해외서 성장 곡선 그리는 카카오페이, 성공적인 '알리페이와의 동행'

해외서 성장 곡선 그리는 카카오페이, 성공적인 '알리페이와의 동행'
Picture

Member for

1 month 1 week
Real name
박창진
Position
연구원
Bio
[email protected]
지근거리를 비추는 등불은 앞을 향할 때 비로소 제빛을 발하는 법입니다. 과거로 말미암아 나아가야 할 방향성을 비출 수 있도록 노력하겠습니다.

수정

지난 9월 18일 신원근 카카오페이 대표가 중국 베이징의 한 호텔에서 특파원 간담회를 갖고 중국 내 카카오페이 결제 서비스에 대해 설명하고 있다/사진=카카오페이

카카오페이의 해외 비즈니스 성장세가 가파르게 증가하고 있다. 지난 3월부터 본격화한 해외여행을 계기로 결제, 보험 등에서 단기간 성장 가도를 달리고 있는 모양새다. 카카오페이의 압도적인 성장 곡선엔 알리페이의 조력이 숨어 있다. 알리페이와 카카오페이가 긍정적인 시너지 작용을 이어가며 영향력을 확대하고 있는 것이다. 때문에 일각에선 토스페이의 성장이 기대된다는 반응도 보인다. 앞서 알리페이의 앤트그룹이 토스페이먼츠의 2대 주주로 오른 바 있기 때문이다.

카카오페이 해외결제 상승세, 보험 비즈니스서도 '가시적 성과'

카카오페이에 따르면 9월 카카오페이 오프라인 해외결제는 올해 3월 대비 사용자 수(MAU) 248.9%, 거래 건수는 489.7%, 거래 금액은 434.8% 증가했다. 코로나19 엔데믹 이후 해외여행이 본격화되기 시작함과 동시에 사용량·거래액이 폭발한 것이다. 해외결제가 늘어남에 따라 사내 매출 비중도 성장했다. 카카오페이 결제 서비스 매출 중 해외결제가 차지하는 비중은 올해 2분기 처음으로 10%를 넘어섰다. 카카오페이 내에서 해외결제가 갖는 무게감이 상당히 커진 셈이다. 2분기 결제 서비스 매출 총액이 1,080억원 수준인 것을 감안하면, 카카오페이는 올해에만 최소 100억원이 넘는 매출을 해외결제에서 올렸다.

카카오페이는 9월 기준 아시아, 유럽, 미주, 오세아니아 등 50개에 육박하는 해외 국가·지역과 결제 서비스를 연동 중이다. 이와 관련해 카카오페이 관계자는 "카카오페이 사용이 가능한 해외 국가에 체류하게 될 경우 결제 바코드가 자동으로 해당 국가의 해외 결제로 전환되는 등 편의성을 앞세웠다”며 "현재는 국내 간편 결제 서비스 중 유일하게 해외 관광객들이 한국에 왔을 때 가맹점에서 해외 간편결제 서비스로 결제할 수 있는 인바운드 결제 환경을 구축하는 등 소상공인들이 관광특수를 누릴 수 있도록 QR 인프라 확대에 주력하고 있다”고 전했다.

그동안 부진을 면치 못하던 보험 비즈니스에서도 가시적인 성과가 도출되고 있다. 이 역시 중심엔 해외가 있다. 카카오페이손해보험의 해외여행보험은 6월 출시 이후 첫 달 1만877명이 가입한 데 이어 7월 5만2,735명, 8월 5만3,814명 등 월간 5만 명 이상이 가입한 것으로 알려졌다. 출시 100일 만에 가입자 15만 명을 넘어선 것이다. 여기에 추석 황금연휴가 있었던 9월 한 달 동안 6만4,562명이 가입하며 여름휴가 시즌 이후에도 저력을 입증했다. 카카오페이 관계자는 "카카오페이손해보험이 해외여행보험 가입 부문에서 업계 1위 삼성화재를 바짝 쫓는 2위권으로 치고 올라왔다"며 "공항 등 오프라인 지점 하나 없이 오로지 모바일 채널로만 가입자를 모집하며 주목할 만한 성과를 내고 있는 것"이라고 설명했다.

사진=카카오페이

카카오페이 이끈 알리페이의 '힘'

카카오페이가 공격적으로 해외결제 서비스에 나설 수 있었던 건 중국 모바일 간편결제 시스템인 알리페이 덕분이다. 카카오페이는 중국 모바일 간편결제망인 ‘알리페이플러스’의 협력 파트너사로, 지난 2018년부터 중국 간편결제 사업을 준비해 왔다. 이들은 코로나19 팬데믹 종료 후 중국 국경 개방이 본격화된 지난 3월 알리페이플러스와 중국 전 지역 결제 연동 테스트를 완료한 것으로 알려졌다. 알리페이의 조력으로 카카오페이는 큰 공을 들이지 않아도 영향력 확대에 힘쓸 수 있게 됐다. 별도의 앱 설치 없이 중국 내 수천만 개에 달하는 중국 전역 알리페이플러스 가맹점에서 카카오페이를 사용할 수 있게 됐기 때문이다.

카카오페이는 앞으로 우리나라를 찾는 해외 관광객들의 간편결제 수요도 적극 공략할 계획이다. 이미 국내 카카오페이 가맹점에서 해외 간편결제 서비스로 결제할 수 있도록 알리페이(중국), G캐시(필리핀), 터치앤고(말레이시아), 트루머니(태국), 티나바(이탈리아), 페이페이(일본) 등과 기술 연동을 추진하고 있기도 하다. 카카오페이는 "소상공인들이 관광 특수를 누릴 수 있도록 간편결제에 필요한 QR코드 키트 보급도 확대해 나갈 것"이라며 "이 같은 해외 파트너사와의 협력은 국내 사용자들의 해외 결제 편의성을 높일 뿐 아니라 국내 가맹점의 해외 관광객 유치와 매출 증대에도 기여할 것”이라고 힘줘 말했다.

알리페이 '앤트그룹', 토스페이먼츠 2대 주주 올랐다

한편 카카오페이가 알리페이를 동력 삼아 해외 진출에 성공한 만큼, 업계에선 앞으로 토스페이의 전진도 기대해 볼만 할 것이란 전망이 나온다. 지난 9월 알리페이의 앤트그룹이 토스페이먼츠에 1,000억원대 지분 투자를 한 바 있기 때문이다. 해당 투자로 앤트그룹은 토스페이먼츠의 2대 주주에 올랐다. 토스페이먼츠 이사회 이사 5명 중 2명이 앤트그룹 측의 인사로 선임되는 등 내부적 변화가 가시화되기도 했다. 앤트그룹과의 전략적 협력이 토스페이먼츠의 해외 사업에 긍정적인 시너지를 일으킬 것으로 보이는 만큼, 업계 내에서도 토스페이의 성장에 대한 기대감이 쏟아진다.

앤트그룹의 알리페이는 전 세계 13억 명의 가입자를 바탕으로 200개국 이상에 결제망을 보유하고 있다. 앤트그룹과 협력한다면 향후 토스페이먼츠도 앤트그룹이 보유한 해외 가맹점과 온라인 결제 등의 제휴를 맺을 가능성이 크다. 이는 해외 온라인 쇼핑몰을 자주 쓰는 ‘해외직구’ 이용자를 토스의 다양한 결제·금융 서비스로 끌어오는 데 유리하게 작용할 것으로 전망된다. 한 핀테크 업체 관계자는 "해외 결제 서비스가 확대된다고 해서 토스페이먼츠의 수수료 수익이 급격히 커질 가능성은 낮지만, 이용자를 모아 플랫폼 내 다른 금융 서비스로 매출을 유도할 수 있다는 점이 중요하다”고 전했다.

Picture

Member for

1 month 1 week
Real name
박창진
Position
연구원
Bio
[email protected]
지근거리를 비추는 등불은 앞을 향할 때 비로소 제빛을 발하는 법입니다. 과거로 말미암아 나아가야 할 방향성을 비출 수 있도록 노력하겠습니다.

[해외 DS] 보고 말하고 쓰는 멀티모달 챗봇 등장

[해외 DS] 보고 말하고 쓰는 멀티모달 챗봇 등장
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


multimodal
사진=Scientific American

약 10개월 전 OpenAI의 ChatGPT가 처음 대중에게 공개되고 Google, Meta 및 기타 거대 기술 기업의 경쟁적인 대규모언어모델(LLM) 개발이 가속화됐다. 이제는 텍스트뿐만 아니라 이미지, 오디오 등을 분석할 수 있는 멀티모달 AI가 등장하고 있다.

OpenAI는 유료 가입자를 대상으로 자사의 LLM GPT-4를 기반으로 하는 ChatGPT의 멀티모달 버전을 출시했다. Google은 지난 5월부터 LLM 기반 챗봇인 Bard의 일부 버전에 이미지 오디오 기능을 통합하기 시작했고, 메타 역시 지난봄에 멀티모달리티 분야에서 큰 진전을 이뤘다고 발표했었다. 아직 초기 단계이지만 급성장하는 이 기술은 다양한 작업에 활용될 수 있다.

멀티모달 AI는 무엇을 할 수 있을까?

사이언티픽 아메리칸은 멀티모달 LLM을 사용하는 두 가지 챗봇, GPT-4V(GPT-4 Vision)와 PaLM 2 모델로 구동되는 Bard를 테스트했다. 두 제품 모두 오디오만으로 핸즈프리 음성 대화를 할 수 있으며, 이미지 속 장면을 묘사하고 사진 속 텍스트를 인식할 수 있다. 단순한 프롬프트로 영수증 사진 속 팁과 세금을 포함하여 4명이 각각 지급해야 할 금액을 계산했고, 이 작업은 모두 30초도 채 걸리지 않았다. 바드는 숫자 '9' 하나를 '0'으로 인식하여 총액을 잘못 계산했다. 또 다른 실험에서는 책이 가득한 책장 사진을 줬을 때 두 챗봇 모두 해당 책장 주인의 성격과 관심사에 대한 상세한 설명을 제공했다. 두 챗봇 모두 사진 한 장으로 자유의 여신상을 식별하고, 남부 맨해튼의 한 사무실에서 찍은 사진임을 추론하고 사진작가의 위치에서 여신상까지 길 안내를 제공했다(ChatGPT의 안내가 Bard보다 더 자세했다). 또한 사진에서 곤충을 정확하게 식별하는 데도 ChatGPT가 Bard보다 뛰어난 성능을 보였다.

한편 OpenAI는 시각장애인과 저시력자를 위해 무료 설명 서비스를 제공하는 Be My Eyes라는 회사를 통해 GPT-4V 성능을 테스트했다. 초기 실험이 성공적으로 진행되어 현재 Be My Eyes는 모든 사용자에게 AI 기반 버전의 앱을 배포하는 과정에 있다. 처음엔 텍스트 설명의 질이 낮았고 AI 환각으로 인한 부정확한 설명과 같은 문제들이 많았다고 알려졌으나 단점을 많이 개선한 상태다. 앱을 이용하는 사람들이 독립성을 되찾았다고 Be My Eyes의 제스퍼 흐비링 헨릭슨(Jesper Hvirring Henriksen)은 말했다.

멀티모달 AI 작동 방식

개별 기업들은 자사 모델의 토대를 공유하기를 꺼리지만, 멀티모달 인공 지능을 연구하는 그룹이 이들 기업만 알고 있는 것은 아니다. 다른 인공지능 연구자들도 이면에서 어떤 일이 벌어지고 있는지 잘 알고 있다. 스탠퍼드 대학교에서 기계 학습에 관한 강의를 가르치는 겸임교수이자 컨텍스트 AI(Contextual AI)의 CEO인 더웨 키엘라(Douwe Kiela)는 텍스트 전용 LLM에서 시각 및 청각 프롬프트에도 반응하는 AI로 전환하는 방법에는 크게 두 가지가 있다고 전했다. 키엘라 교수에 따르면 보다 통상적인 방법에서는 AI 모델이 서로 쌓여(스택) 있다고 설명했다. 사용자가 챗봇에 이미지를 입력하면, 이 사진은 상세한 이미지 캡션을 출력하기 위해 특별히 구축된 별도의 이미지 AI를 먼저 거친다(Google은 수년 동안 이와 같은 구조를 사용해 왔다). 그런 다음 해당 텍스트 설명이 챗봇에 피드백되고, 챗봇은 번역된 프롬프트에 응답하는 식이다.

이와는 대조적으로 다른 방법은 훨씬 더 긴밀하게 결합하는 과정이 필요하다. 각 모델의 기반이 되는 AI 알고리즘 코드를 다른 알고리즘에 접목하는 방식이다. 그런 다음 접목된 모델을 멀티미디어 데이터 세트에 대해 재학습하여 AI가 시각적 표현과 단어 사이의 패턴을 찾을 수 있게 한다. 첫 번째 전략보다 자원 집약적이지만 훨씬 더 유능한 AI를 만들 수 있는 장점이 있다. 키엘라 교수는 Google이 Bard에 첫 번째 방법을 사용했지만, OpenAI는 두 번째 방법에 의존해 GPT-4V를 만들었을 것으로 추측했다. 두 모델 간의 기능 차이 원인을 짐작할 수 있는 관점이다.

서로 다른 AI 모델을 융합하는 방식과 관계없이 내부적으로는 같은 프로세스가 진행되고 있다. LLM은 주어진 단어에서 다음 단어 또는 음절을 예측하는 기본 원리로 작동한다. 이를 위해 '트랜스포머' 아키텍처에 의존한다. 이러한 유형의 신경망은 텍스트를 벡터로 표현하여 일련의 수학적 관계로 바꾼다. 트랜스포머 신경망은 문장을 단순한 단어의 나열이 아니라 문맥을 매핑하는 연결망으로 바라본다. 여러 가지 의미를 파악하고 문법 규칙을 따르며 스타일을 모방할 수 있는 인간과 같은 챗봇이 탄생할 수 있는 배경이다. AI 모델을 결합하거나 스택을 쌓으려면 알고리즘은 시각, 오디오, 텍스트 등 다양한 입력을 출력으로 가는 경로에서 같은 유형의 벡터 데이터로 변환해야 한다. 서로 다른 AI는 백터 데이터를 기준으로 소통할 수 있어서 사용자에게 최종적으로 멀티모달 서비스를 제공할 수 있게 된다.

가능성과 한계

다양한 유형의 AI를 함께 조정하고 통합하고 개선하기 시작하면 급속한 발전이 계속될 것이다. 머신러닝 모델이 냄새를 분석하고 생성할 수 있는 가까운 미래를 상상해 볼 수 있다. 구글리서치 브레인팀, 오스모연구소, 모넬화학감각센터 공동 연구팀은 국제학술지 ‘사이언스’에 9월 1일(현지 시각) AI도 사람만큼 냄새를 잘 맡는다는 연구 결과를 발표했다. 멀티모달 AI는 인공 일반 지능과는 다르다. 하지만 컴퓨터에도 인간과 비슷한 다양한 감각기관이 생기면 점차 그 수준에 도달할 것으로 보인다.

업계 관계자들은 멀티모달 AI의 가장 큰 문제도 환각이라고 지적했다. 언제든 정보를 위조할 수 있는 AI 비서를 신뢰하긴 어렵다. LLM이 자랑하는 복잡한 구조 때문에 안정적인 미세조정이 현재는 불가능한 상태다. 이에 대해 개발사들도 답변을 기피했다. 그리고 프라이버시 문제도 있다. 음성 및 영상과 같은 정보 밀도가 높은 입력의 경우, 유출되거나 해킹으로 인해 손상될 가능성이 높다. 특히 챗봇은 간접 프롬프트 인젝션(indirect prompt injection)이라고 불리는 공격 유형에 취약하다. 공격 수행 방법은 너무나 간단하고 알려진 대응 방법도 없다. 소셜미디어와 이메일에 연결된 AI 모델은 사용자 맞춤 편의성을 제공하는 대신 보안 문제도 함께 부각됐다. 따라서 전문가들은 멀티모달 AI 서비스를 사용할 때 민감한 개인 정보 입력을 피하라고 입을 모아 강조한다.


The Latest AI Chatbots Can Handle Text, Images and Sound. Here’s How
New “multimodal” AI programs can do much more than respond to text—they also analyze images and chat aloud

Slightly more than 10 months ago OpenAI’s ChatGPT was first released to the public. Its arrival ushered in an era of nonstop headlines about artificial intelligence and accelerated the development of competing large language models (LLMs) from Google, Meta and other tech giants. Since that time, these chatbots have demonstrated an impressive capacity for generating text and code, albeit not always accurately. And now multimodal AIs that are capable of parsing not only text but also images, audio, and more are on the rise.

OpenAI released a multimodal version of ChatGPT, powered by its LLM GPT-4, to paying subscribers for the first time last week, months after the company first announced these capabilities. Google began incorporating similar image and audio features to those offered by the new GPT-4 into some versions of its LLM-powered chatbot, Bard, back in May. Meta, too, announced big strides in multimodality this past spring. Though it is in its infancy, the burgeoning technology can perform a variety of tasks.

WHAT CAN MULTIMODAL AI DO?
Scientific American tested out two different chatbots that rely on multimodal LLMs: a version of ChatGPT powered by the updated GPT-4 (dubbed GPT-4 with vision, or GPT-4V) and Bard, which is currently powered by Google’s PaLM 2 model. Both can both hold hands-free vocal conversations using only audio, and they can describe scenes within images and decipher lines of text in a picture.

These abilities have myriad applications. In our test, using only a photograph of a receipt and a two-line prompt, ChatGPT accurately split a complicated bar tab and calculated the amount owed for each of four different people—including tip and tax. Altogether, the task took less than 30 seconds. Bard did nearly as well, but it interpreted one “9” as a “0,” thus flubbing the final total. In another trial, when given a photograph of a stocked bookshelf, both chatbots offered detailed descriptions of the hypothetical owner’s supposed character and interests that were almost like AI-generated horoscopes. Both identified the Statue of Liberty from a single photograph, deduced that the image was snapped from an office in lower Manhattan and offered spot-on directions from the photographer’s original location to the landmark (though ChatGPT’s guidance was more detailed than Bard’s). And ChatGPT also outperformed Bard in accurately identifying insects from photographs.

For disabled communities, the applications of such tech are particularly exciting. In March OpenAI started testing its multimodal version of GPT-4 through the company Be My Eyes, which provides a free description service through an app of the same name for blind and low-sighted people. The early trials went well enough that Be My Eyes is now in the process rolling out the AI-powered version of its app to all its users. “We are getting such exceptional feedback,” says Jesper Hvirring Henriksen, chief technology officer of Be My Eyes. At first there were lots of obvious issues, such as poorly transcribed text or inaccurate descriptions containing AI hallucinations. Henriksen says that OpenAI has improved on those initial shortcomings, however—errors are still present but less common. As a result, “people are talking about regaining their independence,” he says.

HOW DOES MULTIMODAL AI WORK?
In this new wave of chatbots, the tools go beyond words. Yet they’re still based around artificial intelligence models that were built on language. How is that possible? Although individual companies are reluctant to share the exact underpinnings of their models, these corporations aren’t the only groups working on multimodal artificial intelligence. Other AI researchers have a pretty good sense of what’s happening behind the scenes.

There are two primary ways to get from a text-only LLM to an AI that also responds to visual and audio prompts, says Douwe Kiela, an adjunct professor at Stanford University, where he teaches courses on machine learning, and CEO of the company Contextual AI. In the more basic method, Kiela explains, AI models are essentially stacked on top of one another. A user inputs an image into a chatbot, but the picture is filtered through a separate AI that was built explicitly to spit out detailed image captions. (Google has had algorithms like this for years.) Then that text description is fed back to the chatbot, which responds to the translated prompt.

In contrast, “the other way is to have a much tighter coupling,” Kiela says. Computer engineers can insert segments of one AI algorithm into another by combining the computer code infrastructure that underlies each model. According to Kiela, it’s “sort of like grafting one part of a tree onto another trunk.” From there, the grafted model is retrained on a multimedia data set—including pictures, images with captions and text descriptions alone—until the AI has absorbed enough patterns to accurately link visual representations and words together. It’s more resource-intensive than the first strategy, but it can yield an even more capable AI. Kiela theorizes that Google used the first method with Bard, while OpenAI may have relied on the second to create GPT-4. This idea potentially accounts for the differences in functionality between the two models.

Regardless of how developers fuse their different AI models together, under the hood, the same general process is occurring. LLMs function on the basic principle of predicting the next word or syllable in a phrase. To do that, they rely on a “transformer” architecture (the “T” in GPT). This type of neural network takes something such as a written sentence and turns it into a series of mathematical relationships that are expressed as vectors, says Ruslan Salakhutdinov, a computer scientist at Carnegie Mellon University. To a transformer neural net, a sentence isn’t just a string of words—it’s a web of connections that map out context. This gives rise to much more humanlike bots that can grapple with multiple meanings, follow grammatical rules and imitate style. To combine or stack AI models, the algorithms have to transform different inputs (be they visual, audio or text) into the same type of vector data on the path to an output. In a way, it’s taking two sets of code and “teaching them to talk to each other,” Salakhutdinov says. In turn, human users can talk to these bots in new ways.

WHAT COMES NEXT?
Many researchers view the present moment as the start of what’s possible. Once you begin aligning, integrating and improving different types of AI together, rapid advances are bound to keep coming. Kiela envisions a near future where machine learning models can easily respond to, analyze and generate videos or even smells. Salakhutdinov suspects that “in the next five to 10 years, you’re just going to have your personal AI assistant.” Such a program would be able to navigate everything from full customer service phone calls to complex research tasks after receiving just a short prompt.

Multimodal AI is not the same as artificial general intelligence, a holy grail goalpost of machine learning wherein computer models surpass human intellect and capacity. Multimodal AI is an “important step” toward it, however, says James Zou, a computer scientist at Stanford University. Humans have an interwoven array of senses through which we understand the world. Presumably, to reach general AI, a computer would need the same.

As impressive and exciting as they are, multimodal models have many of the same problems as their singly focused predecessors, Zou says. “The one big challenge is the problem of hallucination,” he notes. How can we trust an AI assistant if it might falsify information at any moment? Then there’s the question of privacy. With information-dense inputs such as voice and visuals, even more sensitive information might inadvertently be fed to bots and then regurgitated in leaks or compromised in hacks.

Zou still advises people to try out these tools—carefully. “It’s probably not a good idea to put your medical records directly into the chatbot,” he says.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 중국과 러시아의 미국 선거 개입을 돕는 인공지능

[해외 DS] 중국과 러시아의 미국 선거 개입을 돕는 인공지능
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


정치와 소셜 미디어의 교차점은 AI 기반 허위 정보에 있다/사진=Scientific American

전 세계의 선거는 인공지능으로 생성한 허위 정보 위협에 직면했다. 2016년 러시아가 미국 대선을 겨냥한 일련의 소셜 미디어 허위 정보 캠페인을 시작하면서 서로의 선거에 영향을 미치려는 국가들은 새로운 시대에 접어들었다. 그 후 7년 동안 중국과 이란을 비롯한 여러 국가가 소셜 미디어를 사용하여 미국을 비롯한 전 세계의 선거에 간섭해 왔었다. 생성형 AI 및 대규모언어모델의 등장으로 거짓 정보를 빠르고 쉽게 생성할 수 있게 됐다. 멀티모달 모델의 발전으로 딥페이크와 같은 이미지 및 동영상마저도 실제와 구별할 수 없을 만큼 사실적이어서 혼란이 가중됐다. 인공지능 프로그램은 인터넷 시대의 선동에 매우 적합한 도구다.

2024년 대선을 앞둔 미국으로선 위의 모든 소식이 반갑지 않다. 중국은 대만, 인도네시아, 인도 및 여러 아프리카 국가에 정치적 관심을 두고 있고, 러시아는 영국, 폴란드, 독일, 그리고 유럽 연합 전반에 관심이 많다. 그리고 모두가 미국에 특별히 더 많은 관심이 있다. 최근 미국의 선거 결과에 영향을 미치려는 국가가 추가되었다. 처음에는 러시아, 그다음에는 러시아와 중국, 그리고 가장 최근에는 이란이 이들의 대열에 합류했다. ChatGPT와 같은 도구가 선전물을 제작하고 배포하는 비용을 크게 줄여 더 많은 국가가 참여할 수 있게 되었다는 게 관계자들의 분석이다.

선거 간섭 무대가 바뀌어서 더욱 어려워진 수사

성공적인 허위 정보 캠페인을 실행하기 위해선 콘텐츠를 제작하는 것보다 배포가 핵심이다. 게시물을 올릴 가짜 계정을 만들어야 하고, 이를 널리 퍼뜨리기 위해 다른 사람들의 도움이 필요하다. 8월 메타는 이런 계정을 식별하고 삭제하는데 훨씬 능숙해졌다. 중국의 영향력 강화 캠페인과 관련된 7,704개의 페이스북 계정, 954개의 페이스북 페이지, 15개의 페이스북 그룹, 15개의 인스타그램 계정을 삭제했으며, 틱톡, X, LiveJournal 및 Blogspot에서 수백 개의 계정을 추가로 분류했다고 발표했다. 하지만 AI 등장 이전에 생성됐던 4년 전의 캠페인이었다는 점이 아쉬움을 남겼다.

소셜 미디어의 트렌드가 달라지면서 허위 정보 추적도 난항을 겪고 있다. 4년 전만 해도 트위터는 언론과 직통으로 연결되는 통로였고, 트위터를 통한 선전은 정치적 논의를 기울일 수 있는 주요 방법이었다. 컬럼비아 저널리즘 리뷰의 연구에 따르면 주요 뉴스 매체가 러시아 트윗을 당파적 의견의 출처로 사용했었다. 거의 모든 뉴스 편집자가 읽고, 모든 사람이 글을 올리던 트위터는 이제 더 이상 존재하지 않는다. 많은 선전 매체들이 텔레그램이나 왓츠앱과 같은 메시징 플랫폼으로 옮겨갔기 때문이다. 결과적으로 거짓 콘텐츠를 식별하고 삭제하기가 더 어려워졌다.

지피지기 백전백승

러시아, 중국 및 기타 선거 간섭 작전을 맡은 군 장교는 최고의 사람들로 팀을 구성했을 것이다. 그리고 그들의 전술은 2016년보다 훨씬 더 정교해졌을 가능성이 높다. 따라서 적의 작은 움직임에도 예의주시해야 한다. 러시아나 중국과 같은 국가는 대규모로 사이버 공격을 감행하기 전에 소규모 국가를 대상으로 사이버 공격과 정보 작전을 테스트한 전력이 있다. 그러므로 비슷한 상황이 발생했을 때, 그들의 전술을 발 빠르게 분석 및 예측하는 것이 중요하다. 적의 공격 패턴을 더 많이 연구할수록 자국을 안전하게 방어할 수 있다는 의미다.

적을 아는 것도 중요하지만 자신도 객관적으로 알아야 한다. 하지만 현재 미국은 자신을 알기도 전에 내부 분열로 혼란을 겪는 중이다. 학계, 대학 및 싱크 탱크가 온라인 허위 정보의 확산에 대응하기 위해 진해 중인 연구 프로그램이 조사받거나 중단되는 사태가 벌어졌다. 짐 조던 하원의원과 의회 및 주 정부의 다른 공화당원들이 주도하는 이 캠페인의 발단은 연구자들이 기술 기업과 결탁하여 우익 견해를 검열한 정황이 포착됐다는 주장에서 시작됐다. 허위 정보 확산에 관한 연구를 진행하던 연구진들은 각종 서류 요청과 법적 절차에 시달리고 있다. 미국의 선거 전쟁이 이미 시작된 것일지도 모른다.


How AI Could Help China and Russia Meddle in U.S. Elections

ChatGPT and similar AI programs give propagandists and intelligence agents a powerful new tool for interfering in politics. The clock is ticking on learning to spot this disinformation before the 2024 election

Elections around the world are facing an evolving threat from foreign actors, one that involves artificial intelligence.

Countries trying to influence each other’s elections entered a new era in 2016, when the Russians launched a series of social media disinformation campaigns targeting the U.S. presidential election. Over the next seven years, a number of countries – most prominently China and Iran – used social media to influence foreign elections, both in the U.S. and elsewhere in the world. There’s no reason to expect 2023 and 2024 to be any different.

But there is a new element: generative AI and large language models. These have the ability to quickly and easily produce endless reams of text on any topic in any tone from any perspective. As a security expert, I believe it’s a tool uniquely suited to internet-era propaganda.

This is all very new. ChatGPT was introduced in November 2022. The more powerful GPT-4 was released in March 2023. Other language and image production AIs are around the same age. It’s not clear how these technologies will change disinformation, how effective they will be or what effects they will have. But we are about to find out.

A CONJUNCTION OF ELECTIONS
Election season will soon be in full swing in much of the democratic world. Seventy-one percent of people living in democracies will vote in a national election between now and the end of next year. Among them: Argentina and Poland in October, Taiwan in January, Indonesia in February, India in April, the European Union and Mexico in June and the U.S. in November. Nine African democracies, including South Africa, will have elections in 2024. Australia and the U.K. don’t have fixed dates, but elections are likely to occur in 2024.

Many of those elections matter a lot to the countries that have run social media influence operations in the past. China cares a great deal about Taiwan, Indonesia, India and many African countries. Russia cares about the U.K., Poland, Germany and the EU in general. Everyone cares about the United States.

And that’s only considering the largest players. Every U.S. national election from 2016 has brought with it an additional country attempting to influence the outcome. First it was just Russia, then Russia and China, and most recently those two plus Iran. As the financial cost of foreign influence decreases, more countries can get in on the action. Tools like ChatGPT significantly reduce the price of producing and distributing propaganda, bringing that capability within the budget of many more countries.

ELECTION INTERFERENCE
A couple of months ago, I attended a conference with representatives from all of the cybersecurity agencies in the U.S. They talked about their expectations regarding election interference in 2024. They expected the usual players – Russia, China and Iran – and a significant new one: “domestic actors.” That is a direct result of this reduced cost.

Of course, there’s a lot more to running a disinformation campaign than generating content. The hard part is distribution. A propagandist needs a series of fake accounts on which to post, and others to boost it into the mainstream where it can go viral. Companies like Meta have gotten much better at identifying these accounts and taking them down. Just last month, Meta announced that it had removed 7,704 Facebook accounts, 954 Facebook pages, 15 Facebook groups and 15 Instagram accounts associated with a Chinese influence campaign, and identified hundreds more accounts on TikTok, X (formerly Twitter), LiveJournal and Blogspot. But that was a campaign that began four years ago, producing pre-AI disinformation.

Disinformation is an arms race. Both the attackers and defenders have improved, but also the world of social media is different. Four years ago, Twitter was a direct line to the media, and propaganda on that platform was a way to tilt the political narrative. A Columbia Journalism Review study found that most major news outlets used Russian tweets as sources for partisan opinion. That Twitter, with virtually every news editor reading it and everyone who was anyone posting there, is no more.

Many propaganda outlets moved from Facebook to messaging platforms such as Telegram and WhatsApp, which makes them harder to identify and remove. TikTok is a newer platform that is controlled by China and more suitable for short, provocative videos – ones that AI makes much easier to produce. And the current crop of generative AIs are being connected to tools that will make content distribution easier as well.

Generative AI tools also allow for new techniques of production and distribution, such as low-level propaganda at scale. Imagine a new AI-powered personal account on social media. For the most part, it behaves normally. It posts about its fake everyday life, joins interest groups and comments on others’ posts, and generally behaves like a normal user. And once in a while, not very often, it says – or amplifies – something political. These persona bots, as computer scientist Latanya Sweeney calls them, have negligible influence on their own. But replicated by the thousands or millions, they would have a lot more.

DISINFORMATION ON AI STEROIDS
That’s just one scenario. The military officers in Russia, China and elsewhere in charge of election interference are likely to have their best people thinking of others. And their tactics are likely to be much more sophisticated than they were in 2016.

Countries like Russia and China have a history of testing both cyberattacks and information operations on smaller countries before rolling them out at scale. When that happens, it’s important to be able to fingerprint these tactics. Countering new disinformation campaigns requires being able to recognize them, and recognizing them requires looking for and cataloging them now.

In the computer security world, researchers recognize that sharing methods of attack and their effectiveness is the only way to build strong defensive systems. The same kind of thinking also applies to these information campaigns: The more that researchers study what techniques are being employed in distant countries, the better they can defend their own countries.

Disinformation campaigns in the AI era are likely to be much more sophisticated than they were in 2016. I believe the U.S. needs to have efforts in place to fingerprint and identify AI-produced propaganda in Taiwan, where a presidential candidate claims a deepfake audio recording has defamed him, and other places. Otherwise, we’re not going to see them when they arrive here. Unfortunately, researchers are instead being targeted and harassed.

Maybe this will all turn out OK. There have been some important democratic elections in the generative AI era with no significant disinformation issues: primaries in Argentina, first-round elections in Ecuador and national elections in Thailand, Turkey, Spain and Greece. But the sooner we know what to expect, the better we can deal with what comes.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] AI가 어떻게 작동하는지 모르는데 신뢰할 수 있을까?

[해외 DS] AI가 어떻게 작동하는지 모르는데 신뢰할 수 있을까?
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

인간이 무엇인가를 신뢰하기 위해선 예측 가능성과 윤리적 통념이 필요하다. 인공지능이 이 두 가지 요소를 만족하기 위해선 아직 풀어야 할 과제가 많이 남아있다.

"이랬다저랬다" 하는 모델, 믿기 어려워

같은 회사에서 만든 모델도 일관적인 성능을 보이지 못하는 경우가 있다. OpenAI의 사례만 보더라도 GPT-3와 GPT-4를 비교할 필요 없이 최신 GPT-4와 초기 버전만 놓고 보더라도 수학 문제 정답률이 낮아졌다. 업계 전문가들은 대규모언어모델을 인간 피드백형 강화학습 방식으로 만들었기 때문에 미세 조정 과정에서 예상치 못한 영역에서 성능이 좋아지거나 나빠질 수 있다고 설명한다. 아직 이에 대한 확실한 해결책은 없다. 단순히 데이터나 파라미터 개수를 늘린다고 해결되지 않는 문제이며 학습 알고리즘이 바뀌지 않는 한 생성형 AI의 고질병으로 남을 가능성이 높다.

일관된 판단 기준이 없는 문제는 실수 비용이 큰 의료, 금융, 군대, 자율주행 같은 분야에서 더 치명적이다. 설명 가능한 AI(XAI: eXplainable AI)에 대한 수요가 높지만, 지금처럼 복잡한 모델 구조를 유지하면서 해석력을 높이기는 쉽지 않다. 해석력을 높이기 위해 파라미터 개수를 줄이면 정확성을 일정 부분 포기해야 하는 문제도 발생한다. 중요한 결정에 사용될 정도로 길들지 않은 것에 비해 AI는 이미 우리의 삶에 깊숙이 침투했기 때문에 산업별로 적절한 규제가 수립돼야 한다. AI를 신뢰하기엔 이른 이유다.

타인의 인식도 고려한 의사 결정 과정 필요해

신뢰는 예측 가능성뿐만 아니라 규범이나 윤리적 동기에도 의존한다. 인간의 가치관은 일반적인 경험의 영향을 받으며, 도덕적 추론은 윤리적 기준과 타인의 의식에 의해 역동적으로 형성된다. 인간과 달리 AI는 다른 사람에게 어떻게 인식되는지 또는 윤리적 규범을 준수하는지에 따라 행동을 조정하지 않는다. AI의 '의식'은 학습 데이터에 의해 정적으로 설정되며 미묘한 사회적 상호 작용에 영향을 받지 않기 때문이다. 연구자들이 AI에 윤리를 포함 하기 위해 애쓰지만, 이는 어려운 일이다. 대부분의 인간 운전자는 어린이를 부딪치지 않기 위해 노력하겠지만 자율주행차의 인공지능은 운전자를 보호해야 할 윤리도 있으므로 우선순위를 정하는 것이 어렵다.

미국 국방부에선 AI 시스템의 추천 결과를 행하는 주체를 사람으로 제한시키거나 AI 시스템이 주체적으로 결정을 하더라도 사람이 관리 감독하도록 권장하고 있다. 하지만 관계자들은 미국 국방부의 지침이 장기적인 관점에서 효력이 사라질 것이라고 점쳤다. 기업과 정부가 인공지능 시스템을 도입할수록 여러 시스템이 중첩된 의사 결정 구조는 불가피하다. 그러면 사람이 개입할 여지도 그만큼 줄어들기 때문에 효과적인 대책이 아니라는 설명이다.

현재와 미래를 아우르는 현명한 질문이 신뢰로 향하는 지름길

인간이 인공지능을 신뢰할 수 있는 날이 도래할까? 이 질문에 대한 정확한 답변을 내리기 어렵지만 현재의 수준에서 고민해선 안 된다는 점은 분명하다. 위에서 언급한 것처럼 알고리즘 발전 방향과 적용 범위의 확대 그리고 또 다른 특이점이 올 가능성 등을 종합하여 질문에 접근해야 한다. 즉 질문의 맥락이 동적이라는 사실부터 제대로 인지해야 올바른 해답을 찾을 수 있게 된다.

자동차나 사람이나 어린이를 발견한 시점부터 부딪히는 시점까지 몇 초의 시간밖에 없을 것이다. 사람이 개입하기엔 너무 짧은 시간이고 인공지능의 선택은 불안정하다. 현재의 자율주행차는 해당 차량에 대한 제어만 가능하므로 안타까운 사고를 피하기 어렵다. 하지만 자율주행차 간의 제어 혹은 어린이 주변 사물 간의 상호 제어가 가능해지면 운전자와 어린이의 생존율을 조금이라도 더 높일 수 있다. 물론 긍정적인 미래 상황뿐만 아니라 해킹에 취약한 자율주행 시스템에 대해서도 고민해야 할 테지만 질문의 시제가 현재에 머무른다면 신뢰의 장벽이 더 높게 쌓이는 현재를 살아갈 수밖에 없다.


How Can We Trust AI If We Don’t Know How It Works

Trust is built on social norms and basic predictability. AI is typically not designed with either

There are alien minds among us. Not the little green men of science fiction, but the alien minds that power the facial recognition in your smartphone, determine your creditworthiness and write poetry and computer code. These alien minds are artificial intelligence systems, the ghost in the machine that you encounter daily.

But AI systems have a significant limitation: Many of their inner workings are impenetrable, making them fundamentally unexplainable and unpredictable. Furthermore, constructing AI systems that behave in ways that people expect is a significant challenge.

If you fundamentally don’t understand something as unpredictable as AI, how can you trust it?

WHY AI IS UNPREDICTABLE
Trust is grounded in predictability. It depends on your ability to anticipate the behavior of others. If you trust someone and they don’t do what you expect, then your perception of their trustworthiness diminishes.

Many AI systems are built on deep learning neural networks, which in some ways emulate the human brain. These networks contain interconnected “neurons” with variables or “parameters” that affect the strength of connections between the neurons. As a naïve network is presented with training data, it “learns” how to classify the data by adjusting these parameters. In this way, the AI system learns to classify data it hasn’t seen before. It doesn’t memorize what each data point is, but instead predicts what a data point might be.

Many of the most powerful AI systems contain trillions of parameters. Because of this, the reasons AI systems make the decisions that they do are often opaque. This is the AI explainability problem – the impenetrable black box of AI decision-making.

Consider a variation of the “Trolley Problem.” Imagine that you are a passenger in a self-driving vehicle, controlled by an AI. A small child runs into the road, and the AI must now decide: run over the child or swerve and crash, potentially injuring its passengers. This choice would be difficult for a human to make, but a human has the benefit of being able to explain their decision. Their rationalization – shaped by ethical norms, the perceptions of others and expected behavior – supports trust.

In contrast, an AI can’t rationalize its decision-making. You can’t look under the hood of the self-driving vehicle at its trillions of parameters to explain why it made the decision that it did. AI fails the predictive requirement for trust.

EXPECTATIONS
Trust relies not only on predictability, but also on normative or ethical motivations. You typically expect people to act not only as you assume they will, but also as they should. Human values are influenced by common experience, and moral reasoning is a dynamic process, shaped by ethical standards and others’ perceptions.

Unlike humans, AI doesn’t adjust its behavior based on how it is perceived by others or by adhering to ethical norms. AI’s internal representation of the world is largely static, set by its training data. Its decision-making process is grounded in an unchanging model of the world, unfazed by the dynamic, nuanced social interactions constantly influencing human behavior. Researchers are working on programming AI to include ethics, but that’s proving challenging.

The self-driving car scenario illustrates this issue. How can you ensure that the car’s AI makes decisions that align with human expectations? For example, the car could decide that hitting the child is the optimal course of action, something most human drivers would instinctively avoid. This issue is the AI alignment problem, and it’s another source of uncertainty that erects barriers to trust.

CRITICAL SYSTEMS AND TRUSTING AI
One way to reduce uncertainty and boost trust is to ensure people are in on the decisions AI systems make. This is the approach taken by the U.S. Department of Defense, which requires that for all AI decision-making, a human must be either in the loop or on the loop. In the loop means the AI system makes a recommendation but a human is required to initiate an action. On the loop means that while an AI system can initiate an action on its own, a human monitor can interrupt or alter it.

While keeping humans involved is a great first step, I am not convinced that this will be sustainable long term. As companies and governments continue to adopt AI, the future will likely include nested AI systems, where rapid decision-making limits the opportunities for people to intervene. It is important to resolve the explainability and alignment issues before the critical point is reached where human intervention becomes impossible. At that point, there will be no option other than to trust AI.

Avoiding that threshold is especially important because AI is increasingly being integrated into critical systems, which include things such as electric grids, the internet and military systems. In critical systems, trust is paramount, and undesirable behavior could have deadly consequences. As AI integration becomes more complex, it becomes even more important to resolve issues that limit trustworthiness.

CAN PEOPLE EVER TRUST AI?
AI is alien – an intelligent system into which people have little insight. Humans are largely predictable to other humans because we share the same human experience, but this doesn’t extend to artificial intelligence, even though humans created it.

If trustworthiness has inherently predictable and normative elements, AI fundamentally lacks the qualities that would make it worthy of trust. More research in this area will hopefully shed light on this issue, ensuring that AI systems of the future are worthy of our trust.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] AI 플라세보 효과, 사용자의 선입견이 챗봇 사용 경험을 좌우한다

[해외 DS] AI 플라세보 효과, 사용자의 선입견이 챗봇 사용 경험을 좌우한다
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

인간의 생각을 학습해서 생성된 대규모언어모델은 개인 혹은 사회의 거울이다. 이를 증명하는 한 편의 논문이 8월 16일(현지 시각) 네이처지 머신러닝 저널에 등재됐다. 연구진은 사용자의 선입견에 따라 AI 챗봇과의 상호작용 결과가 뚜렷하게 나뉘는 것을 밝혀냈다. 평소 우리가 인공지능에 대해서 어떤 생각과 감정을 품고 있느냐가 인공지능이 주는 대답에 영향을 미친다는 사실이 기술에 대한 막연한 두려움이 만연한 우리 사회에 큰 경종을 울린다.

AI는 우리의 거울, 바라보는 관점 따라 달라진 평가

실험 설계는 간단하다. 160명의 실험 대상자를 3개의 그룹으로 나눠서 심리 안정에 도움을 주는 AI 챗봇과 대화를 나누게 했다. 첫 번째 그룹엔 챗봇이 그냥 정해진 답안을 뱉어내는 기계일 뿐이며 아무런 목적성이 없다고 일렀고, 두 번째 그룹엔 해당 프로그램은 공감 능력이 있는 인공지능이라고 알렸고 마지막 그룹엔 영업 의도가 있어 마음을 조작하는 프로그램과 대화할 것이라고 사전에 언질을 줬다. 사실 세 그룹 모두 같은 챗봇(GPT-3)과 대화를 진행했으며 사전에 형성된 심성 모형(mental model)이 실험 결과에 어떤 영향을 미칠지를 분석 하고자 하는 의도가 숨겨져 있었다.

연구진은 플라세보 효과가 존재했으며 참가자들의 채팅 종료 후 평가뿐만 아니라 채팅 중에도 심성 모형에 따라 사용자와 AI의 감정 상태가 동기화한 사실에 주목했다. GPT-3의 학습 방식이 피드백형 강화학습이기 때문에 참가자의 감정선을 미러링했던 것으로 보인다. 결과적으로 긍정적인 사전정보를 받은 참가자는 대화가 진행될수록 참가자와 AI 모두 점점 더 높은 강도의 긍정적인 감정을 느꼈고 부정적인 선입견을 품으면 정반대의 결과가 나왔다.

모델 성능 표시 투명해야 객관적인 사용자 경험 측정 가능해

위 연구 결과는 대중이 인공지능을 바라보는 시선과 태도가 앞으로 기술과 상호작용하는 우리의 경험을 좌우한다는 점을 지적한다. 인간과 컴퓨터의 상호작용을 연구하는 전문가들도 대중 매체를 통해 알게 되는 AI 소식을 비판적으로 받아들이고 자아 성찰과 자기 계발의 도구로써 생성형 AI를 활용하길 조언했다. 일각에선 대중 매체의 잘못된 메시지뿐만 아니라 편향된 인공지능 프로그램과 상호작용할 때는 특히 주의해야 한다고 꼬집었다. 논문의 1 저자로 참여한 MIT 미디어 연구실의 팟 파타라누타폰(Pat Pataranutaporn) 박사 과정생은 사용자 측에선 편향성을 판단하기 어려우니 식품에 영양성분을 표시하는 것처럼 통일된 표준 아래 개발사도 자사의 AI 프로그램을 평가한 자료를 공개하는 것도 하나의 방법이라고 제안했다.

한편 모델의 성능이 좋지 않음에도 불구하고 과대광고를 진행하는 개발사에 대한 규제는 필요해 보인다. 같은 연구에서 150명의 참가자를 대상으로 GPT-3 대신 규칙 기반(Rule-based) 모델(ELIZA)로 똑같은 실험을 진행했었다. ELIZA와 대화한 세 그룹 모두 GPT-3에 비해 눈에 띄는 감정 변화가 없었지만, 프로그램에 공감 능력이 있다고 통보받은 그룹에선 모든 평가 항목에 상대적으로 후한 점수를 줬다. 물론 GPT-3의 점수보단 전반적으로 더 낮았지만, 정교하고 정확한 모델 개발을 독려하기 위해서 품질 관리 감독이 이뤄져야 한다.

파타라누타폰 박사 과정생은 일본 애니메이션 '도라에몽'을 보고 자라면서 기계에 대한 긍정적인 생각이 자리 잡았다고 얘기했다. 아시아 국가에서 받아들이는 인공지능에 대한 인식이 비교적 긍정적인 편에 속하고 문화마다 인식의 차이는 더 클 것으로 예상한다고 전했다. 다양한 사회문화 맥락에서 위 논문의 범용성이 증명되면 적용 범위가 더 넓어질 것이다. 또한 논리 영역 평가엔 어떤 작용이 있을지 알아보는 것도 흥미로운 주제다. 모델의 추론 능력은 높은 확률로 사용자의 인식과는 무관하겠지만, 논리 문제를 해결할 수 없는 상황에선 사용자가 포기하지 않고 해결책을 찾아갈 수 있도록 긍정적인 감정을 끌어내는 효과를 기대해 볼 수는 있다. 챗봇이 사용자를 향에 긍정적인 태도를 가지는 방향도 함께 고민해야할 부분이다.


The Assumptions You Bring into Conversation with an AI Bot Influence What It Says

A new study reveals an “AI placebo effect”: the same chatbot will respond differently depending on its users’ assumptions about artificial intelligence

Do you think artificial intelligence will change our lives for the better or threaten the existence of humanity? Consider carefully—your position on this may influence how generative AI programs such as ChatGPT respond to you, prompting them to deliver results that align with your expectations.

“AI is a mirror,” says Pat Pataranutaporn, a researcher at the M.I.T. Media Lab and co-author of a new study that exposes how user bias drives AI interactions. In it, researchers found that the way a user is “primed” for an AI experience consistently impacts the results. Experiment subjects who expected a “caring” AI reported having a more positive interaction, while those who presumed the bot to have bad intentions recounted experiencing negativity—even though all participants were using the same program.

“We wanted to quantify the effect of AI placebo, basically,” Pataranutaporn says. “We wanted to see what happened if you have a certain imagination of AI: How would that manifest in your interaction?” He and his colleagues hypothesized that AI reacts with a feedback loop: if you believe an AI will act a certain way, it will.

To test this idea, the researchers divided 300 participants into three groups and asked each person to interact with an AI program and assess its ability to deliver mental health support. Before starting, those in the first group were told the AI they would be using had no motives—it was just a run-of-the-mill text completion program. The second set of participants were told their AI was trained to have empathy. The third group was warned that the AI in question was manipulative and that it would act nice merely to sell a service. But in reality, all three groups encountered an identical program. After chatting with the bot for one 10- to 30-minute session, the participants were asked to evaluate whether it was an effective mental health companion.

The results suggest that the participants’ preconceived ideas affected the chatbot’s output. In all three groups, the majority of users reported a neutral, positive or negative experience in line with the expectations the researchers had planted. “When people think that the AI is caring, they become more positive toward it,” Pataranutaporn explains. “This creates a positive reinforcement feedback loop where, at the end, the AI becomes much more positive, compared to the control condition. And when people believe that the AI was manipulative, they become more negative toward the AI—and it makes the AI become more negative toward the person as well.”

This impact was absent, however, in a simple rule-based chatbot, as opposed to a more complex one that used generative AI. While half the study participants interacted with a chatbot that used GPT-3, the other half used the more primitive chatbot ELIZA, which does not rely on machine learning to generate its responses. The expectation effect was seen with the former bot but not the latter one. This suggests that the more complex the AI, the more reflective the mirror that it holds up to humans.

The study intimates that AI aims to give people what they want—whatever that happens to be. As Pataranutaporn puts it, “A lot of this actually happens in our head.” His team’s work was published in Nature on Monday.

According to Nina Beguš, a researcher at the University of California, Berkeley, and author of the upcoming book Artificial Humanities: A Fictional Perspective on Language in AI, who was not involved in the M.I.T. Media Lab paper, it is “a good first step. Having these kinds of studies, and further studies about how people will interact under certain priming, is crucial.”

Both Beguš and Pataranutaporn worry about how human presuppositions about AI—derived largely from popular media such as the films Her and Ex Machina, as well as classic stories such as the myth of Pygmalion—will shape our future interactions with it. Beguš’s book examines how literature across history has primed our expectations regarding AI.

“The way we build them right now is: they are mirroring you,” she says. “They adjust to you.” In order to shift attitudes toward AI, Beguš suggests that art containing more accurate depictions of the technology is necessary. “We should create a culture around it,” she says.

“What we think about AI came from what we see in Star Wars or Blade Runner or Ex Machina,” Pataranutaporn says. “This ‘collective imagination’ of what AI could be, or should be, has been around. Right now, when we create a new AI system, we’re still drawing from that same source of inspiration.”

That collective imagination can change over time, and it can also vary depending on where people grew up. “AI will have different flavors in different cultures,” Beguš says. Pataranutaporn has firsthand experience with that. “I grew up with a cartoon, Doraemon, about a cool robot cat who helped a boy who was a loser in ... school,” he says. Because Pataranutaporn was familiar with a positive example of a robot, as opposed to a portrayal of a killing machine, “my mental model of AI was more positive,” he says. “I think in ... Asia people have more of a positive narrative about AI and robots—you see them as this companion or friend.” Knowing how AI “culture” influences AI users can help ensure that the technology delivers desirable outcomes, Pataranutaporn adds. For instance, developers might design a system to seem more positive in order to bolster positive results. Or they could program it to use more straightforward delivery, providing answers like a search engine does and avoiding talking about itself as “I” or “me” in order to limit people from becoming emotionally attached to or overly reliant on the AI.

This same knowledge, however, can also make it easier to manipulate AI users. “Different people will try to put out different narratives for different purposes,” Pataranutaporn says. “People in marketing or people who make the product want to shape it a certain way. They want to make it seem more empathetic or trustworthy, even though the inside engine might be super biased or flawed.” He calls for something analogous to a “nutrition label” for AI, which would allow users to see a variety of information—the data on which a particular model was trained, its coding architecture, the biases that have been tested, its potential misuses and its mitigation options—in order to better understand the AI before deciding to trust its output.

“It’s very hard to eliminate biases,” Beguš says. “Being very careful in what you put out and thinking about potential challenges as you develop your product is the only way.”

“A lot of conversation on AI bias is on the responses: Does it give biased answers?” Pataranutaporn says. “But when you think of human-AI interaction, it’s not just a one-way street. You need to think about what kind of biases people bring into the system.”

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] AI 불안 증폭하는 문화예술계, 멘탈 관리 어떻게 해야 할까

[해외 DS] AI 불안 증폭하는 문화예술계, 멘탈 관리 어떻게 해야 할까
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


anxiety
사진=Scientific American

생성형 인공 지능의 급속한 발전으로 인해 업무의 미래와 인간의 창의성에 대한 큰 의문이 제기되고 있다. 인공지능이 인간을 능가하는 것처럼 보이는 뉴스가 끊임없이 쏟아져서 AI에 대한 두려움도 증가했다. 한 예로 독창성을 평가하는 실험에서 생성형 AI 프로그램이 평균적인 인간보다 높은 점수를 받았는데 AI가 평균적으로 인간보다 더 우세했다는 사실은 경종을 울린다.

AI의 한계를 잘 아는 전문가마저도 그 가능성이 놀라울 때가 있는데, 잘 모르는 일반 시민 혹은 일자리를 위협받는 사람에겐 커지는 AI의 존재감이 마냥 반갑지만은 않다. 미디어 심리학자들에 따르면 인공지능에 대한 불안을 겪고 있는 사람들이 기술의 한계와 장점을 이해하고, 삶의 긍정적인 동력으로 기술을 활용해야 막연한 두려움을 극복할 수 있다고 조언하고 있다.

밥그릇 건드는 생성형 AI, 영감의 원천으로 활용될 수도 있어

최근 인공지능과 가장 격렬히 부딪히고 있는 분야는 다름 아닌 창작 활동이다. 글과 그림 모두 자동 생성이 가능하기 때문에 영화, 연극, 애니메이션, 미술 등 가릴 것 없이 작가들의 원성이 자자하다. 아이러니하게도 인공지능이 가장 학습하기 어려울 것으로 생각됐던 창의력에서 가장 큰 논란이 발생하고 있는 현상의 뒷면엔 진정한 의미에서 창의적인 작업물이 많지 않다는 방증일 수도 있다. 물론 AI 프로그램으로 타인의 창작물을 무단 학습해서 이득을 취하는 일은 규제가 필요한 부분이지만 말이다. 하지만 잊지 말아야 할 사실은 기계학습은 결국 과거 데이터의 패턴 인식이라는 점이다. 머무르는 작가에겐 위기이지만, 계속 발전하는 작가에겐 더 높은 차원의 스토리텔링을 위해 시간을 벌 기회이기도 하다.

이러한 사실을 인지하고 아직 학생이거나 이제 막 사회에 진입한 작가들은 인공지능 프로그램을 다루는 일에 능해져야 한다. 프로그램으로 반복 작업 시간을 단축하고 남는 시간을 활용해서 창의적 사고를 위한 자기 계발 시간에 투자할 수 있다. 경력이 있는 작가들은 도메인 지식을 활용해서 AI 프로그램의 성능을 더 획기적으로 발전시킬 수도 있다. 인공지능 학회에서도 주목받는 논문들은 깊은 관찰을 통해 얻은 통찰을 바탕으로 이전에 시도하지 않았던 개념의 결합이 결실을 보는 경우들이 많다. 마찬가지로 경험 많은 작가가 역으로 개발자에게 도전적인 모델링 아이디어를 끊임없이 제안할 가능성이 열려 있다는 의미다. 모델을 개발한다는 것은 주어진 정보를 어떻게 조합할 것이냐는 물음과 맞닿아 있다. 창의적인 문체 혹은 문장의 조합 방법론을 끊임없이 연구한 작가의 지식은 획기적인 알고리즘 개발에 활용될 수 있다. 그 과정에서 작가도 인공지능의 학습 방식이나 대답으로 부터 영감을 얻을 수 있다는 사실을 간과해선 안된다.

최근 디즈니는 마블의 Secret Invasion 시리즈의 인트로를 메소드 스튜디오(시각효과 회사)를 통해 인공지능으로 제작했다고 전했다. 많은 작가들이 이에 실망하고 우려 섞인 반응을 보였지만 메소드 스튜디오가 개발한 기술을 활용해서 잠재력을 터뜨리고, 기존 시스템을 개선하는 데 기여할 신입과 경력 작가를 뽑지 않을 이유는 없을 것이다. 수많은 작가들이 있었기 때문에 ChatGPT와 DALLE가 탄생할 수 있었다. 당장의 저작권 침해 규제로 피해를 최소화하는 일도 중요하지만, 작가협회의 창작 집대성을 활용해서 알고리즘의 발전과 성숙을 어떻게 이끌어나갈 것인가에 대한 논의도 시급한 시점이다. 대규모언어모델의 복잡성 앞에서 학습 데이터의 저작권 식별 계획은 현실성이 없다. 작가들이 철학과 문화와 예술로 혁신적인 GPT-5를 만드는 주역이 되어서 인센티브를 나눠 갖는 방향이 오히려 현실적인 상생 전략이다.

휴식과 연대도 효과적인 스트레스 해소법

AI와 일터 그리고 자아에 대해서 고민하는 습관도 좋지만 전문가들은 주의를 환기하는 경험도 강조하고 있다. 가끔은 기술에서 벗어나 자연이나 사랑하는 사람들과 물리적 세계에서 다시 연결점을 찾는 것이 정신 건강에 중요하기 때문이다. 오프라인에서의 경험으로 챗봇이나 이미지 생성기와 인간이 무엇이 다른지 다시 한번 상기해야 한다. 수년간 인간의 창의성과 AI의 관계를 연구해 온 하버드 대학교 철학과 션 켈리(Sean Kelly) 교수는 지금까지 AI가 할 수 있는 것은 창의력과 창의적 동기를 모방하는 것뿐이라고 말한다. AI 모델이 무언가를 생성할 때는 예술가가 자신이 말해야 한다고 생각한 것을 표현하려고 노력하는 것과는 결이 다르다. 작품을 감상하는 우리는 작가의 숨겨진 메시지와 그런 의도를 가질 수밖에 없었던 맥락을 하나하나 알아가는 재미로 문화 활동을 즐기기 때문에 AI가 제공하는 가치의 한계도 명확하다.

연대를 통해 심리적인 안정을 찾는 사람들도 늘고 있다. 비슷한 처지에 놓인 사람들끼리 서로를 위로하고 다시 일어설 힘을 찾는다면 더할 나위 없는 해결책이다. 모임을 통해 AI 규제안에 대해 합리적인 논의를 펼치는 것도 사회 구성원으로서 의미 있는 일이고, 혼자서는 알아보기 어려웠던 새로운 기술에 관한 공부도 용기 내 시작해 볼 수도 있다. 현실에서 도피하지 않고 다 같이 어려움을 헤쳐 나가는 적극적인 도전 의식이 많은 불안을 잠재울 방법이다. 미래에 공상과학에서 나올 법한 더 복잡한 문제가 현실화한다면 연합하여 문제를 해결해 본 지금의 경험이 더욱 값지게 느껴질 것이다.

창작 활동을 하는 작가든 엑셀 시트를 작성하는 사무직이든 가장 중요한 본질은 바뀌지 않은 듯하다. 관중을 압도하고 감탄을 자아낸 촘촘한 작품 설계는 유일무이한 세계관을 형성할 것이고, 클라이언트의 기대보다 몇 발 더 나아가서 생각하고 더 나은 결과를 위해 계약 종료 직전까지 고민하는 직장인의 치열함은 대체 불가능한 인력으로 남을 것이기 때문이다. 아직 ChatGPT가 환각에 취해 있을 때, DALLE가 6개 손가락을 그려주고 있을 때, 놀란 마음을 진정시키고 각자의 자리에서 묵묵히 걸어 나가는 인간의 모습은 인공지능의 탄복도 자아내지 않을까? 서두에 언급했던 독창성 시험에서 가장 높은 점수를 기록한 주인공은 아직 인간이다.


‘AI Anxiety’ Is on the Rise—Here’s How to Manage It

Rapid advances in generative artificial intelligence have prompted big questions about the future of work and even human creativity. Experts have suggestions for how to manage all these unknowns

It’s logical for humans to feel anxious about artificial intelligence. After all, the news is constantly reeling off job after job at which the technology seems to outperform us. But humans aren’t yet headed for all-out replacement. And if you do suffer from so-called AI anxiety, there are ways to alleviate your fears and even reframe them into a motivating force for good.

In one recent example of generative AI’s achievements, AI programs outscored the average human in tasks requiring originality, as judged by human reviewers. For a study published this month in Scientific Reports, researchers gave 256 online participants 30 seconds to come up with imaginative uses for four commonplace objects: a box, a rope, a pencil and a candle. For example, a box might serve as a cat playhouse, a miniature theater or a time capsule. The researchers then gave the same task to three different large language models. To assess the creativity of these responses, the team used two methods: an automated program that assessed “semantic distance,” or relatedness between words and concepts, and six human reviewers that were trained to rank responses on their originality.

In both assessments, the highest-rated human ideas edged out the best of the AI responses—but the middle ground told a different story. The mean AI scores were significantly higher than the mean human scores. For instance, both the automated and human assessments ranked the response “cat playhouse” as less creative than a similar AI-generated response from GPT-4, “cat amusement park.” And people graded the lowest-scoring human answers as far less creative than the worst of the AI generations.

Headlines ensued, proclaiming that “AI chatbots already surpass average human in creativity” and “AI is already more creative than YOU.” The new study is the latest in a growing body of research that seems to portend generative AI outpacing the average human in many artistic and analytical realms—from photography competitions to scientific hypotheses.

It’s news such as this that has fed Kat Lyons’s fears about AI. Lyons is a Los Angeles–based background artist who works in animation and creates immersive settings for TV shows including Futurama and Disenchantment. In many ways, it’s their dream job—a paid outlet for their passion and skill in visual art, which they’ve been cultivating since age four. But some aspects of the dream have begun to sour: the rise of visual generative AI tools such as Midjourney and Stable Diffusion (and the entertainment industry’s eagerness to use them) has left Lyons discouraged, frustrated and anxious about their future in animation—and about artistic work in general. For instance, they were disheartened when Marvel and Disney decided to use an AI-generated, animated intro sequence made by the visual effects company Method Studios for the show Secret Invasion, which premiered in June. “It feels really scary,” Lyons says. “I honestly hate it.” Disney, which owns Marvel Studios, and Method Studios did not immediately respond to a request for comment.

Like many professional creatives, Lyons now worries about AI models—which need to train themselves on vast swaths of Internet content—stealing and rehashing their artistic work for others’ profit. And then there’s the corresponding loss of employment opportunities. More broadly, Lyons fears for the future of art itself in an era when honing a craft and a personal voice are no longer prerequisites for producing seemingly original and appealing projects. “I worked so hard for my artistic dreams. I’ve been drawing since I was in preschool,” they say. “This is always what I’ve wanted to do, but we might be entering a world where I have to give that up as my full-time job—where I have to go back to waiting tables or serving coffee.”

Lyons isn’t alone. Many people have found themselves newly anxious about the rapid rise of generative AI, says Mary Alvord, a practicing psychologist in the Washington, D.C., area. Alvord says her clients of all ages express concerns about artificial intelligence. Specific worries include a lack of protection for online data privacy, the prospect of job loss, the opportunity for students to cheat and even the possibility of overall human obsolescence. AI’s advance has triggered a vague but pervasive sense of general public unease, and for some individuals, it has become a significant source of stress.

As with any anxiety, it’s important to manage the emotion and avoid becoming overwhelmed. “A certain amount of anxiety helps motivate, but then too much anxiety paralyzes,” Alvord says. “There’s a balance to strike.” Here’s how some psychologists and other experts suggest tackling our AI fears.

First off, context is key, says Sanae Okamoto, a psychologist and behavioral scientist at the United Nations University–Maastricht Economic and Social Research Institute on Innovation and Technology in the Netherlands. She suggests keeping in mind that the present moment is far from the first time people have feared the rise of an unfamiliar technology. “Computer anxiety” and “technostress” date back decades, Okamoto notes. Before that, there was rampant worry over industrial automation. Past technological advances have led to big societal and economic shifts. Some fears materialized, and some jobs did disappear, but many of the worst sci-fi predictions did not come true.

“It’s natural and historical that we are afraid of any new technology,” says Jerri Lynn Hogg, a media psychologist and former president of the American Psychological Association’s Society for Media Psychology and Technology. But understanding the benefits of a new tech, learning how it works and getting training in how to use it productively can help—and that means going beyond the headlines.

Simone Grassini, one of the researchers of the new study and a psychologist at Norway’s University of Bergen, is quick to point out that “performing one specific task that is related to creative behavior doesn’t automatically translate to ‘AI can do creative jobs.’” The current technology is not truly producing new things but rather imitating or simulating what people can do, Grassini says. AI’s “cognitive architecture and our cognitive architecture are substantially different.” In the study, it’s possible the AI won high creativity ratings because its answers simply copied verbatim parts of a human creation contained somewhere in its training set, he explains. The AI was also competing against human volunteers who had no particular motivation to excel at their creative task and had never necessarily completed such an assignment before. Participants were recruited online and paid only about $2.50 for an estimated 13 minutes of work.

Confronting fears of generative AI by actually trying out the tools, seeing where and how they can be useful, reading up on how they work and understanding their limitations can turn the tech from a boogeyman into a potential asset, Hogg says. A deeper understanding can empower someone to advocate for meaningful job protections or policies that rein in potential downsides.

Alvord also emphasizes the importance of addressing the problem directly. “We talk about what actions you can take instead of sticking your head in the sand,” she says. Maybe that means gaining new skills to prepare for a career change or learning about ongoing efforts to regulate AI. Or maybe it means building a coalition with colleagues at work. Lyons says being involved with their union, the Animation Guild, has been crucial to helping them feel more secure and hopeful about the future. In this way, remedies for AI anxiety may be akin to ones for another major, burgeoning societal fear: climate anxiety.

Though there are obvious differences between the two phenomena (AI clearly offers some significant possible benefits), there are also apparent similarities. In tackling the biggest concerns about AI and in confronting the climate crisis, “we’re all in this challenge together,” Okamoto says. Just as with climate activism, she explains, meaningfully confronting fears over AI might begin with building solidarity, finding community and coming up with collective solutions.

Another way to feel better about AI is to avoid overly fixating on it, Okamoto adds. There is more to life than algorithms and screens. Taking breaks from technology to reconnect with nature or loved ones in the physical world is critical for mental health, she notes. Stepping away from tech can also provide a reminder of all the ways that humans are distinct from the chatbots or image generators that might threaten a person’s career or self-image. Humans, unlike AI, can experience the world directly and connect with one another about it.

When people create something, it’s often in response to their environment. Each word or brushstroke can carry meaning. For Lyons, human creativity is a “feral, primitive drive to make something because you can’t not make it.” So far, all AI can do is mimic that ability and creative motivation, says Sean Kelly, a Harvard University philosophy professor who has been examining the relationship between human creativity and AI for years. When an AI model generates something, Kelly says, “it’s not doing what the original artist did, which was trying to say something that they felt needed to be said.”

To Kelly, the real societal fear shouldn’t be that AI will get better or produce ever more interesting content. Instead he’s afraid “that we’ll give up on ourselves” and “just become satisfied” with what AI generators can provide.

Perhaps the better, and more characteristically human, response is to use our AI anxiety to propel us forward. Mastering a craft—be it drawing, writing, programming, translating, playing an instrument or composing mathematical proofs—and using that skill to create something new is “the most rewarding thing that we can possibly do,” Kelly says. So why not let AI motivate more creation instead of replace it? If the technology spits out something compelling, we can build on it. And if it doesn’t, then why worry about it at all?

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 마침내 인공지능으로 동물과 대화할 수 있다

[해외 DS] 마침내 인공지능으로 동물과 대화할 수 있다
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


whale
고래류 번역 이니셔티브(Cartacean Translation Initiative, CETI) 프로젝트는 향유고래의 음성을 이해하기 위해 머신러닝을 활용했다/사진=Scientific American

센서의 가격이 저렴해지고 바이오 로깅, 드론, 수중음향 센서와 같은 기술이 발전하면서 동물 데이터양이 폭발적으로 증가했다. 대규모 언어모델도 함께 발전하는 지금은 동물 언어 번역의 황금기다.

2017년 두 연구 그룹이 로제타 스톤 없이도 인간 언어 간 번역을 할 방법을 발견했다. 단어 간의 의미 관계를 기하학적 관계로 바꾼 것이 발상의 전환이었다. 이제 기계학습 모델은 '어머니'와 '딸'과 같은 단어가 가까이 나타나는 빈도를 사용하여 다음에 나올 내용을 정확하게 예측하는 등, 언어 간 숨겨져 있는 기본 구조를 드러내어 해독할 수 없었던 언어를 번역할 수 있게 되었다.

더 나아가 2020년 자연어 처리가 여러 형태의 정보를 언어로 취급할 수 있게 되면서 또 다른 이정표를 맞이했다. DALLE-2와 같은 멀티모달 분석 엔진은 언어 설명을 기반으로 사실적인 이미지를 생성할 수 있는데 바로 이런 점이 동물의 언어를 번역하는 데 유용하다. 사람과 마찬가지로 동물도 몸짓을 통해 많은 메시지를 전달하기 때문이다. 특히 반려견과의 대화에서 그들이 짖는 소리에 신경을 너무 쓴 나머지 멀티모달 시그널을 놓치는 경우가 많다. 반려견의 표정과 몸짓 그리고 짖는 소리를 모두 고려한 AI 번역기는 인간과 반려견 사이의 새로운 종류의 대화를 가능케할 수 있다.

AI 기술 적용과 가능성

반려견뿐만 아니라 가축도 이러한 심층적인 이해의 혜택을 받을 수 있다. 코펜하겐 대학의 동물 행동학 부교수인 엘로디 브리퍼(Elodie F. Briefer)는 동물의 음성을 기반으로 감정 상태를 평가할 수 있다는 것을 보여줬다. 그녀는 최근 수천 마리의 돼지 소리를 학습한 알고리즘을 개발하여 동물이 긍정적인 감정을 느끼는지 부정적인 감정을 느끼는지 예측해 냈다. 브리퍼는 동물이 감정을 어떻게 느끼는지 더 잘 파악하면 동물 복지를 개선하기 위한 노력에 박차를 가할 수 있다고 강조했다. 한편 코넬 조류학 연구소의 무료 앱인 Merlin을 사용하면 새 종을 식별하는 AI 기반 분석 도구를 사용할 수 있다. Merlin은 소리로 새를 식별하기 위해 녹음 파일을 받아 새의 울음소리 볼륨, 음높이, 길이를 시각화한 스펙트로그램으로 변환한다. 이 모델은 코넬의 오디오 라이브러리를 학습한 후 사용자의 녹음과 비교하여 종 식별을 예측하고 코넬의 데이터베이스인 eBird와 비교하여 사용자의 위치에서 발견될 것으로 예상되는 종인지 검증하는 단계도 거친다. Merlin은 1,000종 이상의 조류의 울음소리를 놀라운 정확도로 식별할 수 있는 것으로 확인됐다.

AI 기술을 본격적으로 연구에 활용하는 단체들도 생겨났다. 비영리 단체인 지구 종 프로젝트(Earth Species Project, ESP)는 인공 지능 과학자, 생물학자, 보존 전문가로 구성되어 다양한 종으로부터 광범위한 데이터를 수집하고 이를 분석하기 위한 머신러닝 모델을 구축하고 있다. ESP는 관련 연구자들에게 큰 도움을 준 두 가지 모델을 만들어서 오픈소스로 공개했다. 2021년에는 동물 소리를 개별 트랙으로 분리하고 자동차 경적과 같은 배경 소음을 필터링할 수 있는 신경망을 개발했으며 최근엔 데이터세트의 패턴을 자동으로 감지하고 분류할 수 있는 이른바 기반 모델(foundational model)을 만들었다. 고래류 번역 이니셔티브(Cartecean Translation Initiavie, CETI) 프로젝트는 향유고래와 같은 특정 종을 이해하는 데 집중하고 있다. 그들은 도미니카 인근 바다에 음성 수집기를 부표에 달아서 고래의 코다 신호를 수집하고 신호의 기본 언어 구조를 파악하고자 노력하고 있다.

동물 언어 번역의 한계와 극복하는 노력의 의의

AI 번역 도구가 긍정적인 영향을 미치는 것만은 아니다. 물고기 떼를 유인해서 훨씬 더 짧은 시간에 많은 양의 물고기를 잡을 수 있고 멸종위기 종을 노리는 밀렵꾼들이 사용했을 때는 생태계에 끼치는 악영향이 심각하다. 그리고 언어의 의미를 정확하게 해석하기도 전에 AI 번역 도구로 그들의 언어를 흉내 낼 수 있으므로 부정확한 신호로 혼란을 일으킬 수 있다. 따라서 영리 단체들도 해당 연구에 적극적으로 뛰어들기 전에 번역 모델 사용 지침을 하루빨리 수립해야 하는 필요성이 대두됐다.

한편 동물의 발화가 전달하고자 하는 바를 인간의 언어와 비교할 수 있는지는 여전히 의견이 분분하다. 회의론자들은 동물의 의사소통을 언어로 취급하거나 번역을 시도하면 그 의미가 왜곡될 수 있다고 우려했다. ESP의 설립자 중 한 명인 아자 라스킨(Aza Raskin)은 이러한 우려를 일축했다. 그는 동물이 "바나나 좀 줘"라고 말하는 것은 의심스럽지만, 일반적인 경험에서 의사소통의 근거를 발견할 수 있다고 생각했다. 그는 여러 종에서 '슬픔', '엄마', '배고프다'라는 표현을 발견해도 놀랍지 않을 것이라고 주장했다. 화석 기록에 따르면 고래와 같은 생물은 수천만 년 동안 발성을 해왔는데 무언가가 오랫동안 살아남으려면 매우 깊고 진실한 의미를 담고 있어야 한다는 것이 그의 논리다.

궁극적으로 진정한 번역을 위해서는 새로운 도구뿐만 아니라 우리 자신의 편견과 기대를 뛰어넘을 수 있는 능력이 필요하다. 인간 중심적 사고에서 벗어나 동물의 처지에서 삶을 바라보는 태도를 가질 때 그들의 목소리를 조금 더 이해하게 될 수 있을 것이다.


Artificial Intelligence Could Finally Let Us Talk with Animals

AI is poised to revolutionize our understanding of animal communication

Underneath the thick forest canopy on a remote island in the South Pacific, a New Caledonian Crow peers from its perch, dark eyes glittering. The bird carefully removes a branch, strips off unwanted leaves with its bill and fashions a hook from the wood. The crow is a perfectionist: if it makes an error, it will scrap the whole thing and start over. When it's satisfied, the bird pokes the finished utensil into a crevice in the tree and fishes out a wriggling grub.

The New Caledonian Crow is one of the only birds known to manufacture tools, a skill once thought to be unique to humans. Christian Rutz, a behavioral ecologist at the University of St Andrews in Scotland, has spent much of his career studying the crow's capabilities. The remarkable ingenuity Rutz observed changed his understanding of what birds can do. He started wondering if there might be other overlooked animal capacities. The crows live in complex social groups and may pass toolmaking techniques on to their offspring. Experiments have also shown that different crow groups around the island have distinct vocalizations. Rutz wanted to know whether these dialects could help explain cultural differences in toolmaking among the groups.

New technology powered by artificial intelligence is poised to provide exactly these kinds of insights. Whether animals communicate with one another in terms we might be able to understand is a question of enduring fascination. Although people in many Indigenous cultures have long believed that animals can intentionally communicate, Western scientists traditionally have shied away from research that blurs the lines between humans and other animals for fear of being accused of anthropomorphism. But with recent breakthroughs in AI, “people realize that we are on the brink of fairly major advances in regard to understanding animals' communicative behavior,” Rutz says.

Beyond creating chatbots that woo people and producing art that wins fine-arts competitions, machine learning may soon make it possible to decipher things like crow calls, says Aza Raskin, one of the founders of the nonprofit Earth Species Project. Its team of artificial-intelligence scientists, biologists and conservation experts is collecting a wide range of data from a variety of species and building machine-learning models to analyze them. Other groups such as the Project Cetacean Translation Initiative (CETI) are focusing on trying to understand a particular species, in this case the sperm whale.

Decoding animal vocalizations could aid conservation and welfare efforts. It could also have a startling impact on us. Raskin compares the coming revolution to the invention of the telescope. “We looked out at the universe and discovered that Earth was not the center,” he says. The power of AI to reshape our understanding of animals, he thinks, will have a similar effect. “These tools are going to change the way that we see ourselves in relation to everything.”

When Shane Gero got off his research vessel in Dominica after a recent day of fieldwork, he was excited. The sperm whales that he studies have complex social groups, and on this day one familiar young male had returned to his family, providing Gero and his colleagues with an opportunity to record the group's vocalizations as they reunited.

For nearly 20 years Gero, a scientist in residence at Carleton University in Ottawa, kept detailed records of two clans of sperm whales in the turquoise waters of the Caribbean, capturing their clicking vocalizations and what the animals were doing when they made them. He found that the whales seemed to use specific patterns of sound, called codas, to identify one another. They learn these codas much the way toddlers learn words and names, by repeating sounds the adults around them make.

Having decoded a few of these codas manually, Gero and his colleagues began to wonder whether they could use AI to speed up the translation. As a proof of concept, the team fed some of Gero's recordings to a neural network, an algorithm that learns skills by analyzing data. It was able to correctly identify a small subset of individual whales from the codas 99 percent of the time. Next the team set an ambitious new goal: listen to large swathes of the ocean in the hopes of training a computer to learn to speak whale. Project CETI, for which Gero serves as lead biologist, plans to deploy an underwater microphone attached to a buoy to record the vocalizations of Dominica's resident whales around the clock.

As sensors have gotten cheaper and technologies such as hydrophones, biologgers and drones have improved, the amount of animal data has exploded. There's suddenly far too much for biologists to sift through efficiently by hand. AI thrives on vast quantities of information, though. Large language models such as ChatGPT must ingest massive amounts of text to learn how to respond to prompts: ChatGPT-3 was trained on around 45 terabytes of text data, a good chunk of the entire Library of Congress. Early models required humans to classify much of those data with labels. In other words, people had to teach the machines what was important. But the next generation of models learned how to “self-supervise,” automatically learning what's essential and independently creating an algorithm of how to predict what words come next in a sequence.

In 2017 two research groups discovered a way to translate between human languages without the need for a Rosetta stone. The discovery hinged on turning the semantic relations between words into geometric ones. Machine-learning models are now able to translate between unknown human languages by aligning their shapes—using the frequency with which words such as “mother” and “daughter” appear near each other, for example, to accurately predict what comes next. “There's this hidden underlying structure that seems to unite us all,” Raskin says. “The door has been opened to using machine learning to decode languages that we don't already know how to decode.”

The field hit another milestone in 2020, when natural-language processing began to be able to “treat everything as a language,” Raskin explains. Take, for example, DALL-E 2, one of the AI systems that can generate realistic images based on verbal descriptions. It maps the shapes that represent text to the shapes that represent images with remarkable accuracy—exactly the kind of “multimodal” analysis the translation of animal communication will probably require.

Many animals use different modes of communication simultaneously, just as humans use body language and gestures while talking. Any actions made immediately before, during, or after uttering sounds could provide important context for understanding what an animal is trying to convey. Traditionally, researchers have cataloged these behaviors in a list known as an ethogram. With the right training, machine-learning models could help parse these behaviors and perhaps discover novel patterns in the data. Scientists writing in the journal Nature Communications last year, for example, reported that a model found previously unrecognized differences in Zebra Finch songs that females pay attention to when choosing mates. Females prefer partners that sing like the birds the females grew up with.

You can already use one kind of AI-powered analysis with Merlin, a free app from the Cornell Lab of Ornithology that identifies bird species. To identify a bird by sound, Merlin takes a user's recording and converts it into a spectrogram—a visualization of the volume, pitch and length of the bird's call. The model is trained on Cornell's audio library, against which it compares the user's recording to predict the species identification. It then compares this guess to eBird, Cornell's global database of observations, to make sure it's a species that one would expect to find in the user's location. Merlin can identify calls from more than 1,000 bird species with remarkable accuracy.

But the world is loud, and singling out the tune of one bird or whale from the cacophony is difficult. The challenge of isolating and recognizing individual speakers, known as the cocktail party problem, has long plagued efforts to process animal vocalizations. In 2021 the Earth Species Project built a neural network that can separate overlapping animal sounds into individual tracks and filter background noise, such as car honks—and it released the open-source code for free. It works by creating a visual representation of the sound, which the neural network uses to determine which pixel is produced by which speaker. In addition, the Earth Species Project recently developed a so-called foundational model that can automatically detect and classify patterns in datasets.

Not only are these tools transforming research, but they also have practical value. If scientists can translate animal sounds, they may be able to help imperiled species. The Hawaiian Crow, known locally as the ‘Alalā, went extinct in the wild in the early 2000s. The last birds were brought into captivity to start a conservation breeding program. Expanding on his work with the New Caledonian Crow, Rutz is now collaborating with the Earth Species Project to study the Hawaiian Crow's vocabulary. “This species has been removed from its natural environment for a very long time,” he says. He is developing an inventory of all the calls the captive birds currently use. He'll compare that to historical recordings of the last wild Hawaiian Crows to determine whether their repertoire has changed in captivity. He wants to know whether they may have lost important calls, such as those pertaining to predators or courtship, which could help explain why reintroducing the crow to the wild has proved so difficult.

Machine-learning models could someday help us figure out our pets, too. For a long time animal behaviorists didn't pay much attention to domestic pets, says Con Slobodchikoff, author of Chasing Doctor Dolittle: Learning the Language of Animals. When he began his career studying prairie dogs, he quickly gained an appreciation for their sophisticated calls, which can describe the size and shape of predators. That experience helped to inform his later work as a behavioral consultant for misbehaving dogs. He found that many of his clients completely misunderstood what their dog was trying to convey. When our pets try to communicate with us, they often use multimodal signals, such as a bark combined with a body posture. Yet “we are so fixated on sound being the only valid element of communication, that we miss many of the other cues,” he says.

Now Slobodchikoff is developing an AI model aimed at translating a dog's facial expressions and barks for its owner. He has no doubt that as researchers expand their studies to domestic animals, machine-learning advances will reveal surprising capabilities in pets. “Animals have thoughts, hopes, maybe dreams of their own,” he says.

Farmed animals could also benefit from such depth of understanding. Elodie F. Briefer, an associate professor in animal behavior at the University of Copenhagen, has shown that it's possible to assess animals' emotional states based on their vocalizations. She recently created an algorithm trained on thousands of pig sounds that uses machine learning to predict whether the animals were experiencing a positive or negative emotion. Briefer says a better grasp of how animals experience feelings could spur efforts to improve their welfare.

But as good as language models are at finding patterns, they aren't actually deciphering meaning—and they definitely aren't always right. Even AI experts often don't understand how algorithms arrive at their conclusions, making them harder to validate. Benjamin Hoffman, who helped to develop the Merlin app before joining the Earth Species Project, says that one of the biggest challenges scientists now face is figuring out how to learn from what these models discover.

“The choices made on the machine-learning side affect what kinds of scientific questions we can ask,” Hoffman says. Merlin Sound ID, he explains, can help detect which birds are present, which is useful for ecological research. It can't, however, help answer questions about behavior, such as what types of calls an individual bird makes when it interacts with a potential mate. In trying to interpret different kinds of animal communication, Hoffman says researchers must also “understand what the computer is doing when it's learning how to do that.”

Daniela Rus, director of the Massachusetts Institute of Technology Computer Science and Artificial Intelligence Laboratory, leans back in an armchair in her office, surrounded by books and stacks of papers. She is eager to explore the new possibilities for studying animal communication that machine learning has opened up. Rus previously designed remote-controlled robots to collect data for whale-behavior research in collaboration with biologist Roger Payne, whose recordings of humpback whale songs in the 1970s helped to popularize the Save the Whales movement. Now Rus is bringing her programming experience to Project CETI. Sensors for underwater monitoring have rapidly advanced, providing the equipment necessary to capture animal sounds and behavior. And AI models capable of analyzing those data have improved dramatically. But until recently, the two disciplines hadn't been joined.

At Project CETI, Rus's first task was to isolate sperm whale clicks from the background noise of the ocean realm. Sperm whales' vocalizations were long compared to binary code in the way that they represent information. But they are more sophisticated than that. After she developed accurate acoustic measurements, Rus used machine learning to analyze how these clicks combine into codas, looking for patterns and sequences. “Once you have this basic ability,” she says, “then we can start studying what are some of the foundational components of the language.” The team will tackle that question directly, Rus says, “analyzing whether the [sperm whale] lexicon has the properties of language or not.”

But grasping the structure of a language is not a prerequisite to speaking it—not anymore, anyway. It's now possible for AI to take three seconds of human speech and then hold forth at length with its same patterns and intonations in an exact mimicry. In the next year or two, Raskin predicts, “we'll be able to build this for animal communication.” The Earth Species Project is already developing AI models that emulate a variety of species, with the aim of having “conversations” with animals. He says two-way communication will make it that much easier for researchers to infer the meaning of animal vocalizations.

In collaboration with outside biologists, the Earth Species Project plans to test playback experiments, playing an artificially generated call to Zebra Finches in a laboratory setting and then observing how the birds respond. Soon “we'll be able to pass the finch, crow or whale Turing test,” Raskin asserts, referring to the point at which the animals won't be able to tell they are conversing with a machine rather than one of their own. “The plot twist is that we will be able to communicate before we understand.”

The prospect of this achievement raises ethical concerns. Karen Bakker, a digital innovations researcher and author of The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants, explains that there may be unintended ramifications. Commercial industries could use AI for precision fishing by listening for schools of target species or their predators; poachers could deploy these techniques to locate endangered animals and impersonate their calls to lure them closer. For animals such as humpback whales, whose mysterious songs can spread across oceans with remarkable speed, the creation of a synthetic song could, Bakker says, “inject a viral meme into the world's population” with unknown social consequences.

So far the organizations at the leading edge of this animal-communication work are nonprofits like the Earth Species Project that are committed to open-source sharing of data and models and staffed by enthusiastic scientists driven by their passion for the animals they study. But the field might not stay that way—profit-driven players could misuse this technology. In a recent article in Science, Rutz and his co-authors noted that “best-practice guidelines and appropriate legislative frameworks” are urgently needed. “It's not enough to make the technology,” Raskin warns. “Every time you invent a technology, you also invent a responsibility.”

Designing a “whale chatbot,” as Project CETI aspires to do, isn't as simple as figuring out how to replicate sperm whales' clicks and whistles; it also demands that we imagine an animal's experience. Despite major physical differences, humans actually share many basic forms of communication with other animals. Consider the interactions between parents and offspring. The cries of mammalian infants, for example, can be incredibly similar, to the point that white-tailed deer will respond to whimpers whether they're made by marmots, humans or seals. Vocal expression in different species can develop similarly, too. Like human babies, harbor seal pups learn to change their pitch to target a parent's eardrums. And both baby songbirds and human toddlers engage in babbling—a “complex sequence of syllables learned from a tutor,” explains Johnathan Fritz, a research scientist at the University of Maryland's Brain and Behavior Initiative.

Whether animal utterances are comparable to human language in terms of what they convey remains a matter of profound disagreement, however. “Some would assert that language is essentially defined in terms that make humans the only animal capable of language,” Bakker says, with rules for grammar and syntax. Skeptics worry that treating animal communication as language, or attempting to translate it, may distort its meaning.

Raskin shrugs off these concerns. He doubts animals are saying “pass me the banana,” but he suspects we will discover some basis for communication in common experiences. “It wouldn't surprise me if we discovered [expressions for] ‘grief’ or ‘mother’ or ‘hungry’ across species,” he says. After all, the fossil record shows that creatures such as whales have been vocalizing for tens of millions of years. “For something to survive a long time, it has to encode something very deep and very true.”

Ultimately real translation may require not just new tools but the ability to see past our own biases and expectations. Last year, as the crusts of snow retreated behind my house, a pair of Sandhill Cranes began to stalk the brambles. A courtship progressed, the male solicitous and preening. Soon every morning one bird flapped off alone to forage while the other stayed behind to tend their eggs. We fell into a routine, the birds and I: as the sun crested the hill, I kept one eye toward the windows, counting the days as I imagined cells dividing, new wings forming in the warm, amniotic dark.

Then one morning it ended. Somewhere behind the house the birds began to wail, twining their voices into a piercing cry until suddenly I saw them both running down the hill into the stutter start of flight. They circled once and then disappeared. I waited for days, but I never saw them again.

Wondering if they were mourning a failed nest or whether I was reading too much into their behavior, I reached out to George Happ and Christy Yuncker, retired scientists who for two decades shared their pond in Alaska with a pair of wild Sandhill Cranes they nicknamed Millie and Roy. They assured me that they, too, had seen the birds react to death. After one of Millie and Roy's colts died, Roy began picking up blades of grass and dropping them near his offspring's body. That evening, as the sun slipped toward the horizon, the family began to dance. The surviving colt joined its parents as they wheeled and jumped, throwing their long necks back to the sky.

Happ knows critics might disapprove of their explaining the birds' behaviors as grief, considering that “we cannot precisely specify the underlying physiological correlates.” But based on the researchers' close observations of the crane couple over a decade, he writes, interpreting these striking reactions as devoid of emotion “flies in the face of the evidence.”

Everyone can eventually relate to the pain of losing a loved one. It's a moment ripe for translation.

Perhaps the true value of any language is that it helps us relate to others and in so doing frees us from the confines of our own minds. Every spring, as the light swept back over Yuncker and Happ's home, they waited for Millie and Roy to return. In 2017 they waited in vain. Other cranes vied for the territory. The two scientists missed watching the colts hatch and grow. But last summer a new crane pair built a nest. Before long, their colts peeped through the tall grass, begging for food and learning to dance. Life began a new cycle. “We're always looking at nature,” Yuncker says, “when really, we're part of it.”

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.