Skip to main content

[해외 DS] AI가 펜을 잡으면 인간의 글쓰기는 어떻게 변할까?

[해외 DS] AI가 펜을 잡으면 인간의 글쓰기는 어떻게 변할까?
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Pixabay

최근 인공지능의 발전은 우리가 종이에 펜을 대고 글을 쓴 이래로 계속 고민해 온 실존적 질문을 던지고 있다. 누가 이 글을 썼고, 신뢰할 수 있는가에 대한 질문에 확답을 내리지 못한다. 셰익스피어가 실제로 존재했는지 또는 여러 작가를 대표했는지에 대해 여전히 논쟁을 벌이는 사람들이 있는데 대규모언어모델(이하 LLM)이 각각 고유한 스타일, 목소리, 전문성을 가진 여러 저자의 조합인 것을 미뤄 보면 생성형 AI 프로그램도 5번째 비극을 쓸 수 있지 않을까 하는 생각마저 들게 된다.

언어학자 나오미 배런(Naomi S. Baron)은 아메리칸 대학교의 언어학자로서 수년 동안 AI의 영향에 대해서 고민해 왔다. 그녀의 최신 저서인 '누가 이걸 썼을까? AI와 효율성의 유혹이 어떻게 인간의 글쓰기를 위협하는가'(Who Wrote This?: How AI and the Lure of Efficiency Threaten Human Writing)에서 그녀는 문제의 핵심을 파헤쳤다. AI에 글쓰기를 넘겨주면 우리는 무엇을 잃게 될까?

AI의 예상을 뛰어넘는 창의성이 필요해

배런 교수 본인은 읽고 쓰는 행위에 크게 바뀐 것이 없지만 학생들의 과제물을 바라보는 태도가 바뀌었다고 전했다. 이전엔 학생들의 작업물이 학생들의 생각으로부터 왔다고 생각했지만, 이제는 그 출처를 알기 어렵다고 고민을 토로했다. 비단 과제물뿐만 아니라 메일의 경우 출처를 알기 더 어려워졌다. Microsoft의 Outlook과 Google의 Gmail 모두 사용자의 메일함을 학습해서 개인화된 자동완성 기능을 제공하기 때문이다. 배런 교수는 AI 도구의 편의성을 넘어 자기 생각과 노력이 들어간 글쓰기를 장려했다.

결국 AI는 다른 작가의 글이든 사용자가 직접 쓴 글이든 주어진 확률에 의해 다음 문장을 예측하기 때문에 인간의 창의성이 더욱 절실하다는 취지다. 학생 시절에 높은 수준의 사고력과 창의성을 갖추지 못하고 사회에 나가면 분야마다 차이가 있겠지만 고용 안정성에도 큰 영향을 미칠 것이다. 그중 적지 않은 타격을 받을 산업은 언론이다. 이제는 대형 언론사뿐만 아니라 중소형 뉴스룸에서도 생성형 AI 도입에 적극적인 움직임을 보인다. 패턴 인식이 가능한 흔한 글을 쓴 기자들은 자리를 오래 지키지 못하고 남은 기자들이 써낸 고급 콘텐츠로 AI의 창의성과 사고력이 점점 더 풍부해져 갈 전망이다. 여기서 웃지 못할 사실은 이미 AI의 창의성이 평균적인 인간의 것을 뛰어넘었다는 점이다.

완전히 새로운 국면에 접어든 저작권 문제

AI보다 뛰어난 창의력을 가진다고 해서 저작권 문제가 해결되지는 않는다. 생성형 AI로 인해 수익화의 속도와 접근성이 놀랍도록 개선됐기 때문이다. ChatGPT 3의 등장으로부터 약 1년간 셀 수 없이 많은 종류의 하위 도구들이 개발됐고 거래되고 있다. 오픈소스로 공개된 LLM 덕분에 소프트웨어 개발 속도는 더욱 빨라졌고 개발자뿐만 아니라 기존 사업에 AI 기술을 접목하고자 하는 사람 모두 수익화할 기회를 얻었다. 하지만 LLM의 특성상 방대한 인터넷 자료를 학습하기 때문에 직간접적으로 수익에 기여한 작가들의 수고와 노고에 대한 보상 문제가 대두됐다.

OpenAI의 저작권 소송 문제는 책을 통째로 스캔하여 논란이 됐던 '구글 vs 작가조합'의 사건과 완전히 다른 양상으로 전개되고 있다. 구글 북스를 통해 도서관에 소장된 도서들이 디지털에 영구히 저장되어 안전하게 보존되고 이용자에게 검색 편의성을 제공하며 열람하는 범위의 비중이 미미하므로 해당 프로젝트는 면죄부를 받을 수 있었다. 오히려 구글 북스를 통해 검색된 도서의 판매량이 증가할 수 있다는 직접적인 이점도 있지만 ChatGPT는 학습 데이터의 출처를 공개하지 않기 때문에 작가의 처지에서 뚜렷한 이익을 찾기 힘들다. 가짜 뉴스 공장을 만들거나 편향된 콘텐츠를 확대 재생산하는 인터넷 콘텐츠 위기를 일으킨 장본인이기 때문에 공공의 이익을 도모했다는 대의명분도 부족한 마당이다. 또한 기술적인 한계도 존재한다. 상품화된 생성형 AI의 답변 중 인용된 창작물의 저작권을 실시간으로 가려내서 일일이 보상하는 방안이 가능하지 않을 것이기 때문이다. 물론 공공의 이익이 있는 의학과 관련된 과학 논문들은 예외 조항이 적용될 필요성이 있고 적당한 타협점을 찾지 못하고 규제를 강화하면 차세대 먹거리를 잃을 수도 있다.

오랜 시간 용도에 맞게 길들여야

도저히 해결되지 않을 것 같은 생성형 AI가 가져온 위기에 대해서 배런 교수의 조언은 답답해 보이지만 대가다운 여유가 돋보인다. "위키피디아도 처음엔 신뢰할 수 없었죠. 하지만 지금 보세요. 얼마나 잘 길들여졌나요". 생성형 AI가 일상에 선물한 변화는 단순하지 않았다. 범용성이 넓은 기술인 만큼 사회 전반에 걸쳐 공정성과 형평성 그리고 이익 분배 문제를 일으켰다. 기존에 숨겨졌던 문제가 수면 위로 올라온 예도 있고 새로운 종류의 문제가 나타난 경우도 생겼다. 그리고 아직 발생하지 않았지만 곧 다가올 위협 혹은 기회에 대해서도 준비해야해서 쉴틈이 없다. 하지만 에니악이 우리 주머니에 들어온 것처럼 늑대가 반려동물로 진화한 것처럼 좌충우돌하는 AI 기술도 믿고 신뢰할 수 있는 비서가될 날이 올 것이다.


What Humans Lose When AI Writes for Us

Artificial intelligence has pervaded much of our daily life, whether it’s in the form of scarily believable deepfakes, online news containing “written by AI” taglines or novel tools that could diagnose health conditions. It can feel like everything we do is run through some sort of software, interpreted by some mysterious program and kept on a server who knows where. When will the robots take over already? Have they already taken over?

The recent developments in AI offer existential questions we’ve been wrestling with since we put pen to proverbial paper: Who wrote this, and can I trust it? Fake news is old news, but some still argue over whether Shakespeare existed or represented multiple authors. Large language models (LLMs) are combinations of authors, each with their own style, voice and expertise. If the generative AI program ChatGPT keeps trying—and we keep feeding it Shakespeare—will it write our next great tragedy?

Linguist Naomi S. Baron of American University has been wading in the AI waters for years. In her latest book, Who Wrote This? How AI and the Lure of Efficiency Threaten Human Writing, she dives into the crux of the matter: If we hand over the written word to AI, what will we lose? Scientific American spoke with Baron on the issue of the ownership and trustworthiness of written communication now that AI is on the scene.

Did you use ChatGPT to write any of this book?

Sort of but just a smidge. I completed Who Wrote This? in mid-November 2022, two weeks before ChatGPT burst on the scene. It was a no-brainer that I needed to incorporate something about the new wonder bot.

My solution was to query ChatGPT about the intersection of this cutting-edge form of AI with issues such as creativity, education and copyright. In the book, I quote some of ChatGPT’s responses.

Cover: Who Wrote This? How AI and the Lure of Efficiency Threaten Human Writing by Naomi. S. Baron
Credit: Stanford University Press
When I asked ChatGPT if it could hold copyright on short stories that it authored, the answer was “no” the first time I asked and “yes” the second. The discrepancy reflected the particular part of the dataset that the program dipped into. For the “no” answer, ChatGPT informed me that as an LLM, it was “not capable of holding copyrights or owning any form of intellectual property.”

By U.S. copyright law, that’s true. But for the “yes” response, the bot invoked other aspects of U.S. copyright: “In order for a work to be protected by copyright, it must be original and fixed in a tangible form, such as being written down or recorded. If a short story written by GPT meets these criteria, [ChatGPT said], then it would be eligible for copyright protection.

Consistency is the hobgoblin of large language models.

When thinking about AI-written news, is it all just a snake eating its own tail? Is AI writing just fodder to train other AIs on?

You’re right. The only thing relevant to a large language dataset is having text to consume. AI isn’t sentient, and it’s incapable of caring about the source.

But what happens to human communication when it’s my bot talking to your bot? Microsoft, Google and others are building out AI-infused e-mail functions that increasingly “read” what’s in our inbox and then draft replies for us. Today’s AI tools can learn your writing style and produce a reasonable facsimile of what you might have written yourself.

My concern is that it’s all too tempting to yield to such wiles in the name of saving time and minimizing effort. Whatever else makes us human, the ability to use words and grammar for expressing our thoughts and feelings is a critical chunk of that essence.

In your book, you write, “We domesticate technology.” But what does that “domestication” look like for AI?

Think about our canine companions. They descended from wolves, and it took many years, plus evolution, for some of their species to evolve into dogs, to be domesticated.

Social scientists talk about “domestication” of technology. Forty years ago personal computers were novelties. Now they’re ubiquitous, as are software programs running on them. Even Wikipedia—once seen as a dubious information source—has become domesticated.

We take editing tools such as spell-check and autocomplete and predictive texting for granted. The same goes for translation programs. What remains to be seen is how domesticated we will make text-generation programs, such as ChatGPT, that create documents out of whole virtual cloth.

How has your understanding of AI and LLMs changed how you read and approach writing?

What a difference three years makes! For my own writing, I remain old-fashioned. I sometimes still draft by hand. By contrast, in my role as a university professor, I’ve changed how I approach students’ written work. In years past I assumed the text was their own—not so today. With AI-infused editing and style programs such as Microsoft Editor or Grammarly, not to mention full-blown text-generation tools, at students’ beck and call, I no longer know who wrote what.

What are the AI programs that you feel are the least threatening, or that you think should be embraced?

AI’s writing ability is an incredible tour de force. But like the discovery of fire, we must figure out how best to harness it. Given the novelty of current programs, it will take at least several years to feel our way.

Today’s translation programs, while not perfect, are remarkably good, and the benefit is that everyday users who don’t know a language can get immediate access to documents they would have no other way of reading. Of course, a potential drawback is losing motivation for learning foreign languages.

Another promising use of generative AI is for editing human-generated text. I’m enthusiastic when AI becomes a pedagogical tool but less so when it simply mops up after the writer, with no lessons learned. It’s on users to be active participants in the composition process.

As you say in your book, there is a risk of valuing the speed and potential efficiency of ChatGPT over the development of human skills. With the benefit of spell-check, we can lose our own spelling proficiency. What do you think we’ll similarly lose first from ChatGPT’s ability to write legal documents, e-mails or even news articles?

As I argue in my book, the journalism business will likely feel the effects on employment numbers, though I’m not so much worried about the writing skills of the journalists who remain.

E-mails are a more nuanced story. On the one hand, if you use Microsoft Outlook or Gmail, you’ve already been seeing a lot of autocomplete when you write e-mails. On the other hand, the new versions of AI (think of GPT-4) are writing entire e-mails on their own. It can now literally be my bot writing to your bot. I worry that the likes of ChatGPT will lull us into not caring about crafting our own messages, in our own voice, with our own sentiments, when writing to people who are personally important to us.

What do you think of the recent and potential copyright infringement cases involving authors or publishers and ChatGPT?

The copyright infringement cases are interesting because we really are in uncharted territory. You’ll remember the case of The Authors Guild v. Google, where the guild claimed Google Books enabled copyright infringement when it digitized books without permission and then displayed snippets. After many years of litigation, Google won ... under the ruling of fair use.

From what I’ve been reading from lawyers who are copyright experts, I suspect that OpenAI [the company that developed ChatGPT] will end up winning as well. But here’s the difference from the Authors Guild case: With Google Books, authors stood to lose royalties because users of Google Books were presumably less likely to purchase copies of the books themselves. With ChatGPT, however, if a user invokes the bot to generate a text, and then said user looks to sell that text for a profit, it could be a different ball game. This is the basis of cases in the world of generative art. It’s a brave new legal world.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 질병을 유발하는 유전자 돌연변이 콕 집어내는 Al

[해외 DS] 질병을 유발하는 유전자 돌연변이 콕 집어내는 Al
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

9월 19일(현지 시각) 사이언스(Science)에 실린 논문에서 구글 딥마인드의 AlphaFold 네트워크에 기반한 새로운 도구 AlphaMissense가 건강 상태를 악화할 가능성이 있는 단백질의 돌연변이를 정확하게 예측할 수 있다고 전해졌다. AlphaMissense는 의사가 질병의 원인을 찾기 위해 사람의 게놈을 '해석'하는 데 도움을 주기 위해 개발 중인 많은 기술 중 하나이며, 실제로 사용되기 전에 철저한 테스트를 거쳐야 한다고 해당 연구팀이 강조했다.

낭포성 섬유증과 낫 모양 적혈구 빈혈증같이 질환을 직접적으로 유발하는 많은 유전적 돌연변이는 단백질의 아미노산 배열을 변경하는 경향이 있다. 전문가들에 따르면 현재까지 관찰된 미센스 돌연변이는 수백만 개에 불과하며, 이 돌연변이는 7천만 개 이상의 변이가 가능하다고 알려져 있다. 설상가상으로 질병과 결정적으로 연관된 돌연변이는 극히 일부에 지나지 않기 때문에 연구자와 의사가 이전에 본 적이 없는 미센스 돌연변이를 발견했을 때, 이를 어떻게 해석해야 할지 알기 어려운 상황에 직면한다. 따라서 연구자들은 변이가 질병을 일으킬 가능성이 있는지 예측할 수 있는 수십 가지의 다양한 계산 도구를 개발했다. 그 중 AlphaMissense는 기존 접근 방식을 통합하고 기계학습을 통해 점점 더 많은 문제를 해결하기 위해 개발됐다.

AlphaFold와 ChatGPT 장점 살려 돌연변이 발생 위치 예상

AlphaMissense는 아미노산 배열로부터 단백질 구조를 예측하는 AlphaFold의 구조에 대한 직관을 사용하여 단백질 내에서 질병을 유발하는 돌연변이가 발생할 위치를 식별한다고 딥마인드 연구 부사장이자 연구 저자인 푸미트 콜리(Pushmeet Kohli)가 언론 브리핑에서 밝혔다. 또한 단어 대신 수백만 개의 단백질 배열을 학습한 ChatGPT와 같은 단백질 언어 모델이 포함되어 있다. 이 모델은 어떤 서열이 그럴듯하고 어떤 서열이 그렇지 않은지 학습했기 때문에 변종 예측에 유용하다.

딥마인드의 네트워크는 수천 개의 돌연변이의 영향을 한 번에 측정하는 실험에서 문제 변이를 발견하는 데도 효과적인 것으로 나타났다. 연구진은 또한 AlphaMissense를 사용하여 인간 게놈에서 가능한 모든 미센스 돌연변이의 카탈로그를 작성하여 57%는 유해하지 않을 가능성이 높고 32%는 질병을 유발할 수 있다고 판단했다.

사람의 생명과 맞닿기 때문에 엄밀한 검증 필요

스톡홀름 대학의 계산 생물학자인 아르네 엘로프손(Arne Elofsson)은 AlphaMissense은 돌연변이의 영향을 예측하는 기존 도구보다 발전했지만 "엄청난 도약은 아니다"라고 꼬집었다. 영국 에든버러에 있는 MRC 인간 유전학 유닛의 계산 생물학자 조셉 마쉬(Joseph Marsh)도 계산 생물학의 새로운 시대를 연 AlphaFold만큼의 영향력은 없을 것이라고 동의했다. 마쉬는 현재 컴퓨터 예측은 유전 질환을 진단하는 데 최소한의 역할만 하고 있으며, 의사 단체의 권고에 따르면 이러한 도구는 돌연변이와 질병의 연관성을 뒷받침하는 증거만 제공해야 한다고 설명했다.

조지아주 애틀랜타에 있는 에모리 대학교의 생물정보학자인 야나 브롬버그(Yana Bromberg)는 AlphaMissense같은 도구가 실제 세계에 적용되기 전에 엄격하게 평가되어야 한다고 강조했다. 글로벌 인공지능 유전체 분석 경진대회(CAGI)에서 입증된 모델을 사용해야 한다는 입장이다. 의료 분야 특성상 거짓 음성(false negative)에 민감하기 때문에 다른 예측 모델보다 유독 엄격한 잣대를 적용해야 한다는 기조가 깔려있다.


AI Tool Pinpoints Genetic Mutations That Cause Disease

Researchers have adapted the AI network to search for genetic changes linked to ill health

Google DeepMind has wielded its revolutionary protein-structure-prediction AI in the hunt for genetic mutations that cause disease.

A new tool based on the AlphaFold network can accurately predict which mutations in proteins are likely to cause health conditions — a challenge that limits the use of genomics in healthcare.

The AI network — called AlphaMissense — is a step forward, say researchers who are developing similar tools, but not necessarily a sea change. It is one of many techniques in development that aim to help researchers, and ultimately physicians, to ‘interpret’ people’s genomes to find the cause of a disease. But tools such as AlphaMissense — which is described in a 19 September paper in Science — will need to undergo thorough testing before they are used in the clinic.

Many of the genetic mutations that directly cause a condition, such as those responsible for cystic fibrosis and sickle-cell disease, tend to change the amino acid sequence of the protein they encode. But researchers have observed only a few million of these single-letter ‘missense mutations’. Of the more than 70 million possible in the human genome, only a sliver have been conclusively linked to disease, and most seem to have no ill effect on health.

So when researchers and doctors find a missense mutation they’ve never seen before, it can be difficult to know what to make of it. To help interpret such ‘variants of unknown significance,’ researchers have developed dozens of different computational tools that can predict whether a variant is likely to cause disease. AlphaMissense incorporates existing approaches to the problem, which are increasingly being addressed with machine learning.

LOCATING MUTATIONS
The network is based on AlphaFold, which predicts a protein structure from an amino-acid sequence. But instead of determining the structural effects of a mutation — an open challenge in biology — AlphaMissense uses AlphaFold’s ‘intuition’ about structure to identify where disease-causing mutations are likely to occur within a protein, Pushmeet Kohli, DeepMind’s vice-president of Research and a study author, said at a press briefing.

AlphaMissense also incorporates a type of neural network inspired by large language models like ChatGPT that has been trained on millions of protein sequences instead of words, called a protein language model. These have proven adept at predicting protein structures and designing new proteins. They are useful for variant prediction because they have learned which sequences are plausible and which are not, Žiga Avsec, the DeepMind research scientist who co-led the study, told journalists.

DeepMind’s network seems to outperform other computational tools at discerning variants known to cause disease from those that don’t. It also does well at spotting problem variants identified in laboratory experiments that measure the effects of thousands of mutations at once. The researchers also used AlphaMissense to create a catalogue of every possible missense mutation in the human genome, determining that 57% are likely to be benign and that 32% may cause disease.

CLINICAL SUPPORT
AlphaMissense is an advance over existing tools for predicting the effects of mutations, “but not a gigantic leap forward,” says Arne Elofsson, a computational biologist at the University of Stockholm.

Its impact won’t be as significant as AlphaFold, which ushered in a new era in computational biology, agrees Joseph Marsh, a computational biologist at the MRC Human Genetics Unit in Edinburgh, UK. “It’s exciting. It’s probably the best predictor we have right now. But will it be the best predictor in two or three years? There’s a good chance it won’t be.”

Computational predictions currently have a minimal role in diagnosing genetic diseases, says Marsh, and recommendations from physicians’ groups say that these tools should provide only supporting evidence in linking a mutation to a disease. AlphaMissense confidently classified a much larger proportion of missense mutations than have previous methods, says Avsec. “As these models get better than I think people will be more inclined to trust them.”

Yana Bromberg, a bioinformatician at Emory University in Atlanta, Georgia, emphasizes that tools such as AlphaMissense must be rigorously evaluated — using good performance metrics — before ever being applied in the real-world.

For example, an exercise called the Critical Assessment of Genome Interpretation (CAGI) has benchmarked the performance of such prediction methods for years against experimental data that has not yet been released. “It’s my worst nightmare to think of a doctor taking a prediction and running with it, as if it’s a real thing, without evaluation by entities such as CAGI,” Bromberg adds.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 건설업의 장기 인력난에 단비가 되어줄 디어 AI

[해외 DS] 건설업의 장기 인력난에 단비가 되어줄 디어 AI
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=AI Business

농업 장비 회사로 가장 잘 알려진 존디어는 최근 몇 년 동안 공격적인 기술 투자로 데이터 기반 농업 컨설팅 회사로 탈바꿈하는데 성공했다. 그 기반으로 전 세계 현장에서 얻은 교훈을 적용하여 건설 현장에서도 접목할 수 있는 기술들을 Applied Intelligence Live! 기조연설을 통해 소개했다.

농업에서 얻은 노하우를 건설업에도 적용

존디어의 건설 및 산림 부문 기술 책임자 앤드류 칼러는 먼저 이미지 인식으로 구동되는 건설 차량용 상황 인식 도구를 시연했다. 해당 이미지 인식 기술은 트럭의 360도 내 어느 지점에서든 물체를 식별할 수 있으며, 경고음으로 운전자의 주의를 환기해 근처에 사람이 있는지 빠르게 파악할 수 있도록 돕는다. 심지어 눈이나 비가 오거나 안개가 낀 날, 바위나 모래가 배경인 날에 상관없이 사람을 안정적으로 감지할 수 있다고 덧붙였다.

안전사고를 줄일 뿐만 아니라 작업 효율도 향상하는 기술도 소개됐다. 건설에서 중요한 작업 중 하나는 지반을 높은 수준의 정밀도로 평평하게 준비하되 배수가 올바르게 이루어지도록 하는 것이다. 이를 흙이나 경사면을 조각하는 작업이라고 하는데, 존디어는 SmartGrade라는 경사 제어 시스템을 사용하여 숙련된 작업자에게도 어려웠던 작업을 자동화해서 초보 작업자도 더 빨리 효과적인 작업을 수행할 수 있게 했다. SmartGrade 시스템에는 실시간 운동 위치(RTK) 보정 기능이 있는 위성항법 시스템(GNSS) 수신기가 장착되어 있고, 관성 측정 장치와 여러 로봇 공학 기술을 사용하여 작업 현장에서 경사도를 설정하거나 흙을 이동하는 블레이드의 정밀도와 미세 제어를 가능하게 만들었다. 골프공 크기 정도의 단위(1.2 인치)로 정밀도를 제공한다.

건설업에 기술 혁신이 필요한 이유, 만성 인력 부족

존디어는 고객의 문제 해결을 비즈니스의 핵심으로 삼고 있다. 칼러에 따르면 건설업의 가장 큰 문제는 많은 인력이 단기간에 은퇴할 가능성이 높다는 사실이다. 건설 업계 종사자의 약 25%가 5~7년 이내에 은퇴할 예정이므로 상황은 더욱 악화할 것이라고 강조했다. 존디어의 많은 계약 업체가 비즈니스를 성장시키고 더 많은 일을 맡고 싶어도 일할 사람을 찾을 수 없다고 우려를 표했으며, 업계의 많은 관계자들이 건설업에 관심을 두도록 가능한 모든 곳에서 채용을 진행하고 있지만 만성적인 인력 문제가 단기간에 해결되지는 않을 전망이다. 주어진 인력으로 더 많은 작업을 수행할 수 있도록 어려운 작업을 자동화하고 생산 효율을 높이는 것에 집중해야 하는 시기다.

자동화를 통해 수집한 데이터도 활용처가 다양하다. 특히 대리점을 통해 고객 경험을 개선하는 데 사용할 수 있다. 예를 들어 한 고객이 255대의 장비를 보유하고 있는데 이 중 10대의 가동률이 지난 두 달 동안 10%에 불과하다고 가정할 때, 기계에 문제가 있는지 파악하거나 재배치를 통해 활용 빈도를 높이는 대안을 고려해 볼 수 있다. 아니면 이러한 자산을 처분하고 더 유용할 수 있는 곳에 투자할 기회도 생긴다. 이러한 유형의 인사이트는 고객이 직접 활용할 수 있을 뿐만 아니라 대리점에서 고객을 지원하는 데에도 유용하다.

현재 기술 발전 속도로 건설업계에 10년 이내로 벌어질 대 퇴직 시기를 무사히 견뎌낼 수 있을지는 장담하지 못하지만 존디어가 농기계 회사에서 디지털 컨설턴트 회사로 변환한 것에 성공한 것처럼 앞으로의 혁신에도 기대를 모으고 있다.


John Deere’s Precision Tech, Applied Intelligence Live! Austin 2023

Emerging technology is making construction sites safer, smarter and more sustainable

John Deere is best known for its agricultural equipment and has in recent years set about transforming the industry with innovative technology. It is now applying the lessons it learned in fields across the world to make construction sites safer, smarter and more sustainable while shifting dirt to a very high degree of precision.

Speaking on the keynote stage at Applied Intelligence Live! Austin, Andrew Kahler, technology solutions manager at John Deere’s worldwide construction and forestry division, began by demonstrating advanced situational awareness tools for construction vehicles powered by image recognition.

“It’s really easy for operators not to be at their very peak of situational awareness throughout the day,” he said. “This is a tool in the toolbox that they can use to help improve their confidence and be more aware of what's around them on the job site. A lot of work went into making sure that this detection of people is reliable in the morning and evening day at night on snow and rain and fog, with backgrounds of rock or sand or, even when it's snowing outside.”

Image recognition technology can identify an object at any point within 360 degrees of the truck and alerts the operator with an audible alert, which draws their attention to the monitor so they can quickly identify if there's a person nearby. This leverages technology that originated from the agriculture side of the business and could even help plug the shortage of construction workers in the industry.

“We know that we don't have enough people in the construction industry to do the work that needs to be done, and to make things worse, about 25% of the people in the construction industry today are going to be retiring in five to seven years so it's probably going to get worse,” said Kahler.

“We do everything we can to make these machines as easy to operate and make the task easier for them to execute. You could take somebody that's a novice to our industry, put them on tractors with our technology and make them very productive a lot more quickly than previously in the market.”

One of the most important tasks in construction is preparing the ground to be level to a high level of precision but enabling correct drainage.

“It's what we call sculpting the dirt or gradient and it's using our grade-control system called SmartGrade,” said Kahler. “This SmartGrade system has Global Navigation Satellite System (GNSS) receivers that are Real-time kinematic positioning (RTK) corrective, either locally or through a network. It also uses inertial measurement units and several robotics technologies to enable the precision and control of a blade that’s responsible for setting the grade or moving the dirt on the job site.”

Kahler said the technology delivers a precision of 1.2 inches, or about the size of a golf ball, which has historically been difficult even for experienced operators. Automating this process with SmartGrade enables operators to do an effective job more quickly and gets people new to the industry sculpting land much more quickly.

Automation also provides John Deere with data, collected with permission, it can use to improve customer experience, especially through dealerships.

“Say you have a fleet of 255 machines, but it looks like 10 of these machines only have 10% utilization in the last two months, you want to know what's going on with those machines. Should we maybe redeploy those machines? Or is it time to turn over those assets and invest in something that might be more useful? Those types of insights are really valuable for customers to use for themselves and also valuable for dealers to support customers,” said Kahler.

John Deere puts solving its customers’ problems at the heart of its business. According to Kahler, the first, second and third biggest problems in construction are “labor, labor and labor exacerbated by the fact much of the workforce is likely to retire in the short term.

“A number of our contractors have told us they would love to grow their business and take on more work but I can’t find the people to do the jobs in the center of the organization,” he said. “We, our customers and the industry are recruiting anywhere and everywhere that we can to get more people interested in coming into the construction industry. We're also doing everything we can to enable our customers to get more done, automating difficult tasks, trying to improve productivity wherever possible.”

The other other problem is there is a lot of wasted rework happening on construction sites.

“Several studies suggest that as much as 30% of the time, energy and expense that are being deployed on civil construction sites are nothing more than rework. A lot of changes have to happen to make the work as accurate as needed,” said Kahler.

“Anything we can do to chip away at that helps solve that problem helps. To do that, we need to make our workforce more capable and more technology savvy.”

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] LLM의 혁신을 가져올 두 가지 발견

[해외 DS] LLM의 혁신을 가져올 두 가지 발견
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


최근 MIT와 Fast.ai 연구팀은 대규모언어모델(이하 LLM)을 더 효과적이고 효율적인 방법으로 훈련할 수 있는 방법론들을 발표했다. MIT에 따르면 LLMs 간의 토론 방식이 사실성과 추론 능력을 향상했고, Fast.ai는 한두 개의 예제만으로도 정확도가 높은 모델링이 가능하다고 전했다.

AI도 혼자 보다 여러명이 더 강하다

MIT 연구팀이 말하는 다중 에이전트의 종류는 두 가지다. 한 종류의 LLM으로부터 만들어진 여러 인스턴스 간의 사회 학습 방법과 여러 종류의 LLM 간의 토론 방식이다. 두 가지 모두 사실성과 추론능력에 긍정적인 영향을 미친 것으로 확인됐다. MMLU 벤치마크(STEM, 인문학, 사회과학 등 57개 과목)뿐만 아니라 여러 영역에서 골고루 높은 성능을 보여줬다.

단일 에이전트보다 우수한 성능을 보이는 다중 에이전트/출처=MIT 논문 "Improving Factuality and Reasoning in Language Models through Multiagent Debate"

다중 에이전트가 토론하는 방식은 단순하다. 다른 에이전트의 답안을 프롬프트에 붙여 넣고 이를 참고하여 새로운 답안을 작성하라고 요청하는 방식이다. 여기서 답안 작성을 요청하는 횟수(Rounds)도 결과에 영향을 준다고 연구팀은 밝혔다. 더 많은 에이전트로 더 많은 재작성(다른 에이전트의 답안 참고해서)을 요청하면 성능이 더 좋아진다는 논리다. 물론 일정 개수나 횟수가 넘어가면 성능 개선 효과가 줄어들고 계산 비용도 함께 증가하는 한계점도 존재한다. 따라서 적절한 에이전트 수와 재질문 횟수를 정하고 다른 에이전트들의 답을 요약해서 제시하는 등 효율적인 방법들을 모색해야 한다.

에이전트의 수를 늘리고 프롬프트 횟수를 늘리는 방식은 인간의 집단 의사결정 과정과 유사하다. 그리고 이런 친숙한 의사결정 방식이 LLM 예측에도 효력이 있음은 흥미로운 사실이다. 하지만 LLM이 정말 인간처럼 논리의 모순이나 오점을 명확히 파악하고 반성해서 답안을 수정한 것인지 아니면 앵무새처럼 다른 답변을 따라 하는 것인지는 불명확하다. 연구팀은 첫 번째 질문에서 모든 에이전트가 틀렸더라도 다른 에이전트의 답안을 참고한 재질문을 통해 정답을 맞히는 것을 미뤄 보면 단순히 다른 에이전트의 답을 따라하는 것에 그치는 수준은 아니라고 반박한다. 그렇지만 정답을 맞히게 된 원인이 정말 다중 에이전트의 유무에서 결정되는 것인지 아니면 단순히 한 에이전트에 재질문을 함으로써 똑같이 얻을 수 있는지에 대한 의문은 검증이 필요해 보인다. 그리고 정말 LLM이 인간의 사회적 발달 과정과 닮았다면 솔로몬 애쉬의 동조실험에서 인간이 보여준 다수 압력에 굴복하는 모습도 닮지 않았을까? 이에 대해선 연구진은 각 인스턴스의 초기 페르소나를 정하는 것이 도움이 된다고 설명했다. 공감 정도(agreeableness)나 전문분야(과학자, 수학자, 엔지니어 등)를 지정할 수도 있다.

기존 LLM 학습 방식의 관성을 끊을 수 있는 발견

과학 객관식 문제로 LLM의 성능을 평가하는 캐글 경진대회(현지 시각 7월 12일 시작)에서 Fast.ai 연구진은 적은 샘플로도 완전한 학습이 이루어지는 현상을 관측했다. 아래 손실 그래프를 보면 각 epoch(총 3번)의 끝 지점이 명확하게 나뉜다. 이는 보통 코딩 실수로 검증(validation) 단계에서 하지 말아야 학습이 진행되어 검증이 끝날 때 모델의 성능이 갑자기 좋아지는 것처럼 보이는 버그일 가능성이 높다. 하지만 연구진은 곧 실수가 아니라 다른 데이터 세트에서도 반복적으로 나타나는 현상임을 확인했다. "단일 예제에서 거의 완벽하게 학습해야만 설명할 수 있는 그래프입니다"라고 fast.ai 공동 창립자 제러미 하워드(Jeremy Howard)가 강조했다.

캐글대회에서 주워진 데이터셋을 3회에 걸쳐 학습 시킨 손실 그래프 결과/출처=fast.ai 테크 블로그

신경망이 단일 예제로 학습할 수 없다는 이론적인 한계가 없고 연구진의 관측이 재현 가능하기 때문에 이들의 주장에 신빙성이 더해지는 이유다. 이 연구 결과는 LLM에서 광범위한 데이터 보강을 통해 여러 epochs에 걸쳐 신경망을 훈련하는 표준 관행이 불필요할 수 있음을 시사한다. 또한 Fast.ai 팀은 모델이 더 적은 수의 간결한 훈련 예제를 통해 더 효과적으로 학습할 수 있으며, 이를 통해 훨씬 적은 자원을 사용하여 더 저렴하고 빠르게 모델을 훈련할 수 있다고 주장했다.

LLM 훈련과 파인튜닝의 새로운 국면

MIT와 fast.ai의 기발한 아이디어를 결합하면 기존의 LLM보다 훨씬 적은 자원으로 높은 성능을 뽑아낼 수 있게 된다. MIT의 다중에이전트 의사결정 방법론은 LLM의 파인튜닝 단계에서 인간의 피드백을 대체할 가능성이 있다. 데이터 간의 관계를 가르치기 위해 수많은 사람이 피드백을 주고 있던 것을 여러 에이전트가 서로 피드백을 주면서 비슷하거나 더 높은 수준의 성능을 끌어올릴 수 있게 될지도 모른다. 한편 fast.ai의 발견처럼 단일 예제로도 온전한 훈련을 마칠 수 있게 된다면 미래엔 자체 LLM 개발 비용이 획기적으로 줄 것이다. 현재 LLM으로 인해 야기된 수많은 문제들(데이터 센터 전력, 환경, 노동)이 점차 해결될 수 있을 것으로 기대된다.


MIT Research: Debating Makes AI Bots Smarter

The 'Society of Minds' approach can reduce AI model hallucinations and improve upon results

A team of MIT researchers found that having multiple AI systems debate answers to questions leads to improved accuracy in responses compared to just using a single AI system.

In a paper titled Improving Factuality and Reasoning in Language Models through Multiagent Debate, the researchers found that leveraging multiple AI systems processes helps correct factual errors and improve logical reasoning.

The MIT scientists, along with Google DeepMind researcher Igor Mordatch, dubbed the process a "Multiagent Society” and found that it reduced hallucinations in generated output. The approach can even be applied to existing black-box models like OpenAI’s ChatGPT.

The process sees various rounds of responses generated and critiqued. The model generates an answer to a given question and then incorporates feedback from other agents to update its own response. The researchers found this process improves the final output as it is akin to the results of a group discussion – with individuals contributing a response to reach a unified conclusion.

The method can also be used to combine different language models – the research pitting ChatGPT against Google Bard. While both models generated incorrect responses to the example prompt, between them, they were able to generate the correct final answer.

Using the Multiagent Society approach, the MIT team was able to achieve superior results on various benchmarks for natural language processing, mathematics and puzzle solving.

For example, on the popular MMLU benchmark, using multiple agents scored the model an accuracy score of 71, while using only a sole agent scored 64.

“Our process enlists a multitude of AI models, each bringing unique insights to tackle a question. Although their initial responses may seem truncated or may contain errors, these models can sharpen and improve their own answers by scrutinizing the responses offered by their counterparts," Yilun Du, an MIT Ph.D. student and the paper’s lead author.

"As these AI models engage in discourse and deliberation, they're better equipped to recognize and rectify issues, enhance their problem-solving abilities, and better verify the precision of their responses.”

You can access the code used in the multiagent project on GitHub.

Is This a Breakthrough in AI Model Training?

Researchers from Fast.ai discover that large language models can learn from limited inputs

Large language models take an age to train – and can be a very costly endeavor. However, researchers from Fast.ai may have discovered a way for models to rapidly memorize examples from very few exposures.

In a technical paper published on the company’s website, the team at Fast.ai found that large language models can remember inputs after seeing them just once.

The team was fine-tuning a large language model on multiple-choice science exam questions and found the model was able to rapidly memorize examples from the dataset after initial exposure to them.

Upon recreating the experiment, the team at Fast.ai was able to back up the theory – potentially necessitating new thinking around model training.

“It’s early days, but the experiments support the hypothesis that the models are able to rapidly remember inputs. This might mean we have to re-think how we train and use large language models,” the Fast.ai team wrote.

How does this work?

Jeremy Howard, the co-founder of Fast.ai, was working with colleague Jonathan Whitaker on a large language model for the Kaggle Science Exam competition. They were training models using a dataset compiled by Radek Osmulski, a senior data scientist at Nvidia.

After three rounds of fine-tuning, they noticed an “unusual” training loss curve - the graphs that show how error rates change during training.

In an explainer thread on X (Twitter), Howard said the pair had noticed similar loss curves before but had always assumed it was due to a bug.

After examining the code – no bug was discovered. Instead, the team at Fast.ai sought other examples of this phenomenon and found “lots of examples of similar training curves.”

Upon re-conducting the tests, the team at fast achieved similar loss curves which co-founder Howard contended “can only be explained by nearly complete memorization occurring from a single example.”

The team at Fast.ai argue that there is “no fundamental law that says that neural networks cannot learn to recognize inputs from a single example. It is just what researchers and practitioners have generally found to be the case in practice.”

The findings could imply that standard practices around training neural networks over many epochs with extensive data augmentation may be unnecessary for large language models.

Instead, the team at Fast.ai propose that models learn better from fewer, more concise training examples – which could allow models to be trained cheaper and faster from using significantly less compute.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 뉴스 제작 효율성 높인 AI 저널리즘, 완전 자동화는 아직 시기상조

[해외 DS] 뉴스 제작 효율성 높인 AI 저널리즘, 완전 자동화는 아직 시기상조
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=AI Business

자동화된 저널리즘은 지난 10여 년 동안 사용됐지만, 레거시 미디어 플랫폼에서 적극적으로 사용되지는 않았다. 하지만 최근 ChatGPT와 같은 도구의 등장으로 생성 도구의 접근성이 좋아져 AI 도구들이 크고 작은 형태로 뉴스룸에 침투하고 있다.

보조 도구로서의 AI

저널리즘에 AI를 적용할 수 있는 사용 사례로 헤드라인 자동 생성을 꼽을 수 있다. 텍스트 상자에 '벤처 투자에 관한 머리기사를 생성해 주세요'와 같이 원하는 내용을 입력하기만 하면 당장 사용해도 무방한 헤드라인 예시 리스트를 뽑아준다.

조금 더 세분화된 프롬프트를 작성하거나 ChatGPT의 커스텀 인스트럭션 기능을 사용하면 특정 뉴스룸의 스타일에 맞게 구체화한 결과물을 얻을 수 있다. Anthropic의 Claude 챗봇 애플리케이션은 사용자가 참고 문서를 업로드하면 해당 글의 맥락을 분석해서 알맞은 답변을 제공한다. 기자들은 Grammarly와 같은 AI 도구를 사용하여 맞춤법을 검사하고 Otter.ai를 사용하여 음성을 텍스트로 변환하는데 활용하고 있다. 이렇듯 사용법이 간단하고, 활용도가 높은 AI 제품들로 사용자의 편의가 크게 향상되고 양질의 콘텐츠를 더 빠르고 똑똑하게 제작할 수 있게 됐다. 더 나아가 저널리즘에서 AI의 적용 범위는 머리기사 작성뿐만 아니라 동영상 편집, 웹 제작, 디자인 테마 생성 등 뉴스 제작 과정 전반에 걸쳐 있다.

완전 자동화는 아직 주의해야

헤드라인 아이디어를 개선하거나 인터뷰 대화 주제를 생성하는 데 AI를 사용할 수 있지만, 아직 오피니언 뉴스 생성에는 분명한 한계점을 보였다. 아일랜드의 지역 뉴스 매체인 Limerick Leader는 ChatGPT를 사용하여 민감한 주제인 이민에 관한 오피니언 기사를 생성한 적이 있다. 헤드라인은 다음과 같았다 ‘아일랜드의 난민들은 집으로 돌아가야 할까요?’. 생성된 기사는 나중에 편집되어 ‘실험 단계’로 분류되었고, 제목은 다음과 같이 바뀌었다 ‘인공지능을 신뢰할 수 있을까?’.

해당 기사는 전국언론인연합회(NUJ)에서 "심각한 우려"를 표명하는 등 큰 파장을 일으켰다. NUJ 아일랜드 비서인 세아머스 둘리(Séamus Dooley)는 다음과 같이 AI의 기사의 문제점들을 꼬집었다. "이런 기사를 쓰는 기자라면 지역 및 국가적 맥락을 검토하고 관련 기관 또는 NGO와 연락하며 개인적인 이야기를 나눌 것입니다. 이 기사는 인간적인 차원, 박해나 인권 유린을 피해 도망쳐야 하는 사람들의 고통과 아픔, 사람들이 망명을 신청하는 복잡한 이유, 난민들이 '집으로 돌아갈' 처지가 아닌 이유 등을 거의 무시하고 있습니다."

"콘텐츠를 자동화하는 것이 중요한 것이 아닙니다"라고 런던정경대 미디어 및 커뮤니케이션학과의 찰리 베켓(Charlie Beckett) 교수는 단호하게 말한다. "단순한 콘텐츠라면 모르겠지만, 저는 좋은 콘텐츠를 원합니다. 더 선이나 선데이 타임즈에 글을 쓰든 말든 사람들은 인간적인 가치가 더해진 콘텐츠를 원합니다. 재미있고, 흥미진진하고, 깊이 있고, 도덕적이고, 통찰력이 돋보이는 개성 있는 글, 이런 것들이 인간을 돋보이게 하는 요소입니다. 하지만 AI는 그런 면에서는 그다지 뛰어나지 않습니다."

가치의 교환, 저널리스트가 AI 개발을 주도하는 방법

베켓 교수는 로봇 저널리스트 도구 패키지가 곧 출시될 가능성이 있다고 말한다. 구글은 기자 전용 AI 도구 '제네시스'를 개발 중이다. 보도자료 같은 글을 입력하면 관련 뉴스 카피를 제공하는 서비스로 알려져 있다. 월스트리트 저널의 전 R&D 책임자이자 저널리즘의 AI에 관한 중요한 연구 결과를 발표한 프란체스코 마르코니(Francesco Marconi)가 공동 설립한 실시간 정보 회사인 AppliedXL도 비슷한 작업을 하고 있다. 마르코니의 팀은 최근 저널리즘에 뿌리를 둔 최초의 언어 모델, 즉 구조화된 데이터를 간결한 뉴스 요약 글로 변환하여 특정 산업에 맞게 조정할 수 있는 실험적인 언어 모델인 AXL-1을 공개했다. 마르코니는 AXL-1모델이 업계 동향을 간결한 뉴스로 전환할 수 있지만 인간의 미묘함, 다양한 의견, 시사 문제를 포착할 수 있는 능력을 더 갖춰야 한다고 AI 비즈니스와의 인터뷰에서 밝혔다. 또한 저널리즘에 AI를 통합할 때 주의해야 할 점들도 함께 언급했다. AI로 인해 저널리즘에 개입될 수 있는 잠재적 편견을 평가하고 대응할 수 있는 기준을 확립하는 등 저널리즘의 가치와 기술의 도입을 일관되게 통합해야 한다고 강조했다.

언론 조직과 AI 개발자 사이에 불편한 긴장감이 흐르는 것은 분명하다. 미디어는 종종 기술 플랫폼을 파괴자로 간주하지만 진정한 협업을 통해 양측이 얻을 수 있는 잠재적 이점을 이해하는 것이 중요한 시점이다. AI 기업은 언론사의 데이터 접근에 대한 대가로 소프트웨어 인프라와 기술 노하우를 제공할 수 있으며, 언론사는 데이터와 함께 쌓은 인간에 대한 통찰을 AI 서비스에 녹여낼 수 있게 도움을 줄 수 있다.

AI가 윤리적이고 투명하며 정확한 정보전달을 보장할 수 있도록 인간이 청지기 역할을 해야 할 의무가 있다. 따라서 언론사는 AI가 명확한 가치를 제공할 수 있기 전에 서두르지 말고 책임감 있게 AI를 도입해야 한다. 뉴스룸에서 AI 사용은 피할 수 없는 미래다. 이제는 대형 뉴스룸뿐만 아니라 소형 뉴스룸에서도 ChatGPT를 통해 손쉽게 로봇 저널리즘을 시작할 수 있는 새로운 시대로 접어들었기 때문이다. 책임감 있는 개발과 투명한 통합을 통해서만 AI를 통해 미디어가 발전할 수 있다.


Automated journalism has been around for the better part of a decade – but was limited to larger corporate newsrooms like The Associated Press and Bloomberg.

Mario Haim & Andreas Graefe conducted studies in 2017 that found that the quality of automated news is “competitive with that of human journalists for routine tasks.”

The advent of tools like ChatGPT have made augmented news production more accessible to newsrooms all over the globe.

“Anyone can use it, if you’re the intern or the CEO, anyone can put a prompt in,” said Charlie Beckett, professor of practice at the London School of Economics’ department of media and communications.

Beckett, who leads the Polis JournalismAI project, likened the user experience (UX) of a tool like ChatGPT to when Google first launched search − “a master stroke” he called it.

“We’re all going to be using this in the same way that we all use smartphones, search, and social media. This is going to become part of the fabric of our lives.”

An 'alpine walking stick' for news: AI as an augmenting aid
There are several use cases for journalistics to apply AI. For example, headline generation: Simply type in a text box what you want, like ‘please generate me some potential headlines for a news story about beavers,’ and you’ll receive what you asked for.

Using a more refined prompt - or a feature like Custom Instructions - chatbot users can refine AI-generated outputs to fit a certain newsroom’s style. Claude from Anthropic, while in beta, allows users to upload lengthy documents, which could be used to evaluate news content.

Instead of merely asking for a headline on beavers, for example, journalists could use the above to finally craft the perfect headline.

A use case like headline generation shows what was once a complicated concept is now far simpler.

The LSE professor said AI’s application in journalism spans “every little bit” of the news production process - editing video, building web products and infilling spaces in design.

Beckett described the uses of AI in journalism as “mundane, supplementary, but creative,” adding: “AI can support any kind of process where there's data involved, and you're trying to manipulate data or language.”

“The journalism industry is so siloed - the graphics department, the archive department, the IT department, the video department, the audio department, the newsgathering, the news distribution. This technology allows you to cross these boundaries and suddenly job demarcation could be eroded by this.”

Journalists are making use of AI tools like Grammarly to check their work for mistakes and Otter.ai to transcribe audio for them. Simple uses, but ways in which content can be created not only faster, but smarter.

Channeling Turing award winner Yann LeCun and his comments that AI is more akin to a typing aid, Beckett said: “If [AI] is something that can make you type more intelligently, it’s a bit like alpine walking sticks in that if it makes you go 10% faster, then that’s amazing.”

Automation vs. augmentation: Cautionary tales of automated content
While it could be used to improve ideas for headlines or generate potential interview talking points, one thing AI cannot do at present is generate opinionated news.

Beckett pointed to the case of the Limerick Leader, a local news outlet in Ireland that used ChatGPT to generate an opinion piece about immigration.

With a headline that reads: ‘Should refugees in Ireland go home?’ The OpenAI chatbot was used to generate an opinion-based article on a sensitive subject. The resulting article was later reworked and labeled as an ‘experiment’ - with the headline now reading: ‘Can we trust Artificial Intelligence?’ (The original version is still visible via the Wayback Machine.)

The article caused an uproar, with the National Union of Journalists (NUJ) suggesting it was of “grave concern.”

Séamus Dooley, the NUJ Irish Secretary, said: “While the article seems relatively benign, the question is loaded and is a classic trope. A journalist writing such a story would examine the local and national context, talk to relevant agencies and NGOs and perhaps discuss personal stories. The article largely ignores the human dimension, the pain and suffering of those forced to flee persecution or human rights abuses, the complex reasons why people seek asylum and the reasons why refugees may not be in a position to ‘go home.’”

Beckett said the article represents the "worst possible use case" for AI in journalism and represents a case of a news outlet harming its reputation by using AI.

A similar instance befell CNET, the technology news outlet, that was caught using AI to write stories. Examples of news outlets like CNET and the Limerick Leader using AI to produce news and articles at scale was a use case Beckett could not get behind.

“It's not about automating content all the time. Because who wants automated content?” he said. “I do if it's simple stuff, but I want the good stuff. Doesn't matter if you're writing for The Sun, or The Sunday Times, people want stuff that's got an extra added human value. It's funny, it's exciting. It's investigative, it's moral. It's got judgment. It's got personality. Those are the things that stand out for people. And the AI is not very good at that.”

AI does have its uses in the newsroom. Like using AI to change headlines or to make pieces of content work for a more regionalized audience, as smaller, local newsrooms are few and far between.

An exchange of value: How journalists can shape AI development

Beckett reminds that it’s early days for AI in journalism, with what he described as a ‘Robo-journalist’ suite of tools potentially on the horizon. Google is reportedly building something with journalists in mind - dubbed Genesis - it works by inputting in facts and in return generating related news copy. Little else is known about Genesis at present.

One team working on something similar is AppliedXL - a real-time information company co-founded by Francesco Marconi, former R&D chief at The Wall Street Journal and author of the seminal work on AI in journalism: Newsmakers: Artificial Intelligence and the Future of Journalism.

Marconi’s team recently unveiled the first language model rooted in journalism - AXL-1, an experimental language model that turns structured data into concise news digests, which can be tailored to a specific industry.

Marconi told AI Business that while language models can be used to turn industry trends into succinct news summaries, AI systems need to have the ability to "capture human subtleties, diverse opinions, and current affairs is crucial. AI has the potential to process a much larger amount of information and from a much wider range of sources, and it can do so in an extremely efficient and comprehensive manner.

“AI systems can sift through millions of data points and documents to detect patterns, quantify perspectives, and validate occurrences. This can help determine whether a reported event or viewpoint is truly a statistical outlier or more commonplace.”

Marconi published his Newsmakers book in 2020 - back when there was no ChatGPT. OpenAI’s GPT-3 only came out in June of that year. But the former R&D chief noted the principles of his work - transparency, accuracy and reliability - are upheld when integrating AI into journalism.

Marconi said newsrooms looking to tools like ChatGPT should look to consistently integrate journalistic perspectives including embedding human checkpoints to assess and counteract potential biases.

There is, of course, an inherent tension between news organizations and AI developers - with news media often viewing tech platforms as “disruptors.”

Marconi expressed that while tensions are expected for an industry proud of its ways of working, it's essential to understand the potential benefits for both parties from genuine collaboration.

AI firms can offer technical infrastructure and know-how in return for data from news agencies along with their human insights and concepts of ethics to help guide such systems.

“A decline in investment in quality journalism equates to a reduced quality of data for AI systems,” he said. “This decline impacts not just the media sector but society at large.”

Automation with intention: Defining responsible AI-human collaboration
Marconi believes that as AI expands into the newsroom, it's incumbent upon humans to act as "stewards, ensuring that AI remains ethical, transparent and accurate."

And Beckett argues that conversations about robots taking over distract from other important issues around AI - like copyright, data privacy, competition. "The real debate is granular, gritty and difficult," he said.

Beckett’s ‘alpine walking stick’ analogy is apt in the sense that if it helps improve things - then why not use it? But he stressed to take time to understand potential implentations.

As Beckett states, news organizations should adopt AI responsibly, not rushing ahead before ensuring it provides value.

AI in the newsroom is inevitable. It was already here before ChatGPT, but now it’s entering a new era where smaller newsrooms can use it. Only through responsible development and transparent integration can media flourish from AI augmentation.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 워런 버핏의 특이한 주사위 게임, "아니야 네가 먼저 던져"

[해외 DS] 워런 버핏의 특이한 주사위 게임, "아니야 네가 먼저 던져"
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


워런 버핏은 빌 게이츠에게 특이한 주사위 게임을 제안한 적이 있다. 버핏은 테이블 위에 주사위 4개를 놓고 규칙을 설명했다. 각자 주사위를 하나씩 골라 여러 번 굴려서 더 높은 숫자가 많이 나온 사람이 승리하는 룰이었다. 주사위는 보통의  주사위처럼 번호가 매겨져 있지 않았는데 1부터 6까지의 숫자는 주사위마다 다른 숫자로 대체되어 있었다. 버핏은 예의상 게이츠에게 먼저 주사위를 뽑으라고 권유했다. 그러자 게이츠는 직접 주사위를 검사한 후 버핏의 선의를 한사코 거절했다.

일반적으로 게임에서 선공권을 가지면 유리한 고지를 점할 수 있는데, 왜 이 거물들은 두 번째를 선택하기 위해 경쟁을 벌였을까? 그 답은 버핏 주사위의 독특한 속성에 있다. 이를 이해하기 위해 버핏이 사용한 주사위와 같은 속성을 가지고 있지만 분석하기 더 쉬운 유사한 주사위의 예를 살펴보자.

die01_GIAI

주사위 A가 주사위 B보다 높은 숫자가 나오는 빈도는 얼마나 될까? 각 주사위에는 세 개의 숫자만 있으므로 1/3의 확률로 주사위 A가 9를 굴려서 B의 숫자와 관계없이 승리한다. 그리고 다른 1/3의 확률로 A는 1을 굴려서 B의 주사위 숫자와 상관없이 패배한다. 나머지 1/3의 경우, A는 5를 굴려 3분의 2(3 또는 4가 나온 B 주사위)의 확률로 B를 이긴다. 이러한 관찰 결과를 확률 규칙으로 합산하면 A가 B를 이길 확률은 (⅓ x 1) + (⅓ x 0) + (⅓ x ⅔) = 5/9, 즉 약 56%에 달한다. 비슷한 계산을 하면 B가 C를 이기는 승률도 동일하게 나온다. 즉, B도 약 56%의 확률로 C를 이깁니다. 따라서 A가 보통 B를 이기고 B가 보통 C를 이긴다면, A가 보통 C를 이겨야 하는 것이 맞을까? 틀렸다! 실제로 C도 약 56%의 확률로 A를 이길 것이다.

이러한 불규칙한 큐브를 비추이적 주사위(intrasitive dice)라고 부른다. 인생에서 마주치는 많은 관계는 정반대의 추이적 속성을 반영한다: 영희가 철수보다 나이가 많고 철수가 민지보다 나이가 많다면 영희는 민지보다 나이가 많다는 결론을 얻는다. "보다 나이가 많다"의 정의가 추이적 관계를 따르기 때문에 이는 유효한 추론이다. 하지만 비추이적 주사위는 사람의 직관을 놀라게 한다. 평균적으로 주사위 B보다 높은 숫자가 나오기 위해 주사위 A가 항상 더 높은 숫자가 나올 필요가 없다는 점을 유의해야 한다. 결정적으로 A가 B를 이기는 경우와 A가 C에 지는 경우가 겹치기 때문에 비추이적 관계가 형성됐다.

이제 모두가 워런 버핏이 여유와 매너의 비밀을 알아챘다. 어떤 비추이적 주사위 세트를 사용하든 버핏의 게임에서는 두 번째 플레이어가 항상 상성이 유리한 주사위를 선택할 수 있기 때문이다. 많은 사람이 가위바위보를 통해 비추이적 게임을 처음 접하게 된다. 순환적인 승리 구조는 어떤 선택이 다른 선택보다 우위에 있지 않도록 보장한다. 버핏의 주사위 게임은 가위바위보에서 상대방이 다음에 무엇을 던질지 미리 말하도록 속이는 것, 즉 실수를 유도당하면 게임에서 패배하는 것과 비슷하다.

스탠퍼드 통계학자 브래들리 에프론(Bradley Efron)은 50여 년 전에 비추이적 주사위를 발명했다. 에프론이 고안한 4개의 주사위 세트에서 각 주사위가 다른 주사위를 이길 확률은 무려 3분의 2(약 67%)에 달한다. 마틴 가드너(Martin Gardner)는 사이언티픽 아메리칸의 전설적인 '수학 게임(Mathematical Games)' 칼럼에서 에프론의 주사위를 대중화했지만, 그 이후로 수학자들은 여러 가지 기발한 변형을 고안해 냈다. 이제 주사위의 개수(2개 이상)에 상관없이 비추이적 관계를 나타낼 수 있다는 것을 알고 있다. 예를 들어 26개의 주사위 세트가 존재하는데, 이 주사위 세트는 일반적으로 A가 B를 이기고, B가 C를 이기고, C가 D를 이기는 식으로 계속 순환하여 끝에 있 주사위 Z에 도달했을 땐 역으로 순환하여 A를 이길 수 있다는 것을 의미한다.

비추이적 주사위는 꼭 6개의 면을 가질 필요가 없다. 사실 모든 면의 개수(2개 이상)에 대한 비추이적 주사위 트리오가 존재한다. 심지어 네덜란드의 퍼즐 제작자 오스카 반 데벤터(Oskar van Deventer)는 버핏의 게임에서 세 명의 플레이어가 사용할 수 있는 일곱 개의 6면 주사위 게임을 발명하기도 했다. 즉, 버핏과 게이츠가 돌리 파튼(Dolly Parton)을 초대해 함께 주사위 놀이를 하면 게이츠와 파튼은 각각 7개의 주사위 중에서 하나를 고를 수 있고, 버핏은 나머지 5개의 주사위에서 항상 두 사람이 선택한 주사위를 모두 이길 수 있는 주사위를 고를 수 있는 게임이다.

주사위 놀이의 독특한 동작에 대해 어느 정도 이해했다고 생각했다면, 아래의 기발한 변형 구조를 보고 다시 한번 경외감을 느끼게 될 것이다.

die02_GIAI

위 그림으로부터 A가 B를 7/12(약 58%) 확률로 이기고, B가 C를 7/12 확률로 이기고, C가 A를 25/36(약 69%) 확률로 이긴다는 계산을 할 수 있다. 지금까지는 보지 못했던 결과다. 이들은 같은 확률로 서로를 이기지 않지만 여전히 비추이적이다. 두 개의 같은 주사위를 한 쌍으로 간주하고 각각 한 쌍에서 나온 숫자를 합산하여 비교하는 게임에선 어떻게 전개될까? 즉 두 개의 주사위 A가 두 개의 주사위 B를 능가하는 합이 나올 확률은 얼마일까? 한 쌍의 주사위가 같으므로 이전과 같은 결과가 나올까, 아니면 같은 주사위를 던지면 A가 B보다 유리한 점이 증폭될까? 놀랍게도 반전된 결과를 얻을 것이다. A 주사위 한 쌍은 보통 B 주사위 한 쌍에게 패배한다! 또한 전체 순환구조가 반전되어 한 쌍의 B 주사위가 한 쌍의 C 주사위에 패배하고 한 쌍의 C 주사위가 한 쌍의 A 주사위에 패배한다. 이 주사위 세트로 가족과 게임을 한다면 분명히 추방당할 것이다.

pair01_GIAI

한 쌍의 같은 주사위 숫자 합이 승률을 어떻게 바꿨는지를 이해하려면 양면 주사위인 X와 Y의 간단한 예시를 먼저 이해하면 된다. X의 양쪽 면은 모두 1이고 Y의 면은 0과 3이라고 하자. 이 주사위의 승률은 같다. Y는 절반의 경우(3이 나올 때)는 이기고 다른 절반의 경우(0이 나올 때)는 진다. 그러나 주사위를 복제하면 Y 쌍이 X 쌍보다 강해진다. X 쌍의 합은 항상 2인데 Y 쌍의 합은 총 세 가지(0, 3, 6) 경우가 있으며 0이 나올 때만 패배(4분의 1의 확률)한다. 이 양면 주사위의 예시로 위 그림의 반전을 비슷한 현상으로 설명할 수 있다.

비추이적 관계 주사위의 존재 여부는 분명하지 않다. 그 이유가 희귀하기 때문일까? 주사위 세 개를 던졌을 때 A가 보통 B를 이기고 B가 보통 C를 이긴다는 것만 알고 있다면, A가 보통 C를 이길 가능성이 더 높을까 아니면 그 반대의 경우일까? 똑똑한 사람들이 위에서 설명한 모든 주사위를 정의했지만, 무작위로 주사위 번호를 선택했어도 비추이적 관계를 찾아낼 수 있었을까?

영국의 수학자 티모시 가우어스(Timothy Gowers)는 이 질문에 대한 답을 찾기 시작했다. 가우어스는 혁신적이고 비교적 새로운 수학 연구 패러다임인 폴리매스 프로젝트를 이끌고 있다. 폴리매스 프로젝트는 한두 대학의 수학자 몇 명이 한 문제를 파고드는 일반적인 수학 연구 모델 대신 크라우드소싱 접근 방식을 취한다. 온라인 포럼 토론을 통해 많은 기여자가 증명을 위해 얼마든지 협력할 수 있는 환경이다. 가우어스는 비추이적 주사위 문제가 크라우드 작업에 적합하다고 판단하여 2017년에 자신의 블로그에 해당 질문을 등록했다. 토론의 장이 칠판에서 워드프레스 댓글 섹션으로 바뀌자 수십 명의 사람들이 이 문제에 몰두하여 문제를 풀어냈다.

세 개의 서로 다른 주사위에 무작위로 숫자를 할당하고 그 주사위가 비추이적 관계를 나타낼 확률을 알고자 할 때, 주사위에 '무작위로 숫자를 할당'한다는 것이 정확히 무엇을 의미하느냐에 따라 결과가 달라질 수 있다. 폴리매스 팀은 이를 두 가지 자연스러운 기준으로 모델링했다. 일반적인 6면 주사위가 1에서 6 사이 숫자만 있는 것처럼, 무작위 n면 주사위에는 1에서 n 사이의 숫자만 들어 있다고 가정한다(일부 숫자는 반복될 수도 있고 일부는 전혀 나타나지 않을 수도 있다). 6면 주사위의 숫자는 1 + 2 + 3 + 4 + 5 + 6으로 합산된다. 주사위의 균형을 유지하기 위해(예를 들어 어떤 주사위에도 같은 숫자로만 구성되거나 큰 숫자만 포함되지 않아야 함), 폴리매스 팀은 n면 주사위의 경우 각 면의 합이 1부터 n까지의 숫자의 합과 같아야 한다고 조건을 두었다.

추이적 주사위와 비추이적 주사위 중 어느 쪽이 더 일반적인지 맞혀보고 싶은가? 폴리매스 프로젝트 참가자들은 세 개의 무작위 n면 주사위가 약 절반 정도는 비추이적 관계를 가질 것이라는 것을 증명했다. 즉, A가 보통 B를 이기고 B가 보통 C를 이긴다는 것을 알더라도 A가 보통 C를 이길지 아니면 그 반대일지에 대한 정보는 거의 얻을 수 없다는 뜻이다(확률이 동전 던지기와 같기 때문에). 예상이 뒤집히는 것에 지친 일부 의심스러운 독자들은 비추이적 주사위가 추이적 주사위보다 더 일반적일 것이라고 예측할 수 있다. 하지만 이 미끄러운 주사위는 매번 예측을 회피한다. 세 개 주사위의 경우 추이적 주사위와 비추이적 주사위는 같은 확률을 갖는다.


Warren Buffett once challenged Bill Gates to an unusual game of dice. Buffett placed four dice on the table and explained the rules. They would each pick a die, roll it a bunch of times, and whoever rolled a higher number more often would win. These weren’t numbered like standard dice. The typical one through six were replaced with other numbers that varied from die to die. As a supposed courtesy, Buffett invited Gates to pick his die first. This aroused suspicion, compelling Gates to inspect the dice for himself and then insist that Buffett choose first.

Typically, choosing first in games confers an advantage, so why were these moguls dueling for second pick? The answer lies in a peculiar property of Buffett’s dice. To appreciate it, let’s inspect an example of similar dice that have the same property as those used by Buffett but that are easier to analyze.

How often will die A roll higher than die B? Because there are just three distinct numbers on each die, one third of the time, die A will roll a 9, which wins regardless of B’s roll. One third of the time, A will roll a 1, which loses regardless of B’s roll. And the remaining third of the time, A will roll a 5, which wins on two thirds of B’s rolls (the ones that turn up 3 or 4). Aggregating these observations with the rules of probability, we get that A beats B (⅓ x 1) + (⅓ x 0) + (⅓ x ⅔) = 5/9, or about 56 percent of the time. A similar calculation yields an identical win percentage for B over C. That is, B also beats C about 56 percent of the time. So if A usually beats B and B usually beats C, then surely A should usually beat C, right? Wrong! C actually beats A about 56 percent of the time as well.

We call these delinquent cubes intransitive dice. Many relations encountered in life exhibit the opposite, transitive property: If Alicia is older than Bruno and Bruno is older than Cassandra, then Alicia is older than Cassandra. That’s a valid deduction because the relation “is older than” obeys the transitive property. Intransitive dice surprise our intuitions because the relation “typically rolls higher than” is not transitive, even though it seems like it should be. Note that to roll higher than die B on average, die A doesn’t need to always roll higher. And critically, there is overlap between cases in which A beats B and A loses to C. This interleaving of the numbers on the faces enables the intransitivity.

With any set of intransitive dice, whoever chooses first in Buffett’s game bears a disadvantage, because the second player can always pick the die that’s likely to defeat their opponent’s choice. Many people first encounter intransitive games through rock paper scissors. Its cyclic winning structure ensures that no choice uniquely outranks any other. Buffett’s dice game is akin to tricking your opponent into announcing what they intend to throw next in rock paper scissors—a mistake that would cost them the game.

Stanford statistician Bradley Efron invented intransitive dice over 50 years ago. Each die in Efron’s set of four beats another an impressive two thirds (about 67 percent) of the time. Martin Gardner popularized Efron’s dice in his legendary “Mathematical Games” column at Scientific American, but mathheads have devised many clever variants since then. We now know that any number of dice (greater than two) can exhibit an intransitive cycle, meaning, for example, there exists a set of 26 dice in which die A usually beats die B, which usually beats C, which usually beats D, and so on all the way through to die Z, which, despite residing at the end of a long chain of dominating dice, pulls an upset by cycling back and usually beating A.

Intransitive dice need not contain six sides. In fact, intransitive trios of dice with any number of sides (greater than two) exist. Dutch puzzle maker Oskar van Deventer even invented a set of seven six-sided dice that allow for three players in Buffett’s game. In other words, if Buffett and Gates invited Dolly Parton to play dice with them, then Gates and Parton could each take their pick from the seven, and Buffett would still always have a die in the remaining five that usually beats both of their choices.

Just when you think you’ve wrapped your head around the peculiar behavior of intransitive dice, the brilliant construction below will roll you right back to dumbstruck awe.

One can calculate that A beats B 7/12 (about 58 percent) of the time; B beats C 7/12 of the time; and C beats A 25/36 (about 69 percent) of the time. So far, nothing we haven’t seen before. These don’t beat each other with identical probabilities, but they’re still intransitive. Often dice come in pairs. When you imagine rolling dice, you probably picture two identical dice in your hand and summing the numbers that turn up on each. What happens if we roll pairs of dice from the figure above? What is the probability that two copies of die A roll a sum that beats two copies of die B? Is it the same as before since the copies are identical, or does duplicating the dice amplify the advantage that A has over B? In a stunning twist, the effect reverses. The pair of A dice usually lose to the pair of B dice! What’s more, the whole cycle reverses: a pair of B dice usually lose to a pair of C dice and a pair of C dice usually lose to a pair of A dice. Procuring a set of these dice is a reliable way to get banned from family game night.

To get a feel for how duplicating dice could reverse their relative strength, imagine the simple case of two two-sided dice, X and Y. Both of X’s faces have a 1 on them, while Y’s faces are 0 and 3. These dice have equal strength. Y wins half of the time (when it rolls a 3) and loses half of the time (when it rolls a 0). When we duplicate the dice however, the Y pair becomes stronger than the X pair. The X pair always rolls a total of 2. The Y pair only loses if both of them turn up 0, which only happens one quarter of the time. A similar phenomenon explains the reversal in the figure above.

It’s not obvious that intransitive dice should exist at all. But is that because they’re rare? If all you know about a trio of dice is that A usually beats B, and B usually beats C, is it more likely that A usually beats C or vice versa? Clever people have carefully constructed by hand all of the dice discussed above, but could they have just chosen dice numberings at random and had a decent shot at finding an intransitive set?

British mathematician Timothy Gowers set out to answer this question. Gowers leads the Polymath Project, an innovative and relatively new paradigm for mathematical research. Instead of a few mathematicians at one or two universities chipping away at a problem—the typical research model in math —the Polymath Project takes a crowdsourcing approach. Any number of contributors can collaborate on a proof via online forum discussion. Gowers deemed the intransitive dice question ripe for a group effort and proposed it on his blog in 2017. Replacing a chalkboard with a WordPress comments section, dozens of minds swarmed the problem and cracked it.

If you randomly assign numbers to three different dice and then want to know the chances that they exhibit intransitivity, it may depend on what exactly you mean by “randomly assign numbers” to the dice. The polymath team modeled this with two natural criteria. Just as a typical six-sided die only contains digits between 1 and 6, a random n-sided die will only contain digits between 1 and n (though some may repeat, and some may not occur at all). Also, the numbers on a typical six-sided die add up to 1 + 2 + 3 + 4 + 5 + 6. To keep the dice balanced (e.g., no die should contain all ones or exclusively massive digits), the polymath team required this of n-sided dice: the sum of their sides should equal the sum of the numbers from 1 to n.

Do you want to guess whether transitive or intransitive dice are more common? Polymath Project participants proved that three random n-sided dice will be intransitive about half of the time. In other words, knowing that A usually beats B, and B usually beats C, gives you almost no information about whether A will usually beat C or vice versa. I would have guessed that transitive dice were more common than intransitive ones. I could imagine some suspicious readers, tired of having their expectations subverted, predicting that intransitive dice are more common than transitive ones. But these slippery dice insist on evading prediction. For three dice, transitive and intransitive dice are equally common.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 기억을 잃는다는 착각, 망각은 뇌의 결함이 아닌 능동적인 적응 과정

[해외 DS] 기억을 잃는다는 착각, 망각은 뇌의 결함이 아닌 능동적인 적응 과정
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

많은 사람이 망각 때문에 좌절감을 느낀다. 하지만 망각이 본질적으로 나쁜 것이라는 생각에 반박하는 증거들이 많아지고 있다. 실제로 망각은 스트레스를 줄이거나 쓸모없는 지식을 버리는 데 도움이 될 수 있다. 트리니티 칼리지 더블린의 신경과학자 토마스 라이언(Tomás Ryan)과 그의 동료들은 새로운 연구를 통해 우리가 매일 경험하는 망각의 근본적인 생물학적 원리를 조사했다. 이들의 연구에 따르면 오래된 전화번호나 고등학교 선생님의 이름을 기억하지 못한다고 해서 반드시 기억을 잃는 것이 아니라고 주장한다. 라이언은 Mind Matters 편집자 데이지 유하스(Daisy Yuhas)에게 망각은 뇌가 학습을 지원하기 위해 사용하는 능동적인 적응 과정일 수 있다고 설명했다. 또한 치매는 기억 상실보다 무질서한 망각을 더 많이 반영한 결과일 수 있다고 언급했다.

흔히 망각을 뇌의 결함이나 한계로 생각한다. 치매나 뇌 외상으로 인한 기억 상실은 치명적일 수 있으나 살아가면서 일상적인 망각을 경험하기도 하는데, 이는 너무 많은 정보가 입력되기 때문이다. 사람들이 일반적으로 구분하는 망각에는 여러 가지 종류가 있다. 대부분의 사람이 유익하지 않다고 동의하는 일종의 망각에 대해 기억상실증이라는 단어를 사용한다. 기억상실증은 새로운 기억을 형성하기 어렵게 만들거나 형성된 기억을 기억하기 어렵게 만드는 두 가지 작용이 있을 수 있다.

일상적인 망각은 기억상실증과는 결이 다르다. 차를 어디에 주차했는지 잊어버린다면 아무도 그것을 기억상실증이라고 부르지 않는다. 또는 기말고사 성적이 좋지 않더라도 교수님께 "죄송해요, 그날 기억상실증에 걸렸어요"라고 말하지 않는다. 이러한 경우는 해당 맥락에서 원하는 기억을 제대로 파악하지 못한 상태에서의 망각이다.

쥐 실험을 통해 알아본 일상적인 망각

쥐는 매우 호기심이 많은 동물이다. 라이언과 연구팀은 쥐에게 사물을 환경과 연관시키는 훈련을 진행했다. 쥐에게 튜브나 원뿔과 같이 이전에 본 적이 없는 물체를 특정 맥락에서 제시했다. 그런 다음 바로 다음 날 또는 일주일 후에 쥐에게 해당 맥락과 연관된 물체와 그렇지 않은 물체 두 개를 놓고 반응을 관찰했다. 보통의 쥐들은 주어진 맥락에서 새로운 물체를 탐색했다. 하지만 연상을 잊어버린 쥐는 두 물체 모두 새로운 것으로 여겼고, 두 물체를 똑같이 탐색했다. 공포 조건화(fear conditioning) 실험에선 몇 초 동안 아주 약한 전기 충격(동물에게 해를 끼치지 않는 강도)을 가했는데 기억이 있는 경우 얼어붙는 행동을 보였고 연관성을 잊어버린 쥐는 덜 얼어붙었다.

자연스러운 망각은 여러 가지 이유로 발생하는 것으로 알려져 있다. 기억은 단순히 시간이 지남에 따라 희미해질 수 있지만 비슷한 시기에 비슷한 두 가지 사건을 경험하는 역향 억제(retroactive interference)로도 망각은 발생한다. 한 사건의 기억이 다른 사건의 기억을 방해하기 때문이다. 이는 검증된 효과이며 실험에서 제어할 수 있는 조건이기 때문에 쥐를 대상으로 이 접근법을 사용했다. 예를 들어 쥐에게 A 환경에 있는 물체를 제시한 후 같은 물체가 있는 B 환경에 배치한다. 환경 변화 때문에 쥐는 A의 연관성을 기억하는 것이 어려워지는 원리다.

뇌의 기억 형성 과정 모니터링

뇌는 정보를 학습하기 전과 후가 다르다. 이러한 차이는 뇌 구조의 물리적 또는 화학적 변화에 의해 설명된다. 여기서 기억에 필요한 뇌의 변화를 엔그램(engram)이라고 부른다. 지난 10년 동안 설치류 뇌의 특정 엔그램에 라벨을 붙이고 조작하는 능력은 기억 영역, 더 나아가 망각 영역에 큰 변화를 가져왔다.

엔그램의 위치를 파악하는 것은 매우 큰 건초 더미에서 바늘을 찾는 것과 같다. 엔그램을 찾기 위해 연구팀은 특정 뉴런이 활성화될 때만 발현하는 급속초기발현유전자를 사용해서 해당 세포에 영구적으로 라벨을 붙일 수 있었다. 이를 통해 쥐가 연상을 학습하거나 잊어버리는 과정을 관찰하고 기억과 연결된 뇌 세포를 관찰할 수 있는 방법이 생겼다. 그 결과 역향 억제로 망각한 기억이 없어지는 것이 아니라 살아남아서 다시 기억될 수 있음을 연구진이 밝혀냈다. "쥐가 기억하지 못했음에도 불구하고 원래의 기억에는 아무런 문제가 없었습니다. 엔그램이 존재했을 뿐만 아니라 건강하고 기능적으로도 정상적으로 작동했습니다"라고 라이언은 전했다.

엔그램 세포에 태그를 붙이는 것 외에도 연구진은 빛에 의해 활성화되는 이온 채널인 광유전 수용체를 세포에 붙였다. 두 가지 기술의 조합을 통해 특정 메모리 엔그램을 켜고 끌 수 있게 되었다. 즉 엔그램 세포를 자극하는 것만으로도 쥐가 잊어버린 기억을 떠올리게 할 수 있었다. 또한 기억 형성을 방해할 수 있는 상황에 쥐를 놓는 동시에 광유전학적으로 엔그램 세포가 이동하는 것을 막으면 쥐가 연관성을 잊어버리지 않는다는 것을 알아냈다. 다시 말해 망각이 일어나려면 엔그램 세포의 활동이 필요했다는 결론을 얻을 수 있다.

트라우마나 치매와 관련된 기억 상실 연구 적용

라이언은 MIT 박사 후 과정에서 초기 알츠하이머병을 재현하는 유전적으로 변형된 생쥐를 이용해 기억상실증을 연구했었다. 해당 결과에서도 잊힌 기억에 대해 광유전학적으로 엔그램을 자극하면 기억이 회상된다는 사실을 발견했다. 그 후 다른 연구팀들도 알츠하이머, 노화 관련 기억 상실, 스트레스 관련 기억 상실, 수면 부족으로 인한 기억 상실 모델에서 같은 사실을 발견했다. 모든 경우에서 엔그램은 생존하지만 광유전학적 활성화를 통해서만 기억을 되찾을 수 있었다.

최근 더블린에 있는 라이언의 연구실에선 엔그램 조작을 사용하여 자연스러운 망각에 대해 살펴봤다. 짧은 기억 상기 훈련을 통해 동일한 엔그램 세포에 다시 접근하는 데 도움이 될 수 있음을 발견했다. 하지만 알츠하이머 모델에서는 그렇게 할 수 없었다. 왜냐하면 해당 쥐들은 재훈련을 통해 기존 엔그램 세포를 활성화 시키는 것이 아니라 새로운 엔그램을 계속 만들었기 때문이다.

"이번 연구는 알츠하이머병 환자나 질병 모델을 대상으로 한 것은 아니지만 흥미로운 가능성을 열어줄 수 있습니다"라고 라이언은 긍정적으로 바라봤다. 알츠하이머병과 같은 질병에서는 역향 억제를 포함한 자연적인 망각 과정이 잘못된 활성화의 결과로 해석할 수 있기 때문이다. 다시 말해, 질병이 어떻게든 엔그램을 저하해 기억 상실을 유발하는 것이 아니라, 부적응적인 이유로 인해 매우 자연스러운 망각 과정을 촉발했을 수 있다는 가정을 세울 수 있다. 그렇다면 엔그램이 손상되지 않았기 때문에 기억 상실 중 일부는 되돌릴 가능성이 열려있다. 이는 병적인 기억 상실에 대해 매우 다른 접근 방식이 될 수도 있다.


Forgetting is a fact of life—one that many people find frustrating. But mounting evidence pushes back at the notion that a slip or lapse in our recollection is inherently bad. Indeed, forgetting can sometimes help people cope psychologically or let go of useless knowledge. In a new study, neuroscientist Tomás Ryan of Trinity College Dublin and his colleagues have examined the fundamental biology underlying a form of forgetting we experience every day. Their work suggests that when we can’t recall an old phone number or a high school teacher’s name, those details are not necessarily lost. As Ryan explained to Mind Matters editor Daisy Yuhas, forgetting may be an active process that the brain uses to support learning. He also discussed how dementia may ultimately reflect disordered forgetting more than lost memories.

[An edited transcript of the interview follows.]

You study an idea that some people may find counterintuitive: forgetting can be part of learning. How so?

We often think of forgetting as a deficit of the brain or a limitation. Memory loss from dementia or brain trauma, for example, can be devastating.

But we also experience “everyday forgetting” as we go about our lives—because there’s just so much going on. We’re expected to learn and retain many things in order to function in modern society. Some are quite arbitrary, such as having to memorize facts you'll never need again for school exams. Others are not so arbitrary but are still quite demanding, such as the knowledge you build to become a practicing doctor.

Although we may think of forgetting as a nuisance, and it often is, it could be a feature of the brain rather than a bug. A growing body of research in neuroscience is beginning to examine the idea that forgetting is adaptive rather than limiting.

So forgetting comes in many forms?

There are different kinds that people generally consider distinct. We may use the word amnesia for a kind of forgetting that most people would agree is neither adaptive nor beneficial. Some forms of amnesia make it difficult to form new memories. Others make it difficult to recall memories formed before an injury.

But everyday forgetting is different. If you forget where you parked your car, nobody calls that amnesia. Or if you don’t do very well on your finals, you don’t get to tell your professor, “Oh, sorry, I had amnesia that day.” These cases represent a form of forgetting where you don’t have a ready grasp of desired memories for that context.

In your new study, you examine everyday forgetting in rodents. What did these mice have to learn?

Mice are very curious creatures. We trained them to associate an object with a room or an environment. So we presented the mice with objects—such as a tube or a cone—that they had never seen before in a given context.

Then, the next day or a week later, we asked the mice to inspect two objects: one that had been associated with that context and another that had not. Usually the animals would inspect the novel object for a given context. But if they had forgotten the association, both objects seemed new, and the mice explored both equally.

We also studied fear conditioning, where the animals received a very mild electric shock—it did them no harm—for a few seconds in a particular context. They later showed a freezing behavior in that same environment, provided that they remembered it. If the mice froze less in that context, they had forgotten the association.

How did you encourage them to forget?

Natural forgetting is believed to occur for many reasons. Memories may simply fade over time. But forgetting can also be caused by “retroactive interference,” which is when you experience two events that are quite similar close in time. The memory of one interferes with the other.

This is a very well-studied effect and one we can control in our own experiments, which is why we used this approach with the mice. So for example, after presenting mice with objects in context A, they were placed in context B with identical objects. That second experience made it harder for them to remember associations from context A.

You also monitored memory formation in the brain. How, exactly, did you do so?

The brain is different before and after learning information. That difference is accounted for by physical or chemical changes in the brain’s structure. We call a brain change that occurs during learning and that is required for memory an engram.

In the past 10 years, the ability to label and manipulate specific engrams in the rodent brain has really transformed the memory field—and, by extension, the forgetting field. Identifying where an engram is located is like looking for a needle in a very, very large haystack. The human brain, for example, has billions of neurons and trillions of synapses, and there is change going on all the time. Some of it has nothing to do with memory.

To find an engram, we use genetic techniques to hijack what are called immediate early genes, which express themselves only when a particular neuron is active. The result is that we can genetically label those cells in a permanent way. By doing this, we essentially tag cells that we know are active in a given time window—such as when the brain is forming a memory.

[Read more about the search for engrams]

By putting these methods together, you had a way to both watch as mice learned or forgot associations and observe the brain cells linked to memories. What did that reveal?

We were able to show that in cases of retroactive interference, memories survived this type of forgetting and could be reexpressed. Nothing was wrong with those original memories, even though the mice had failed to recall them. Not only were the engrams there, but they were also healthy and functional.

In addition to tagging engram cells, we labeled cells with optogenetic receptors, which are ion channels that are activated by light. This combination allowed us to turn specific memory engrams on and off. When we did that, we found we could get mice to recall forgotten memories just by stimulating these engram cells.

We also found that if we optogenetically blocked the engram cells at the same time that we put mice in situations that would interfere with memory formation, the mice did not forget. In other words, you need activity in engram cells for forgetting to occur.

Does that mean our brain is suppressing a memory to help us learn?

Forgetting may be caused by competition between different memories. Therefore, you could say that forgetting is a form of learning and decision-making. The animal’s brain creates a competing engram, and then the brain must decide which engram to express in a given environment and moment.

How does this fit into studies of memory loss linked to trauma or dementia?

When I was a postdoc at the Massachusetts Institute of Technology, my colleagues and I did one of the first studies that integrated optogenetics and engram labeling. We studied amnesia both with drugs that impair memory consolidation and with genetically altered mice that serve as models of early Alzheimer’s disease. There, too, we found we could optogenetically stimulate the engrams for forgotten memories—and the memories were recalled.

Since then, other research groups have found the same thing for models of Alzheimer’s, age-related memory loss, stress-related memory loss and sleep-deprivation-induced amnesia. In every case, the engram survives—but the memory can only be retrieved with optogenetic activation.

In the recent study done in my lab in Dublin, we looked at natural forgetting using engram manipulation for the first time. In addition, we found that a short reminder training session, for example, could help animals reaccess those same engram cells.

You can’t do that in the Alzheimer’s mouse model. If you retrain those mice on the same behavior, they can learn it, but they make a new engram for it.

Could your new study inform how we look at dementia?

Even though our study did not involve people with Alzheimer’s or any disease model, it may open up some interesting doors. What might be happening in diseases such as Alzheimer’s is that natural forgetting processes—including retroactive interference—may be misactivated. As a result, engrams are surviving but not being expressed in the right way.

In other words, instead of the disease causing memory loss because it has somehow degraded the engrams, it may be triggering a very natural process of forgetting but for maladaptive reasons. If so, some of that memory loss may even be reversible because the engrams are intact. That would be a very different way of thinking about pathological memory loss, and it’s something that we hope to test in the future.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 후가쿠 슈퍼컴퓨터 활용한 일본어 LLM 개발, 문화와 언어 장벽 넘어 기술 주권 확보 나선다

[해외 DS] 후가쿠 슈퍼컴퓨터 활용한 일본어 LLM 개발, 문화와 언어 장벽 넘어 기술 주권 확보 나선다
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


일본 슈퍼컴퓨터 후가쿠는 일본어 버전의 ChatGPT를 개발하기 위해 일본어 텍스트를 소화하는 작업에 투입되었다/사진=Scientific American

일본은 ChatGPT의 독자 버전을 구축하고 있다. 일본 정부와 NEC, 후지쯔, 소프트뱅크와 같은 대형 기술 기업들은 수억 달러를 투자해 대규모 언어 모델(Large Language Models, 이하 LLM)을 기반으로 영어판의 번역이 아닌 일본어를 사용하는 AI 시스템을 만들고 있다.

"현재 공개된 LLMs는 영어에서는 뛰어나지만 알파벳 체계의 차이, 제한된 데이터 및 기타 요인으로 인해 일본어에서는 종종 부족한 성능을 보인다"라고 자연어 처리를 전문으로 하는 일본 도호쿠대학의 연구원 사카구치 케이스케가 전했다.

학습 언어 편향

LLM은 방대한 양의 데이터로 자연스러운 음성 및 산문의 패턴을 학습한다. 해당 알고리즘은 텍스트의 이전 단어를 기반으로 다음 단어를 예측하도록 학습됐다. ChatGPT의 이전 모델 GPT-3가 학습한 텍스트의 대부분은 영어로 된 자료다.

사람처럼 대화할 수 있는 ChatGPT의 섬뜩한 능력은 연구자들에게 기쁨과 우려를 동시에 안겨주었다. 어떤 이들은 이 기술을 잠재적인 노동력 절감 도구로 보고 있고, 다른 이들은 과학 논문이나 데이터를 조작하는 데 사용될 수 있다고 우려하고 있다.

일본에서는 다른 언어를 학습한 AI 시스템이 일본의 언어와 문화의 복잡성을 파악하지 못할 수 있다는 우려가 있다. 일본어의 문장 구조는 영어와 완전히 다르다. 따라서 ChatGPT는 일본어 프롬프트를 영어로 번역하고 답을 찾은 다음 다시 일본어로 번역해서 답변을 주고 있다.

영어는 문자가 26개에 불과하지만, 일본어는 두 종류의 48개 기본 문자와 2,136개의 자주 사용되는 일본어 한자로 구성되어 있다. 대부분의 일어는 두 가지 이상의 발음이 있으며, 드물게 사용되는 일어는 5만 개 정도 더 존재한다. 이러한 복잡성을 고려할 때 영어 ChatGPT의 사용은 적절해 보이지 않는다. "사람들이 잘 모르는 극히 희귀한 문자나 이상한 단어가 생성되기도 한다"라고 사카구치가 말했다.

문화 적합성

LLM이 상업적으로 사용되고 유용한 도구로 인식되려면 언어뿐만 아니라 문화적 관행을 정확하게 반영해야 한다. 그렇지 않으면 ChatGPT에 일본어로 입사 지원 이메일을 작성하라고 명령하면 일반적인 예의 표현이 생략되고 영어를 번역한 것처럼 보이는 문제가 발생한다.

한 연구 그룹은 언어 모델들이 일본 관련 주제에 얼마나 잘 대답할 수 있는지를 평가하는 라쿠다(Rakuda) 순위를 발표했다. 라쿠다의 공동 창립자인 샘 파사글리아(Sam Passaglia)와 그의 동료들은 모델 간 답변의 유창함과 문화적 적합성을 비교하기 위해 ChatGPT에 질문했다. 6월에 발표된 출판 전 논문에 따르면 라쿠다를 사용하여 순위를 매긴 결과, GPT-4는 87%의 확률로 인간의 평가  일치하는 것으로 나타났다. 일본 오픈소스 LLM은 Rakuda에서 4위를 차지했으며, 1위는 대회 심사위원이기도 한 GPT-4가 차지했다. 어쩌면 당연한 결과다.

"확실히 일본어 LLM이 더 좋아지고 있지만 GPT-4에는 훨씬 뒤처져 있습니다."라고 파사글리아가 밝혔다. 하지만 일본어 LLM이 향후 GPT-4와 동등하거나 능가하지 못할 이유는 없다고 그는 말한다. "이것은 기술적으로 극복할 수 없는 것이 아니라 자원의 문제일 뿐입니다."

일본어 LLM을 만들기 위해 많은 공을 들였다. 세계에서 가장 빠른 슈퍼컴퓨터 중 하나인 후가쿠를 사용하여 모델을 학습시켰다. 도쿄공업대학, 도호쿠대학, 후지쯔, 이화학연구소(RIKEN) 그룹의 지원을 받아 완성된 LLM은 내년에 오픈소스로 출시될 예정이다. 이 프로젝트에 참여하고 있는 사카구치에 따르면 최소 300억개 이상의 파라미터를 가진 모델을 제공하고자 한다며 이를 목표로 하고 있다고 전했다.

한편 후가쿠 LLM은 더 큰 규모의 프로젝트에 의해 계승될 수도 있다. 일본 문부과학성(MEXT)은 과학적 요구에 맞춰 특화된 AI 프로그램 개발에 자금을 지원하고 있다. 발표된 연구 자료를 학습하여 과학적 가설을 생성하고 탐구 대상에 대한 정보를 빠르게 제공하기 위한 과학 AI 모델이다. 이 모델은 GPT-3의 절반이 조금 넘는 1,000억 개의 매개변수에서 시작해서 점차 확장될 것이다.

AI 프로그램으로 "과학 연구 주기를 획기적으로 가속화하고 검색 가능 범위를 확장하기를 희망한다"라고 이화학연구소 바이오시스템 역학연구센터의 마코토 타이지 부소장은 강조했다. LLM 개발에는 최소 300억 엔(2억4천만 달러)이 투입될 것으로 예상되며, 2031년에 공개될 예정이다.

역량 강화

다른 일본 기업들도 이미 자체 LLM 기술을 상용화했거나 상용화할 계획이다. 슈퍼컴퓨터 제조업체인 NEC는 지난 5월부터 일본어 기반의 생성형 AI를 사용하기 시작했으며, 이를 통해 내부 보고서 작성 시간을 50%, 내부 소프트웨어 소스 코드 작성 시간을 80% 단축할 수 있다고 주장했다. 7월에는 고객에게 맞춤형 생성형 AI 서비스를 제공하기 시작했다.

NEC 데이터 과학 연구소의 수석 연구원 마사후미 오야마다는 "금융, 운송, 물류, 유통, 그리고 제조와 같은 광범위한 산업에서 사용할 수 있다"라고 설명했다. 그는 연구자들이 코드 작성, 논문 작성 및 편집 지원, 기존에 발표된 논문 조사 등의 작업에 활용할 수 있다고 덧붙였다.

일본 통신 회사 소프트뱅크는 일본어 텍스트로 학습된 생성형 AI에 약 200억 엔을 투자하고 있으며, 내년에 자체 LLM을 출시할 계획이다. OpenAI 투자자인 Microsoft와 파트너십을 맺고 있는 소프트뱅크는 기업이 비즈니스를 디지털화하고 생산성을 높일 수 있도록 지원하는 것이 목표라고 밝혔다. 소프트뱅크는 대학, 연구 기관 및 기타 조직에서 자사 LLM을 사용할 것으로 예상한다.

일본 연구자들은 정확하고 효과적인 '메이드 인 재팬' AI 챗봇이 과학을 가속화하고 일본과 다른 나라 간의 기술 격차를 해소하는 데 도움이 될 수 있기를 희망하고 있다.

도쿄 게이오대학교 의과대학의 의료 기술 연구원 키노시타 쇼타로는 "일본어판의 ChatGPT를 정확하게 만들 수 있다면 일본어를 배우거나 일본에 관해 연구하려는 사람들에게 더 나은 연구 환경을 제공할 것으로 기대한다"라고 말했다. "결과적으로 국제 공동 연구에도 긍정적인 영향을 미칠 수 있습니다."


Japan is building its own versions of ChatGPT — the artificial intelligence (AI) chatbot made by US firm OpenAI that became a worldwide sensation after it was unveiled just under a year ago.

The Japanese government and big technology firms such as NEC, Fujitsu and SoftBank are sinking hundreds of millions of dollars into creating AI systems that are based on the same underlying technology, known as large language models (LLMs), but that use the Japanese language, rather than translations of the English version.

“Current public LLMs, such as GPT, excel in English, but often fall short in Japanese due to differences in the alphabet system, limited data and other factors,” says Keisuke Sakaguchi, a researcher at Tohoku University in Japan who specializes in natural language processing.

ENGLISH BIAS
LLMs typically use huge amounts of data from publicly available sources to learn the patterns of natural speech and prose. They are trained to predict the next word on the basis of previous words in a piece of text. The vast majority of the text that ChatGPT’s previous model, GPT-3, was trained on was in English.

ChatGPT’s eerie ability to hold human-like conversations, has both delighted and concerned researchers. Some see it as a potential labour-saving tool; others worry that it could be used fabricate scientific papers or data.

In Japan, there’s a concern that AI systems trained on data sets in other languages cannot grasp the intricacies of Japan’s language and culture. The structure of sentences in Japanese is completely different from English. ChatGPT must therefore translate a Japanese query into English, find the answer and then translate the response back into Japanese.

Whereas English has just 26 letters, written Japanese consists of two sets of 48 basic characters, plus 2,136 regularly used Chinese characters, or kanji. Most kanji have two or more pronunciations, and a further 50,000 or so rarely used kanji exist. Given that complexity, it is not surprising that ChatGPT can stumble with the language.

In Japanese, ChatGPT “sometimes generates extremely rare characters that most people have never seen before, and weird unknown words result”, says Sakaguchi.

CULTURAL NORMS
For an LLM to be useful and even commercially viable, it needs to accurately reflect cultural practices as well as language. If ChatGPT is prompted to write a job-application e-mail in Japanese, for instance, it might omit standard expressions of politeness, and look like an obvious translation from English.

To gauge how sensitive LLMs are to Japanese culture, a group of researchers launched Rakuda, a ranking of how well LLMs can answer open-ended questions on Japanese topics. Rakuda co-founder Sam Passaglia and his colleagues asked ChatGPT to compare the fluidity and cultural appropriateness of answers to standard prompts. Their use of the tool to rank the results was based on a preprint published in June that showed that GPT-4 agrees with human reviewers 87% of the time1. The best open-source Japanese LLM ranks fourth on Rakuda, while in first place, perhaps unsurprisingly given that it is also the judge of the competition, is GPT-4.

“Certainly Japanese LLMs are getting much better, but they are far behind GPT-4,” says Passaglia, a physicist at the University of Tokyo who studies Japanese language models. But there is no reason in principle, he says, that a Japanese LLM couldn’t equal or surpass GPT-4 in future. “This is not technically insurmountable, but just a question of resources.”

One large effort to create a Japanese LLM is using the Japanese supercomputer Fugaku, one of the world’s fastest, training it mainly on Japanese-language input. Backed by the Tokyo Institute of Technology, Tohoku University, Fujitsu and the government-funded RIKEN group of research centres, the resulting LLM is expected to be released next year. It will join other open-source LLMs in making its code available to all users, unlike GPT-4 and other proprietary models. According to Sakaguchi, who is involved in the project, the team hopes to give it at least 30 billion parameters, which are values that influence its output and can serve as a yardstick for its size.

However, the Fugaku LLM might be succeded by an even larger one. Japan’s Ministry of Education, Culture, Sports, Science and Technology is funding the creation of a Japanese AI program tuned to scientific needs that will generate scientific hypotheses by learning from published research, speeding up identification of targets for enquiry. The model could start off at 100 billion parameters, which would be just over half the size of GPT-3, and would be expanded over time.

“We hope to dramatically accelerate the scientific research cycle and expand the search space,” Makoto Taiji, deputy director at RIKEN Center for Biosystems Dynamics Research, says of the project. The LLM could cost at least ¥30 billion (US$204 million) to develop and is expected to be publicly released in 2031.

EXPANDING CAPABILITIES
Other Japanese companies are already commercializing, or planning to commercialize, their own LLM technologies. Supercomputer maker NEC began using its generative AI based on Japanese language in May, and claims it reduces the time required to create internal reports by 50% and internal software source code by 80%. In July, the company began offering customizable generative AI services to customers.

Masafumi Oyamada, senior principal researcher at NEC Data Science Laboratories, says that it can be used “in a wide range of industries, such as finance, transportation and logistics, distribution and manufacturing”. He adds that researchers could put it to work writing code, helping to write and edit papers and surveying existing published papers, among other tasks.

Japanese telecommunications firm SoftBank, meanwhile, is investing some ¥20 billion into generative AI trained on Japanese text and plans to launch its own LLM next year. Softbank, which has 40 million customers and a partnership with OpenAI investor Microsoft, says it aims to help companies digitize their businesses and increase productivity. SoftBank expects that its LLM will be used by universities, research institutions and other organizations.

Meanwhile, Japanese researchers hope that a precise, effective and made-in-Japan AI chatbot could help to accelerate science and bridge the gap between Japan and the rest of the world.

“If a Japanese version of ChatGPT can be made accurate, it is expected to bring better results for people who want to learn Japanese or conduct research on Japan,” says Shotaro Kinoshita, a researcher in medical technology at the Keio University School of Medicine in Tokyo. “As a result, there may be a positive impact on international joint research.”

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 수학자가 본 '더 라인', "가장 비효율적인 도시 형태, 원형이 더 낫다"

[해외 DS] 수학자가 본 '더 라인', "가장 비효율적인 도시 형태, 원형이 더 낫다"
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


원형 도시가 선형 도시보다 더 효율적이라고 한 수학자와 물리학자가 주장했다/사진=Scientific American

2022년 10월 사우디아라비아 사막에 106마일(약 170km) 길이의 도시를 건설하는 메가 프로젝트 '더 라인(the Line)' 공사가 시작되었다. 인구 약 4만5천 명이 거주하는 버몬트주 벌링턴과 비슷한 13제곱마일(약 1천만 평)의 면적에 900만 명이 거주할 계획이다.

더 라인은 독특한 도시 계획 콘셉트를 가지고 있다. 약 1,600피트(약 500미터) 높이의 고층 빌딩 두 줄이 약 650피트 (약 200미터) 너비로 서로 마주 보고 사막 도시를 벽처럼 에워싸는 형태로 구성될 것이다. 또한 지속 가능한 친환경 도시 설계로 자동차는 길에 돌아다니지 않고 모든 에너지 공급 과정에서 배기가스를 배출하지 않을 전망이다.

이동 효율성 낮아

그러나 오스트리아의 민간 연구기관인 '복잡성 과학 허브 빈'(Complexity Science Hub Vienna, CSH)의 연구진인 수학자 라파엘 프리에토-쿠리엘(Rafael Prieto-Curiel)과 물리학자 다니엘 콘도르(Dániel Kondor)는 지난 6월에 'npj 도시 지속가능성(Urban Sustainability)' 온라인 저널에 발표한 논문에서 수학적 관점에서 볼 때 더 라인이 특별히 지속 가능하지 않다고 주장했다. 프리에토-쿠리엘은 CSH의 보도 자료에서 "선은 가장 효율성이 낮은 도시 형태"라고 말했다. 그리고 도시는 일반적으로 둥글다고 덧붙였다.

선형 접근법의 가장 큰 문제점은 거리가 너무 멀다는 점이다. 더 라인 도시에서 무작위로 두 사람을 선택하면 평균적으로 35마일(약 60km) 정도 떨어져 있다고 프리에토-쿠리엘과 콘도르가 분석했다. 그에 반해 남아프리카의 대도시 요하네스버그는 면적이 853제곱마일(더 라인 면적의 약 65배)에 달하지만, 무작위로 선택한 두 사람의 평균 거리는 21마일(약 33 km) 정도밖에 떨어져 있지 않다.

사우디 아라비아에서 2022년 10월에 '더 라인' 건설이 시작되었다/사진=Scientific American

더 라인의 교통 및 이동성 문제를 해결하기 위해 고속철도가 들어설 예정이다. 그러나 이 솔루션이 효과를 발휘하려면 모든 주민이 차 없는 대도시에서 도보 거리 내에 정거장을 이용할 수 있도록 약 86개의 역이 필요하다. 정거장이 많으면 각 여정의 소요 시간이 길어지고 열차가 원하는 고속에 도달하지 못할 수도 있다. 또한 통근자들은 목적지까지 이동하는 데 평균 60분 이상 걸린다는 계산이 나온다.

2차원 도시의 장점

연구자들에 따르면 더 효율적인 해결책은 '더 서클'이다. 더 라인에 계획된 고층 빌딩이 원형으로 배치되면 장거리 문제가 해소된다. 더 라인과 같은 면적(13제곱마일)의 원은 지름이 4.1마일에 불과하기 때문이다. 더 서클에서는 무작위로 뽑힌 두 사람 사이의 평균 거리는 1.8마일(더 라인에 비해 19배 짧다) 밖에 안 된다. 이론적으로 모든 것이 도보 거리 내에 있으므로 고속 열차가 전혀 필요하지 않을 것이다. 버스 노선과 자전거 도로 몇 개만 추가하면 충분하다. 프리에토-쿠리엘과 콘도르는 논문에서 둥근 도시 형태가 디자인적인 측면에서는 덜 감각적일 수 있지만 "통근 거리와 교통에 필요한 에너지를 줄일 수 있으므로 더 바람직하다"라고 강조했다.

이러한 이점의 주된 이유는 수학적 관점에서 볼 때 원형은 2차원이고 선은 1차원이기 때문이다. 1차원에서 도달할 수 있는 장소의 수는 사람이 걷고자 하는 거리에 따라 선형적으로 증가하는 반면, 2차원에서는 거리의 제곱에 따라 방문할 수 있는 장소의 숫자가 증가한다.

또한 1차원 구조물은 2차원 구조물보다 훨씬 더 위험하다. 예를 들어 기차역에서 화재가 발생하면 많은 사람이 대부분의 도시 시설로 부터 직접적으로 단절된다.

'더 라인'을 향한 그의 비판에도 불구하고 프리에토-쿠리엘은 최근 보도 자료에서 도시 형태와 개발에 관한 관심이 시의적절하고 중요하다는 긍정적인 의견을 남겼다. "특히 아프리카의 도시는 많이 성장하고 있습니다"라고 덧붙였다.


In October 2022 construction work began on a megaproject called “the Line,” a 106-mile-long city in the Saudi Arabian desert. The plan is for nine million people to live within a mere 13 square miles—an area comparable to Burlington, Vt., which is home to only about 45,000 inhabitants.

This feat will be achieved through a unique urban planning concept: the Line will consist of two long rows of about 1,600-foot skyscrapers that will face each other at roughly 650 feet, enclosing the desert city like a wall. In addition, urban life will be as sustainable as possible. Cars will have no place in this futuristic city. The entire energy supply will be emission-free.

But in a paper published in June in npj Urban Sustainability, mathematician Rafael Prieto-Curiel and physicist Dániel Kondor, both at the Complexity Science Hub Vienna (CSH), argue that the Line is not particularly sustainable from a mathematical perspective. “A line is the least efficient possible shape of a city," Prieto-Curiel said in a press release about the research from CSH. He added that, instead, cities are typically round.

The main problem with the linear approach is the huge distances involved. Pick two people at random from the planned city, and they will be, on average, 35 miles apart, Prieto-Curiel and Kondor calculate. By way of comparison, consider the South African metropolis of Johannesburg. Its greater metropolitan area has a similar number of inhabitants as the Line will in the future but spreads over 853 square miles. In Johannesburg, two people are only about 21 miles apart on average.

High-speed rail is intended to solve transport and mobility issues in the Line. But for this solution to work, the city will need around 86 stations so that every inhabitant has a stop within walking distance in this car-free metropolis. The many stops will increase the duration of each journey—and prevent trains from reaching the desired high speeds. In addition, a commuter will spend more than 60 minutes traveling to their destination on average, Prieto-Curiel and Kondor calculate.

THE ADVANTAGE OF TWO-DIMENSIONAL CITIES
According to the researchers, a more efficient solution is obvious: “the Circle.” If the skyscrapers planned in the Line were arranged in the round, that would solve the problems of long distances. A circle with the same area as the Line (13 square miles) has a diameter of merely 4.1 miles.

The average distance between two people picked at random would then be just 1.8 miles. A high-speed train would not be necessary at all because theoretically everything would be within walking distance. A few additional bus lines and bicycle routes would suffice. The round city shape would be less sensational from a design perspective but more “desirable since it reduces commuting distances and the energy required for transport,” Prieto-Curiel and Kondor write in their paper.

The main reason for this advantage is that, from a mathematical perspective, a circular area is two-dimensional, while a line is one-dimensional. In one dimension, the number of reachable places scales linearly with the distance a person is willing to walk. In two dimensions, the number increases with the square of the distance.

Furthermore, one-dimensional structures are much more vulnerable than those in higher dimensions. For instance, if a fire breaks out in a train station in the Line, many people will be directly cut off from much of the city.

Amid his and Kondor’s critiques, Prieto-Curiel offered one positive note in the recent press release: attention to urban form and development is timely and important, he said. “Cities, especially in Africa, are growing,” Prieto-Curiel added.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] "AI 시대의 의료, 스몰 데이터에 주목해야", 인간 경험 중심의 의료 AI 개발 시급

[해외 DS] "AI 시대의 의료, 스몰 데이터에 주목해야", 인간 경험 중심의 의료 AI 개발 시급
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

몇 년 전, 필자는 국제 의료 콘퍼런스에 참석하여 미국의 사회경제적 수준이 낮은 사람들을 대상으로 한 당뇨병 중재연구 기조연설을 간절히 기다렸다. 연설자는 연구자와 의사가 패턴 인식을 사용하여 당뇨병 환자를 위한 치료 프로그램을 더 잘 설계할 수 있게 해준 AI 도구에 대해 언급했다.

발표 연구의 대상자는 전형적인 55세의 흑인 여성으로, 7~8학년 수준의 읽기 수준과 비만을 나타내는 체질량 지수를 가진 여성이었다. 이 여성은 일반적인 당뇨병 치료 프로그램을 거의 따르지 않았고, 치료 계획을 잘 지켰는지 여부가 '예' 또는 '아니요'라는 이분법적인 문답으로 축소되어 있다는 점이 필자를 괴롭혔다. 또한, 일상생활에서 건강 문제를 일으키고 치료 약속을 잘 지키지 못하게 만드는 요인 등 그녀의 실제 경험(lived experience)을 고려한 흔적이 없었다.

이 알고리즘은 무엇보다도 약물, 실험실 검사, 진단 코드 등의 데이터에 의존했으며, 의사들은 편향된 연구 결과에 근거하여 중년의 저소득 흑인 여성에게 맞지 않은 의료 서비스를 제공하고 치료 계획을 세우게 된다. 이러한 관행은 의심할 여지 없이 건강 격차와 건강 불평등을 가중할 것이다.

스몰 데이터가 필요한 이유

의료 분야에서 AI 시스템을 구축하고 알고리즘을 사용하면서 진정한 형평성을 원한다면 의료 프로세스 및 생태계 전반에 걸쳐 보다 전체론적 접근 방식이 필요하다. 이를 위해서는 AI 개발자가 다양한 배경을 가지고 있어야 하며, '스몰 데이터'(인간의 경험, 선택, 지식, 더 넓게는 사회적 결정 요인에 대한 정보)로 학습해야 한다. 이를 통해 임상적 오류를 방지하면 비용을 절감하고 진단에 따른 낙인을 줄이며 더 나은 삶으로 이어질 것이다.

의료 AI의 근본적인 결점 중 하나는 의료 기록, 영상 및 바이오마커와 같은 빅 데이터에 지나치게 의존하면서 스몰 데이터는 등한시한다는 점이다. 스몰 데이터는 사람들이 의료 서비스를 이용할 수 있는지와 의료 서비스 제공 방식, 그리고 사람들이 치료 계획을 준수할 수 있는지를 이해하는 데 매우 중요하다. 스몰 데이터가 없으면 AI는 편향성을 계속 유지할 뿐만 아니라 편견을 조장할 수 있다.

당뇨병에 관한 AI 모델을 스몰 데이터로 학습시켰다면, 병원과 멀리 떨어져서 생활하는 환자의 사정과 업무 시간 중에 병원에 가기 어려운 직장에 근무한다는 사실 그리고 '음식 사막(food desert)'환경에 처한 어려움을 고려한 예측을 보여줬을 것이다. 음식 사막 지역에서 생활하는지가 중요한 이유는 당뇨병이 있는 사람(16%)이 그렇지 않은 사람(9%)보다 '식량 불안(food insecurity)'이 더 흔하기 때문에 영양가 있는 음식과 신체 활동 기회에 대한 접근이 제한된 환자의 환경을 파악해야 한다.

이러한 요인은 사회경제적 지위의 일부로, 소득뿐만 아니라 사회 계층, 교육 수준, 사회에서 주어진 기회와 특권에 관해 얘기한다. 더 나은 알고리즘 사용을 위해선 건강 형평성과 함께 건강에 대한 사회적 결정 요인 고려하는 데이터를 포함하는 것이다. 요컨대 경제적 안정성, 이웃 또는 환경 속성, 사회 및 지역 사회 문화, 교육과 의료의 접근성 및 품질이 포함될 수 있다. 해당 정보들을 담은 AI는 중년의 흑인 여성이 왜 권장 사항(병원 방문, 의약품 복용 횟수, 신체 활동, 지역 지원 활동 등)을 잘 따르지 못하는지 더 많은 맥락을 제공할 수 있다. 이런 배경지식을 고려했으면 치료 프로토콜에는 약효가 더 오래 지속되는 약물, 이동이 필요 없는 중재 프로그램 등이 포함될 수 있다.

빅 데이터가 낳은 편향

안타깝게도 콘퍼런스에서 발표한 이 연구에서 얻은 결론은 연구에 참여한 전형적인 흑인 여성이 자신의 건강 상태와 건강에 미치는 만성적 영향에 대해 신경 쓰지 않는다는 것이었다. 이러한 연구 결과는 종종 편협하게 해석되며 환자의 전반적인 삶의 경험과 조건을 고려하지 않는다. 이 결과를 바탕으로 만들어진 임상적 권장 사항은 사회적 결정 요인을 배제하고, 흑인 여성 환자가 어떻게 생활하고, 일하고, 여행하고, 예배를 드리고, 나이를 먹는지 등 '어떻게'에 대한 이해 없이 제공된다. 이는 의학적으로 매우 해로운 결과를 초래한다.

예측 모델링과 생성형 AI 및 기타 많은 기술 발전이 공중 보건 및 생명 과학 분야에서 폭발적으로 이루어지고 있지만, 프로젝트 생애주기의 각 단계에서 소규모 데이터는 적극적으로 사용하지 않고 있다. 코로나19 팬데믹의 경우, 피부가 어두운 사람은 피부가 밝은 사람보다 산소 보충 및 구명 치료를 받을 가능성이 작았는데, 이는 피부가 어두울수록 산소포화도 측정기가 환자의 혈액 내 산소량을 과대평가하고 코로나19의 중증도를 과소평가하게 된다는 점을 고려하지 않았기 때문이다.

기술 도입에 있어서 성급한 판단이나 결과를 내리기보다는 기술이 보건 의사 결정의 형평성에 미치는 영향을 예측하고 그에 대해 비판적인 질문을 던져야 한다. 알고리즘은 심장학, 영상의학, 신장학 등에서 인종적 편견을 초래하는 것으로 나타났다.

고용 다양성

의료 AI의 인종 편향은 인사 문제와 맞닿아 있다. 2018년 현직 의사 중 흑인은 5%, 히스패닉 또는 라틴계는 약 6%에 불과했다. 환자와 비슷하고 자신이 진료하는 지역 사회에 대해 어느 정도 이해하고 있는 의사가 스몰 데이터가 되는 것들에 대해 질문할 가능성이 더 높다. AI 플랫폼을 구축하는 사람들도 마찬가지다. 아메리칸 인디언이나 알래스카 원주민뿐만 아니라 같은 그룹(흑인과 히스패닉 또는 라틴계)에서 과학 및 공학 교육이 감소했다. AI 개발, 사용 및 결과 해석에 다양한 그룹의 사람들을 참여시켜야 한다.

의료 차별과 격차 문제 해결은 다각도에서 접근해야 한다. 필자의 책 Leveraging Intersectionality: Seeing and Not Seeing에서도 강조하지만  어떤 조직이든 포용적인 인재와 리더십을 육성해야 하고 유색인종을 채용하고 유지하며 유색인종의 조직 경험을 이해하려는 의지가 있어야 한다.

AI의 스몰 데이터 패러다임은 생생한 경험을 풀어내는 데 도움이 될 수 있다. 스몰 데이터를 포함해서 학습 데이터에 진실을 드러내고, 인간의 상황을 고려한 코딩과 계산이 포함되어 궁극적으로 지나치게 일반화된 대상에 대한 편견을 줄여나가야 한다. 그러기 위해서 의료와 기술 분야 모두에서 인재 다양성을 장려하고 스몰 데이터를 포함하여 당뇨병 연구에 사용된 인공지능처럼 이분법적으로 판단하지 말아야 한다.


Without Small Data, AI in Health Care Contributes to Disparities
Credit: Tek Image/Science Photo Library/Getty Images
Several years ago, I attended an international health care conference, eagerly awaiting the keynote speaker’s talk about a diabetes intervention that targeted people in lower socioeconomic groups of the U.S. He noted how an AI tool enabled researchers and physicians to use pattern recognition to better plan treatments for people with diabetes.

The speaker described the study, the ideas behind it and the methods and results. He also described the typical person who was part of the project: a 55-year-old Black female with a 7th to 8th grade reading level and a body mass index suggesting obesity. This woman, the speaker said, rarely adhered to her normal diabetes treatment plan. This troubled me: whether or not a person adhered to her treatment was reduced to a binary yes or no. And that did not take into consideration her lived experience—the things in her day-to-day life that led to her health problems and her inability to stick to her treatment.

The algorithm rested on data from medications, laboratory tests and diagnosis codes, among other things, and, based on this study, doctors would be delivering health care and designing treatment plans for middle-aged, lower-income Black women without any notion of how feasible those plans would be. Such practices would undoubtedly add to health disparities and health inequity.

As we continue to build and use AI in health care, if we want true equity in access, delivery and outcomes, we need a more holistic approach throughout the health care process and ecosystem. AI developers must come from diverse backgrounds to achieve this, and they will need to train their systems on “small data”—information about human experience, choices, knowledge and, more broadly, the social determinants of health. The clinical errors that we will avoid in doing so will save money, shrink stigma and lead to better lives.

To me, one of the fundamental flaws of artificial intelligence in health care is its overreliance on big data, such as medical records, imaging and biomarker values, while ignoring the small data. Yet these small data are crucial to understanding whether people can access health care, as well as how it is delivered, and whether people can adhere to treatment plans. It's the missing component in the push to bring AI into every facet of medicine, and without it, AI will not only continue to be biased, it will promote bias.

Holistic approaches to AI development in health care can happen at any point; lived-experience data can inform early stages like problem definition, data acquisition, curation and preparation stages, intermediate work like model development and training, and the final step of results interpretation.

For example, if the AI diabetes model, based on a platform called R, had been trained on small data, it would have known that some participants needed to travel by bus or train for more than an hour to get to a medical center, while others worked jobs that made it difficult to get to the doctor during business hours. The model could have accounted for food deserts, which limit access to nutritious foods and physical activity opportunities, as food insecurity is more common in people with diabetes (16 percent) than in those without (9 percent).

These factors are part of socioeconomic status; this is more than income, and includes social class, educational attainment as well as opportunities and privileges afforded to people in our society. A better approach would have meant including data that captures or considers the social determinants of health along with health equity. These data points could include economic stability, neighborhood or environment attributes, social and community context, education access and quality, and health care access and quality.

All this could have given providers and health systems more nuance into why any one woman in the study might not be able to adhere to a regimen that includes many office visits, multiple medications per day, physical activity or community support groups. The treatment protocols could have included longer-acting medications, interventions that don’t require travel and more.

Instead, what we were left with in that talk was that the typical Black woman in the study does not care about her condition and its chronic health implications. Such research results are often interpreted narrowly and are absent of the “whole” life experiences and conditions. Clinical recommendations, then, exclude the social determinants of health for the “typical” patient and are given, reported and recorded without understanding the “how,” as in how does the Black female patient live, work, travel, worship and age. This is profoundly harmful medicine.

Predictive modeling, generative AI and many other technological advances are blasting through public health and life science modeling without small data being baked into the project life cycle. In the case of COVID-19 and pandemic preparedness, people with darker skin were less likely to receive supplemental oxygen and lifesaving treatment than people with lighter skin, because the rapid speed of algorithmic development of pulse oximeters did not take into account that darker skin causes the oximeter to overestimate how much oxygenated blood patients have—and to underestimate how severe a case of COVID-19 is.

Human-machine pairing requires that we all reflect rather than make a rush to judgment or results, and that we ask the critical questions that can inform equity in health decision-making, such as about health care resource allocation, resource utilization and disease management. Algorithmic predictions have been found to account for 4.7 times more health disparities in pain relative to the standard deviation, and has been shown to result in racial biases in cardiology, radiology and nephrology, just to name a few. Model results are not the end of the data work but should be embedded in the algorithmic life cycle.

The need for lived experience data is also a talent problem: Who is doing the data gathering and algorithmic development? Only 5 percent of active physicians in 2018 identified as Black, and about 6 percent identified as Hispanic or Latine. Doctors who look like their patients, and have some understanding of the communities where they practice, are more likely to ask about the things that become small data.

The same goes for the people who build AI platforms; science and engineering education has dropped among the same groups, as well as American Indians or Alaska Natives. We must bring more people from diverse groups into AI development, use and results interpretation.

How to address this is layered. In employment, people of color can be invisible but present, absent or unheard in data work; I talk about this in my book Leveraging Intersectionality: Seeing and Not Seeing. Organizations must be held accountable for the systems that they use or create; they must foster inclusive talent as well as leadership. They must be intentional in recruitment and retention of people of color and in understanding the organizational experiences that people of color have.

The small data paradigm in AI can serve to unpack lived experience. Otherwise, bias is coded in the data sets that do not represent truth, coding that embeds erasure of human context and counting that informs our interpretation—ultimately amplifying bias in “typical” patients’ lives. The data problem points to a talent problem, both at the clinical and technological levels. The development of such systems can’t be binary, like the AI in the diabetes study. Neither can the “typical” patient being deemed adherent or nonadherent be accepted as the final version of truth; the inequities in care must be accounted for.

This is an opinion and analysis article, and the views expressed by the author or authors are not necessarily those of Scientific American.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.