Skip to main content

[해외 DS] 반세기 만에 찾은 '아인슈타인 타일' ①, 아마추어 수학자의 놀라운 직관

[해외 DS] 반세기 만에 찾은 '아인슈타인 타일' ①, 아마추어 수학자의 놀라운 직관
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

50년 묵은 난제, '아인슈타인 타일' 해결
데이비드 스미스, '모자' 타일 발견해
모노타일 발견으로 타일 이론에 새로운 지평 열려

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


Einstein_Tile_ScientificAmerican_20231229
사진=Scientific American

2022년 11월 캐나다 워털루대의 크레이그 카플란(Craig S. Kaplan) 교수는 어떤 도형을 봐달라는 이메일을 받았다. 이 이메일 안에는 많은 사람들이 존재할 수 없다고 생각했던 '아인슈타인 타일'로 보이는 '모자' 도형이 그려져 있었다. 타일링(평면을 덮기 위해 도형을 배열하는 다양한 방법)에 관심 있는 '도형 애호가' 데이비드 스미스(David Smith)가 보낸 이메일인데, 그는 영국 요크셔에 있는 자택에서 여가 시간에 기하학 실험을 즐겨 하는 아마추어 수학자다. 그런 그가 반세기 동안 전이 없던 이 문제를 풀어냈다. 반복된 패턴 없이 단 하나의 모양으로 평면을 무한대로 메울 수 있는 '비주기적 모노타일(aperiodic monotile)'을 발견한 것이다.

카플란 교수는 스미스와 정기적으로 연락을 주고받으며 카플란 교수가 만든 프로그램에서 모자 타일로 평면이 무한대로 채워질 수 있는지 확인했다. 2023년에는 엄밀한 수학적 증명을 위해 타일링 이론 분야에서 잘 알려진 수학자 차임 굿맨-슈트라우스(Chaim Goodman-Strauss)와 소프트웨어 개발자 조셉 사무엘 마이어스(Joseph Samuel Myers)에게 추가로 연락을 취했다. 굿맨-슈트라우스 수학자와 마이어스가 모자 모양의 타일이 비주기적 모노타일임을 증명하는 동안 스미스로부터 새로운 메일이 도착했다. 메일에는 "또 다른 아인슈타인 타일을 찾은 것 같다"고 적혀있었다. 스미스의 모자는 시작에 불과했다. 이 모자는 '거북이', '유령', 그리고 예상했던 것보다 더 많은 통찰력을 제공하는 다른 수학적 경이로움으로 이어졌다.

Einstein_Tile1_ScientificAmerican_20231229
'모자' 모양의 비주기적 모노타일이 평면을 무한히 채우고 있다/사진=Scientific American

평면을 무한히 채우기 위해 필요한 두 가지 속성

수학자들이 본격적으로 타일을 연구하기 시작한 것은 20세기부터다. 이른바 평면의 타일링은 평면을 빈틈없이, 겹치지 않고 덮는 도형의 무한한 집합을 말한다. 여기서는 타일링에 포함된 무한히 많은 타일이 유한한 개수의 서로 다른 모양을 한 경우에 초점을 맞춘다. 무한한 테이블 위에 타일 도형을 잘라내어 테이블의 모든 부분이 한 겹의 종이로 덮이도록 하는 것이다. 반사(종이를 뒤집는 것), 회전(그 자리에서 돌리는 것), 평행이동(돌리지 않고 도형을 미는 것)을 조합하여 타일을 평면 위에 채워나갈 수 있다. 그 결과 도형의 집합은 타일링을 '인정'하게 되고, 더 일반적으로는 도형이 평면을 타일링할 수 있다고 표현한다.

모든 도형 집합이 타일링을 허용하는 것은 아니다. 정사각형은 모노타일(하나의 집합)로서 평면을 타일링 하지만, 정오각형은 그 자체로는 평면을 타일링할 수 없다. 마찬가지로 정팔각형도 스스로 평면을 타일링할 수 없지만, 정팔각형과 정사각형으로 구성된 집합은 평면을 타일링 할 수 있다.

Einstein_Tile2_ScientificAmerican_20231229
평면을 빈틈없이 채워야 "타일링이 됐다"고 표현할 수 있다/사진=Scientific American

그렇다면 주어진 도형 집합이 평면을 타일링하는지 어떻게 확인할 수 있을까. 이 질문에 답할 수 있는 알고리즘은 존재하지 않으며, 실제로 존재할 수도 없다. 이는 이론 컴퓨터 과학에서 '결정 불가능'으로 알려져 있다. 하지만 다른 방법을 통해 타일링을 증명할 수 있는데, 스미스의 모자가 등장하기 전에는 항상 두 가지 방식 중 하나로 작동했다.

첫 번째 속성은 도형을 그 자체의 복사본으로 완전히 둘러싸는 것을 시도해 보는 것이다. 그럴 수 없다면 도형은 타일링을 허용하지 않는 것이 확실하다. 하지만 한 층으로 에워싸는 것으로 타일링을 담보하지 못한다. 하나 이상의 동심층을 허용하는 기만적인 '비타일러'가 있기 때문이다. 1968년 수학자 하인리히 히쉬(Heinrich Heesch)는 한 번은 둘러싸일 수 있지만 두 번은 둘러싸일 수 없는 도형을 보여주며 비타일러 주위에 만들 수 있는 동심원의 수에 상한이 있는지 물었고, 이 수치는 도형의 '히쉬수'(Heesch number)로 알려져 있다. 현재 가장 높은 히쉬수는 6이며, 세르비아 노비사드대학의 보얀 바시치가 2020년에 발견한 히쉬 수 6은 매우 화려한 다각형이다.

Einstein_Tile3_ScientificAmerican_20231229
현재 가장 높은 히쉬 수는 6이다/사진=Scientific American

두 번째 속성은 도형이 주기적으로 평면을 타일링한다는 특성을 발견하는 것이다. 주기적 타일링에서는 타일의 배열이 무한한 평행 사변형 격자 위에 규칙적인 패턴으로 반복된다. 즉 병진 단위(translational unit)라고 하는 유한한 타일 클러스터를 식별해서 해당 병진 단위의 복사본이 병진 이동을 통해 평면을 무한하게 덮을 수 있는지 확인하는 것이다. 히쉬 수와 마찬가지로, 도형이 평면을 타일링하기 위해 필요한 최소 병진 단위의 하한이 있는지는 아무도 모른다. 마이어스가 발견한 최소 병진 단위는 10개의 타일이었다.

Einstein_Tile4_ScientificAmerican_20231229
가장 낮은 병진 단위는 10개 타일을 포함하고 있다/사진=Scientific American

스미스에게 모자 타일이 특별해 보였던 이유는 모자 도형이 위에서 언급한 두 가지 속성 중 어느 것도 따르지 않고 평면을 타일링할 수 있다고 느꼈기 때문이다. 그는 모자의 병진 단위가 몇 개로 이뤄져 있는지 알아낼 수 없었지만, 모자의 히쉬수는 계속 증가하는 것을 발견했다. 물론 모자가 히쉬수가 높은 비타일러이거나 병진 단위가 큰 주기적 모노타일일 수도 있지만, 스미스는 그런 경우가 드물다는 것을 알고 있었다. 그는 한 가지 가능성(비주기적 모노타일, 또는 아인슈타인 타일)이 남아 있다는 것을 알고 있었기 때문에 카플란 교수에게 연락을 취했다.

비주기적 모노타일을 찾기 위한 여정

약 60년 전 수학자들은 주기적으로 반복되지 않고 평면을 타일링할 수 있는 도형 집합, 즉 병진 단위 없이 임의로 큰 주기적 타일링을 형성할 수 없는 도형 집합이 있는지 궁금해하기 시작했다. 이러한 집합을 강한 비주기성(aperiodicity)이라고 하는데, 일반 비주기성(nonperiodicity)에서 임의로 큰 주기적 타일링이 없다는 조건이 추가된 속성이다. 예를 들어 평범한 2×1 직사각형을 포함한 많은 도형에서 약간의 배치 변형으로 주기성과 비주기성을 모두 허용하는데, 강한 비주기성은 어떤 주기성도 허용하지 않는다.

Einstein_Tile5_ScientificAmerican_20231229
2×1 직사각형으로 만든 주기적 타일과 비주기적 타일링/사진=Scientific American

강한 비주기성은 1960년대 초 하버드대학교의 수학과 교수로 재직 중이던 하오 왕(Hao Wang)이 처음 설명한 개념이다. 그는 현재 우리가 '왕 타일'이라고 부르는 정사각형 타일, 즉 가장자리에 라벨이나 색상이 있는 정사각형 타일을 연구하고 있었는데, 타일 집합이 주어졌을 때 위쪽과 아래쪽 가장자리의 레이블 순서가 같고 왼쪽과 오른쪽 가장자리도 일치하는 직사각형을 찾을 수 있다면, 그 직사각형은 병진 단위이므로 그 집합이 평면을 타일링한다는 것을 관찰했다. 그는 반대로 왕 타일 집합이 평면을 무한히 타일링할 수 있으면 그러한 직사각형을 만들 수 있어야 한다고 추측했다. 따라서 그는 왕 타일이 결코 강한 비주기성을 가질 수 없다고 주장했다.

당시 타일링에 대해 알려진 바에 따르면 왕의 추측은 상당히 합리적이었다. 그러나 몇 년 후 왕의 제자인 로버트 버거(Robert Berger)는 이 연구를 바탕으로 20,426개의 왕 타일로 구성된 최초의 비주기적 타일 세트를 구성해 냈다. 버거는 더 작은 비주기적 집합을 발견하기 위해 집합의 크기가 얼마나 작을 수 있는지에 대한 거부할 수 없는 수학적 탐구을 시작했다. 1971년 미국 버클리 캘리포니아대학의 라파엘 M. 로빈슨(Raphael M. Robinson)은 6개의 변형된 정사각형 집합을 찾아냈다.

Einstein_Tile6_ScientificAmerican_20231229
가장 작은 왕 타일 집합은 6개의 변형된 정사가형으로 구성된 로빈슨 타일/사진=Scientific American

그리고 1973년 옥스퍼드대의 수학자 로저 펜로즈(Roger Penrose)는 '연'(kite)과 '다트'(dart)라는 단 두 개의 타일로 이뤄진 결과를 선보였다.

Einstein_Tile7_ScientificAmerican_20231229
스미스의 모자 타일이 등장하기 전 가장 적은 타일 수를 기록했던 펜로즈의 연과 다트 타일/사진=Scientific American

펜로즈의 연구로 비주기적 모노타일(aperiodic monotile)이라는 결승선으로부터 한 걸음만 남겨두게 됐다. 비주기적 모노타일은 '하나의 돌'이라는 뜻의 독일어 '아인슈타인'에서 유래한 '아인슈타인 타일'이라고도 불린다. 그리고 비주기적 모노타일이 존재하는지에 대한 질문은 아인슈타인 문제라고 불린다.

펜로즈 이후 거의 50년 동안 진전이 없었다. 굿맨-슈트라우스가 발견한 것을 포함해 몇 가지 다른 듀얼 집합이 발견됐을 뿐이고, 일부 수학자들이 제안한 단일 타일은 타일 게임 규칙을 수정해야 했다. 예를 들어 소콜라-테일러 타일(Socolar-Taylor Tile)은 비주기적으로 배열되도록 하려면 육각형을 3차원으로 돌출시키거나 단절된 조각으로 쪼개는 등의 수정을 거쳐야 했다.

Einstein_Tile8_ScientificAmerican_20231229
비주기적 모노타일이 되기 위해 변형이 필요했던 소콜라-테일러 타일/사진=Scientific American

그럼에도 많은 이들이 아인슈타인 문제에 매료됐던 이유 중 하나는 비주기적 모노타일의 존재를 지지하거나 반대하는 명확한 증거가 보이지 않았기 때문이다. 일부 수학자들은 비주기적 모노타일이 존재할 수 없다고 단념했지만, 희망을 가진 이들은 존재 증명이 존재하지 않는다는 증명보다 더 설득력이 있을 것으로 생각하며 묵묵히 연구를 이어 나갔다. 스미스는 결국 모노타일을 발견했고, 이는 오랜 침체의 끝을 알리듯 창발의 연속으로 이어졌다.

[해외 DS] 반세기 만에 찾은 '아인슈타인 타일' ②, 아마추어 수학자의 샘솟는 아이디어으로 이어집니다.


Inside Mathematicians’ Search for the Mysterious ‘Einstein Tile’

The quest for the einstein tile—a shape never seen before in mathematics—turned up even more discoveries than mathematicians counted on

In November 2022 a colleague of mine casually asked what I was working on. My dazed answer reflected the swirl of ideas that was consuming all my mental energy at the time: “Actually, I think the solution to a major open problem just fell into my lap.” A week before, I had received an e-mail asking me to look at a shape. That was the first time I saw “the hat,” an unassuming polygon that turned out to be the culmination of a decades-long mathematical quest.

The e-mail came from David Smith, someone I knew from a small mailing list of people interested in tilings—different ways to arrange shapes to cover a flat surface. Smith isn't a mathematician; he is a self-professed “shape hobbyist” who experiments with geometry in his spare time from his home in Yorkshire, England. After Smith sent me the hat shape he'd been playing with, we began corresponding regularly, spending the rest of 2022 studying the hat and its properties. In 2023 we reached out to two additional researchers, mathematician Chaim Goodman-Strauss and software developer Joseph Samuel Myers, both also members of the mailing list and well known in the larger world of tiling theory. The four of us continued to study the hat and, in what felt like record time, succeeded in proving that the shape was a long-sought object that many assumed couldn't exist: an aperiodic monotile, also known as an einstein tile.

As it turns out, Smith's hat was just the beginning of a sequence of revelations. As we explored the new landscape of ideas revealed by this shape, we were surprised multiple times by additional discoveries that further deepened our understanding of tiling theory. Soon the hat led to “turtles,” “spectres,” and other wonders that yielded more insights than we could have expected at the outset.

Tiles have fascinated humans since ancient times, but mathematicians began studying them in earnest in the 20th century. A so-called tiling of the plane is an infinite collection of shapes that cover a flat surface with no gaps and no overlaps. I will focus on cases where the infinitely many tiles in a tiling come in a finite number of distinct shapes. Imagine a handful of templates that can be used to cut copies of the shapes out of an unlimited supply of paper. Our goal is to arrange cutouts on an infinite tabletop so that every bit of table is covered by exactly one layer of paper. We can move each cutout into position through some combination of reflection (flipping the paper over), rotation (turning it in place) and translation (sliding the shape around without turning it). If we achieve our goal of constructing a tiling, we say that the set of shapes “admits” the tiling and, more generally, that the shapes tile the plane.

Not all sets of shapes admit tilings. A square yields a tiling resembling graph paper, among other patterns, and is therefore a monotile: it tiles the plane on its own (as a set of one). A regular pentagon, in contrast, cannot tile the plane by itself. Neither can a regular octagon, although a two-element set consisting of an octagon and a square does tile.

How can we determine whether a given set of shapes tiles the plane? There's no algorithm we can use to answer this question, and in fact none could exist—the problem is what's known in theoretical computer science as “undecidable.” Nevertheless, we can study individual sets and attempt to build tilings through trial and error or other methods. Along the way we often encounter fascinating examples of how local interactions (the different ways two tiles can sit side-by-side) influence global behavior (the large-scale structure of the tiling out to infinity in every direction).

There are multiple ways to figure out whether a single shape can tile the plane. Some people, such as Smith, will even cut out physical paper copies of a shape using a computer-controlled cutting tool and play with them on actual (regrettably finite) tabletops, recruiting the immediacy of touch to augment visual intuition. In the hands of a skilled explorer like Smith, a shape will disclose its tiling secrets in short order. And in the pre-hat era, a shape would invariably behave in one of two ways.

The first possibility is that the shape will not tile the plane. As a quick test, we might try to surround it completely by copies of itself; if we can't, then the shape certainly does not admit any tilings. For instance, the regular pentagon is unsurroundable, which immediately outs it as a nontiler. But although surroundability provides evidence of tilability, it is not firm proof: there are deceptive nontilers that can be completely surrounded by one or more concentric layers of copies before getting irretrievably stuck. In 1968 mathematician Heinrich Heesch exhibited a shape that could be surrounded once but not twice and asked whether there was an upper limit to the number of concentric rings one might build around a nontiler, a quantity now known as a shape's “Heesch number.” The current record holder is a particularly ornery polygon with a Heesch number of six, discovered in 2020 by Bojan Bašić of the University of Novi Sad in Serbia.

The second possibility is that the shape tiles the plane periodically. In a periodic tiling, the arrangement of tiles repeats in a regular pattern determined by an infinite grid of parallelograms. We can describe a periodic tiling using three pieces of information: a finite cluster of tiles called a translational unit and two line segments that define the sides of a parallelogram in the grid. We can slide a copy of the translational unit out to every vertex in the grid, without rotating or reflecting it, and these copies will interlock to complete a tiling. This method offers a quick test of a shape's ability to tile: we assemble candidate translational units and then see whether any of them covers the plane by repeating in a regular grid. As with Heesch numbers, no one knows whether there is any bound on the smallest translational unit a shape might require before it can be repeated to tile the plane. Myers discovered the current record holder, a shape whose simplest translational unit contains 10 tiles.

When Smith began experimenting with the hat, what caught his eye was that it refused to conform to either of these options. The hat did not obviously tile the plane: he couldn't find a way to build a translational unit of any size. But it did not obviously fail to tile the plane, either: with effort, he could surround a hat with multiple layers of copies without getting stuck. It was conceivable that the hat might be a nontiler with a high Heesch number or a periodic monotile with a large translational unit, but Smith knew that such cases were rare. He reached out to me because he also knew that there was one other possibility, one so extraordinary that it demanded to be considered in full.

About 60 years ago mathematicians started wondering whether there were sets of shapes that could only tile the plane without ever repeating periodically—that is, that someone could assemble copies into arbitrarily large patches without ever encountering a translational unit. Such a set is called aperiodic. Crucially, aperiodicity is a much stronger property than nonperiodicity. Lots of shapes, including a humble 2 × 1 rectangle, can admit tilings that are periodic as well as tilings that aren't periodic. Aperiodic sets have no possible periodic tilings.

The notion of aperiodicity was first articulated by Hao Wang in the early 1960s, while he was a math professor at Harvard University. He was studying what we now call Wang tiles: square tiles with symbolic labels or colors on their edges that must be positioned so that neighboring squares have the same markings on their adjoining edges. (These labels are a convenient shorthand for equivalent rules that can be expressed geometrically.) Wang observed that if, given a set of tiles, one can find a rectangle whose top and bottom edges have the same sequence of labels and whose left and right edges also match, then that rectangle is a translational unit, and hence the set tiles the plane. He then conjectured the converse: that if a set of Wang tiles admits a tiling of the plane, then it must be possible to build such a rectangle. In other words, he claimed that Wang tiles can never be aperiodic.

Based on what was known about tilings at the time, Wang's conjecture was quite reasonable. Building on this work a few years later, however, Wang's student Robert Berger disproved the conjecture by constructing the first aperiodic tile set, a sprawling system of 20,426 Wang tiles. In passing, Berger speculated that it should be possible to construct smaller aperiodic sets, inaugurating an irresistible mathematical quest to see how small a set could be. By 1971 Raphael M. Robinson of the University of California, Berkeley, had gotten down to a set of six modified squares.

Then, in 1973, University of Oxford mathematician Roger Penrose achieved a stunning breakthrough with a set of just two tiles: the “kite” and the “dart.”

Penrose's work left us one step short of an obvious finish line: an aperiodic monotile, a single shape that admits only nonperiodic tilings. Such a shape is also sometimes called an “einstein,” from the German “ein stein,” meaning “one stone.” (It's a pun on the name “Einstein” but otherwise has no connection to the famous Albert.) The question of whether an aperiodic monotile exists has been called the einstein problem.

After Penrose, progress stalled for nearly 50 years. A few other sets of size two were discovered, including one by Goodman-Strauss. Some mathematicians proposed single-shape solutions, but these inevitably required small amendments to the rules of the game. For example, the Socolar-Taylor tile is a modified regular hexagon that tiles aperiodically. The catch is that for copies of this hexagon to conspire to force all tilings to be aperiodic, nonadjacent tiles must come to an agreement about their relative orientations. There is no way to bake this restriction into the outline of the tile without introducing a trick, such as extruding the hexagon into three dimensions or breaking it into disconnected pieces.

Even when a problem in mathematics is unsolved, there is often a broad consensus among mathematicians about its likely answer. For example, Goldbach's conjecture states that every even number greater than two is the sum of two odd primes. This conjecture is unproven, but the evidence we have overwhelmingly suggests that it's correct. One reason I was always fascinated by the einstein problem is that I did not see clear evidence for or against it (apart from the grim reality of a 50-year dry spell). Some mathematicians were resigned to the impossibility of aperiodic monotiles, but I was open to either outcome. If nothing else, I suspected that an existence proof would be more tractable than a nonexistence proof. The former was likely to be an argument about the properties of a specific shape, but the latter would necessarily be a statement about all shapes. As we now know, in this instance there is some justice in the universe.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 딥마인드 '펀서치', 풀리지 않던 수학 문제 푼 LLM 공개

[해외 DS] 딥마인드 '펀서치', 풀리지 않던 수학 문제 푼 LLM 공개
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

캡 세트 문제의 새로운 하한선 제시한 딥마인드의 LLM
펀서치, 수학 함수 생성기 위에 판단·개선용 LLM을 쌓은 다층 구조 
인공지능의 가능성 넓혀, 수학자의 창의성 자극하는 '촉매제'

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


AI-beats-human-on-unsolved-math-problem_SA_20231228
카드 게임 '세트'의 참가자는 모양, 색상, 음영, 기호 수에 따라 카드의 특정 조합을 찾아야 한다/사진=Scientific American

구글의 딥마인드는 대규모언어모델(LLM)을 사용해 인류의 가장 어려운 수학 문제 중 하나에 대한 새로운 해결책을 제시했다. 펀서치(Search for Mathematical Function, FunSearch)로 알려진 이 모델은 이른바 '캡 세트 문제'(Cap set Problem)에 대한 해결책을 발견한 것이다. 답이 있는 상태에서 수학 문제를 풀기 위해 LLM을 사용했던 이전의 실험들과는 확연히 대조적이다.

수십 년 동안 이어져 온 이 수수께끼는 점과 점 사이에 선을 그리면서 점 세 개가 직선을 이루지 않고 얼마나 많은 점을 연결할 수 있느냐를 묻는 극단적 조합론 문제다. 펀서치는 8차원에 걸쳐 512개의 점으로 구성된 솔루션을 만들어냈는데, 이는 지금까지 어떤 수학자가 해낸 것보다 큰 집합 규모다. 이 실험의 결과는 지난 14일 네이처(Nature) 저널에 게재됐다.

캡 세트 문제, "n개의 속성으로 식을 일반화하려면?"

캡 세트 문제는 1970년대에 유전학자 마샤 팔코가 개발한 게임에서 발전한 문제다. 앞서 언급한 대로 점을 연결하는 기하학적 문제기도 하지만 카드 조합 문제로도 풀어낼 수 있다. 기본적으로 덱(deck)에는 81장의 카드가 들어 있다. 각 카드에는 색상, 모양, 음영이 동일한 기호가 하나, 둘 또는 세 개씩 표시되며, 각 기호의 특징에 따라 세 가지 옵션이 존재한다. 이러한 가능성을 모두 합치면 3 × 3 × 3 × 3 = 81장의 덱이 만들어진다. 플레이어는 카드를 뒤집어 세 장의 카드에서 세트로 불리는 특별한 조합을 찾아내야 하는 방식이다.

수학자들은 뒤집힌 카드의 수가 21장 이상이면 플레이어가 세트를 찾을 수 있다는 것을 증명했다. 또한 5개 이상의 속성을 갖는 더 복잡한 버전의 게임에 대한 해결책도 찾아냈었다. 하지만 속성의 개수를 n개로 확장할 때 뒤집어야 하는 최소 카드 수는 알지 못했다. 즉 n개의 속성이 있고 n이 정수면 카드는 총 3n개지만, 해를 구하기 위해 공개해야 하는 최소 카드 수는 미스터리로 남아 있었다.

이산 기하학 관점으로 문제를 재정의하면 n 차원 공간에서 세 점의 특정 배열을 찾는 것과 같은 상황이다. 수학자들은 n이 주어졌을 때, 필요한 '테이블 위의 카드'의 수가 한 공식이 주는 수보다 크고 다른 공식이 주는 수보다 작아야 한다는 것을 발견함으로써 일반적인 해의 가능성에 대한 경계를 정할 수 있었다.

펀서치는 게임의 모든 요구 사항을 충족하는 카드 세트를 생성하여 새로운 하한(lower bound) = 8을 찾아냈다. 딥마인드의 컴퓨터과학자 알프세인 파우지(Alfsein Fauzi)는 "더 이상 개선할 수 없다는 것을 증명한 것은 아니지만, 기존에 알려진 것보다 더 나은 결괏값을 얻었다"고 강조했다.

펀서치의 문제 해결 과정과 수학자와의 협업 방식

딥마인드 연구팀은 캡 세트 문제를 파이썬(프로그래밍 언어) 코드로 작성했는데 문제를 해결하는 방법을 명시하지 않은 상태로 펀서치에 입력했다. 펀서치는 두 가지 LLM으로 구성되어 있으며 문제가 담긴 코드는 먼저 구글의 건강관리 모델인 PaLM 2를 기반으로 만든 코디(codey)로 전송된다. 코디는 코드를 생성하여 해결책을 제안하는 역할을 수행한다. 그런 다음 제안된 해결책은 '평가자' 역할을 담당하는 LLM으로 전달되어 환각 증상이 의심되는 코드는 반려하고 정확성이 높은 코드는 저장하는 과정을 거친다. 또한 펀서치에는 가장 우수한 프로그램을 개발할 때까지 기존 코드를 지속적으로 업데이트하는 '자체 개선 루프'가 탑재돼 있다.

딥마인드의 컴퓨터과학자 베르나르디노 로메라-파레데스(Bernardino Romera-Paredes)는 "LLM이 생성하는 모든 프로그램이 유용한 것은 아니며, 종종 실행조차 할 수 없는 프로그램을 제안하는 경우도 있었다"고 전했다. 하지만 펀서치는 잘못된 프로그램을 빠르게 제거하고 올바른 프로그램을 찾아서 갱신하는 장점이 있다고 설명했다.

하지만 LLM은 여전히 결괏값을 설명하거나 이해하는 데 능숙하지 않다. 펀서치는 수학적 함수를 생성하고 검증할 수는 있지만, 그 이면의 논리나 직관은 제공하지 못한다. 다만 연구진은 수학자들이 펀서치가 발견한 코드를 살펴보고 수학적 인사이트를 추출한 후, 이를 펀서치에 대한 입력을 개선하는 데 사용하면 결과가 훨씬 더 개선됐다고 밝혔다. 아울러 공동 저자인 위스콘신대학교 매디슨 캠퍼스의 수학자 조던 엘렌버그(Jordan Ellenberg)는 "펀서치의 중요 특징 중 하나는 사람들이 LLM이 만든 프로그램을 통해 배울 수 있게 된 점이다"고 말했다. 그는 인간과 기계의 새로운 협업 방식을 모델링하는 것에 흥미를 느낀다고 덧붙였다. 이번 연구는 수학과 같은 순수학문의 발전을 돕는 용도로 LLM을 사용할 수 있다는 것에 큰 진전이 있는 연구 결과라고 사료된다.


AI Beats Humans on Unsolved Math Problem

Large language model does better than human mathematicians trying to solve combinatorics problems inspired by the card game Set

The card game Set has long inspired mathematicians to create interesting problems.

Now, a technique based on large language models (LLMs) is showing that artificial intelligence (AI) can help mathematicians to generate new solutions.

The AI system, called FunSearch, made progress on Set-inspired problems in combinatorics, a field of mathematics that studies how to count the possible arrangements of sets containing finitely many objects. But its inventors say that the method, described in Nature on 14 December1, could be applied to a variety of questions in maths and computer science.

“This is the first time anyone has shown that an LLM-based system can go beyond what was known by mathematicians and computer scientists,” says Pushmeet Kohli, a computer scientist who heads the AI for Science team at Google Deepmind in London. “It’s not just novel, it’s more effective than anything else that exists today.”

This is in contrast to previous experiments, in which researchers have used LLMs to solve maths problems with known solutions, says Kohli.

MATHEMATICAL CHATBOT

FunSearch automatically creates requests for a specially trained LLM, asking it to write short computer programs that can generate solutions to a particular mathematical problem. The system then checks quickly to see whether those solutions are better than known ones. If not, it provides feedback to the LLM so that it can improve at the next round.

“The way we use the LLM is as a creativity engine,” says DeepMind computer scientist Bernardino Romera-Paredes. Not all programs that the LLM generates are useful, and some are so incorrect that they wouldn’t even be able to run, he says. But another program can quickly toss the incorrect ones away and test the output of the correct ones.

The team tested FunSearch on the ‘cap set problem’. This evolved out of the game Set, which was invented in the 1970s by geneticist Marsha Falco. The Set deck contains 81 cards. Each card displays one, two or three symbols that are identical in colour, shape and shading — and, for each of these features, there are three possible options. Together, these possibilities add up to 3 × 3 × 3 × 3 = 81. Players have to turn over the cards and spot special combinations of three cards called sets.

Mathematicians have shown that players are guaranteed to find a set if the number of upturned cards is at least 21. They have also found solutions for more-complex versions of the game, in which abstract versions of the cards have five or more properties. But some mysteries remain. For example, if there are n properties, where n is any whole number, then there are 3n possible cards — but the minimum number of cards that must be revealed to guarantee a solution is unknown.

This problem can be expressed in terms of discrete geometry. There, it is equivalent to finding certain arrangements of three points in an n-dimensional space. Mathematicians have been able to put bounds on the possible general solution — given n, they have found that the required number of ‘cards on the table’ must be greater than that given by a certain formula, but smaller than that given by another.

HUMAN–MACHINE COLLABORATION

FunSearch was able to improve on the lower bound for n = 8 by generating sets of cards that satisfy all the requirements of the game. “We don’t prove that we cannot improve over that, but we do get a construction that goes beyond what was known before,” says DeepMind computer scientist Alhussein Fawzi.

One important feature of FunSearch is that people can see the successful programs created by the LLM and learn from them, says co-author Jordan Ellenberg, a mathematician at the University of Wisconsin–Madison. This sets the technique apart from other applications, in which the AI is a black box.

“What’s most exciting to me is modelling new modes of human–machine collaboration,” Ellenberg adds. “I don’t look to use these as a replacement for human mathematicians, but as a force multiplier.”

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (2)

[해외 DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (2)
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

검색엔진은 사람들의 믿음을 바꿀 수 있으며, 특히 검색 정보가 부족한 상황에서 더 쉽게 믿어
구글 등 기술회사는 잘못된 정보 유포를 막으려 노력하지만 한계가 있어
정확한 정보 검색 방법 교육, 다양한 이해관계자 협력 등 종합적인 해결책이 필요해

[해외DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (1)에서 이어집니다.


search_engine_is_still_vulnerable_to_fake_news
사진=Pexels

Google과 같은 기술 기업들이 잘못된 정보를 억제하기 위애 노력하고 있지만, 여전히 허위 정보는 곳곳에서 발견되고 있다. 특히 특정 주제에 대한 정보가 희박한 '데이터 공백'(data voids)에서 문제가 악화된다. 악의적인 메시지를 퍼뜨리려는 사람들은 종종 데이터 공백을 의도적으로 이용하여 주류 미디어를 우회할 수 있는 용어를 만들어내고, 해당 용어가 음모론적 유행어로 발전할 때까지 여러 플랫폼에서 반복하여 더 많은 오보를 생산한다.

구글 대변인은 이 문제를 해결하기 위해 적극적으로 노력하고 있다고 사이언티픽 아메리칸에 전했다. 예를 들어 구글은 뉴스 속보 내용이 빠르게 업데이트되고 있어 아직 신뢰할 수 있는 결과를 얻지 못할 수 있는 경우, 일부 검색 결과에 경고를 추가하기 시작했다. 뉴스 속보나 새로운 주제의 경우 가장 먼저 게시된 정보가 가장 신뢰할 수 있는 정보가 아닐 수 있기 때문이다. 하지만 데이터 공백을 악용하는 콘텐츠의 노출을 원천 차단하는 것은 불가능하므로 이 문제는 모든 검색 제공업체의 지속적인 도전 과제라고 대변인은 덧붙였다.

new_notice_search_rapidly_evolving_result
신뢰할 만한 출처가 확인되지 않거나 해당 검색 주제의 내용이 빠르게 업데이트되고 있을 때 경고 알림이 표시된다/출처=구글

검색으로 인한 판단 변화, 정량적 평가 첫 시도

이 연구의 공동 저자인 미국 뉴욕대 사회미디어·정치센터의 전무이사 제브 샌더슨(Zeve Sanderson)은 검색 엔진은 사람들이 인터넷에서 가장 먼저, 그리고 가장 자주 들르는 곳이라고 강조했다. 검색 결과를 기준으로 사람들의 인식이 편향적으로 형성되거나 거짓 정보에 대한 잘못된 신뢰가 쌓이면 사회적 파급력이 걷잡을 수 없이 커지는 이유다. 이러한 파급력에도 불구하고 소셜 미디어 플랫폼에서 잘못된 정보의 확산을 평가한 과학적 연구는 많지만, 검색 엔진에 초점을 맞춘 정량적 평가는 거의 없었다.

그런 의미에서 이번 연구는 검색이 사용자의 신념을 얼마나 변화시킬 수 있는지를 측정하는 유용한 방법을 제시했다. "저의 최근 정성적 연구가 제안한 바를 누군가 정량적으로 입증한 것을 보게 되어 정말 기쁘다"고 메리맥대학의 커뮤니케이션·미디어 조교수인 멜리사 짐다스는 말했다. 2020년 그녀는 '가짜 뉴스: 디지털 시대의 미디어와 허위 정보에 대한 이해'를 공동 편집한 바가 있다. 그녀는 많은 인터뷰를 통해 알아낸 검색엔진의 특별한 효과가 있었다고 전했다. 사람들이 온라인에서 보는 정보를 검증하기 위해 검색엔진을 자주 사용하며, 그렇게 함으로써 잘못된 정보가 정당성을 갖춘 것처럼 보인다고 언급하는 사람들이 많았다는 것이다.

연구의 실험적 설정 한계와 가짜뉴스 확산 방지 위한 공동 노력 촉구

그러나 이번 연구에도 한계가 있다. 펜실베이니아 대학교의 컴퓨터·정보과학 조교수인 다나에 메타사는 실험적 설정으로 인해 이 연구가 뉴스를 평가할 때 사람들의 자연스러운 행동을 포착하지 못했다고 지적했다. 이 연구는 모든 참가자에게 검색 여부를 결정할 수 있는 옵션을 제공하지 않았으며, 선택권이 주어졌다면 사람들은 다르게 행동했을 수도 있다고 설명했다. 또한 연구에 참여한 전문 팩트체커들조차도 일부 기사에 혼란을 느꼈다고 스탠퍼드대학의 역사교육그룹 책임자이자 온라인 허위 정보 퇴치에 초점을 맞춘 디지털리터러시커리큘럼을 연구·개발하고 있는 조엘 브레이크스톤은 말했다. 팩트체커들이 기사를 분류하는 방법에 항상 동의하는 것은 아니며, 팩트체커들의 판단이 엇갈린 기사의 경우, 검색이 참가자들의 잘못된 정보에 대한 믿음을 강화하는 경향이 더 강한 것으로 나타났다. 따라서 잘못된 정보에 대한 믿음이 증가한 효과 중 일부는 검색 결과의 영향이 아니라 단순히 혼란스러운 정보의 결과일 수 있다는 것이다.

브레이크스톤 소장의 연구에 따르면, 출처에 대한 정보를 찾아보도록 권장하는 '측면 읽기'(lateral reading) 같은 기법은 잘못된 정보에 대한 믿음을 줄일 수 있다고 한다. 팩트체크 기법을 배운 전문가들은 그렇지 않은 비전문가들보다 주어진 페이지에 머무는 시간이 훨씬 짧고, 기사를 띄운 탭 옆에 새로운 탭을 추가하여 검증 자료를 찾아보는 습관이 있다고 강조했다. 또한 이번 연구에서 밝힌 것처럼 용어의 함정을 피하고 검색어를 다양화하는 것도 중요한 전략이다. 따라서 온라인 정보 탐색에 대한 안내는 앞으로 단순히 검색하라고 말하는 대신, 검색 방법과 검색 대상에 대해 훨씬 더 명확하게 설명해야 할 필요가 있다. 즉 개인의 데이터 리터러시를 위한 전략을 넘어, 기술 기업과 온라인 플랫폼, 그리고 정부 지도자들이 협력하여 가짜 뉴스의 유입을 줄이기 위한 유기적인 조치를 취해야 한다는 것이다. 잘못된 정보를 차단할 수 있는 단 하나의 해결책이나 완벽한 '구글' 전략은 없으나 더 나은 정보 생태계를 위해 모두의 노력이 필요하다.


Search engines are often people’s first and most frequent pit stops on the Internet, says study co-author Zeve Sanderson, executive director of New York University’s Center for Social Media and Politics. And it’s anecdotally well-established they play a role in manipulating public opinion and disseminating shoddy information, as exemplified by social scientist Safiya Noble’s research into how search algorithms have historically reinforced racist ideas. But while a bevy of scientific research has assessed the spread of misinformation across social media platforms, fewer quantitative assessments have focused on search engines.

The new study is novel for measuring just how much a search can shift users’ beliefs, says Melissa Zimdars, an assistant professor of communication and media at Merrimack College. “I’m really glad to see someone quantitatively show what my recent qualitative research has suggested,” says Zimdars, who co-edited the book Fake News: Understanding Media and Misinformation in the Digital Age. She adds that she’s conducted research interviews with many people who have noted that they frequently use search engines to vet information they see online and that doing so has made fringe ideas seem “more legitimate.”

“This study provides a lot of empirical evidence for what many of us have been theorizing,” says Francesca Tripodi, a sociologist and media scholar at the University of North Carolina at Chapel Hill. People often assume top results have been vetted, she says. And while tech companies such as Google have instituted efforts to rein in misinformation, things often still fall through the cracks. Problems especially arise in “data voids” when information is sparse for particular topics. Often those seeking to spread a particular message will purposefully take advantage of these data voids, coining terms likely to circumvent mainstream media sources and then repeating them across platforms until they become conspiracy buzzwords that lead to more misinformation, Tripodi says.

Google actively tries to combat this problem, a company spokesperson tells Scientific American. “At Google, we design our ranking systems to emphasize quality and not to expose people to harmful or misleading information that they are not looking for,” the Google representative says. “We also provide people tools that help them evaluate the credibility of sources.” For example, the company adds warnings on some search results when a breaking news topic is rapidly evolving and might not yet yield reliable results. The spokesperson further notes that several assessments have determined Google outcompetes other search engines when it comes to filtering out misinformation. Yet data voids pose an ongoing challenge to all search providers, they add.

That said, the new research has its own limitations. For one, the experimental setup means the study doesn’t capture people’s natural behavior when it comes to evaluating news says Danaë Metaxa, an assistant professor of computer and information science at the University of Pennsylvania. The study, they point out, didn’t give all participants the option of deciding whether to search, and people might have behaved differently if they were given a choice. Further, even the professional fact-checkers that contributed to the study were confused by some of the articles, says Joel Breakstone, director of Stanford University’s History Education Group, where he researches and develops digital literacy curriculums focused on combatting online misinformation. The fact-checkers didn’t always agree on how to categorize articles. And among stories for which more fact-checkers disagreed, searches also showed a stronger tendency to boost participants’ belief in misinformation. It’s possible that some of the study findings are simply the result of confusing information—not search results.

Yet the work still highlights a need for better digital literacy interventions, Breakstone says. Instead of just telling people to search, guidance on navigating online information should be much clearer about how to search and what to search for. Breakstone’s research has found that techniques such as lateral reading, where a person is encouraged to seek out information about a source, can reduce belief in misinformation. Avoiding the trap of terminology and diversifying search terms is an important strategy, too, Tripodi adds.

“Ultimately, we need a multipronged solution to misinformation—one that is much more contextual and spans politics, culture, people and technology,” Zimdars says. People are often drawn to misinformation because of their own lived experiences that foster suspicion in systems, such as negative interactions with health care providers, she adds. Beyond strategies for individual data literacy, tech companies and their online platforms, as well as government leaders, need to take steps to address the root causes of public mistrust and to lessen the flow of faux news. There is no single fix or perfect Google strategy poised to shut down misinformation. Instead the search continues.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (1)

[해외 DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (1)
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

검색엔진 사용으로 거짓 정보 믿을 확률 20% 증가
검색어에 따라 거짓 정보 노출 빈도 달라져
데이터 리터러시가 핵심, 검색 능력 제고 필요

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


How_search_engines_boost_misinformation
사진=Scientific American

"직접 조사해 보세요"라는 문구는 이념적 극단주의자들과 비주류 단체들 사이에서 인기 있는 슬로건이다. 저명한 음모론자인 밀턴 윌리엄 쿠퍼는 1990년대에 자신의 라디오 쇼를 통해 존 F. 케네디 대통령 암살, 일루미나티 조직, 외계 생명체 등의 음모에 관해 이야기하면서 이 구호를 처음으로 주류로 끌어들였다. 쿠퍼는 2001년에 사망했지만, 그의 유산은 계속 이어지고 있다. 라디오 진행자 알렉스 존스의 팬, 백신 반대 운동가, 큐어넌(QAnon)의 복잡한 대체 현실을 믿는 추종자들은 종종 회의론자들에게 직접 조사해 보라고 권유한다.

아이러니하게도 많은 주류 그룹에서도 팩트체크의 방법으로 똑같은 조언을 제공하고 있다. 디지털 리터러시 옹호자들과 온라인 허위 정보에 맞서 싸우는 사람들은 때때로 이상하거나 현실과 맞지 않는 뉴스를 접할 때 최선의 조치는 직접 조사하는 것이라고 주장한다. 일례로 2021년에 미국 의무총감은 건강 관련 정보의 타당성이 궁금한 사람들에게 "신뢰할 수 있는 출처에서 검증되었는지 확인하기 위해 검색 엔진에 해당 주장을 입력"하라고 권장하는 가이드를 발표하기도 했다. 게다가 도서관 및 연구 가이드에서는 종종 사람들에게 구글에서 검색하거나 다른 검색 엔진을 사용하여 정보를 조사할 것을 제안하고 있다.

시간이 흐르고 화제성이 높아도 검색엔진 통해 허위 정보 믿음 증가

하지만 지난 21일 과학 저널 네이처(Nature)에서 발표된 연구에 따르면 뉴스의 사실 여부를 평가하는 데 검색 엔진을 사용한 사람들이 그렇지 않은 사람들보다 허위 또는 오해의 소지가 있는 정보를 더 쉽게 믿었다고 밝혔다. 이는 사실 확인을 위해 검색엔진을 활용하면 잘못된 정보를 바로잡을 것이라는 통념과는 반대되는 분석이다.

2019년 말부터 2022년 사이에 실시된 다섯 가지 실험에서 연구진은 총 3천6명의 온라인 참가자에게 시의성 있는 뉴스 기사(48시간 이내로 발행된 기사)를 '진실', '거짓', '불분명' 등으로 분류하도록 요청했다. 참가자 중 일부는 기사를 분류하기 전에 검색 엔진을 사용하라는 메시지를 받았지만, 대조군은 그렇지 않았다. 동시에 6명의 팩트체크 전문가가 기사를 평가하여 응답자들의 답변에 최종적인 판단을 내렸다.

실험 결과 여러 테스트에서 비전문가 응답자들은 온라인 검색을 권장받은 후 허위 또는 오해의 소지가 있는 정보를 사실로 평가할 확률이 약 20% 더 높았다. 이러한 패턴은 주제의 화제성과 상관없이 일관되게 나타났다. 코로나19 팬데믹과 같이 주목받고 많이 보도된 뉴스 주제가 그렇지 않은 주제보다 팩트체크 정보를 더 많이 보유했을 것으로 예상되지만 참가자들의 패턴에는 변함이 없었다. 또한 기사가 처음 게시되고 수개월이 지난 시점(더 많은 팩트체크가 유입됐을 것으로 예상되는 시점)에서도 패턴은 유지됐다.

디지털 리터러시의 중요성, 가짜뉴스의 키워드는 피해야

검색 자체가 사람들에게 잘못된 정보를 제공하는 것일까. 연구진은 참가자들의 특정 검색 행동이 검색 품질을 저해한다는 가설을 세웠다. 이를 확인하기 위해 연구진은 참가자들의 검색어와 해당 검색어의 구글 검색 결과의 첫 페이지에 제공된 링크를 추적했다. 그 결과 응답자의 3분의 1 이상이 거짓된 기사를 자세히 알아보려 할 때 잘못된 정보에 노출되는 것으로 나타났다. 이러한 문제는 참가자들의 검색어가 잘못된 정보를 유발하는 경우에 더 두드러졌다. 참가자들이 팩트체크를 위해 시도한 10건 중 1건의 검색에서 오해의 소지가 있는 기사의 제목이나 URL을 포함하고 있었는데, 이로 인해 검색 결과의 절반 이상이 잘못된 정보로 이어졌다.

위 실험에서 사용된 가짜뉴스 중 하나는 "코로나 봉쇄와 백신 접종 명령으로 올겨울 기근과 불안이 확산할 수 있다. 미국은 인위적인 기근에 직면했다"라는 제목을 가졌다. 참가자들이 저품질 뉴스에서 주로 사용하는 '인위적인 기근'이라는 고유 용어를 검색할 때, 검색 엔진의 결과 중 63%가 신뢰할 수 없는 정보였다. 그러나 '인위적인'이라는 단어를 제외한 검색에서는 잘못된 정보가 검색되지 않았다.

연구의 주요 저자인 미국 센트럴플로리다대학의 케빈 애슬렛(Kevin Aslett) 교수는 "사람들이 이처럼 순진한 검색 전략을 사용한다는 점이 예상 밖이었다"라며 우려했다. 이번 연구는 검색 엔진이 검색 능력이 낮은 사람들에게 정확한 정보를 제공하지 못한다는 것을 보여주며, 디지털 리터러시의 중요성을 다시 한번 상기시켰다. 아울러 검색엔진은 가짜뉴스를 검열하기 위한 노력의 일환으로 '데이터 공백'(data voids) 문제를 해결해야 한다고 강조했다.

[해외 DS] 검색엔진, 가짜뉴스에 대한 믿음 증폭시켜 (2)로 이어집니다.


How Search Engines Boost Misinformation

Data voids in search results can lead down rabbit holes that bolster belief in fake news

“Do your own research” is a popular tagline among fringe groups and ideological extremists. Noted conspiracy theorist Milton William Cooper first ushered this rallying cry into the mainstream in the 1990s through his radio show, where he discussed schemes involving things such as the assassination of President John F. Kennedy, an Illuminati cabal and alien life. Cooper died in 2001, but his legacy lives on. Radio host Alex Jones’s fans, anti-vaccine activists and disciples of QAnon’s convoluted alternate reality often implore skeptics to do their own research.

Yet more mainstream groups have also offered this advice. Digital literacy advocates and those seeking to combat online misinformation sometimes spread the idea that when you are faced with a piece of news that seems odd or out of sync with reality, the best course of action is to investigate it yourself. For instance, in 2021 the Office of the U.S. Surgeon General put out a guide recommending that those wondering about a health claim’s legitimacy should “type the claim into a search engine to see if it has been verified by a credible source.” Library and research guides, often suggest that people “Google it!” or use other search engines to vet information.

Unfortunately, this time science seems to be on the conspiracy theorists’ side. Encouraging Internet users to rely on search engines to verify questionable online articles can make them more prone to believing false or misleading information, according to a study published today in Nature. The new research quantitatively demonstrates how search results, especially those prompted by queries that contain keywords from misleading articles, can easily lead people down digital rabbit holes and backfire. Guidance to Google a topic is insufficient if people aren’t considering what they search for and the factors that determine the results, the study suggests.

In five different experiments conducted between late 2019 and 2022, the researchers asked a total of thousands of online participants to categorize timely news articles as true, false or unclear. A subset of the participants received prompting to use a search engine before categorizing the articles, whereas a control group didn’t. At the same time, six professional fact-checkers evaluated the articles to provide definitive designations. Across the different tests, the nonprofessional respondents were about 20 percent more likely to rate false or misleading information as true after they were encouraged to search online. This pattern held even for very salient, heavily reported news topics such as the COVID pandemic and even after months had elapsed between an article’s initial publication and the time of the participants’ search (when presumably more fact-checks would be available online).

For one experiment, the study authors also tracked participants’ search terms and the links provided on the first page of the results of a Google query. They found that more than a third of respondents were exposed to misinformation when they searched for more detail on misleading or false articles. And often respondents’ search terms contributed to those troubling results: Participants used the headline or URL  of a misleading article in about one in 10 verification attempts. In those cases, misinformation beyond the original article showed up in results more than half the time.

For example, one of the misleading articles used in the study was entitled “U.S. faces engineered famine as COVID lockdowns and vax mandates could lead to widespread hunger, unrest this winter.” When participants included “engineered famine”—a unique term specifically used by low-quality news sources—in their fact-check searches, 63 percent of these queries prompted unreliable results. In comparison, none of the search queries that excluded the word “engineered” returned misinformation.

“I was surprised by how many people were using this kind of naive search strategy,” says the study’s lead author Kevin Aslett, an assistant professor of computational social science at the University of Central Florida. “It’s really concerning to me.”

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 공상과학 소설을 현실로 만들려는 실리콘밸리의 억만장자들

[해외 DS] 공상과학 소설을 현실로 만들려는 실리콘밸리의 억만장자들
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

실리콘밸리 영감의 원천은 어릴적 읽은 공상과학 소설
SF 스토리의 이면엔 사회적 화합을 위협하는 세계관 만연
장르 소재 고착화 심화, 새로운 미래 제시할 상상력 부재

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


tech_billionaires_need_to_stop_trying_to_make_the_science_fiction_they_grew_up_on_real
사진=Scientific American

실리콘밸리의 억만장자들은 30~50년 전에 출간된 공상과학 소설(Science Fiction, SF)을 읽고 자랐으며 오늘날 우리 삶에 일일이 열거하기 힘들 정도로 다양한 방식으로 영향을 미치고 있다. 이들은 10대 때 읽었던 공상과학 소설과 판타지 소설에서 착안한 발명품을 실현하기 위해 총 5조 달러 이상을 투자하고 있다.

테스크리얼, SF는 과학적 상상을 넘어 이데올로기로써 작동해

일론 머스크는 화성 식민지화를 원하고, 제프 베조스는 1970년대의 지구 궤도를 도는 거대한 서식지 건설을 계획하고 있다.  피터 틸(페이팔의 창업자)은 인공지능, 생명 연장, 해상국가(Seasteading) 연구에 자금을 지원하고 있으며 마크 저커버그는 닐 스티븐슨의 소설 '스노 크래시'에 등장하는 메타버스를 만드는 데 100억 달러를 투자했다. 그리고 벤처 캐피털 회사인 앤드리슨 호로위츠(Andreessen Horowitz)의 마크 앤드리슨은 '테크노 낙관주의자 선언문'을 발표하여 규제 없는 기술 혼돈과 자본주의적 미래를 요구하는 기괴한 가속주의 철학을 홍보하고 있다.

이들의 거침 없는 행보가 우려스러운 이유는 공상과학 소설은 심오한 이데올로기적 장르로서 새로운 기기나 발명품 그 이상의 것을 다루고 있기 때문이다. 그리고 지난 세기의 공상과학과 판타지 작품에는 위험한 가정이 가득하다. 캐나다의 공상과학 소설가이자 미래학자인 칼 슈뢰더는 "모든 기술에는 암묵적인 정치적 의제가 내포되어 있다"고 말한 바 있다. 기술 기업의 금권정치는 지구상의 80억 인구에게 자신들의 의제를 강요하려는 의도가 있는 것 같다.

구글의 AI 윤리팀의 전 기술공동책임자이자 인공지능윤리연구소(DAIR)의 설립자인 팀닛 게브루와 인류에 대한 실존적 위협을 전문으로 연구하는 철학자 에밀 토레스는 이러한 부유한 기업가들을 움직이는 이데올로기에 대해 경고한 바 있다. 이들은 이 이데올로기를 'Transhumanism, Extropianism, Singularitarianism, Cosmism, Rationalism, Effective altruism 그리고 Longtermism'의 약자인 테스크리얼(TESCREAL)로 명명했다. 구체적으로 트랜스휴머니스트는 인간의 인지능력을 확장하고 수명을 연장하고자 하며, 엑스트로피안들은 이러한 이상에 우주 식민지화, 마인드 업로딩, 인공지능, 합리주의를 추가했다. 효과적인 이타주의와 장기주의는 모두 미래에 긍정적 영향을 주는 방향으로 현재를 투자하는 태도다. 우주 식민지, 불멸, 기술 신격화에 대한 비전을 뒷받침하는 테스크리얼은 본질적으로 실리콘밸리의 대제사장들에게 부를 안겨주기 위한 신학적 프로그램으로 볼 수 있다.

'더불어 사는 삶'과는 거리가 먼 SF 거장들의 '유토피아'

오늘날의 억만장자들이 자란 공상과학 장르는 1970년대에 존재했던 발명가이자 출판업자인 휴고 건즈백(Hugo Gernsback)에게 거슬러 올라간다. 건즈백은 과학과 기술에 관한 일반 기사를 발행하다가 공상과학 소설을 발표했다. 그는 1926년 어메이징 스토리(Amazing Stories) 잡지를 발행하기 시작했는데, 이 잡지는 기술적인 미래에 대한 환상적인 이야기를 다뤘다. 그의 잡지에 실린 SF는 자본주의적 성공에 대한 아메리칸드림과 무비판적인 기술 해결주의(technological solutionism), 그리고 개척 식민주의(frontier colonialism)를 결합했다.

건즈백의 SF는 이탈리아 미래주의의 과거에 대한 거부와 속도, 기계, 폭력, 젊음, 산업에 대한 찬양을 반영했으며, 이는 모두 극우적 사고의 산물이었다. 그의 라이벌인 존 W. 캠벨 주니어(1937년부터 1971년까지 <어스타운딩 사이언스 픽션>의 편집장)는 로버트 하인라인과 아이작 아시모프 등 유명한 작가들을 발굴했으나 캠벨은 인종차별주의자이자 성차별주의자였으며 공산주의자를 탄압했다. 또한 베스트셀러 작가인 아인 랜드는 자신의 객관주의 철학과 양립할 수 있는 유일한 사회 체제는 자유방임주의 자본주의라고 역설했었다. SF 거장들의 이러한 주장들은 오늘날의 억만장자들에게 분명 매력적이다.

테스크리얼에 대한 SF의 가장 이상한 공헌은 아마도 1917년 이후 철학자 니콜라이 표도로비치 표도로프의 러시아 우주론일 것이다. 우주론은 우주 식민지에서부터 불멸론, 초인, 특이점, 마인드 업로드 등에 이르기까지 공상과학 소설에 널리 퍼져 있다. 또한 우주론은 화성에 이어 은하계를 식민지화하고, 불멸을 달성하고, 인류의 장기적 이익을 우선시하는 등 암묵적인 운명을 지닌 세속적 준종교로서 억만장자들에게 자기 부를 위한 매력적인 명분을 제공한다.

일례로 피터 틸은 소설 ‘반지의 제왕’ 속 천리안 수정구슬 ‘팔란티어’에서 회사 이름을 따 분석 회사 팔란티어 테크놀로지스(Palantir Technologies)를 공동 설립하고 최근 Atlantic과의 인터뷰에서 J.R.R. 톨킨의 엘프들처럼 불멸의 존재가 되고 싶다고 말했다. 은하계 사회주의 유토피아에 대한 이야기를 다룬 이언 뱅크스의 공상과학 시리즈에서 따온 이름을 가진 로켓 바지선('Just Read the Instructions'와 'Of Course I Still Love You')에 로켓을 착륙시키는 일론 머스크의 모습에서 우주론의 영향을 확인할 수 있다. 테스크리얼은 또한 기독교 신학적 추론, 캠벨의 백인 우월주의, 랜드의 무자비함, 1980년대까지 이 장르에 만연했던 우생학, 우주를 식민지화하려는 제국주의적 사상으로 심하게 오염되어 있다.

SF 장르의 혁신 부재, 방향성을 잃은 억만장자들의 도전정신

지금의 SF 작가들은 이전 세대의 공상과학 작가들에 의해 무엇을 기대해야 하는지 훈련된 청중을 즐겁게 하기 위해 노력하고 있다. 아울러 작가들은 미래를 정확하게 예측하는 것이 아니라 생계를 유지하기 위해 노력한다. 어떤 예지력도 철저히 우연에 불과하고, 기존의 소재를 재활용하며, 이전 작가와 독자들의 편견에 크게 영향을 받는다.

그 결과 SF 장르는 이전 대규모언어모델(LLM)에 의해 심하게 오염된 텍스트를 사용하여 재학습된 현재의 LLM과 매우 유사하게 작동하며, 전작과 유사한 소재를 배출하는 경향이 자리 잡았다. 기존의 통념을 깨거나 의문을 제기하기보다는 해당 분야의 역사를 반영한다는 점에서 소소하고 보수적인 장르로 전락했다. 인기 연예인들이 더 많은 청중을 끌어들이기 위해 팬덤을 형성하여 발전하는 것처럼 이 분야도 현재 그렇게 발전하고 있다.

2021년에는 작가이자 게임 디자이너인 알렉스 블레크먼의 트윗을 기반으로 한 밈이 생겨났다(나중에 마스토돈에 게시됨):

공상과학 작가: 제 책에서 저는 경고의 의미로 고통의 넥서스를 발명했습니다.

기술 회사: 마침내 고전 공상과학 소설 <고통의 넥서스를 만들지 말라>에 나오는 고통의 넥서스를 만들었습니다.

위 트윗은 현재 실리콘밸리의 상황을 걱정스러울 정도로 정확하게 담아냈다. 운전대를 잡은 억만장자들은 경고를 오락으로 착각하고, 우리는 조수석에 갇혀 있다. 우리 앞에 절벽이 없기를 바랄 뿐이다.


Tech Billionaires Need to Stop Trying to Make the Science Fiction They Grew Up on Real

Today’s Silicon Valley billionaires grew up reading classic American science fiction. Now they’re trying to make it come true, embodying a dangerous political outlook

Science fiction (SF) influences everything in this day and age, from the design of everyday artifacts to how we—including the current crop of 50-something Silicon Valley billionaires—work. And that’s a bad thing: it leaves us facing a future we were all warned about, courtesy of dystopian novels mistaken for instruction manuals.

Billionaires who grew up reading science-fiction classics published 30 to 50 years ago are affecting our life today in almost too many ways to list: Elon Musk wants to colonize Mars. Jeff Bezos prefers 1970s plans for giant orbital habitats.  Peter Thiel is funding research into artificial intelligence, life extension and “seasteading.” Mark Zuckerberg has blown $10 billion trying to create the Metaverse from Neal Stephenson’s novel Snow Crash. And Marc Andreessen of the venture capital firm Andreessen Horowitz has published a “techno-optimist manifesto” promoting a bizarre accelerationist philosophy that calls for an unregulated, solely capitalist future of pure technological chaos.

These men collectively have more than half a trillion dollars to spend on their quest to realize inventions culled from the science fiction and fantasy stories that they read in their teens. But this is tremendously bad news because the past century’s science fiction and fantasy works widely come loaded with dangerous assumptions.

SF is a profoundly ideological genre—it’s about much more than new gadgets or inventions. Canadian science-fiction novelist and futurist Karl Schroeder has told me that “every technology comes with an implied political agenda.” And the tech plutocracy seems intent on imposing its agenda on our planet’s eight billion inhabitants.

We were warned about the ideology driving these wealthy entrepreneurs by Timnit Gebru, former technical co-lead of the ethical artificial intelligence team at Google and founder of the Distributed Artificial Intelligence Research Institute (DAIR), and Émile Torres, a philosopher specializing in existential threats to humanity. They named this ideology TESCREAL, which stands for “transhumanism, extropianism, singularitarianism, cosmism, rationalism, effective altruism and longtermism.” These are separate but overlapping beliefs in the circles associated with big tech in California. Transhumanists seek to extend human cognition and enhance longevity; extropians add space colonization, mind uploading, AI and rationalism (narrowly defined) to these ideals. Effective altruism and longtermism both discount relieving present-day suffering to fund a better tomorrow centuries hence. Underpinning visions of space colonies, immortality and technological apotheosis, TESCREAL is essentially a theological program, one meant to festoon its high priests with riches.

How did this ideology come about, and why do I think it’s dangerous?

The science-fiction genre that today’s billionaires grew up with—the one that existed in the 1970s—goes back to inventor and publisher Hugo Gernsback. Gernsback published general articles about science and technology and then fiction in that vein. He started publishing Amazing Stories magazine in 1926 as a vehicle for fantastic tales about a technological future. His magazine’s strain of SF promoted the combination of the American dream of capitalist success, combined with uncritical technological solutionism and a side order of frontier colonialism.

Gernsbackian SF mirrored Italian futurism’s rejection of the past and celebration of speed, machinery, violence, youth and industry, and both were wide open to far-right thought. Gernsback’s rival, John W. Campbell, Jr. (editor of Astounding Science Fiction from 1937 until 1971), promoted many now famous authors, including Robert Heinlein and Isaac Asimov. But Campbell was also racist, sexist and a red-baiter. Nor was Campbell alone on the right wing of SF: for example, bestselling author Ayn Rand held that the only social system compatible with her philosophy of objectivism was laissez-faire capitalism. The appeal this holds for today’s billionaires is obvious.

Perhaps SF’s weirdest contribution to TESCREAL is Russian cosmism, the post-1917 stepchild of the mystical theological speculation of philosopher Nikolai Fyodorovich Fyodorov. It’s pervasive in science fiction—seen in topics from space colonization to immortalism, superhumans, the singularity, mind uploading, and more.

Cosmism’s contribution to the TESCREAL ideology is a secular quasi-religion with an implied destiny—colonize Mars and then the galaxy, achieve immortality, prioritize the long-term interests of humanity—that provides billionaires with an appealing justification for self-enrichment. We can see this with Thiel, who co-founded analytics company Palantir Technologies with a Lord of the Rings–themed name and recently told the Atlantic that he wanted to be immortal like J.R.R. Tolkien’s elves. And we can see it when Musk lands his rockets on barges with names taken from a science-fiction series by Iain M. Banks (ironically enough, one about a galactic socialist utopia). TESCREAL is also heavily contaminated with Christian theological reasoning, Campbellian white supremacism, Randian ruthlessness, the eugenics that was pervasive in the genre until the 1980s and the imperialist subtext of colonizing the universe.

But there is a problem: SF authors such as myself are popular entertainers who work to amuse an audience that is trained on what to expect by previous generations of science-fiction authors. We are not trying to accurately predict possible futures but to earn a living: any foresight is strictly coincidental. We recycle the existing material—and the result is influenced heavily by the biases of earlier writers and readers. The genre operates a lot like a large language model that is trained using a body of text heavily contaminated by previous LLMs; it tends to emit material like that of its predecessors. Most SF is small-c conservative insofar as it reflects the history of the field rather than trying to break ground or question received wisdom.

Science fiction, therefore, does not develop in accordance with the scientific method. It develops by popular entertainers trying to attract a bigger audience by pandering to them. The audience today includes billionaires who read science fiction in their childhood and who appear unaware of the ideological underpinnings of their youthful entertainment: elitism, “scientific” racism, eugenics, fascism and a blithe belief today in technology as the solution to societal problems.

In 2021 a meme arose based on writer and game designer Alex Blechman’s tweet about this issue (which was later posted to Mastodon):

Sci-Fi Author: In my book I invented the Torment Nexus as a cautionary tale

Tech Company: At long last, we have created the Torment Nexus from classic sci-fi novel Don’t Create The Torment Nexus

It’s a worryingly accurate summary of the situation in Silicon Valley right now: the billionaires behind the steering wheel have mistaken cautionary tales and entertainments for a road map, and we’re trapped in the passenger seat. Let’s hope there isn’t a cliff in front of us.

This is an opinion and analysis article, and the views expressed by the author or authors are not necessarily those of Scientific American.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 인공지능으로 발견한 새로운 종류의 항생제

[해외 DS] 인공지능으로 발견한 새로운 종류의 항생제
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

새로운 항생제 물질, 쥐 실험에서 효과 확인
화학적 구조를 분해해 논리적 설명 가능한 AI 구현 
정체된 항생제 내성 문제 해결 가능성 제시

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


new_class_of_antibiotics_discovered_using_ai
사진=Scientific American

항생제 내성은 전 세계적으로 인류 건강을 위협하는 가장 큰 요인 중 하나다. 2019년 약 127만 사망자의 직접적인 원인으로 항생제 내성이 지목됐으며, 약 500만 명이 넘는 사망에 관여했다고 조사된 바가 있다. 이 문제는 코로나19 팬데믹 동안 더욱 악화했다. 공중보건 및 의료 전문가들은 코로나19 사태가 2년 이상 지속되면서 부적절한 항생제 사용이 만연해지고, 많은 국가에서 항균제 내성이 상당히 악화하고 있다고 지적했다. 동시에 제약 업계는 항생제 시장이 수익성이 높지 않기 때문에 항생제 개발에 충분한 관심을 보이지 않고 있다. 그 결과 새로운 종류의 항생제는 수십 년 동안 개발되지 못했다.

광범위한 화학적 탐색 공간을 효율적으로 분석해

최근 연구에 따르면 인공지능을 사용하여 새로운 종류의 항생제 후보를 효율적으로 찾을 수 있다고 한다. 매사추세츠 공과대학교와 하버드대학교의 브로드연구소 제임스 콜린스 연구팀은 딥러닝으로 알려진 인공지능을 사용하여 수백만 개의 화합물에서 항생제의 활성을 선별해 냈다. 그런 다음 쥐를 대상으로 283개의 상위 화합물을 테스트하여 메티실린 내성 황색포도상구균(MRSA)과 반코마이신 내성 장구균(가장 완강하고 죽이기 어려운 병원균)에 효과가 있는 몇 가지 화합물을 발견했다. 이해할 수 없는 '블랙박스'로 작동하는 일반적인 AI 모델과 달리, 이 모델은 추론 과정을 따라 그 이면의 생화학적 역학을 이해하는 것이 가능했다.

AI를 활용한 이번 연구 결과는 생산성과 설명력 측면에서 시사하는 바가 크다. 먼저 기존 연구의 접근 방식과는 비교할 수 없을 만큼 연구 주기가 짧아졌다. 기존 연구의 항생제 발견 주기를 생각해 보면, 새로운 항생제를 발견하는 데는 약 12년이 걸리고 임상 후보를 발견하는 데는 3년에서 6년이 걸렸다. 그런 다음 1상, 2상, 3상 임상시험으로 전환해야 하는데 이마저도 적지 않은 시간이 소요된다. 하지만 이제 기계 덕분에 그 시간을 크게 단축할 수 있게 됐다. 연구자는 3~6년을 기다릴 필요 없이 몇 시간 만에 수천, 수십만 개의 전임상 후보 물질을 발견할 수 있는 것이다.

딥러닝 모델의 신뢰성 향상, 데이터의 화학적 특성을 활용

또한 연구진은 '설명 가능한 AI(eXplainable AI, 이하 XAI)'를 구현했다. 콜린스 연구팀은 그래프 신경망이 각 분자의 원자와 화학적 결합에 포함된 정보를 기반으로 예측하므로 항생제 예측 점수가 높은 화합물은 그 점수를 결정하는 화학적 하위 구조('근거')를 포함하고 있다는 가설을 세웠다고 한다. 모델의 추론 과정을 조각(하위 구조)으로 분해하고 각 조각이 추론의 어떤 부분을 설명하는지를 알 수 있게 되면 연구 재현성이 높아진다. 연구 재현성이 높은 모델의 결괏값은 과학적 지식으로써 그 가치도 덩달아 높아진다. 따라서 식별된 하위 구조를 모델의 입력으로 사용하면 높은 예측 점수에 직접적으로 기인하기 때문에 정리된 화학적 하위 구조를 기반으로 높은 예측력뿐만 아니라 높은 예측력을 반복적으로 재현할 수 있는 모형화가 가능하게 됐다.

물론 새로운 종류의 항생제를 임상 약물로 전환하기 위해서는 큰 노력이 필요하다. 체계적인 독성 연구와 임상시험 전 IND(Investigational New Drug, 임상시험용 신약) 연구를 거쳐야 한다. 미국 식품의약국(FDA)에서는 잠재적으로 가능성이 높은 약물이 임상시험의 첫 단계인 1상 임상시험으로 전환할 수 있는지 평가하기 위해 이러한 연구를 수행하도록 요구하고 있다. 한편 FDA는 최근 개발자, 제조업체, 규제 기관, 학술 단체 및 기타 이해관계자 간의 의약품 개발 프로세스 전반에 걸친 AI 및 머신러닝 사용에 대한 논의를 촉진하기 위한 문서도 발표했다. 미생물학 및 항생제 분야에서 AI를 활용하는 이 새로운 연구 분야는 이번 연구 결과로 기대 효과에 부응할 것으로 전망된다.


New Class of Antibiotics Discovered Using AI

A deep-learning algorithm helped identify new compounds that are effective against antibiotic-resistant infections in mice, opening the door to AI-guided drug discovery

Antibiotic resistance is among the biggest global threats to human health. It was directly responsible for an estimated 1.27 million deaths in 2019 and contributed to nearly five million more. The problem only got worse during the COVID pandemic. And no new classes of antibiotics have been developed for decades.

Now researchers report that they have used artificial intelligence to discover a new class of antibiotic candidates. A team at the laboratory of James Collins of the Broad Institute of the Massachusetts Institute of Technology and Harvard University used a type of AI known as deep learning to screen millions of compounds for antibiotic activity. They then tested 283 promising compounds in mice and found several that were effective against methicillin-resistant Staphylococcus aureus (MRSA) and vancomycin-resistant enterococci—some of the most stubbornly hard-to-kill pathogens. Unlike a typical AI model, which operates as an inscrutable “black box,” it was possible to follow this model’s reasoning and understand the biochemistry behind it.

The development builds on previous research by this group and others, including work by César de la Fuente, an assistant professor in the department of psychiatry at the University of Pennsylvania’s Perelman School of Medicine, and his colleagues. Scientific American spoke with de la Fuente about the significance of the new study for using AI to help guide the development of new antibiotics.

[An edited transcript of the interview follows.]

How significant is this finding of a new class of antibiotics using AI?

I’m very excited about this new work at the Collins Lab—I think this is a great next breakthrough. It’s an area of research that was not even a field until five years ago. It’s an extremely exciting and very emerging area of work, where the main goal is to use AI for antibiotic discovery and antibiotic design. My own laboratory has been working toward this for the past half-decade. In this study, the researchers used deep learning to try to discover a new type of antibiotic. They also implemented notions of “explainable AI,” which is interesting, because when we think about machine learning and deep learning, we think of them as black boxes. So I think it’s interesting to start incorporating explainability into some of the models we’re building that apply AI to biology and chemistry. The authors were able to find a couple of compounds that seemed to reduce infection in mouse models, so that’s always exciting.

What advantage does AI have over humans in being able to screen and identify new antibiotic compounds?

AI and machines in general can systematically and very rapidly mine structures or any sort of dataset that you give them. If you think about the traditional antibiotic discovery pipeline, it takes around 12 years to discover a new antibiotic, and it takes between three and six years to discover any clinical candidates. Then you have to transition them to phase I, phase II and phase III clinical trials. Now, with machines, we’ve been able to accelerate that. In my and my colleagues’ own work, for example, we can discover in a matter of hours thousands or hundreds of thousands of preclinical candidates instead of having to wait three to six years. I think AI in general has enabled that. And I think another example of that is this work by the Collins Lab—where, by using deep learning in this case, the team has been able to sort through millions of chemical compounds to identify a couple that seemed promising. That would be very hard to do manually.

What are the next steps needed in order to translate this new class of antibiotics into a clinical drug?

There’s still a gap there. You will need systematic toxicity studies and then pre-IND [investigational new drug] studies. The U.S. Food and Drug Administration requires you do these studies to assess whether your potentially exciting drug could transition into phase I clinical trials, which is the first stage in any clinical trial. So those different steps still need to take place. But again, I think this is another very exciting advance in this really emerging area of using AI in the field of microbiology and antibiotics. The dream we have is that hopefully someday AI will create antibiotics that can save lives.

The compounds identified in this new study were effective at killing microbes such as MRSA in mice, right?

Yes, they showed that in two mouse models, which is interesting. Whenever you have mouse infection data, that’s always a lot more exciting—it shows those compounds were actually able to reduce infection in realistic mouse models.

As another example of using AI, we recently mined the genomes and proteomes of extinct organisms in my own lab, and we were able to identify a number of clinical antibiotic candidates.

Why is it important that the AI model is “explainable”?

I think it's important if we are to think about AI as an engineering discipline someday. In engineering, you’re always able to take apart the different pieces that constitute some sort of structure, and you understand what each piece is doing. But in the case of AI, and particularly deep learning, because it’s a black box, we don't know what happens in the middle. It’s very difficult to re-create what happened in order to give us compound X or Y or solution X or Y. So beginning to dig into the black box to see what’s actually happening in each of those steps is a critical step for us to be able to turn AI into an engineering discipline. A first step in the right direction is to use explainable AI in order to try to comprehend what the machine is actually doing. It becomes less of a black box—perhaps a gray box.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

[해외 DS] 갈증의 심리학, "물 부족, 미래 지향적 사고 촉발"

[해외 DS] 갈증의 심리학, "물 부족, 미래 지향적 사고 촉발"
Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

수정

물 부족은 다른 결핍과 달리 사람들의 사고방식을 미래 지향적으로 만들어
전 세계적으로 동일한 현상이며 나라 간의 문화 차이도 설명해
인간은 물에 의존적이며 진화 과정에서 물 부족에 민감해졌을 가능성 있어

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


water_scarcity_changes_how_people_think
사진=Scientific American

우리의 뇌는 결핍에 민감하다. 시간, 음식 등 필수적이라고 생각하는 것이 부족하면 사람의 생각과 행동에 강력한 영향을 미친다. 이런 일이 일어나는 이유를 설명할 수 있는 한 가지 가능성은 결핍이 정신적 부담으로 작용한다는 것이다. 충분하지 않다는 느낌이 일종의 산만함이 되어 집중하거나 계획을 세우는 데 어려움을 겪게 된다.

그러나 최근 연구에 따르면 사람들은 물 부족에 대해 다른 결핍과는 매우 다르게 반응한다는 사실이 밝혀졌다. 전 세계 사람들을 대상으로 조사한 결과, 물이 부족한 지역의 사람들은 보다 장기적인 관점에서 사물을 생각하는 것으로 나타났다. 아울러 물 부족에 대한 걱정은 물 뿐만 아니라 다른 자원에 대해서도 더 나은 계획을 세우고 낭비적인 행동을 줄이도록 유도했다.

물 부족에 대한 인식 실험 결과 장기지향성 높아져

연구팀은 여러 가지 방법으로 물에 대한 사람들의 반응을 조사했다. 한 실험에서는 대학생 211명을 세 그룹으로 나눴다. 첫 번째 그룹은 최악의 물 부족 사태에 대한 예측이 담긴 기사를 읽었고, 두 번째 그룹은 기후변화로 인해 강수량이 높아지고 물이 풍부해진다는 내용이었다. 홍수의 위협에 대해서는 언급하지 않았고 긍정적인 측면에 초점을 맞췄다. 마지막 그룹은 기사를 읽지 않았다.

그런 다음 학생들에게 자원을 절약하고 장기적인 관점에서 생각하는 것이 얼마나 중요한지 물었다. 그 결과 심각한 물 부족 사태에 관해 역설한 기사 내용을 읽은 참가자들은 "사람들은 미래를 위해 살아야 한다"와 같은 설문조사 항목에 더 많이 동의했다. 또한 "내일을 위해 오늘 사지 말아야 할 물건이 있다"와 같이 절약에 관한 항목에 더 많이 동의하는 경향을 보였다.

이와는 대조적으로 미래의 물 과잉에 관한 기사 내용을 읽은 두 번째 그룹은 정반대의 방향으로 설문지에 답했다. 이들은 기사를 읽지 않은 세 번째 그룹에 비해 현재를 위한 삶을 지지하고 돈과 기타 자원을 절약하는 데 관심도가 낮았다.

물론 물 부족에 대해 단순히 읽는 것과 실제로 경험하는 것은 다를 수 있다. 그래서 연구팀은 여러 세대에 걸쳐 실제 물 부족을 경험한 지역 사회를 조사했다. 이란에서 지리적으로 가까운 두 도시, 시라즈와 야즈드는 경제 규모가 비슷하고 대다수 종교, 언어, 민족이 같지만 물의 양은 극명하게 달랐다. 시라즈는 세계적으로 유명한 와인을 생산하는 포도밭을 지탱할 만한 강우량이 있다. 하지만 야즈드는 건조하다. 연구팀은 시라즈와 야즈드에 거주하는 331명을 대상으로 심리학자들이 말하는 '장기지향성(long-term orientation)', 즉 개인이 미래를 얼마나 우선시하는지를 측정하기 위해 심리 테스트를 진행했다. 그 결과, 야즈드에 사는 사람들은 시라즈에 사는 사람들보다 미래를 위한 계획이 더 중요하다고 생각했고, 시라즈에 사는 사람들은 야즈드에 사는 사람들보다 현재를 살아야 한다는 관점을 더 선호했다.

세계적 현상인 이유, 생존과 관련된 진화의 산물

연구팀은 한 걸음 더 나아갔다. 이란은 가뭄에 특히 취약하기 때문에 다른 지역 주민들보다 물 부족에 더 민감할 수 있다. 다른 지역에서도 비슷한 패턴이 존재하는지 알아보기 위해 사람들의 신념과 가치관에 대한 정보를 수집하는 장기적인 글로벌 연구 프로젝트인 '세계 가치관 조사(World Values Survey)' 자료를 활용했다. 그 중 87개국의 응답자들에게 절약과 미래를 위한 저축의 중요성을 물은 조사 데이터에 주목했다. 그 결과, 물 부족의 역사가 있는 국가에 거주하는 사람들이 미래를 위한 저축에 더 많이 동의하는 경향이 있다는 사실을 발견했다. 예를 들어 유럽에서는 물이 풍부한 아이슬란드 사람들은 미래에 대해 덜 생각하는 반면, 건조한 스페인 사람들은 미래에 대해 더 많이 생각하는 것으로 분석됐다.

미래를 대하는 문화적 차이를 다른 측면에서 설명할 수는 없을까? 놀랍게도 각국의 물 부족 역사는 다른 명백해 보이는 요인들보다 더 많은 문화적 차이를 설명했다. 예를 들어 1인당 국민소득은 문화 간 차이를 설명하지 못했다. 부패는 사람들이 미래에 대해 생각하는 것을 어렵게 만들 수 있지만, 그것도 강력한 예측 요인은 아니었다. 장수하는 경향이 있는 나라에서 사람들이 미래에 대해 더 많이 생각할 것 같지만, 놀랍게도 국가의 평균 수명은 물 부족만큼 강력한 예측 요인이 아니었다.

여러 연구 결과에 따르면 물은 부를 비롯한 다른 중요한 자원과 구별되는 강력한 영향력을 가진다. 사실 인간은 물의 중요성 때문에 물 부족에 극도로 민감하게 반응하도록 진화했을 수 있다. 인간은 수천 년 동안 돈 없이도 살아왔지만, 물은 단 며칠만 없어도 견디지 못한다. 인간의 후각을 살펴보면 물에 대한 예외적인 반응을 가진 이유를 어렵지 않게 찾아볼 수 있다. 쥐는 후각 수용체를 암호화하는 약 1,000개의 기능 유전자를 가지고 있는 반면, 인간은 400개(더 이상 기능하지 않는 약 600개의 유전자를 포함)에 불과하다. 하지만 인간은 상어가 피를 감지하는 것보다 비 냄새를 더 잘 감지한다.

물 부족에 대한 민감성을 이해하고 있는 것이 앞으로도 중요해질 수 있다. 기후 변화는 가뭄을 더욱 흔하게 만들고 있기 때문이다. 많은 지역이 건조해짐에 따라 지구 온난화가 사람들의 일상생활을 위협할 때, 물 부족은 더 따뜻한 세상에 대비하고 대응할 수 있는 독특하고 강력한 동기가 될 수 있다. 연구팀은 해당 연구 결과로 공동체 전체가 더 신중하고 미래지향적인 행동으로 나아갈 수 있기를 희망한다고 전했다.


Water Scarcity Changes How People Think

Lacking money makes people focus on the present—but lacking water makes them plan for the future

Our brain is sensitive to scarcity. The lack of something we consider vital, such as time or food, can powerfully shape our thinking and behavior. Take money, for example. When people play a game that makes some players abruptly wealthier or poorer, those who lose money start making decisions that result in them being better off now but worse off later.

One potential explanation for why this happens is that scarcity is mentally taxing: the sense of not having enough becomes a sort of distraction that makes it harder to focus and plan.

In recent work, however, we found that people react to water scarcity very differently than they do to other shortages. In studies of people around the world, we found that those in places where water is scarce think more about the long term. And confronting people with water scarcity in the lab made them focus on the future. Worrying about water shortages prompted better planning and less wasteful behavior—not only with water but with other resources, too.

As a species that is acutely dependent on water—without it, we would die within days—we seem to be wired to plan for it. The loss of water prompts a general mindset of thrift and long-term thinking. This discovery could have important implications for humankind’s response to climate change.

[Read more about humanity’s reliance on water]

We explored thinking about water in several ways. In one experiment, we brought 211 college students to the lab and asked a portion of them to read an article we provided. Some received an article that was dire. It detailed predictions of the worst “water shortage in 1,200 years.” Others read an article that was more upbeat. It described how climate change means more rain and therefore ample water. (The latter article focused on the positives of water availability and did not, for example, discuss threat of floods.) The rest of the students completed the study without reading an article.

We then asked the students how important it was to save resources and think about the long term. We found that the mere idea of water scarcity was enough to kick-start them into thinking about the future. Participants who read about a serious shortage agreed more with survey items such as “People should live for the future.” They also agreed more with items about saving, such as “There are things I resist buying today so I can save for tomorrow.”

In contrast, reading about a future water surplus pushed people in the opposite direction. They endorsed living for the present and cared less about saving money and other resources, compared with those who had answered the questions without reading about climate change at all.

Of course, simply reading about water scarcity might have different effects than actually experiencing it. So we looked for places where communities have experienced real water scarcity for generations. We found two geographically close cities in Iran—Shiraz and Yazd—that have similar economies and the same majority religion, language and ethnicity but sharply different amounts of water. Shiraz receives enough rainfall to support vineyards that produce its world-famous wine. Nearby Yazd is bone-dry. We gave psychological tests to 331 people in Shiraz and Yazd to measure what psychologists call “long-term orientation,” or how much individuals prioritize the future. Sure enough, people in Yazd thought that planning for the future was more important than those in Shiraz—while people in Shiraz liked the idea of living in the moment more than those in Yazd.

Then we went a step further. Iran is particularly vulnerable to drought, so perhaps people there are more sensitive to water scarcity than populations in other places. To get some sense of whether similar patterns exist elsewhere, we turned to the World Values Survey, a long-running global research project that gathers information about people’s beliefs and values. We focused on survey data that asked respondents in 87 countries about the importance of thrift and saving for the future. We found that those who live in countries with a history of water scarcity tended to agree more with saving for the future. For example, in Europe, people in water-rich Iceland thought less about the future, whereas those in dry Spain thought about the future more.

Importantly, countries’ history of water scarcity explained cultural differences beyond other, more obvious factors. For example, income per capita did not explain differences across cultures. Although corruption might make it hard for people to think about the future, it was not a strong predictor either. You might guess that people think about the future more in places where they tend to live longer, but astonishingly, national life expectancy was not as strong of a predictor as water scarcity.

Across studies, our findings suggest that water has a powerful place in our thinking—one that’s distinct from other important resources, including wealth. In fact, humans may have evolved to be acutely sensitive to water scarcity because it’s so critical to us. Humans managed without money for many thousands of years. Our species can endure without food for weeks but without water for just days.

There is some evidence of an evolutionary wiring for water if we look at our sense of smell. Mice have about 1,000 functional genes that encode smell receptors, whereas humans have only 400 (plus around 600 genes that may no longer be functional). Yet humans are better at detecting the scent of fresh rainfall than sharks are at detecting blood. The fact that water is so critical for human life makes it more plausible that evolution would wire us to have psychological reactions that are specific to the threat of water scarcity.

That sensitivity may be crucial going forward. Climate change is making droughts more common. Our work suggests that as many places dry up, global warming could reshape how people think, pushing whole communities toward more cautious, future-oriented behavior. That may offer a sliver of hope amid the threat of climate change. Water scarcity could be a uniquely powerful motivator to prepare for and respond to a warmer world.

Picture

Member for

1 month 1 week
Real name
이태선
Position
연구원
Bio
[email protected]
세상은 이야기로 만들어져 있습니다. 다만 우리 눈에 그 이야기가 보이지 않을 뿐입니다. 숨겨진 이야기를 찾아내서 함께 공유하겠습니다.

[해외 DS] 음성 딥페이크 막는 '안티페이크' 등장, "95% 이상의 보호율 달성"

[해외 DS] 음성 딥페이크 막는 '안티페이크' 등장, "95% 이상의 보호율 달성"
Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

수정

안티페이크, 녹음된 음성을 왜곡하여 목소리 복제 방지
내성 강한 도구 개발로 95% 이상의 보호율 달성
범죄 도구와 함께 발전하는 아이러니, 끝없는 추격전 전망

해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


how_to_keep_ai_from_stealing_the_sound_of_your_voice
사진=Scientific American

생성형 인공 지능의 발전으로 실제와 같은 음성 합성이 가능해지면서 더 이상 다른 사람과 대화하는 것인지 딥페이크인지 구분할 수 없을 정도에 이르렀다. 그 부작용으로 개인의 목소리가 당사자의 동의 없이 제삼자에 의해 '복제'되면 악의적인 사용자에 의해 오용될 수 있다.

합성음성은 타인을 속이기 위해 악용되기 쉽다. 단 몇 초의 음성 녹음만으로도 사람의 목소리를 그럴듯하게 복제할 수 있다. 가끔이라도 음성메시지를 보내거나 자동응답기를 사용한다면 학습 데이터로 사용됐을 가능성이 높다. 이는 디지털 개인비서나 아바타를 만드는 데 유용한 기술의 이면이다.

적대적 AI, 사용되는 목적이 다를 뿐 수단은 같아

지능형 범죄가 증가하는 만큼 수사 지능도 함께 발전한다. 세인트루이스에 소재 워싱턴대학교 맥켈비공과대학의 컴퓨터과학자이자 엔지니어인 닝 장(Ning Zhang) 교수는 무단 음성 합성을 사전에 방지할 수 있는 새로운 방법인 안티페이크(AntiFake)라는 도구를 개발했다.

기존의 딥페이크 탐지 방법은 이미 피해가 발생한 후에야 효과를 발휘한다. 반면 안티페이크는 음성 데이터가 음성 딥페이크로 합성되는 것을 방지한다. 이 도구는 사이버 범죄자들이 음성 복제에 사용하는 것과 유사한 기법을 사용하여 불법 복제 및 위조로부터 음성을 보호할 수 있다. 연구팀은 안티페이크 프로젝트의 소스 코드와 텍스트 모두 공개했다.

안티페이크 소프트웨어는 사이버 범죄자가 음성 데이터를 탈취하고 녹음 파일에서 음성 합성에 중요한 특징을 추출하는 것을 더욱 어렵게 만들도록 설계됐다. 원래 사이버 범죄자들의 도구였던 적대적 AI 기술을 사용하여 녹음된 오디오 신호에 노이즈를 추가하는 방식이다. 사람에게는 여전히 올바르게 들리도록 하는 동시에 음성합성을 훈련하는 데는 사용할 수 없게 만들었다.

비슷한 접근 방식은 이미 인터넷상의 저작물 복제 방지에도 적용되고 있다. 인간의 눈에는 여전히 자연스럽게 보이는 이미지를 미세하게 왜곡하여 기계가 읽을 수 없는 정보로 변환시키는 작업이다. 글레이즈(Glaze)라는 소프트웨어는 같은 방식을 적용하여 대규모 AI 모델이 이미지를 사용할 수 없도록 설계되어 있으며, 특정 트릭을 사용해 사진의 얼굴 인식을 방지한다.

기술 발전의 역설, "범죄도 함께 발전하지만 한발 앞서가야"

끊임없이 변화하는 범죄 환경에 대항할 수 있는 도구를 개발하기 위해 장 교수는 박사과정 학생인 지위안 유(Zhiyuan Yu)와 함께 모델을 일반화했다. 일반화된 안티페이크 알고리즘은 5대의 최신 음성 합성기를 상대로 95%의 보호율을 달성했다. 또한 장과 유는 다양한 인구 집단에 속한 24명의 인간 테스트 참가자를 대상으로 도구의 유용성을 테스트하여 사용성이 높음을 확인했다.

안티페이크 개발에 참여하지 않은 시카고 대학교의 컴퓨터 과학 교수인 벤 자오(Ben Zhao)는 모든 디지털 보안 시스템과 마찬가지로 이 소프트웨어가 완벽한 보호 기능을 제공하지는 못하지만, 공격의 기준을 높이고 상당한 자원을 가진 동기 부여가 높은 소수의 개인으로 공격을 제한하는 효과가 있다고 말했다.

안티페이크는 이미 가장 흔한 위조 수단인 사칭으로부터 음성 녹음 데이터를 보호할 수 있다. 하지만 아직 짧은 음성 데이터에 대해서만 가능하다. 연구팀은 이 도구를 확장하여 더 큰 용량의 오디오 문서나 음악을 오용으로부터 보호할 수 있다고 전했다. 현재로서는 사용자가 직접 이 작업을 수행해야 한다.

장 교수는 음성 녹음을 온전히 보호하는 것이 목적이라고 밝혔다. 그러나 사이버 범죄자들이 이를 학습하고 함께 성장할 수밖에 없기 때문에 개발된 방법과 도구는 지속해서 조정될 것으로 예상된다.


How To Keep AI From Stealing the Sound of Your Voice

A new technology called AntiFake prevents the theft of the sound of your voice by making it more difficult for AI tools to analyze vocal recordings

Advances in generative artificial intelligence have enabled authentic-sounding speech synthesis to the point that a person can no longer distinguish whether they are talking to another human or a deepfake. If a person’s own voice is “cloned” by a third party without their consent, malicious actors can use it to send any message they want.

This is the flip side of a technology that could be useful for creating digital personal assistants or avatars. The potential for misuse when cloning real voices with deep voice software is obvious: synthetic voices can easily be abused to mislead others. And just a few seconds of vocal recording can be used to convincingly clone a person’s voice. Anyone who sends even occasional voice messages or speaks on answering machines has already provided the world with more than enough material to be cloned.

Computer scientist and engineer Ning Zhang of the McKelvey School of Engineering at Washington University in St. Louis has developed a new method to prevent unauthorized speech synthesis before it takes place: a tool called AntiFake. Zhang gave a presentation on it at the Association for Computing Machinery’s Conference on Computer and Communications Security in Copenhagen, Denmark, on November 27.

Conventional methods for detecting deepfakes only take effect once the damage has already been done. AntiFake, on the other hand, prevents the synthesis of voice data into an audio deepfake. The tool is designed to beat digital counterfeiters at their own game: it uses techniques similar to those employed by cybercriminals for voice cloning to actually protect voices from piracy and counterfeiting. The source text of the AntiFake project is freely available.

The antideepfake software is designed to make it more difficult for cybercriminals to take voice data and extract the features of a recording that are important for voice synthesis. “The tool uses a technique of adversarial AI that was originally part of the cybercriminals’ toolbox, but now we’re using it to defend against them,” Zhang said at the conference. “We mess up the recorded audio signal just a little bit, distort or perturb it just enough that it still sounds right to human listeners”—at the same time making it unusable for training a voice clone.

Similar approaches already exist for the copy protection of works on the Internet. For example, images that still look natural to the human eye can have information that isn’t readable by machines because of invisible disruption to the image file.

Software called Glaze, for instance, is designed to make images unusable for the machine learning of large AI models, and certain tricks protect against facial recognition in photographs. “AntiFake makes sure that when we put voice data out there, it’s hard for criminals to use that information to synthesize our voices and impersonate us,” Zhang said.

Attack methods are constantly improving and becoming more sophisticated, as seen by the current increase in automated cyberattacks on companies, infrastructure and governments worldwide. To ensure that AntiFake can keep up with the constantly changing environment surrounding deepfakes for as long as possible, Zhang and his doctoral student Zhiyuan Yu have developed their tool in such a way that it is trained to prevent a broad range of possible threats.

Zhang’s lab tested the tool against five modern speech synthesizers. According to the researchers, AntiFake achieved a protection rate of 95 percent, even against unknown commercial synthesizers for which it was not specifically designed. Zhang and Yu also tested the usability of their tool with 24 human test participants from different population groups. Further tests and a larger test group would be necessary for a representative comparative study.

Ben Zhao, a professor of computer science at University of Chicago, who was not involved in AntiFake’s development, says that the software, like all digital security systems, will never provide complete protection and will be menaced by the persistent ingenuity of fraudsters. But, he adds, it can “raise the bar and limit the attack to a smaller group of highly motivated individuals with significant resources.”

“The harder and more challenging the attack, the fewer instances we’ll hear about voice-mimicry scams or deepfake audio clips used as a bullying tactic in schools. And that is a great outcome of the research,” Zhao says.

AntiFake can already protect shorter voice recordings against impersonation, the most common means of cybercriminal forgery. The creators of the tool believe that it could be extended to protect larger audio documents or music from misuse. Currently, users would have to do this themselves, which requires programming skills.

Zhang said at the conference that the intent is to fully protect voice recordings. If this becomes a reality, we will be able to exploit a major shortcoming in the safety-critical use of AI to fight against deepfakes. But the methods and tools that are developed must be continuously adapted because of the inevitability that cybercriminals will learn and grow with them.

Picture

Member for

1 month 1 week
Real name
이효정
Position
연구원
Bio
[email protected]
지식은 전달하는 정보가 아니라, 함께 고민하기 위해 만들어진 언어입니다.

[해외 DS] 오픈AI 쿠데타의 결말, "비영리 이사회 이윤 중시 세력에 무릎 꿇다"

[해외 DS] 오픈AI 쿠데타의 결말, "비영리 이사회 이윤 중시 세력에 무릎 꿇다"
Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

수정

오픈AI, 비영리 구조 붕괴로 실권은 자본주의 거물들 손에
실리콘밸리의 성장 우선주의 승리, "빠르게, 더 많이, 어떻게든"
비영리 가면 쓴 수익 창출 기업, AI 윤리 논란 악화 전망

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


openai_soap_collapse_bodes_ill_for_ai_benefiting_humanity
사진=Scientific American

지난 11월 17일 샘 올트먼(Sam Altman)은 오픈AI의 CEO 자리에서 해임됐다. 이사회는 올트먼이 '일관된 솔직함'이 부족하다는 이유로 갑작스럽게 그를 해고했다. 실리콘밸리에서 가장 사랑받던 CEO가 왜 갑자기 쫓겨났는지 의아해할 수 있지만, 관계자들은 오픈AI의 기업 구조를 원인으로 꼽았다.

오픈AI 이사진 물갈이, "무늬만 비영리"

오픈AI는 비영리단체지만, 그 밑에 영리단체를 소유하고 있다. ChatGPT를 판매하고 있는 조직이 바로 그 하위 영리단체다. 하지만 표면적으로는 비영리적 이익을 추구하고 인류를 이롭게 하는 일반인공지능(AGI) 구축에 집중하기 위해 존재한다는 이념을 표방한다. 그 덕택에 기술 산업의 성장에 따른 부작용에 대한 여러 비판과 비난으로부터 회사를 보호할 수 있었다.

당시 이사회는 그들의 이념에 걸맞은 구성원들로 이사회를 꾸렸다. 대표이사 샘 올트먼, 사장 그렉 브록먼(Greg Brockman), 수석 과학자 일리아 수츠케버(Ilya Sutskever), AI 안전 연구원 헬렌 토너(Helen Toner), 쿼라(Quora)의 CEO 아담 디안젤로(Adam D’Angelo), 로봇 공학자 타샤 맥컬리(Tasha McCauley)로 구성되어 있었는데, 이사회 멤버 중 한 명인 로봇 공학자 타샤는 AGI가 인류를 파괴할 수 있다고 우려하는 '효과적인 이타주의' 운동과 깊은 관련이 있는 인물이었다.

하지만 올트먼이 돌아왔을 때의 이사회 구성원은 180도 달라졌다. 올트먼은 기술 이상주의자 대신 수십억 달러를 벌어들이기 위해 수십억 달러를 태우는 세일즈포스(Salesforce)의 전 공동 CEO인 브렛 테일러(Bret Taylor), 유일한 복귀 멤버인 디안젤로, 저개발 국가의 성장을 저해시키고 경제 예측을 잘못하는 것으로 잘 알려진 전 미국 재무부 장관이자 전 하버드대 총장인 래리 서머스 등 자본가들로 이사회를 채웠다. 설상가상으로 마이크로소프트(MS)가 이사회에서 투표권이 없는 관찰자 자리를 차지하게 되어, OpenAI의 모든 주요 결정에 대한 완전한 가시성을 확보했다. 투표 여부와 상관없이 MS CEO 사티아 나델라(Satya Nadella)는 OpenAI가 하는 모든 일에 직접적인 영향력을 행사할 수 있게 됐다고 풀이된다.

성장 중심적인 올트먼의 본격적인 지휘, 우려스러운 오픈AI의 질주

OpenAI는 비영리 단체로 남아 있지만, 자본주의의 힘에 완전히 종속됐다. 코슬라벤처스(Khosla Ventures)의 설립자 비노드 코슬라(Vinod Khosla)와 같은 실리콘밸리 권력자들의 결정에 따라 이사회 전체가 축출됐고, 앞으로도 그들의 입김에 따라 인사 결정이 좌지우지될 것이다. 이는 '효과적 가속주의자', 즉 부패 경제의 열렬한 추종자들에게는 큰 승리를 안겨준 사건인 셈이다.

OpenAI의 비영리 구조에 대해 우리가 가졌던 환상은 자본주의의 매서운 손길에 의해 깨져버렸다. 더 큰 문제는 올트먼이 해고된 이유가 영리 조직과 비영리 조직 간의 갈등이라는 것 외에는 실제로 밝혀진 바가 없다는 점이다. 결과적으로 세계 최대의 인공지능 기업은 올트만을 재집권시킨 재정적 이해관계에 종속됐고, 벤처캐피털과 수조 달러 규모의 상장된 첨단기술기업에 의해 운영되고 있다. 따라서 올트만을 재집권시킨 것과 같은 방식으로 자본가들은 올트먼의 운명을 통제할 수 있으며, 또 그렇게 할 것이다.

올트먼은 실리콘밸리의 사고방식을 계승하는 인물이다. 올트먼이 미래의 AI칩 개발을 위해 중동의 정부계 펀드로부터 자금을 조달하려 했을 정도로, 올트먼은 어떤 대가를 치르더라도 성장해야 한다는 밸리의 사고방식을 그대로 실천하고 있다. 이제 OpenAI는 매출, 사용자 수, 역량 등 성장에 초점을 맞춘 기업이며, 생명과학과 같은 핵심 인프라에 제품을 판매하면서 제품이 실제로 개선되고 있는지는 전혀 고려하지 않을 것으로 우려된다. 드라마틱한 사건과 음모는 차치하고서라도, 이 사건은 밸리의 엘리트들이 자신들과 똑같이 생각하는 사람만 '다르게 생각'하기를 원한다는 것을 보여주는 경고이자 증거다.


OpenAI’s Soap Opera Collapse Bodes Ill for AI Benefiting Humanity

Whatever fantasies we may have had about the nonprofit structure of OpenAI have been eviscerated. While it remains a nonprofit, it’s proven entirely beholden to ruthless capitalism

On November 17 Sam Altman was fired as CEO of OpenAI, arguably the most prominent privately held tech company, famed for pioneering ChatGPT and sparking the current AI boom, as well as fears of “risk of extinction” from the technology.

Altman was sacked—briefly—for a lack of “consistent candor” with his nonprofit board. One might wonder how a company could suddenly oust Silicon Valley’s most beloved son, and it’s largely thanks to OpenAI’s convoluted, multitiered corporate structure. A nonprofit entity fully owns its subordinate for-profit entity, which sells ChatGPT—the same subordinate that Microsoft invested $10 billion into in January. This nonprofit structure exists—or existed, as you’ll find out—to focus on building an artificial general intelligence (AGI) that “benefits humanity”—a noble goal, and one that theoretically protected the company from the influence of the tech industry’s growth-at-all-costs “Rot Economy.” The board was at the time made up of Altman, the company’s then president Greg Brockman, its chief scientist Ilya Sutskever, AI safety researcher Helen Toner, Quora CEO Adam D’Angelo and Tasha McCauley, a robotics engineer who was one of the board members with deep ties to the “effective altruism” movement, which fears an AGI could destroy humanity.

The Vichy France–rivaling collapse of this board and its intended nonprofit firewall, all unable to withstand the unfettered force of raw money power, revealed in the Altman saga where the AI revolution is headed—and it’s wherever the most rich and powerful people in tech want it to go.

The firing’s first few days were a confusing whirlwind, where nobody, not even the board, would say exactly why Altman was fired. A day before, he was trumpeting a monumental breakthrough in ChatGPT onstage at the APEC conference in San Francisco. Reuters theorized that might have been Q* (pronounced “Q-star”), an artificial intelligence that can do grade school math (though there are now reports refuting this story), a significant breakthrough that would mean an artificial intelligence can learn rules. An $80-billion valuation was rumored for the company.

The board rushed to place former Twitch CEO Emmett Shear at the helm, which led to hundreds of OpenAI employees threatening to quit if Altman wasn’t put back on top. Meanwhile Microsoft hired both Altman and Brockman, with Microsoft CEO Satya Nadella demanding changes to OpenAI’s nonprofit governance structure.

A day later, Altman returned as CEO of OpenAI with a new, all-male board of directors, replacing technological idealists with a who’s who of Rot Economy capitalists such as Bret Taylor, former co-CEO of Salesforce (a company that burns billions to make millions), D’Angelo (the only returning member), and former U.S. secretary of the treasury and former Harvard University president Larry Summers, who is best known for calling for polluting less-developed nations and for blowing his economic predictions. Worse still, Microsoft now holds a “nonvoting observer seat” on the board, giving the bloated software titan full visibility into every major decision at OpenAI. Vote or not, Nadella will now have direct influence on everything that OpenAI does going forward.

While OpenAI remains a nonprofit organization, it’s proven entirely beholden to the forces of capitalism, forced to oust its entire board based on a decision that the potentates of Silicon Valley—men such as Khosla Ventures founder Vinod Khosla—didn’t like.

While the Valley applauds this as a “win” for the “good guys,” it’s important to see this situation clearly: a nonprofit was defanged by a conspiracy of extremely rich people who didn’t like its personnel decisions. This is a resounding victory for “effective accelerationists,” the fervent acolytes of the Rot Economy, who believe we should build technology as fast as humanly possible, no matter the cost. They don’t care that more than 30,000 people have been laid off in the Bay Area alone in the past two years or that many tech companies are deeply unprofitable and heavily reliant on unreliable Faustian bargaining with venture capital. OpenAI itself is on pace to make more than $1 billion of revenue in 2023, for example, and still isn’t clearly profitable. That’s likely because of the vast cloud computing costs that come with running large language models. Microsoft also has a tight hold on OpenAI’s leash—despite “investing” $10 billion in OpenAI last year, OpenAI has only received a fraction of that money, which is both divided into tranches and mostly made up of cloud computing credits.

Whatever fantasies we may have had about the nonprofit structure of OpenAI have been eviscerated by the dread hand of capitalism. Worse still, we don’t actually know why Altman was fired, other than that it was a conflict between the for-profit and nonprofit sides of the company. Regardless, the result is that the largest artificial intelligence company in the world is—corporate structure be damned—controlled by venture capitalists and a multitrillion-dollar public tech company. The nonprofit board is entirely subordinate to Altman, who is subordinate to the financial interests that put him back in power, which can (and will) control his destiny in the same shadowy way that they reinstalled him.

And that’s fundamentally worrying. While the execution of the coup was messy, it’s obvious that Altman’s mindset is locked intimately with the growth-at-all-costs Valley mindset—to the point that he was trying to raise money from sovereign wealth funds in the Middle East for a future AI chipset company. The new OpenAI is one that is laser-focused on growth—in revenue, in users and in capabilities—with no concern for whether its products are actually improving as they sell into critical infrastructure like the life sciences.

The OpenAI debacle is a dark day for the Valley, where the rich and powerful used their might to crush those who won’t aggressively and recklessly pursue technological progress at all costs. Putting aside the drama and intrigue, this is a cautionary tale, and proof that the Valley’s elite only wants you to “Think different” if you’re thinking exactly like they are.

Picture

Member for

1 month 1 week
Real name
이시호
Position
연구원
Bio
[email protected]
세상은 다면적입니다. 내공이 쌓인다는 것은 다면성을 두루 볼 수 있다는 뜻이라고 생각하고, 하루하루 내공을 쌓고 있습니다. 쌓아놓은 내공을 여러분과 공유하겠습니다.

[해외 DS] 나쁜 과학과 나쁜 통계, 무고한 사람들을 유죄로 만들어

[해외 DS] 나쁜 과학과 나쁜 통계, 무고한 사람들을 유죄로 만들어
Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.

수정

조지 벨 20년 만에 살인 누명 벗어, 200억원 보상 지급
무능한 전문가와 그 권위에 대항하지 못하는 판사·배심원
법의 신뢰 회복을 위해 과학과 통계 기반 수사 역량 개선 시급

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


bad-science-and-bad-statistics-in-the-courtroom-convict-innocent-people
사진=Scientific American

뉴욕시는 최근 1999년 억울하게 유죄 판결을 받은 조지 벨(George Bell)에 기록적인 보상금을 지급했다. 검찰이 그의 무죄 입증 가능성이 있는 증거를 의도적으로 숨기고 법정에서 거짓 진술을 한 것으로 밝혀진 것이다. 벨은 누명을 쓴 사람들, 특히 미국 흑인 중 가장 최근에 근거 없는 유죄 판결을 받은 사람이다. 또한 재버 워커(Jabar Walker)와 웨인 가딘(Wayne Gardine)도 수십 년 동안 복역한 후 무죄 판결을 받았다. 북미 전역의 유죄판결 무결성 조사팀은 많은 장기 유죄판결에 심각한 결함이 있음을 발견했다.

놀랍게도 잘못된 법의학 증거와 전문가 증언이 결정적 요인으로 작용하는 경우가 많으며, 2022년 한 해에만 전국 무죄 판결 등록부에 기록된 233건의 무죄 판결 중 44건에서 거짓 법의학 증거와 전문가 증언이 그 요인이었다. 첨단 법의학 시대에 이러한 사법 유린이 지속되는 것은 불안한 일이 아닐 수 없다. 미국 법무부 산하 국립사법연구소는 최근 발자국 분석과 화재 파편 등 법과학의 특정 기술이 잘못된 유죄판결과 연관되어 있다는 내용의 보고서를 발표하기도 했다. 이 보고서에서는 "잘못된 방식으로 보고된 법과학 결과" 또는 "잘못된 통계적 가중치 또는 확률"이 종종 잘못된 유죄 판결의 원인이라고 전문가들은 증언했다.

이러한 일이 발생하는 이유는 배심원들이 과학적 증거를 높이 평가하지만, 그들에게는 과학적 증거를 올바르게 해석하거나 의문을 제기할 수 있는 전문 지식이 부족한 경우가 많기 때문이다. 2016년 대통령 자문위원회 보고서는 "전문가 증인은 종종 관련 과학이 정당화할 수 있는 수준을 훨씬 뛰어넘어 증거의 입증 가치를 과장하는 경우가 있다"고 경고한 바 있다.

'메도우 법칙', 자녀를 잃은 상실감과 감당하기 어려운 사회적 낙인

영국의 소아과 의사 로이 메도우(Roy Meadow)의 사태는 바로 이런 점을 잘 보여주는 예다. 영아 돌연사는 한 번은 비극, 두 번은 의심, 세 번은 무죄가 증명되기 전까지는 살인이라는 '메도우 법칙'으로 유명한 메도우는 영국에서 열린 재판에서 전문가 증인으로 자주 채택됐다. 그러나 불길한 패턴을 보는 그의 성향은 진정한 통찰력에서 비롯된 것이 아니라 끔찍한 통계적 무능함에서 비롯됐다. 1990년대 후반 샐리 클라크(Sally Clark)는 영아 돌연사 증후군으로 두 아들을 잃는 이중의 비극을 겪었다. 불행 이상의 증거가 부족했음에도 불구하고 클라크는 살인 혐의로 재판을 받았고, 메도우는 그녀의 유죄를 증언했다.

법정에서 메도우는 클라크 부부와 같은 가정에서 영아돌연사증후군(SIDS)이 발생할 확률이 8,543분의 1이라고 주장했다. 따라서 한 가족에서 두 건의 사례가 발생할 확률은 해당 확률의 제곱으로, 우연만으로 2명이 사망할 확률은 약 7300만분의 1에 해당한다고 그는 역설했다. 그는 이를 80대 1의 경쟁률을 뚫고 4년 연속으로 그랜드 내셔널 경마대회에서 우승한 경주마를 성공적으로 맞히는 것에 비유했다. 이 논란의 여지가 없어 보이는 통계 수치는 배심원과 대중 모두에게 그녀의 유죄를 확신시켰다. 클라크는 언론에 의해 악마화되어 살인죄로 수감됐다.

그러나 이 판결은 몇 가지 이유로 통계학자들을 경악하게 만들었다. 메도우는 단순히 확률을 곱하여 수치를 도출했는데, 이는 룰렛이나 동전 던지기와 같이 완전히 독립적인 사건의 경우에는 옳은 계산법이지만, 이 가정이 충족되지 않는 경우에는 틀린 계산이다. 1990년대 후반에 이르러 SIDS가 가족 내에서 발생한다는 압도적인 증거를 얻게 되면서 독립성 가정은 더 이상 성립하지 않게 됐다. 즉 클라크가 무죄일 확률이 과대 계산되었던 것이다. 이는 법정에서 흔히 볼 수 있는 통계적 오류로 '검사의 오류'라는 별명이 붙었다.

물론 SIDS가 여러 건 발생하는 경우는 드물지만, 산모에 의한 영아살해가 여러 건 발생하는 경우도 드물다. 어느 쪽이 더 가능성이 높은지 판단하기 위해서는 이 두 가지 설명의 상대적 가능성을 비교해야 한다. 클락의 경우, 이 분석은 두 건의 SIDS 사망 확률이 영아살해 가설보다 훨씬 더 높다는 것을 보여줬을 것이다. 영국 왕립통계학회는 메도우의 증언을 강력히 비난했고, 영국 의학저널에 실린 논문도 이를 방증했다. 그러나 클라크의 수감 생활이 없던 일이 되진 못했다.

오랜 캠페인 끝에 2003년에 클라크의 판결은 뒤집혔고, 메도우의 증언으로 유죄 판결을 받은 다른 여성들도 누명을 벗었다. 영국의학협회(General Medical Council)는 메도우를 직업적 위법 행위로 유죄 판결을 내리고 의사 면허를 박탈했다. 하지만 클라크의 무죄 판결은 그녀가 겪은 마음의 상처에 대한 위로가 되지 못했고, 결국 그녀는 2007년 알코올 중독으로 사망했다. 검사의 오류는 조건부 확률의 문제에서 끊임없이 나타나며, 우리를 잘못된 결론으로 이끌고 무고한 사람들을 감옥에 보내게 된다.

과학적·통계적 역량 제고 시급, 배심원과 판사부터 교육해야

올해 초 호주는 메도우 법칙의 오류를 근거해 2003년 네 자녀를 살해한 혐의로 유죄 판결을 받은 캐슬린 폴빅(Kathleen Folbigg)을 20년 만에 사면했다. 네덜란드 간호사 루시아 드 버크(Lucia de Berk)는 2004년 통계적 증거에 근거하여 7명의 환자를 살해한 혐의로 유죄 판결을 받았다. 이 사건은 배심원들을 설득하는 데 성공했지만, 통계 전문가들을 경악하게 만들었고, 그들은 사건의 재수사를 촉구했다. 드 버크에 대한 재판은 전적으로 검사의 오류에서 비롯되었고, 그녀의 유죄 판결은 2010년에 뒤집혔다.

이런 일은 비단 역사적으로만 일어난 일이 아니다. 과학과 전문가 의견에는 권위가 있기 때문에 공개 법정에서 이를 행사할 경우 이의를 제기하기 힘들다. 혈흔 분석이나 DNA 분석과 같은 효과적인 기술조차도 검사의 오류에 의해 불건전한 유죄판결에 오용될 수 있다. 예를 들어 용의자의 희귀 혈액형(5%)이 현장의 흔적과 일치한다고 해서 유죄가 95% 확실하다는 의미는 아니다. 2,000명의 잠재적 용의자가 있는 가상의 도시에서 이 기준과 일치하는 사람이 100명이라면 다른 증거가 없을 때 용의자가 유죄일 확률은 1%에 불과하다.

더 심각한 문제는 인용된 과학적 근거가 모호해서 쓸모가 없을 때다. 최근의 한 분석에 따르면 법원에서 인용되는 심리 측정의 약 40%만이 강력한 증거적 배경을 가지고 있음에도 불구하고 거의 이의를 제기하지 않는 것으로 나타났다. 물린 자국 분석과 같은 기법들은 유죄 판결이 내려졌음에도 불구하고 사실상 쓸모가 없는 것으로 밝혀졌다. 거짓말 탐지기 테스트는 법원에서 인정하지 않을 정도로 정확도가 매우 낮지만, 미국 법 집행 기관에서는 여전히 널리 사용되고 있다.

전 세계 법의학 전문가들이 사이비 과학이라고 일축한 모발 분석은 유죄 판결을 내릴 수 있는 능력 때문에 FBI에 의해 받아들여졌다. 커크 오돔(Kirk Odom)과 같이 자신이 저지르지도 않은 강간죄로 22년 동안 감옥에서 시달린 유색인종에게 불공정한 영향을 미쳤다. 2015년 보고서에 따르면 모발 검사관이 피고인에게 유죄를 선고하는 과정에서 잘못된 진술을 한 사례는 수백 건에 달하며, 이 중 33건은 사형에 처해졌고, 이 중 9건은 보고서가 발표될 당시 이미 사형이 집행된 상태였다. 프로퍼블리카(ProPublica)가 지적한 바와 같이, 사산과 살인을 구별하기 위해 '허파부유' 시험을 사용하는 것에 대해 전문가들이 이의를 제기하고 있다. 이 검사는 오류 가능성이 매우 높음에도 불구하고 이미 아이를 잃은 여성을 살인죄로 구속하는 데 사용되어 검찰의 또 다른 오류 가능성에 대한 경각심을 불러일으키고 있다.

과학과 통계는 정의를 추구하는 데 매우 중요하지만, 그 불확실성과 약점도 강점만큼이나 분명하게 전달되어야 한다. 또한 배심원과 판사는 과학적, 통계적 증거의 기준에 대해 교육받고 전문가 증언에서 무엇을 요구해야 하는지 이해하는 훈련이 필요하다. 법정에서 과학적, 통계적 무결성이 개선되지 않으면 무고한 사람들이 유죄 판결을 받을 위험을 피할 수 없다.


Bad Science and Bad Statistics in the Courtroom Convict Innocent People

Science, statistics and expert testimony are crucial in securing justice. But their dubious applications in the courtroom can send innocent people to jail

The city of New York recently witnessed a record payout to George Bell, falsely convicted of murder in 1999, after it emerged prosecutors had deliberately hidden evidence casting doubt on his guilt, giving false statements in court. Bell is the latest in a long line of people, especially Black Americans, unfoundedly convicted. More recently, Jabar Walker and Wayne Gardine were cleared after decades in prison. Conviction integrity units across North America have found serious flaws with many long-standing convictions.

Alarmingly for scientists, misleading forensic and expert evidence is too often a deciding factor in such miscarriages of justice; of the 233 exonerations in 2022 alone recorded by the National Registry of Exonerations, deceptive forensic evidence and expert testimony was a factor in 44 of them. In an era of high-tech forensics, the persistence of such brazen miscarriages of justice is more than unsettling. The National Institute of Justice, part of the U.S. Department of Justice, has just published a report that found certain techniques, including footprint analysis and fire debris, in forensic science were disproportionately associated with wrongful conviction. The same report found expert testimony that “reported forensic science results in an erroneous manner” or “mischaracterized statistical weight or probability” was often the driving force in false convictions. The disconcerting reality is that illusions of scientific legitimacy and flawed expert testimony are often the catalyst for deeply unsound convictions.

This paradox arises because scientific evidence is highly valued by juries, which often lack the expertise to correctly interpret or question it. Juries with a lower understanding of the potential limitations of such evidence are more likely to convict without questioning the evidence or its context. This is exacerbated by undue trust in expert witnesses, who may overstate evidence or underplay uncertainty. As a 2016 presidential advisors report warned, “expert witnesses have often overstated the probative value of their evidence, going far beyond what the relevant science can justify.”

The debacle of British pediatrician Roy Meadow serves as a powerful exemplar of precisely this. Famed for his influential “Meadow’s law,” which asserted that one sudden infant death is a tragedy, two is suspicious, and three is murder until proved otherwise, Meadow was a frequent expert witness in trials in the United Kingdom. His penchant for seeing sinister patterns, however, stemmed not from real insight, but from terrible statistical ineptitude. In the late 1990s, Sally Clark suffered a double tragedy, losing two infant sons to sudden infant death syndrome. Despite scant evidence of anything beyond misfortune, Clark was tried for murder, with Meadows testifying to her guilt.

In court, Meadow testified that families like the Clarks had a one-in-8,543 chance of a sudden infant death syndrome (SIDS) case. Thus, he asserted, the probability of two cases in one family was this squared, roughly one-in-73 million of two deaths arising by chance alone. In a rhetorical flourish, he likened it to successfully backing an 80-to-1 outsider to win the Grand National horse race over four successive years. This seemingly unimpeachable, damning statistic figure convinced both jury and public of her guilt. Clark was demonized in the press and imprisoned for murder.

Yet this verdict horrified statisticians, for several reasons. To arrive at his figure, Meadow simply multiplied probabilities together. This is perfectly correct for truly independent events like roulette wheels or coin-flips, but fails horribly when this assumption is not met. By the late 1990s, there was overwhelming epidemiological evidence that SIDS ran in families, rendering assumptions of independence untenable. More subtle but as damaging was a trick of perception. To many, this appeared equivalent to a one-in-73-million chance Clark was innocent. While this implication was intended by the prosecution, such an inference was a statistical error so ubiquitous in courtrooms it has a fitting moniker: the prosecutor’s fallacy.

This variant of the base-rate fallacy arises because while multiple cases of SIDS are rare, so too are multiple maternal infanticides. To determine which situation is more likely, the relative likelihood of these two competing explanations must be compared. In Clark’s case, this analysis would have shown that the probability of two SIDS deaths vastly exceeded the infant murder hypothesis. The Royal Statistical Society issued a damning indictment of Meadow’s testimony, echoed by a paper in the British Medical Journal. But such rebukes did not save Clark from years in jail.

After a long campaign, Clark’s verdict was overturned in 2003, and several other women convicted by Meadow’s testimony were subsequently exonerated. The General Medical Council found Meadow guilty of professional misconduct and barred him from practicing medicine. But Clark’s vindication was no consolation for the heartbreak she had suffered, and she died an alcohol-related death in 2007. The prosecutor’s fallacy emerges constantly in problems of conditional probability, leading us sirenlike towards precisely the wrong conclusions—and undetected, sends innocent people to jail.

Earlier this year, Australia pardoned Kathleen Folbigg after 20 years in jail after a conviction for murdering her four children in 2003 based on Meadow’s discredited law. Dutch nurse Lucia de Berk was convicted of seven murders of patients in 2004, based on ostensible statistical evidence. While convincing to a jury, it also appalled statistical experts, who lobbied for a reopening of the case. Again, the case against de Berk pivoted entirely on the prosecutor’s fallacy, and her conviction was overturned in 2010.

This isn’t just historical occurrence. The veneer of science and expert opinion has such an aura of authority that when invoked in open court, it is rarely challenged. Even effective techniques like blood splatter and DNA analysis can be misused in unsound convictions, underpinned by variants of the prosecutor’s fallacy. A suspect’s rare blood type (5 percent) matching traces at a scene, for example, does not imply that guilt is 95 percent certain. A hypothetical town of 2,000 potential suspects has 100 people matching that criterion, which renders the probability that the suspect is guilty in the absence of other evidence at just 1 percent.

Worse is when the science cited is so dubious as to be useless. One recent analysis found only about 40 percent of psychological measures cited in courts have strong evidentiary background, and yet they are rarely challenged. Entire techniques like bite-mark analysis have been shown to be effectively useless despite convictions still turning on them. Polygraph tests are so utterly inaccurate as to be deemed inadmissible by courts, and yet remain perversely popular with swathes of American law enforcement.

This can and does ruin lives. Hair analysis, dismissed by forensics experts worldwide as pseudoscientific, was embraced by the FBI for its ability to get convictions. But this hollow theater of science condemned innocent people, disproportionately affecting people of color like Kirk Odom, who languished in prison for 22 years for a rape he did not commit. Odom was but one victim of this illusory science; a 2015 report found hundreds of cases in which hair examiners made erroneous statements in inculpating defendants, including 33 cases that sent defendants to death row, nine of whom were already executed by the time the report saw daylight. As noted by ProPublica, the use of “lung float” tests to supposedly differentiate between stillbirth and murder is being challenged by experts. Despite the fact the test is highly fallible, it has already been used to justify imprisoning women who lost children for murder, raising alarm over yet another potential manifestation of the prosecutor’s fallacy.

While science and statistics are crucial in the pursuit of justice, their uncertainties and weaknesses must be as clearly communicated as strengths. Evidence and statistics demand context, lest they mislead rather than enlighten. Juries and Judges need to be educated on standards of scientific and statistical evidence, and to understand what to demand of expert testimony, before courts send people to prison. Without improved scientific and statistical integrity in courtrooms, the risk of convicting innocent people can neither be circumvented nor ignored.

Picture

Member for

1 month 1 week
Real name
김광재
Position
연구원
Bio
[email protected]
균형 잡힌 시각으로 인공지능 소식을 전달하겠습니다.