입력
수정
[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.
알고리즘이 우리를 대신해 결정을 내리는 것을 정말 믿을 수 있을까? 사회의 해로운 편견을 강화할 수 있다는 사실이 입증되었지만 아직 문제가 남아 있다. 새로운 연구에 따르면 복장 규정과 같은 규칙을 위반하는 사람을 발견하도록 설계된 머신러닝 시스템이 학습에 사용된 데이터에 사람이 주석을 단 사소한 차이에 따라 어떻게 더 엄격하거나 더 관대해질 수 있는지를 보여준다.
알려진 단점에도 불구하고 알고리즘은 이미 기업에 누가 채용될지, 어떤 환자에게 의료 우선권이 주어질지, 보석금이 어떻게 책정될지, 어떤 텔레비전 프로그램이나 영화를 볼지, 누가 대출, 임대 또는 대학 입학 허가를 받을지, 어떤 아르바이트생에게 어떤 업무를 할당할지 등 여러 중요한 결정을 내린다. 이러한 자동화 시스템은 의사결정 속도를 높이고, 밀린 업무를 효율적으로 처리하며, 더욱 객관적인 평가를 하고, 비용을 절감할 수 있다는 장점으로 인해 빠르게 확산하고 있다. 그러나 실제로 뉴스 보도와 연구에 따르면 이러한 알고리즘은 몇 가지 놀라운 오류를 범하기 쉽다. 그리고 이러한 알고리즘의 결정은 사람들의 삶에 오래 지속되는 부정적인 결과를 초래할 수 있다.
학습 데이터 라벨링 따라 흔들리는 기준
올봄 사이언스 어드밴시스(Science Advances)에 게재된 새로운 연구에서는 이러한 문제의 한 측면을 강조했다. 연구자들은 알고리즘을 훈련해 주어진 규칙의 위반 여부를 자동으로 결정하도록 두 프로그램을 설계했다. 하나는 사람들의 사진을 검토하여 사무실 복장 규정을 위반했는지 판단하고, 다른 하나는 급식 식단이 학교의 기준을 준수했는지 판단했다. 각 프로그램에는 두 가지 알고리즘 버전이 있으며, 프로그래머가 버전마다 조금 다른 방식으로 학습 이미지에 레이블을 지정했다. 기계 학습에서 알고리즘은 훈련 중에 레이블을 사용하여 패턴을 파악하고 다른 유사한 데이터를 어떻게 분류해야 하는지 파악한다.
드레스 코드의 경우 규칙 위반 조건 중 하나는 "짧은 반바지 또는 짧은 치마"였다. 이 모델의 첫 번째 버전은 주어진 규칙과 관련된 용어를 사용한 사진으로 훈련되었다. 예를 들어 주어진 이미지에 '짧은 치마'가 포함되어 있다고 간단히 설명하면 해당 사진에 규칙 위반 라벨을 붙였다. 다른 버전은 주석 작성자가 직접 사진을 보고 주관적인 묘사로 어떤 복장이 규정을 위반했는지 판단하도록 요청했다.
두 버전의 모델은 동일한 규칙을 기반으로 학습 했지만 서로 다른 판단을 내렸다. 설명 중심 데이터로 훈련된 버전은 사람의 판단으로 훈련된 버전보다 더 엄격한 기준으로 분류했고 특정 복장이나 식단이 규칙을 위반했다고 말할 가능성이 더 높았다.
이 연구의 공동 저자인 매사추세츠 공과대학(이하 MIT)의 박사 과정 학생인 아파르나 발라고팔란(Aparna Balagopalan)은 "설명 중심 라벨을 사용하면 위반 사례로 분류될 가능성이 커지고, 따라서 더 엄격한 기준이 세워집니다"라고 밝혔다.
이러한 불일치는 이미지를 단순히 설명하라는 요청을 받았을 때와 이미지가 규칙을 위반했는지 판단하라는 요청을 받았을 때 학습 데이터에 다른 라벨을 붙인 주석가들 때문일 수 있다. 예를 들어, 연구에 참여한 한 모델은 온라인 포럼에서 댓글을 중재하도록 훈련되었다. 훈련 데이터는 주석 작성자가 인종, 성적 취향, 성별, 종교 또는 기타 민감한 개인적 특성에 대한 부정적인 댓글이 포함되어 있는지를 설명하거나, 그러한 부정적인 댓글을 금지하는 포럼의 규칙을 위반했는지를 판단하여 라벨을 붙인 텍스트로 구성되었다. 주석 작성자들은 부정적인 댓글이 포함된 텍스트가 규정을 위반했다고 말하기보다는 그러한 댓글이 포함되어 있다고 설명하는 경우가 더 많았는데, 이는 아마도 자기 주석이 다른 조건에서 다른 결과를 초래할 수 있다고 생각했기 때문일 것이다. 사실을 잘못 기술하는 것은 세상을 잘못 묘사하는 문제일 뿐이지만, 결정을 잘못 내리는 것은 잠재적으로 다른 사람에게 해를 끼칠 수 있다고 연구진은 우려했다.
이 연구의 주석가들은 설명 중심 라벨링의 모호성에 대해서도 동의하지 않았다. 짧은 옷을 기준으로 복장 규정을 판단할 때 "짧은"이라는 용어는 분명히 주관적일 수 있으며 이러한 레이블은 머신 러닝 시스템이 결정을 내리는 방식에 영향을 미친다. 모델이 사실의 유무에 따라 규칙 위반을 추론하는 방법을 학습하면 모호함이나 숙고의 여지가 없으나 인간의 주관으로부터 학습할 때는 주석 작성자의 유통성을 통합하게 된다.
"이는 라벨링 관행을 자세히 검토하지 않고 데이터 세트를 자주 사용하는 분야에 대한 중요한 경고이며, 특히 사회적 규칙 준수가 필수적인 상황에서 자동화된 의사결정 시스템에 주의가 필요하다는 점을 강조합니다"라고 공동 저자이자 MIT의 컴퓨터 과학자이자 발라고팔란의 고문인 마르지예 가세미(Marzyeh Ghassemi)는 강조했다.
과거 데이터 학습 넘어 시의성까지 갖춰야
최근의 연구는 편향된 학습 데이터의 알려진 문제 외에도 학습 데이터가 예상치 못한 방식으로 의사결정 알고리즘을 왜곡할 수 있다는 점을 꼬집었다. 예를 들어, 2020년 콘퍼런스에서 발표된 연구에서 연구자들은 인도 뉴델리의 치안 예측 시스템에 사용된 데이터가 이주민 정착촌과 소수 집단에 편향되어 있으며 이러한 커뮤니티에 대한 불공정한 감시를 증가시킬 수 있다는 사실을 발견했다. "알고리즘 시스템은 기본적으로 과거 데이터를 바탕으로 다음 답이 무엇일지 추론합니다. 그 결과 근본적으로 다른 미래를 상상하지 못합니다"라고 샌프란시스코 대학의 응용 데이터 윤리센터에서 근무했으며 인간-컴퓨터 상호작용 연구원인 알리 알카팁(Ali Alkhatib)이 설명했다. 과거의 공식 기록은 오늘날의 가치를 반영하지 않을 수 있으며, 따라서 인종차별과 기타 역사적 불공정에서 벗어나기 어렵다는 것을 의미한다.
또한 알고리즘은 학습 데이터 외부의 새로운 상황을 고려하지 않을 때 잘못된 결정을 내릴 수 있다. 학습 데이터 세트에서 대표성이 낮은 소외된 사람들에게 피해를 줄 수 있다. 2017년부터 일부 성소수자 유튜버는 제목에 "트랜스젠더"와 같은 단어가 포함되면 동영상이 숨겨지거나 수익 창출이 차단되는 것을 발견했다고 전했다. 유튜브는 알고리즘을 사용하여 어떤 동영상이 콘텐츠 가이드라인을 위반하는지 판단한다. 구글은 2017년에 의도하지 않은 필터링을 방지하기 위해 해당 시스템을 개선했다고 밝혔으며, "트랜스" 또는 "트랜스젠더"와 같은 단어가 알고리즘을 작동시켜 동영상을 제한한다는 사실을 부인했다. "우리의 알고리즘 시스템은 동영상의 수익 창출 또는 제한 상태를 평가할 때 문맥과 뉘앙스를 이해하는 데 실수를 할 때가 있습니다. 그러므로 판단이 잘못되었다고 생각하는 경우 이의를 제기할 것을 권장합니다"라고 구글 대변인이 사이언티픽 아메리칸에 보낸 이메일에서 설명했다. "실수가 발생하면 이를 수정하고 원인 분석을 수행하여 정확도를 높이기 위해 어떤 시스템 변경이 필요한지 결정합니다."
알고리즘이 판단해야 할 실제 정보 대신 대용 변수(proxy)에 의존할 때도 오류가 발생할 수 있습니다. 2019년의 한 연구에 따르면 미국에서 의료 프로그램 등록에 관한 결정을 내리는 데 널리 사용되는 알고리즘이 동일한 건강 프로필을 가진 흑인 환자보다 백인 환자에게 더 높은 점수를 부여하여 백인 환자에게 더 많은 관심과 자원을 제공한 사실이 발견됐다. 이 알고리즘은 질병이 아닌 과거 의료 지출 정도를 의료 수요의 대리 지표로 사용했으며, 평균적으로 백인 환자가 더 많은 비용을 지출했기 때문에 이와 같은 결과를 일으켰다. 발라고팔란은 "대용 변수를 우리가 예측하고자 하는 것과 일치시키는 작업이 중요합니다"라고 얘기했다.
알고리즘 판단에 의존하면 안 돼
자동 의사결정 모델을 만들거나 사용하는 사람들은 가까운 미래에 이러한 문제에 직면해야 할 수도 있습니다. 알카팁은 "아무리 많은 데이터를 가지고 있어도, 아무리 세상을 통제하고 있어도 세상의 복잡성은 끝이 없다"라고 지적했다. 휴먼라이츠워치의 최근 보고서에 따르면 요르단 정부가 시행한 세계은행 자금지원 빈곤 구호 프로그램이 결함이 있는 자동 할당 알고리즘을 사용하여 현금 이체를 못 받은 가정이 발생하는 사례를 보여줬다. 이 알고리즘은 소득, 가계 지출, 고용 이력 등의 정보를 바탕으로 가족의 빈곤 수준을 평가했다. 그러나 실제 각 가정의 사정은 복잡하기 때문에 정확한 기준에 맞지 않으면 어려운 가정도 제외됐다: 출퇴근이나 물과 장작을 운반하는 데 필요한 생계형 자동차를 소유한 가정은 차가 없는 동일한 가정보다 지원받을 가능성이 작으며, 차량이 5년 미만인 경우 지원 신청이 거부될 수 있다. 의사결정 알고리즘은 이러한 현실 세계의 뉘앙스를 파악하는 데 어려움을 겪으며, 이에 따라 의도치 않게 피해를 주고 있다. 타카풀(Takaful) 프로그램을 시행하는 요르단의 국가 원조 기금은 보도 시점까지 논평 요청에 응답하지 않았다.
연구자들은 이러한 문제를 예방하기 위해 다양한 방법을 모색하고 있다. 알고리즘 편향성을 연구하는 프린스턴 대학교의 박사과정생인 안젤리나 왕(Angelina Wang)은 "자동화된 의사결정 시스템의 결함 증명 책임을 사용자가 아닌 개발자에게 전가해야 합니다"라고 운을 뗐다. 알고리즘 개발자들이 해당 의사결정 구조에 대해 가장 많은 정보를 갖고 있기 때문이다. 연구자와 실무자들은 어떤 데이터를 사용하는지, 해당 데이터가 어떻게 수집되었는지, 모델 사용의 의도된 맥락은 무엇인지, 알고리즘의 성능을 어떻게 평가해야 하는지 등 알고리즘에 대해 더 많은 투명성을 요구해 왔다.
일부 연구자들은 알고리즘의 결정이 개인의 삶에 영향을 미친 후에야 알고리즘을 수정하는 대신 알고리즘의 결정에 대해 이의를 제기할 방법을 제공해야 한다고 제안했다. 발라고팔란은 "머신러닝 알고리즘에 의해 의사결정이 진행되고 있다는 사실을 안다면, 그 모델이 나와 비슷한 사람들에 대한 판단을 구체적으로 학습했는지 알고 싶을 것입니다"라고 토로했다.
어떤 사람들은 알고리즘 제작자에게 시스템 결과에 대한 책임을 묻기 위해 더 강력한 규제를 요구하기도 한다. 하지만 알카팁은 "책임이란 누군가가 실제로 무언가를 조사할 수 있고 알고리즘에 저항할 힘이 있을 때만 의미가 있습니다."라고 반박했다. "알고리즘이 나 자신보다 나를 더 잘 안다고 믿지 않는 것이 정말 중요합니다."
Can we ever really trust algorithms to make decisions for us? Previous research has proved these programs can reinforce society’s harmful biases, but the problems go beyond that. A new study shows how machine-learning systems designed to spot someone breaking a policy rule—a dress code, for example—will be harsher or more lenient depending on minuscule-seeming differences in how humans annotated data that were used to train the system.
Despite their known shortcomings, algorithms already recommend who gets hired by companies, which patients get priority for medical care, how bail is set, what television shows or movies are watched, who is granted loans, rentals or college admissions and which gig worker is allocated what task, among other significant decisions. Such automated systems are achieving rapid and widespread adoption by promising to speed up decision-making, clear backlogs, make more objective evaluations and save costs. In practice, however, news reports and research have shown these algorithms are prone to some alarming errors. And their decisions can have adverse and long-lasting consequences in people’s lives.
One aspect of the problem was highlighted by the new study, which was published this spring in Science Advances. In it, researchers trained sample algorithmic systems to automatically decide whether a given rule was being broken. For example, one of these machine-learning programs examined photographs of people to determine whether their outfits violated an office dress code, and another judged whether a cafeteria meal adhered to a school’s standards. Each sample program had two versions, however, with human programmers labeling the training images in a slightly different way in each version. In machine learning, algorithms use such labels during training to figure out how other, similar data should be categorized.
For the dress-code model, one of the rule-breaking conditions was “short shorts or short skirt.” The first version of this model was trained with photographs that the human annotators were asked to describe using terms relevant to the given rule. For instance, they would simply note that a given image contained a “short skirt”—and based on that description, the researchers would then label that photograph as depicting a rule violation.
For the other version of the model, the researchers told the annotators the dress code policy—and then directly asked them to look at the photographs and judge which outfits broke the rules. The images were then labeled accordingly for training.
Although both versions of the automated decision-makers were based on the same rules, they reached different judgments: the versions trained on descriptive data issued harsher verdicts and were more likely to say a given outfit or meal broke the rules than those trained on past human judgments.
“So if you were to repurpose descriptive labels to construct rule violation labels, you would get more rates of predicted violations—and therefore harsher decisions,” says study co-author Aparna Balagopalan, a Ph.D. student at the Massachusetts Institute of Technology.
The discrepancies can be attributed to the human annotators, who labeled the training data differently if they were asked to simply describe an image versus when they were told to judge whether that image broke a rule. For instance, one model in the study was being trained to moderate comments in an online forum. Its training data consisted of text that annotators had labeled either descriptively (by saying whether it contained “negative comments about race, sexual orientation, gender, religion, or other sensitive personal characteristics,” for example) or with a judgment (by saying whether it violated the forum’s rule against such negative comments). The annotators were more likely to describe text as containing negative comments about these topics than they were to say it had violated the rule against such comments—possibly because they felt their annotation would have different consequences under different conditions. Getting a fact wrong is just a matter of describing the world incorrectly, but getting a decision wrong can potentially harm another human, the researchers explain.
The study’s annotators also disagreed about ambiguous descriptive facts. For instance, when making a dress code judgment based on short clothes, the term “short” can obviously be subjective—and such labels influence how a machine-learning system makes its decision. When models learn to infer rule violations depending entirely on the presence or absence of facts, they leave no room for ambiguity or deliberation. When they learn directly from humans, they incorporate the annotators’ human flexibility.
“This is an important warning for a field where datasets are often used without close examination of labeling practices, and [it] underscores the need for caution in automated decision systems—particularly in contexts where compliance with societal rules is essential,” says co-author Marzyeh Ghassemi, a computer scientist at M.I.T. and Balagopalan’s adviser.
The recent study highlights how training data can skew a decision-making algorithm in unexpected ways—in addition to the known problem of biased training data. For example, in a separate study presented at a 2020 conference, researchers found that data used by a predictive policing system in New Delhi, India, was biased against migrant settlements and minority groups and might lead to disproportionately increased surveillance of these communities. “Algorithmic systems basically infer what the next answer would be, given past data. As a result of that, they fundamentally don’t imagine a different future,” says Ali Alkhatib, a researcher in human-computer interaction who formerly worked at the Center for Applied Data Ethics at the University of San Francisco and was not involved in the 2020 paper or the new study. Official records from the past may not reflect today’s values, and that means that turning them into training data makes it difficult to move away from racism and other historical injustices.
Additionally, algorithms can make flawed decisions when they don't account for novel situations outside their training data. This can also harm marginalized people, who are often underrepresented in such datasets. For instance, starting in 2017, some LGBTQ+ YouTubers said they found their videos were hidden or demonetized when their titles included words such as “transgender.” YouTube uses an algorithm to decide which videos violate its content guidelines, and the company (which is owned by Google) said it improved that system to better avoid unintentional filtering in 2017 and subsequently denied that words such as “trans” or “transgender” had triggered its algorithm to restrict videos. “Our system sometimes makes mistakes in understanding context and nuances when it assesses a video’s monetization or Restricted Mode status. That’s why we encourage creators to appeal if they believe we got something wrong,” wrote a Google spokesperson in an e-mail to Scientific American. “When a mistake has been made, we remediate and often conduct root cause analyses to determine what systemic changes are required to increase accuracy.”
Algorithms can also err when they rely on proxies instead of the actual information they are supposed to judge. A 2019 study found that an algorithm widely used in the U.S. for making decisions about enrollment in health care programs assigned white patients higher scores than Black patients with the same health profile—and hence provided white patients with more attention and resources. The algorithm used past health care costs, rather than actual illness, as a proxy for health care needs—and, on average, more money is spent on white patients. “Matching the proxies to what we intend to predict ... is important,” Balagopalan says.
Those making or using automatic decision-makers may have to confront such problems for the foreseeable future. “No matter how much data, no matter how much you control the world, the complexity of the world is too much,” Alkhatib says. A recent report by Human Rights Watch showed how a World Bank–funded poverty relief program that was implemented by the Jordanian government uses a flawed automated allocation algorithm to decide which families receive cash transfers. The algorithm assesses a family’s poverty level based on information such as income, household expenses and employment histories. But the realities of existence are messy, and families with hardships are excluded if they don’t fit the exact criteria: For example, if a family owns a car—often necessary to get to work or to transport water and firewood—it will be less likely to receive aid than an identical family with no car and will be rejected if the vehicle is less than five years old, according to the report. Decision-making algorithms struggle with such real-world nuances, which can lead them to inadvertently cause harm. Jordan’s National Aid Fund, which implements the Takaful program, did not respond to requests for comment by press time.
Researchers are looking into various ways of preventing these problems. “The burden of evidence for why automated decision-making systems are not harmful should be shifted onto the developer rather than the users,” says Angelina Wang, a Ph.D. student at Princeton University who studies algorithmic bias. Researchers and practitioners have asked for more transparency about these algorithms, such as what data they use, how those data were collected, what the intended context of the models’ use is and how the performance of the algorithms should be evaluated.
Some researchers argue that instead of correcting algorithms after their decisions have affected individuals’ lives, people should be given avenues to appeal against an algorithm’s decision. “If I knew that I was being judged by a machine-learning algorithm, I might want to know that the model was trained on judgments for people similar to me in a specific way,” Balagopalan says.
Others have called for stronger regulations to hold algorithm makers accountable for their systems’ outputs. “But accountability is only meaningful when someone has the ability to actually interrogate stuff and has power to resist the algorithms,” Alkhatib says. “It’s really important not to trust that these systems know you better than you know yourself.”