Skip to main content
[딥테크] 소셜미디어 실험의 함정, 지워진 다수의 통계
Picture

Member for

1 week 6 days
Real name
송혜리
Position
연구원
Bio
[email protected]
다양한 주제에 대해 사실에 근거한 분석으로 균형 잡힌 시각을 제공하고자 합니다. 정확하고 신뢰할 수 있는 정보 전달에 책임을 다하겠습니다.

수정

소셜미디어 연구가 놓치는 구조적 한계
플랫폼 비이용자의 반복적 배제와 왜곡
대표성 확보와 데이터 공개를 위한 새로운 기준 필요

본 기사는 VoxEU–CEPR(경제정책연구센터)의 칼럼을 The Economy 편집팀이 재작성한 것입니다. 원문 분석을 참조해 해석과 논평을 추가했으며 본 기사에 제시된 견해는 VoxEU 및 CEPR과 반드시 일치하지 않음을 밝힙니다.

소셜미디어(SNS)는 정치, 여론, 건강 정책 등 다양한 분야에서 실험의 장으로 활용되고 있다. 수억 명 규모의 사용자, 실시간 자료 수집, 손쉬운 무작위 배정 등은 연구자와 정부, 기업의 관심을 끌 만하다. 그러나 이 실험들은 구조적으로 중요한 질문에서 출발한다. '누가 이 플랫폼 안에 있는가?'다.

소셜미디어 이용자는 전체 인구의 축소판이 아니다. 기술적·경제적 여건으로 플랫폼을 이용하지 못하거나 의도적으로 거부한 이들은 애초에 실험 대상에서 제외된다. 고령층, 저소득층, 농촌 인구처럼 지속적으로 소외되는 계층이 있으며, 이는 단순한 수치 누락이 아니라 분석 틀 바깥으로 밀려난 구조적 배제를 뜻한다.

사진=ChatGPT

지역 격차가 만드는 구조적 공백

플랫폼은 사용자 수를 근거로 ‘전 지구적 영향력’을 주장하지만, 이는 착시에 가깝다. 2025년 1월 기준 에티오피아의 소셜미디어 이용률은 6.2%에 불과하며, 동아프리카나 남아시아 농촌 지역도 30% 이하에 머문다.

지역별 소셜미디어 이용률 비교(2025년)
주: 동아프리카, 남아시아 농촌 지역, 글로벌 평균, 북미, 유럽, 중남미(좌측부터)

디지털 접근성이 좋은 미국에서도 격차는 뚜렷하다. 미국 여론조사기관 퓨리서치센터(Pew Research Center)에 따르면, 65세 이상 미국인의 45%는 소셜미디어를 전혀 사용하지 않지만, 30세 미만에서는 그 비율이 6%에 그쳤다. 이처럼 플랫폼 사용자만을 실험 대상으로 삼을 경우, 특정 지역과 세대는 시작부터 실험 밖에 놓이게 된다. 소셜미디어 실험이 실제로는 세계 인구 절반 이상을 배제하고 있다는 점에서, 이 틈은 단순한 배경이 아닌 설계 자체를 되짚어야 할 지점이다.

플랫폼 밖에 존재하는 절반의 지도

에티오피아에서는 전체 인구의 78%가 아직 오프라인 상태다. 이는 통신망이 도시에만 집중돼 있고, 모바일 데이터 요금이 저소득층에겐 큰 부담이기 때문이다. 여기에 저가형 스마트폰은 고사양 인터페이스를 제대로 구현하지 못한다. 이처럼 기술적 제약으로 플랫폼에 접근하지 못하는 경우는 다른 지역에서도 광범위하게 나타난다. 개인정보 유출이나 사이버 괴롭힘에 대한 우려처럼, 기술 외적인 이유로 소셜미디어 이용을 꺼리는 이들도 많다. 이들은 단순히 빠진 집단이 아니라, 사회과학이 주목하는 행동 특성 면에서도 구조적으로 다른 양상을 보일 수 있다. 그러나 현재의 디지털 실험은 이 차이를 반영하지 못한다.

실험 설계에 스며든 이중 편향

문제는 단지 누락된 집단이 있다는 것이 아니라, 이 누락이 반복적으로 왜곡을 낳는다는 데 있다. 플랫폼에 존재한다는 것 자체가 이미 특정한 인구적, 심리적, 행동적 조건을 통과했다는 의미다. 참여한 이들과 참여하지 않은 이들 사이에는 명백한 차이가 존재한다.

그리고 플랫폼 내부에서도 편향은 다시 한번 작동한다. 실험에 응답하고, 콘텐츠를 만들고, 알고리즘을 움직이는 건 극소수의 ‘과대 표현된 사용자’들이다. 2023년 EPJ Data Science에 실린 연구는, X(옛 트위터)에서 총기 규제 이슈를 다루는 사용자 집단이 전체 플랫폼 사용자 구성과 완전히 다른 방향으로 기울어 있다는 사실을 보여줬다.

이런 편향은 단순한 통계 왜곡에 그치지 않는다. 한 연구는, X에서 수집된 메시지 일부만으로 커뮤니케이션 네트워크를 재구성할 경우, 특정 사용자의 존재 자체가 사라지거나 상호작용 강도가 과소평가돼, 이들이 실제 네트워크에서 맡는 역할이 왜곡된다고 지적했다. API 제한과 필터링 설정 같은 기술적 조건이, 실험 결과의 구조 자체를 흔들 수 있다는 의미다. 아무리 나이, 성별, 정치 성향을 통제해도, 특정 주제에 몰입한 소수의 참여 양상이 실험 결과를 좌우하게 된다. '표본 수 1,000만'이라 해도, 이는 전 세계 성인의 0.2% 수준에 불과하다. 숫자가 많다고 대표성을 담보하지는 않는다.

규모의 착시와 표본의 침식

실험의 외형은 거대해 보이지만, 실제 유효 표본은 빠르게 줄어든다. 예를 들어, 월간 사용자 3억 명의 플랫폼에서 실험한다고 가정해도, 이 중 80%가 중상위 소득 국가에 집중돼 있다. 세계 인구의 절반은 여기서 이미 제외된다.

또 전체 게시물의 90%는 상위 10% 사용자가 생산하며, 실험 참여율도 비슷한 구조를 따른다. 나이별 참여 격차까지 반영하면, 최종 분석 대상은 약 1,200만 명 수준, 세계 성인의 0.19%에 그친다. 겉보기엔 정밀해 보이지만, 실제론 표본이 지속적으로 깎여 나가는 구조다.

플랫폼 실험에 따른 이탈 분석 구조 (단위: 백만 명, %)
주: 참여 인원수(백만 명, 진한 색), 전체 세계 성인 인구 대비 비중(%, 연한 색)/세계성인인구, 플랫폼 월간 이용자, 상위 10% 콘텐츠 제작자,
연구 참여 동의자, 18~64세 하위집단, 최종 분석 표본(좌측부터)

현장에서 사라지는 실험 효과

디지털 실험의 한계는 실전에서 더욱 뚜렷해진다. 미국에서 페이스북을 통한 백신 접종 독려 캠페인은 히스패닉 사용자에게 효과를 보였지만, 이를 모방한 볼리비아 정부의 시도는 실패로 끝났다. 이 지역의 소셜미디어 이용률은 25%에도 미치지 않았고, 주된 소통 수단은 라디오와 왓츠앱(WhatsApp) 음성메시지였기 때문이다지털 실험의 한계는 실전에서 더욱 뚜렷해진다. 미국에서 페이스북을 통한 백신 접종 독려 캠페인은 히스패닉 사용자에게 효과를 보였지만, 이를 모방한 볼리비아 정부의 시도는 실패로 끝났다. 이 지역의 소셜미디어 이용률은 25%에도 미치지 않았고, 주된 소통 수단은 라디오와 왓츠앱(WhatsApp) 음성메시지였기 때문이다.

교육 실험에서도 마찬가지다. 세계은행의 분석에 따르면, 디지털 학습 실험 참가자의 70% 이상이 고소득층이었다. 따라서 해당 실험 결과를 전국 정책으로 확대한 국가에서는, 인터넷이나 스마트폰이 없는 대다수 학생에게는 효과가 전달되지 않았다. 결국 실험은 특정 계층만을 위한 것이었고, 정책은 이를 일반화해 버린 것이다.

대표성을 회복하기 위한 설계 보완

이러한 문제는 설계를 바꾸면 보완할 수 있다. 대표성을 높이기 위해선 전화조사나 인구조사 기반 표본과 소셜미디어 사용자 표본을 함께 활용하는 이중 설계가 필요하다. 활동량에 따른 가중치를 적용하거나, 비이용자를 가정한 시뮬레이션도 실험 결과 해석에 도움이 된다. 이러한 방식은 기존 오프라인 조사의 영역에서는 흔하지만, 디지털 실험에서는 여전히 생소한 접근이다. 그러나 이질적인 방식의 결합 없이는 대표성을 회복하기 어렵다.

비공개 데이터의 벽과 신뢰의 한계

설계 개선에도 한계는 존재한다. 핵심 변수는 종종 플랫폼 내부 비공개 데이터에 갇혀 있기 때문이다. 미국 연방거래위원회(Federal Trade Commission, FTC)는 2024년 보고서에서, 주요 플랫폼들이 비이용자 정보를 간접적으로 수집하고 있음에도 외부 연구자와는 공유하지 않는다고 지적했다. 문제는 이런 정보 없이 실험 결과의 외삽 가능성을 평가할 수 없다는 데 있다. 플랫폼이 “우리 사용자층은 전체 인구를 대표한다”라고 주장하더라도, 연령 분포·중복 계정·비이용자 비율 등이 공개되지 않는 이상 그 신뢰는 제한적일 수밖에 없다.

디지털 실험을 위한 새로운 기준

향후 실험은 더 엄격한 기준을 갖춰야 한다. 실험 전, 각 집단의 플랫폼 접근율을 공개하고, 분석에 포함된 인구 비중도 함께 명시해야 한다. 단순한 나이·성별 통계를 넘어서 소득, 문해력, 데이터 비용, 기기 접근성 등도 변수로 포함해야 한다. 또한 ‘누가 어디서 이탈했는가?’를 투명하게 공개하는 구조도 중요하다. 실험 메시지 수신, 반응, 이탈 과정을 단계별로 공개하면, 실험의 한계를 숨기지 않고 드러내는 방식으로 신뢰를 얻을 수 있다.

존재하지 않는 사람들을 다시 통계 안으로

소셜미디어 기반 실험은 삶의 일부만 비춘다. 플랫폼을 쓰지 않거나 쓰지 못하는 29억 명은 여전히 통계 밖에 있다. 정밀한 디지털 실험을 전통적 방식과 연결할 때야 이들의 존재가 수치로 드러날 수 있다. 그래야 비로소 그들의 목소리도 정책과 연구의 중심에 설 수 있다.

원문의 저자는 가이 아리도르(Guy Aridor) 노스웨스턴대학교(Northwestern University) 교수 외 3명입니다. 영어 원문 기사는 A practical guide to running social media experiments | CEPR에 게재돼 있습니다.

Picture

Member for

1 week 6 days
Real name
송혜리
Position
연구원
Bio
[email protected]
다양한 주제에 대해 사실에 근거한 분석으로 균형 잡힌 시각을 제공하고자 합니다. 정확하고 신뢰할 수 있는 정보 전달에 책임을 다하겠습니다.