Skip to main content

Machine Learning Term paper

Machine Learning Term paper
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

글 후반부에 우리학교 Machine Learning 과목의 이번학기 Term paper를 공유해 놨는데,

저 문제를 만들 때 했던 생각들 썰풀이로 시작해보자.

 

신생 대학교에 대한 여러 질문에 대한 답변 드리려고 잠깐동안 단톡방을 운영한 적이 있었다.

분탕이 엄청 몰려들었었는데, 그 중 음해 세력인지 아닌지 확신은 없지만 어느 CS 전공자로 보이는 분이 한 말이 있다.

DNN이 틀렸다는걸 증명해서 보여주면 되지 않을까요?

 

우선, 이미 DNN이 만능 솔루션이 아니라는걸 수십번도 더 블로그를 통해서 보여줬고, 아니 몇 년간 그걸 증명하는 블로그를 운영해왔고,

내가 아니더라도 다른 수 많은 똑똑하신 분들이 DNN이라는 계산방식이 언제 더 낫고, 언제 더 나쁜 계산법이라는걸 설명해놓은 컨텐츠가 널려있다.

일반 회귀분석이 Linear modeling에만 초점을 맞추고 있는데, 데이터에 대한 특이한 가정이 있어서 그렇고, (정규분포...)

ML 하는 분들이 DNN이라고 불리는 Non-linear 모델을 위한 컴퓨터 의존형 계산을 하는 것도 데이터에 대한 독특한 가정이 있어서라는걸,

굳이 여기를 오지 않더라도 많이들 봤을 것이다.

(혹시나 못 봤다면 통계 문맹 + DNN마니악만 있는 YouTube와 개발자 커뮤니티만 돌아다닌거 아니냐고 반문하고 싶다.)

아마 단톡방의 그 CS 전공자도 이런 지식들을 일절 외면하고 살고 있기 때문에, 어쩌면 통계 문맹이라 이해를 못했기 때문에 했던 말일 것이다.

그러니 일도양단으로 "틀렸다"는 표현이 나오겠지. 언제 어떻게 쓸 때는 맞고, 아닐 때는 틀렸다가 아니라.

 

많은 컨텐츠가 있음에도 불구하고 외면하는 분들께,

Proof is useless unless it's proof of something people already want to believe. And I'm afraid no one wants to believe this

라는, The Newsroom이라는 어느 미드의 인상적인 Quote 하나를 공유한다.

 

미국이 왜 No.1인지에 대해서 알려달라는 어느 Sorority girl (약간 좀 맹~해 보이고 별 생각없이 SNS에 사진 올려서 Like나 받으려고 하는...)느낌의 여학생에게

미국이 No.1인 부분은 천사가 실제로 존재한다고 믿는 사람들 같은 부끄러운 수치 밖에 없고,

다른 나라들이 훨씬 더 대단한 부분이 많은데 미국인들이 현실을 직시 못하고 있다는 좀 냉혹한 코멘트를 하는 중에 나온 말이다.

 

나 역시도 어느 시점부터 그런 분들께 굳이 Proof를 들이 미는걸 포기하고 산다.

아무리 이야기를 해 줘도 자기들이 주장하는 것과 조금이라도 비슷해 보이는 이야기를 어디선가 갖고 와서,

이래도 생각을 안 바꾸냐고 고집들을 피우는데, 그 분들도 날 고집 피운다고 생각하겠지.

영원히 평행선을 달릴 뿐이다.

 

주변 지인들이나 대학 선배님들 같은 분을 만나서, 내가 대학교를 만들어서 BSc, MSc, MBA 같은 프로그램을 운영한다고 밝히면,

처음에는 진짜 대학교 맞냐고 의구심을 보이다가,

오죽하면 그 고생까지하며 아예 대학을 만들었냐ㅋㅋ 너도 진짜 속이 터지는가보다

라는 반응들을 듣는다.

 

응? 속이 터지나?? 요즘와서 가만 생각해보면, 속이 터지는 부분은 좀 내려놓은 시점이 된 것 같다.

내가 자원봉사자도 아니고, 듣고 싶은 사람, 정말 제대로 하고 싶은 사람들을 끌고 가기도 너무 바쁜데, 굳이 왜...

 

나와 비슷한 생각을 가진, 연배 좀 지긋하신 교수, 연구원 등의 학자 분들을 몇 분 만난 적이 있었는데,

쟤네들은 이 나이에도 힘이 있는지 약이 올라서 저렇게 바꾸려고 하는데, 난 이제 좀 내려놨어. 어차피 안 바뀌고 안 듣잖아. 그냥 내 밥벌이나 하고 있음 나중에 자기들이 바뀌어 있더라고.

딱 이렇게 바뀐 것 같다.

 

그래서 그냥 평소 생각하던 내용들을 정리해서 문제를 만들었다.

학교 밖 사람들 중에 능력자들은 알아서 풀겠지.

 

 

위의 문제는 우리 SIAI의 MBA AI/BigData 과정 중 Machine Learning 수업 기말 텀 페이퍼다.

(마지막 문제는 MSc Data Science 학생들이 듣고 있는 Regression Analysis III의 Time series 관련 주제다.)

언뜻보면 Finance 문제처럼 생겼지만, Finance에 대한 기본 지식이 굳이 없어도 되는,

Machine learning에서 배운 내용을 어떻게 활용할 수 있는지를 묻는 평범한(?) 문제라고 생각한다.

 

강의노트들을 주르르 화면에 띄워놓고, 저 위에 길게 나열해놓은 생각들을 머리 속에서 되뇌어가며 만든 문제들이다.

너무 어렵게 만들면 이해를 못할까봐 문제들에 배경설명을 한참 읊어놨다. 이 정도면 쉽게 풀 수 있겠지? ^^

욕심나는거 많았는데 나중에 MSc AI의 Advanced Machine Learning 수업에서 좀 더 풀어내기로 했다.

 

외부인 들에게는, 논리 자체가 이해 안 되더라도, 국내에서 흔히보는 여러 계산법 다 돌려보고 그 중에 제일 잘 맞는거 골라서 보고해라는 수준의,

학문에 대한 모욕 수준으로까지 쉬운 문제는 아니라고만 이해해주면 내 입장에선 문제 공개의 목적을 충분히 달성한 것 같다.

 

마지막 수업일에 문제 전체 구조를 설명하는데만 2시간 남짓을 썼는데,

핵심은 Gaussianity가 있는 구간과 깨진 구간을 구분할 수 있는 "데이터 전처리" 작업을 통해 (단순 N/A 메워넣기 아니다ㅠㅠ)

Non-linearity가 필요한, 즉 ML 모델링이 필요한 구간을 구분해 내고, 그 구간에 Factor Analysis 기반의 여러 계산법들,

예를 들면 기초 교과서에 자주 등장하는 PCA 같은 계산법들을 어떻게 적절하게 활용해서 문제를 풀어나가는지 고민을 풀어내면 된다.

Gaussianity가 살아있는 구간에는 굳이 그런 계산비용을 지불하는 "오버"를 할 필요가 없다는 걸 배웠으니, 잘 응용만하면 수준 높은 답안을 만들어 낼 수 있을 것이다.

 

다음 Term에 본격적으로 Deep Artificial Neural Network (속칭 DNN) 모델의 용법을 다루기 전에,

DNN이 Factor Analysis의 Graph 모델이라는걸 강조하려고 마지막에 Artificial Neural Network의 기본을 가르쳤는데,

해당 내용을 바탕으로 NN 모델이 DGP가 어떨 때 조금이라도 더 의미가 있는지 제대로 이해해야 풀 수 있는 문제를 마지막에 넣었다.

제대로 이해하고나면 다음 Term에 Deep Learning을 배우면서 Hyperparameter tuning만 잘하면 장땡이라는 직업학교 수준의 착각을 하진 않겠지.

 

아마 NN 모델링을 할 때 Initial weight를 단순히 random으로만 넣으면 Convergence가 깨진다며 여러가지 옵션을 배울텐데

위에 제시한 방법이 사후적으로 계산비용이 가장 줄어들 확률이 높은 Autoencoder 방식의 일반구조에 해당한다.

(반대로 사전적으로는 많은 비용을 지불해야 한다.)

좀 더 Bayesian stat 과 MCMC 관련 경험치가 쌓이는 다음 학기에 Boltzmann machine을 배우면서 다시 Autoencoder 혹은 Factor analysis를 만나게 될 것이다.

 

MSc 전용 문제는 저게 VAR을 쓰는 합리적인 계산법이어서는 아니고, Non-linearity를 구현해내는 방법이라는 관점에서만 국한할때,

무조건 SVM이나 Tree계열 모델들 (Neural Net 포함)만 있는게 아니라,

Linear regression들을 위의 문제 스타일로 엮기만해도 common error term과 시계열 구조 때문에 Non-linearity를 어느정도 대체할 수 있다는걸 느끼라는 문제다.

Multi-task learning과 굉장히 유사한 구조이지만 각각의 독립적인 Error term과 시계열 구조를 가지기 때문에 또 다른 Non-linearity에 대한 대응이 가능하거든.

VAR의 SUR 버전을 이상하게 쓰도록 만든 문제라 아직도 찜찜한데, 강의 부담이 너무 많아 좀 타협을 했다. 학생들도 잘 못 따라오는 것 같아서 쉽게 양보...라고 사족 변명도 붙여본다ㅎㅎ

앞으로 1년간 고민을 더 담아 다음 Cycle 정도에는 좀 더 세련된 형태로 문제를 바꿀 수 있으면 좋겠다.

 

빠듯한 시간 제약 속에 마음에 쏙 드는 문제를 만들질 못해서 아쉬움이 많지만,

적어도 우리 MBA 학생들이 배운 Factor Analysis 기반의 Machine Learning을

제대로 이해하고 현실 데이터에 활용하기 위해서는 그렇게 나쁘지 않은 문제라고 생각한다.

좀 더 마음에 드는, 수학적으로 복잡한 도전이 숨어있는 문제들은 나중에 MSc AI/DS 과정 후반에 제대로 해보자 ^^

 

나가며 - 증명이 안 됐다고? 믿고 싶지 않은 거겠지.

날 더러 DNN이 더 안 좋은 모델이라는걸 증명도 못한다는 투의 비난을 이미 수십번도 더 들었는데,

그 분들이 내가 DNN이 언제, 어떤 조건에서만 효과가 있다는걸 몇 년동안 설명한 이 블로그 글들을 얼마나 이해했을려나 모르겠다.

내가 한 이야기만 담은 것도 아니고, 그래프도 보여주고, 수식으로 설명도 하고, 심지어 코드를 공유한 적도 있었고,

나아가 Stanford, NYU 같은 명문대학 교수진들의 논문이나 인터뷰 글도 몇 개나 소개했었나.

 

저 위의 문제를 풀어낸 우리 학생들의 답안지를 보면서, 비전공 출신에 반년도 공부 안 했는데 이런 이해가 잡히는 걸 보면서,

"unless it's proof of something people already want to believe" 가 아닌 증명을 블로그에 열심히 남길 필요가 없겠다 싶더라.

그 분들은 내가 못 하는거라고 설명한 내용을 누가 DNN으로 해 냈다고 우기는 컨텐츠를 올리면 "DNN으로도 되네!!!"는 식으로

학문적 논리를 이해하기는 커녕, 내가 쌓아올린 학문적 논리를 깎아내리기만 바쁜 사람, 내가 던지는 메세지에 귀를 철저하게 막고 사는 사람들이라는걸 깨달았으니까.

논리를 이해할 수 있는 훈련은 안 받고, 랜덤 노이즈가 잔뜩 있는 데이터를 놓고 실험을 해 보면 된다는, 특정 기간에 실험해보니 되니 다른 기간에도 다 될 것 같은데, 너가 뭘 안다고 안 된다고 하냐며 화를 내는 분께 굳이 내가 왜...?

학문적 지식에 종교적 신념(or 위의 Sorority girl 급의 이해도)을 가진 분들에게 굳이 내가 왜...?

 

그 선배님 말씀대로,

난 이제 좀 내려놨어. 어차피 안 바뀌고 안 듣잖아. 그냥 내 밥벌이나 하고 있음 나중에 자기들이 바뀌어 있더라고.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

Why SIAI - 3. 박사과정 중 필요성을 느꼈지만 엄두를 못냈던 지식들이라는 확신이 들었습니다

Why SIAI - 3. 박사과정 중 필요성을 느꼈지만 엄두를 못냈던 지식들이라는 확신이 들었습니다
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

S대 공학 박사 시리즈 글 3번째다.

1편: S대 공학 박사가 본 수학 & 통계학이 필요한 이유

2편: S대 공학 박사가 본 수학 & 통계학이 필요한 이유 - 후기

은 위의 링크를 따라가서 직접 확인하기 바란다.

아래는 MSc DS 지원 당시에 보낸 메일에서 개인 정보를 최대한 제거한 글이다.


(1) 소개

올해 3월 데이터 사이언스 메인 강좌를 수강한 XXX입니다.

블로그 내용대로, 작년에 수학 & 통계학 for Data Science 수강 후 학부 2~3학년 수준의 선형대수/ 회귀분석/ 통계 복습에만 4개월 이상 걸렸습니다.

(중략)

(4) 지원 전공: MSc Data Science (예비 석사 과정)

(5) 지원 사유

고급 수준의 XXX 관련 연구에 꼭 필요하지만 공대 대학원에 있을 때 습득하지 못한 수리통계 지식들이 SIAI의 MSc DS ~ MSc AI 커리큘럼에 있는 것을 보고, 인생에 오는 몇 번의 큰 기회 중 하나라고 생각하여 지원합니다.

XXX 연구 당시, 선도적인 논문들에서는 상당수가 하기의 수리통계적 요소를 포함하고 있었습니다.

[A] Stochastic analysis: XXX는 불확실성을 갖습니다. 특히 XXX 연구 기준으로 High-frequency (15분 - 1시간)이면서 장기간 (몇 년) 축적된 Time series data 이므로, 계절 성분을 포함하고, 자기 상관이 큰 장기간의 Non-stationary 데이터 처리 테크닉이 필요합니다.

[B] Multi-stage programming: 불확실성을 고려해 여러개의 시나리오를 상정하거나, Period를 N개로 나누고, 각 Sub-period별로 직적 sub-period의 최적화 결과가 다음 sub-period의 초기조건이 되도록 문제를 구성하는 경우가 있습니다. 이런 경우, Multi-stage programming 문제가 되며, (*주: MSc DS ~ MSc AI에 걸쳐있는) Dynamic optimization으로 해결 가능한 것으로 알고 있습니다.

[C] Multiple decision makers: XXX 시장과 공급망 내 여러 참여자들 각각의 YYY 등 행동은 최소비용 수요 충족 등 제약 하에 각자의 목적함수를 최소화하는 방향으로 이루어지며, 서로에게 영향을 미칩니다. (특히 XXX 비중 증가로 sotchasticity도 증가해 문제가 어려워지고 있습니다.) 한편 정부의 XXX 정책도, YYY 보급률을 늘리려는 정부와 비용을 최소화하려는 YYY 도입 주체 간의 dependent한 의사 결정으로 볼 수 있습니다. 관련해 Game theory를 적용할 수 있겠다는 생각을 했습니다. (자세히 배운 적은 없지만요.)

[D] Panel data analysis: XXX 분야는 필연적으로 정책과 유관하므로, XXX 연구 결과물은 정책 관련 함의 제시에 쓰일 수 있어야 합니다. 관련해 XXX 연구원 등 유수의 연구기관에서 발행한 연구결과물에서, 패널 데이터 분석 등 계량경제 이론이 많이 쓰이는 것을 보았습니다.

[E] AI: 최근 XXX 분야에서도 "XXX and AI"라는 신생 저널도 생기고, YYY 연구에서도 ZZZ을 RNN으로 예측하는 등, AI를 접목하려는 시도가 활발히 이루어지고 있습니다. 그러나 대부분의 경우, 그 시도들에 수학적 고민이 충분히 포함되었는지에는 다소 의문이며, 위에서 기술한 XXX 연구의 전체 그림과 유기적으로 얽힌다기보다는, 딥러닝으로 당장 결과를 뽑을 수 있는 일부 Module에 한정적으로 적용되고 있다는 느낌입니다.

 

[A] ~ [E] 전부 SIAI의 커리큘럼에 포함되어 있는 것을 보고, 제가 대학원생 때 막연하게 필요성을 느꼈지만 습득할 엄두를 내지 못했던 바로 그 지식들이라는 것을 확신했습니다. 이러한 확신이 드니, 평범한 직장에 고착화되기 전에 한 해라도 빨리 도전하자는 생각 또한 들었고, 지원을 결정하게 되었습니다.

 

위의 사항들을 왜 대학원 때는 습득하지 못했냐 하면...

우선 지도교수님께서 XXX을 주력으로 연구하는 분이 아니셨고,

저년차 때는 XXX 도메인과 최적화 공부, 그리고 ZZZZ를 쓰는 프로젝트 수행에 바빠 저런 시각을 갖지 못했습니다.

 

대학원 중년차(?) 쯤 되니 슬슬 저런 요소들이 있다는 것은 보였으나, 저런 수학 요소들을 경제수학의 이런저런 교재를 보면 배울 수 있다는 것을 알려주는 사람도 없었고, 코스웍 기간은 지나버린 데다, 당장 학위논문 주제를 정하고 논문을 싣는데 신경써야 하는 현실(?) 앞에서, 당장의 프로젝트에 쓰지 않을 수학에 장기투자(...) 할 엄두가 나지 않더군요.

블로그 글에 지적해주셨던대로 이제서야 정신차리고 다시 배우겠습니다. 그래서, 국내 XXX 연구 수준과 XXX 관련 의사결정의 합리성을 Global 수준으로 끌어올리는데 이바지할 수 있는 사람이 되고 싶습니다. SIAI에서라면 실현 가능한 목표라 믿습니다.

(일반적인 Data Science 및 Artificial Intelligence 관련 동기와는 다소 다른 동기가 되어버렸는데, 이를 "개인화된만큼 더욱 확실한 학습 동기", 혹은 "SIAI의 Output 다양성"으로 봐 주신다면 감사드리겠습니다.)


 

입학 당시 내부 평가

국내에서 지난 몇 년간 다양한 종류의 공학 전공에서 국내 대학 박사 학위를 한 분들을 만나봤었지만, 이렇게 구체적으로 자기에게 필요한 수학, 통계학 주제를 정확하게 이해하고 있는 경우는 극히 드물었다.

처음 1달짜리 단기 수업에서 만나봤을 때부터 이미 느꼈지만, 국내 공돌이, 아니 공학도 중에 상위 0.01%에 해당하는 분일 것이다.

(내가 공돌이들 한테 혐오감이 최대치를 찍었지만, 이런 분에게까지 그런 비속어를 쓰고 싶진 않다. "공학도"로 정정한다.)

기초 수학을 따라오는데 긴 시간이 걸리는 비전공자인만큼, MSc DS, MSc AI에서 최상위권이 될 확률은 높지 않지만, 수업 따라오는데 큰 어려움은 없으리라고 기대를 했었고,

실제로도 매우 잘 따라오고 있는 중이다.

한국 사회를 바꿔주는 밀알이 되시리라고 큰 기대를 갖고 있다.

 

지원 서류 검토 당시에 우리가 가장 높게 샀던 부분은,

뭘 배워야하는지를 알고 있고, 우리 SIAI에 와서 그 포인트들이 해결될 수 있을 것이라는 구체적인 방향 설정이었다.

무슨 코드 베껴서 AI 전문가 되겠다는 허황된 꿈을 가진, 국내 언론들 때문에 왜곡된 시야를 가진 지원자 투성이였는데,

(ex. 제가 비전공자이지만 10년 동안 코딩을 해서 좀 자신있는데요, 그럼 MSc AI 바로 들어갈 수 있나요?)

다른 학생들과 다르다고 잘못되었다는 생각을 한게 아니라, 되려 우리와 Fit이 꼭 맞는 분이 아닐까 생각했었다.

 

우리가 AI 전문가를 기르는데 정작 Business 연계 전공인 MBA에 큰 초점을 두고 있는 이유가,

다양한 학문 출신들이 자기의 강점과 SIAI의 강점을 결합해서 Synergy를 창출해내기를 바라기 때문이다.

일전에 소개했던 S대 계산과학 연계 전공의 Business 버전이 우리가 꿈꾸는 학교의 모습이거든.

 

우리 SIAI가 제공해 줄 수 있는 교육

우선 저 위의 [A] ~ [E] 교육이 우리가 Boot camp 수준의 AI 코딩 교육에 비해서 가진 2가지 장점 중 하나다.

Global 레벨 연구자들에게 공통적으로 받아들여지는 연구 방법론을 AI 교육에 접목한 커리큘럼, (즉, 영미권 초명문대 대학원 교육)

나머지 하나는 MBA에서 가르치고 있는 Business 적합도를 높인, "진짜 실제 현실의 문제를 해결하는 능력"을 키워주는 교육이고.

 

아마 저 공학 박사 분은 국내에서 [A] ~ [E] 교육을 받을 수 있는 교육 기관 자체를 찾기 힘들었을 것이다.

어쩌면 내 모교, 모 학부인 S대 경제학부 대학원 석/박 과정에서 일부 가르쳐주실지는 모르겠는데, (나도 대학원 안 가봐서 모르겠다)

경제학과 스타일로 가르치지, 공대 학생을 배려해서 Problem Set이나 기말고사를 출제하기는 어려울 것이다.

당장 미시, 거시 경제학의 주제들을 저런 수학으로 풀어내는 문제를 만들어내는 것도 쉽지 않은데, 공대생 1-2명을 위해 추가로 시간을 쏟기에는 교수님들도 힘드시겠지.

 

경제학에서 저런 고급 수학을 쓰는 교육을 받고, 나중에 Financial Math가서 다시 저 수학을 쓴 모델을 배우면서 느낀 거지만,

학문 범위가 아주 조금만 달라져도 수학이라는 도구만 똑같지, 정작 문제에 접근하는 태도 같은게 확 달라지더라.

더더군다나 ML, DL, RL 하는 CS분들이 같은 수학, 통계학을 쓰는걸 보면, 아예 철학적인 태도마저 다른 것도 느낀다.

 

CS로 미국에서 박사하신 다른 박사님도 우리 MSc DS에 오셨는데,

미국에서 이런저런 괜찮은 MSc DS를 찾아가봐도, 대부분 원하지 않는 뜬금없는 해당 학문 내용을 너무 많이 요구하더라는 불만이 있으셨다.

 

우리 SIAI는 같은 레벨의 고급 수학을 Data Science의 문제를 풀어내는 관점에서 커리큘럼으로 만들(기 위해 엄청난 노력을 쏟아 부)었다.

물론 세부 과목마다 내 출신 전공인 경제학이나 Financial Math 냄새가 풀풀 풍기는 문제들을 던지거나,

다른 교수님들이 자기 전공 출신 냄새가 풍기는 강의노트를 들고 있기는 할 것이다.

아마 몇 년간 이렇게 고생해서 우리 나름대로 Data Science 교육용 커리큘럼을 체계화할 때까지는 시간이 좀 걸리겠지.

 

최소한, MSc AI/DS쪽 공부를 하면서, 국내에서 우리보다 더 고급 수학을 "자유자재로" 활용하는 교육 과정을 찾기는 어려울 것이다.

이건 이미 국내 몇몇 명문대 교수로 있는 지인들의 한탄섞인 자조를 한 두 번 들어본 게 아니기 때문에, 확신을 갖고 말할 수 있다.

아마 저 위의 고급 수학이 쓰였다는 논문에 쓰인 수학 주제 자체를 위의 S대 공대 박사 분 정도로 구분해내는 국내 연구자도 거의 없을 것이다.

국내 공대에 있는 인력(교수, 박사, 석사 등등) 전부를 통틀어서 100명, 아니 50명만 나와도 기적이라고 생각한다.

 

저 위의 5개 주제 전체를 나같은 글로벌 시장 쩌리만큼이라도 강의할 수 있는 국내 "공대" 교수 10명 데리고 올 수 있으면 군말없이 큰 절 해 줄 수 있다. 절 할 일이 없을 것이다.

한국인 입장에서 받아들이기 비참하지만, 그게 한국의 인력 수준이고, 글로벌 시장 학문적 지위더라.

 

그런데, 위에 쓰신대로 분야에 상관없이 "해외 선도적인 연구"에서는 저런 수학을 쓰는게 너무 당연하다.

내가 2개 전공을 공부하면서 보기도 했고, SIAM이라는 수학 학회에 논문 하나 발표하다가 타 전공 연구자들의 결과물을 보면서도 느꼈던 사항이기도 하다.

저런 "기본적인" 수학 도구를 모르면, 그 리그에서 대화 자체가 안 된다.

그러니까 국내 연구진이 글로벌 시장에서 2류, 3류 취급받고, 쩌리급 SCI급 저널에도 못 내서 국내용 K-SCI나 만들어서 자위(?)하고 있을 수 밖에.

 

우리 MSc 교육 레벨은, 딱 이렇게 Global 수준의 연구인력을 키워내는 곳이다.

(이정도 레벨의 연구 인력이 되는게 목표가 아니라면 무리하지 말고 MBA in AI/BigData -> DBA in AI/BigData 하자 응?)

 

기본도 모르는 국내 대학 졸업생들

MBA in AI/BigData 학위 초반부 수업 중 하나에 회귀분석의 가장 기초인 Gauss-Markov 가정 5개를 설명했던 날의 일이다.

어차피 머신러닝, 딥러닝, 인공지능 용어만 화려하게 써 놨지, 사실은 회귀분석이라는 기초를 모르면 코드 복붙해서 사기치는 개발자 수준 밖에 안 되는, 그래서 GM 5개 가정 (A1 ~ A5)은 정말 필수 중에 필수인데, 자기네 회사에 "명문대 데이터 사이언스 석사" 출신인 분이 A1 ~ A5를 하나도 모르고, 변명이라고 하는 꼴이,

머신러닝 공부하느라 회귀분석은 까먹었다. 몰라도 상관없지 않나?

란다더라. 저 의견에 동의하는 까막눈 공돌이들이 많겠지만, 적어도 내 눈엔

밥 하는데 집중하느라 쌀을 안 샀다. 햇X 데워주면 되지 않나?

같은 표현과 동치로 보인다.

밥 하는데 집중하느라 쌀을 안 사는건 뭐지? 그냥 밥솥만 사 놓으면 흙을 넣어도 밥이 되나?

현미보리밥 같은 신경 쓴 밥도 아니고, 백보 양보해서 단순 흰 쌀밥도 아니고, 햇X 내놓는 식당 밥을 프리미엄 얹어 주고 사드실 분 있나?

근데 '프리미엄이 붙은' 명문대 데이터 사이언스 석사 출신이라고? 그래서 다른 인력보다 연봉이 높다고?

한국은 자칭 IT강국, 인재들 갈아넣어서 전세계 10대 경제 대국 아니었나? 인재가 엄청 많은 나라 아님? ㅋㅋ

 

저 의견에 동의하는 구간은, 정말로 회귀분석이 그다지 필요하지 않은 데이터들, 즉 자연어, 이미지 같은 패턴이 항상 정해져 있는 데이터 셋에서 "동일(at least 유사) 정보값" 매칭하는 작업 밖에 없다. (ex. 챗봇) 개념 이해를 바탕으로 추상화 모델링을 하는게 아니라, 단순 공식을 찾는 공돌이들이 좋아하는 A -> B 매칭이 적용되는 구간은 "항상 정해져" 있거든. 나머지 모든 heavy noise 데이터에서는 데이터 전처리 작업에만도 Gauss-Markov가 깨지는 상황들이 헤아릴 수 없이 벌어진다.

Noise도 별로 없는 벽돌깨기 게임 문제 푼다고 쓴, 인공지능 마니악 CS 전공자들이 그렇게 좋아하는 Reinforcement Learning 중에 Experience Replay 한번 봐봐라. Dynamic optimization, MCMC, Gibbs sampling, Change of measure, Time Series, ARMA, Endogeneity 같은 주제를 다 알아야 제대로 쓸 수 있는 모델인데, 이런 지식은 회귀분석을 기초 상식으로 깔고 가르치는 내용들이다. Noise가 더 많으면, 더 다양해지면, Endogeneity도 단순히 공식 대입하듯이 풀 수 있는 것도 아니고.

어떤 데이터, 어떤 목적에 어떤 방법론을 어떤 방식으로 적용해야하는지 제대로 이해 못하는 인재를 길러내는 학교가, 기본도 모르는 대학 졸업생들이 어떻게 교육이 됐다고 할 수 있겠나? 그런데 틀린 걸 가르쳐줘도 끝까지 맞다고 우기고 그걸로 세금, 투자금 같은 아까운 돈을 낭비하고 있으니 도대체 얼마나 모르면, 얼마나 엉망으로 가르쳤길래 애들이 저렇게 고집불통이 되나는 생각을 할 수 밖에.

 

나가며 - 국내 대학 졸업생들 vs. 인생이 바뀐 SIAI 학생들

다시 위의 S대 공학 박사라는 분의 글로 돌아오면,

"박사과정 중 필요성을 느꼈지만 엄두를 못 냈던...."

이라는 표현을, 글 쓰신 박사 분께는 정말 미안하지만 이렇게 수정하고 싶다.

"3류 교육 과정이라 학교에서 안(못) 가르쳤던 내용...."

국내 대학의, 특히 공학 대학원 과정들 수준, 아니 한국의 지식인 사회가 주는 "자격증" 수준이 어떤지에 대해서

S대 박사, 그것도 국내 VC 투자사들이 물고 빠는 공대 박사들의 수준이 어떤지 잘 보여주는 진술서였지 않았나 싶다.

저 박사 분은 그래도 국내의 비참한 현실을 혼자 힘으로 깨달은 기적같은 분이다. 꼭 SIAI에서 선진 교육을 받고 탈출하시기 바란다.

아니, 이미 SIAI 찾아오신 것만으로도 우물 밖으로는 나왔다. 이제 우물 밖에서 살아남느냐가 관건이겠지.

 

가까운 친구 하나가 우리 SIAI 교육 과정에서 "날라다니고 있는" TA들과, 한계를 깨닫고 찾아오신 공대 박사들 이야길 듣고는

네가 그 분들 인생 바꿔 드린거야. 다들 살아남으면 너네 학교 교수 시켜드려

라던데, 솔직히 내가 좀 편하고 싶어서라도 꼭 살아남고 교수 하시면 좋겠다ㅋ

 

Why SIAI 시리즈

  1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ
  2. 여긴 교수님들이 책 밖에 있으신 분들인거 같아서요
  3. 박사과정 중 필요성을 느꼈지만 엄두를 못냈던 지식들이라는 확신이 들었습니다
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

2022학년도 봄학기 지원자 지원동기

2022학년도 봄학기 지원자 지원동기
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

이번 2022학년도 봄학기에 지원하신 분들의 지원동기들을 간략하게 정리해봤다. (현재 재학생들이 작성한 면접 보고서에 기록된 내용을 바탕으로 했음을 밝힌다.)

 

1. 컴퓨터 공학 전공자

현재 직장은 개인정보가 담긴 인물 사진이나 차량 사진을 받아서 개인정보를 모자이크 처리하는 일을 하는 곳이다. 프로젝트를 진행하다보니 기본 원리나 알고리즘에 대해서 전혀 관심이 없고, Github 코드를 가져다 파라미터만 바꾸어 사용하는 상황이었다. 통계와 수학적인 지식을 바탕으로 데이터를 처리하는 방법에 대한 근본적인 이해가 필요하다고 생각하는 와중에 파비블로그 글을 읽게 되었다.

사실 회사를 그만두고 통계학 과정을 더 공부하려는 계획을 가지고 있었으나, 파비블로그 글에서 대표님이 수학과 통계에 대한 논리적인 이해를 바탕으로 한 데이터 사이언티스트 양성에 신념을 가지고 주장하시는 것을 보고 지원 결심을 하게 되었다.

블로그를 2019년부터 자세히 읽어서 학교 설립 취지를 이해하고 있다. 한국의 수준 낮은 데이터 사이언스 교육과 차별화 하는 것이 목표이며, 소위 AI라고 알려진 그냥 라이브러리를 가져다 코딩하는 낮은 수준의 교육이 아니라, 근본적인 이해를 바탕으로 한 수준 높은 교육을 제공하는 것이 목표라고 알고 있다. 특히, 교과서 수준의 지식이 아니라, 현실 적용을 고민하신 커리큘럼이 딱 적합하다고 판단했다.

2. 재료공학 + 변리사

외부의 학위과정을 찾아봤지만, 단순히 머신러닝 전문가 양성이라는 말만 그럴싸하게 피상적인 레벨이고 제대로 본인의 니즈에 맞는 과정인지 알기 어려운데, SIAI는 철학이 있다는 것을 파비블로그를 통해 강하게 느낄 수 있었다.

전략 컨설팅의 실패와 머신러닝의 관계 라는 포스트가 현재 변리사 업무와 굉장히 닮아있다. 데이터 사이언티스트로 업무를 진행하는 방식이 현실의 문제를 어떻게 추상화하는지, 그래서 현재 컨설팅 회사의 수행 업무들이 어떤 한계점에 봉착해있는지 이해할 수 있었다.

특히, 고객 중에서도 특허 원리를 모르면서 머신러닝/딥러닝을 만능열쇠 (& 블랙박스) 로 여기는 사람들이 많아, 학교 설립 취지에 크게 공감한다.

MBA 커리큘럼 소개글 중, "수학으로 쓰인 지식을 누구한테 번역해달라고" 할 수는 있어야 된다, "그 번역물을 정보 손실을 최소화하면서 알아들을 수는 있어야" 된다는 표현들에 크게 공감이 됐다.

3. 통계학 및 머신러닝 전공자 - 현재 벡엔드 개발자

Cobb-Douglas 함수에 Log를 취한 다음, 일반적인 회귀분석으로 얻어낸 상관계수를 이용해서 실제로 노동조합과 사측이 연봉 협상을 벌이는 글을 보고 엄청난 충격을 받았다. 통계학을 교과서로만 배웠고, 지식이 부족한데, 정말로 이렇게 현실 문제를 풀어내는데 쓸 수 있다는 것에 놀랐고, 나도 그렇게 쓸 수 있는 사람이 되고 싶다.

회사 안에서 A/B Test를 하는데, 다들 대용량 데이터 모아서 ML 돌리는 생각만 하고 있지, 파비클래스에서 이야기하는대로 random sampling이 제대로 되었는지, multi-period로 모델이 확장되는 상황이 있는지, Underlying 분포함수가 Poisson일 수도 있는데, 그런 고려는 안 하는지, N_1, N_2를 나눠주는 비율에 따라 test stat에 영향을 주는 부분에 대한 고려는 있는지 같은 사항들이 전혀 언급이 되질 않더라.

학부 유학파라 석사도 미국을 갈 생각했지만, 현실적인 사정상 국내에 있어야 하는데, S대를 비롯한 국내 유명 대학 AI/DS 과정들은 코딩 베이스로 돌아가고 있는 반면, SIAI 교육은 수학적이면서도 실용적인 밸런스가 굉장히 잘 갖춰져 있어, AI 박사 커리어를 생각하지 않는 입장에서 MBA AI/BigData가 매우 적합한 과정이라고 판단하게 됐다.

4. 화학 전공 + S대 MBA

회사에서 "빅데이터" 업무에 배정된만큼, DS 관련 수업들을 회사 지원금으로 들었지만, 간단한 케이스 예제와 데이터 시각화 정도인 탓에 기대치를 충족시키지 못했다. 학부시절에도 공부한 내용을 연구실에 가면 써먹을 줄 알았는데, 다들 Trial-and-error만 반복해서 실망이 컸다.

대전 K대 출신인만큼 학교에서 제공해주는 DS 강의를 들었는데, 수업을 듣는 동안 이걸 들어서는 파비블로그에서 말하는, 현실 세계의 문제를 수학적으로 추상화한 다음, 논리적인 사고로 문제를 풀어내는 능력을 갖출 수 없겠다는 것을 깨달았고, 교수님이 CS 출신이라는 것을 보고 바로 자교 AI대학원을 가는 것을 포기했다.

S대 MBA 과정 수업은 좋았지만, 마케팅 수업에서 배운 내용이 도대체 어디에 어떻게 쓰이는지, 답답한 마음을 갖고 있었다. 문제를 풀어나가는 능력을 기른다는 관점에서, 학위 과정 전체에서 얻은 경험치를 다 합해도 파비블로그 글을 2번 읽는 동안 얻었던 "Fundamental Theory and Logical Thinking" + 직관적인 이해보다 부족하다고 생각한다.

파비블로그 + SIAI 컨텐츠는 딥러닝을 프로젝트에 쓰려고 검색 중에 발견하게 되었는데, 제대로 데이터에 맞춰 모델을 만드는게 아니라, 그냥 붙여넣고 보려는 자신에 대해 부끄러움을 느끼고 제대로 공부하려는 생각에 지원하게 되었다.

5. 경제학 전공 + 금융업 종사

회사에 통계학 전공자들의 영향을 받아 알게 되었고, 그간 파비클래스 수업들을 다 들었다. 회사에서도 통계학 석박사 분들은 이런 교육을 찾아서 들어야 한다고 권장하는 편이다. 다른 부서에서는 아무 생각없이 딥러닝을 돌리는 경우도 있는데, 그런 부서로 가면 안 된다고 생각하고, 거꾸로 그 사람들에게 왜 잘못되었는지 설명하는 능력을 갖춰야 겠다고 생각 중이다.

고객사나 보스들 중에 딥러닝 마니악들이 많은데, 심지어 단순 로지스틱 회귀보다 못한 딥러닝 모델을 갖고 있더라.

S대 공대 연구실에 잠깐 있던 시절, S대 뿐만 아니라 대전 K대 출신들도 만나봤는데, 다들 통계 패키지만 돌릴 줄 알지, 제대로 무슨 계산을 해야하는지 모르고 있었다. 해외 데이터 사이언티스트를 만나보니, 한국은 시각화만 생각하지 통계학을 아예 모르는채로 일하는거 같더라고 무시(?) 하더라.

회사에 국내 대학원을 지원해주는 프로그램이 있는데, 다녀본 윗 분들 이야기를 들어보면, 그런 곳에서는 그냥 통계 패키지 사용하는 거 몇 번 해 보는게 다인 수준에, 주로 인간관계를 목적으로 다니는 사람들이 많아서 좋지 않다고해서, 국내에는 수준 높은 교육을 하는 대학원이 부족하다고 생각하고 있다. 해외 대학원이라 회사 지원을 못 받기는 하지만, 그래도 이왕 가는거면 제대로 배워야 한다고 생각하고 SIAI에 지원했다. 도구 변수를 이용해서 회사 업무 중 불가능해 보였던 문제를 풀어내는 SIAI 시험 문제를 보고 충격을 먹었었는데, 꼭 배워서 활용해보고 싶기는 하지만, 사실 수준 높은 SIAI의 교육을 따라갈 수 있을까 걱정이 앞서기는 한다.

6. 응용 수학 전공자

4-5달 전부터 데이터 사이언스 석사 과정 검색을 하다 SIAI를 발견하고 미국과 한국에 있는 여러 대학들을 비교해 본 끝에, 수학적인 극단과 코딩 극단의 양쪽 사이에 적절한 밸런스를 갖춘 희귀한 프로그램이라는 걸 이해하게 됐다. (미국 명문대 학부 출신)

사실 당장 회사 업무에 DS 지식을 급하게 써야하는 상황은 아니지만, 이걸 제대로 알아놔야 앞으로도 능력자로 인정 받을 수 있을 것 같고, 무엇보다 비지니스 적용을 위해 수학을 쓴다는 관점이 쉽게 볼 수 있는 교육 과정이 아니라서, 평소에도 논리적인 사고력이 부족한 것 같은데, 본인의 부족한 점을 극복할 수 있는 기회라고 생각한다.

7. 경영학과 출신

막연히 공대 수업만 쫓아다녔는데, 코드 복붙만 하는 거 같아 이상하다는 생각에 구글 검색을 하던 중에 파비블로그를 발견하게 됐다. 블로그를 가이드라인 삼아 혼자 공부를 해 봤는데, 수학적 직관이나 통계학적 응용능력이 부족해서 힘들었다.

다른 대학에서의 수업은 프로그래머의 직관, 경험에 맡기던 부분을, 파비블로그에서는 통계적으로, 주로 계량경제학적인 부분으로 설명하더라. 그 내용을 다 이해할 수준은 되지 않지만, 그런 지식을 더 쌓는 훈련을 받고 싶다. 시험 문제를 유심히 본 적이 있었는데, 내용적으로는 친근하고 현실의 문제라는게 이해되는데, 실제로 풀려고하니 손을 대기가 어렵더라. 그런 문제를 시험으로 내는 만큼, 수업 장식이 새로울 것으로 기대되고, 그만큼 적응하기는 어렵지 않을까 좀 걱정도 된다.

상관관계와 인과관계를 설명하면서 상어와 아이스크림 판매량 비유한 글이 있었는데, 평소에도 둘의 차이를 구분 못하는걸 많이 봤기 때문에 기억에 강하게 남아있다. 학부에서 현실 세계의 문제에 적용하는데 괴리가 있는 교육이 아니면 단순히 패키지의 기본적인 사용 방법을 가르치는 학원 수업 정도만 봐왔는데, SIAI에서는 논리와 직관에 주안점을 두고 가르친다고 들어서 기대(와 따라갈 수 있을지 우려)가 크다.

8. 경제학 + 금융업

DS 공부를 대부분은 IT전문학원에서 하는데, 대학에서 회귀분석을 배울 때도 어려워서 좌절한 적이 있었는데, IT학원에서 제공하는 수준으로는 답이 안 된다고 생각한다. 대표님 글을 보면, 생각하는 방식부터가 차이나는게 보여서, 여기 교육을 들어야 생각의 틀이 잡힐 것이라고 생각한다.

대표님의 글을 보면 접근 방법이 매우 친숙하고 공감이 가는게 많아서 자주 파비블로그를 읽는다. 가장 인상 깊었던 글은, 경제학에서 머신러닝, 딥러닝에 대한 관점을 논한 글이었는데, 딥러닝이 필요하고, 성능이 나오는 분야가 한정되어 있다는 걸 정확하게 짚어주셔서 이해도가 크게 올라갔었다. 또 앙상블을 무턱대고 결합하는 경우에 각 모델의 오차가 더해져서 오차가 증폭된다는 글을 보며, 딥러닝 매니악들과 반대로 이론적 토대를 가진 접근 방법이라서 꼭 공부해야겠다고 생각한다. 그런 내용을 알아야 실제로 배운 것을 업무에 활용할 때 설명, 검증이 될 텐데, 그런 것에 대해서 확신을 주는 글들이 많았다.

9.신소재/나노 공학

굳이 딥러닝을 사용하지 않아도 통계, 수학으로 충분히 커버 가능한 문제들이라는 것을 이해할 수 있는 전문가가 부족한 것 같다. 그런 R&D 과제 참여자들이 없고, R, 통계 패키지 돌렸다는 이야기만 한다. A 문제가 생겼으니 a라는 모델링을 해 보자고 말할 수 있어야 되는데, 모르니까 그냥 딥러닝으로 돌려보자고들 해서 답답하더라.

기본 통계학 수업들만 들은 상태기 때문에, SIAI의 Math & Stat 과목들에 특히 관심이 많고, 데이터 프로세싱을 어떻게 하는지 궁금하다. 회사가 보유하고 있는 데이터는 많은데, 현업에서 제대로 문제를 풀어낼 수 있는 사람들이 없다. 어떤 시각으로 바라볼 수 있는지 배우고 싶었다.

다른 대학원은 커리큘럼만 봐도 실제 현실 적용과는 동떨어진 경우가 많고, 학원의 경우 프로그래밍을 강조하는 내용이 대부분이더라. 파비블로그를 통해 접한 SIAI의 커리큘럼과 유사한 과정은 찾지 못했다. 특히, 딥러닝은 패턴이 강할 때 사용하는데, 데이터가 선형성을 따른다면 굳이 딥러닝을 쓰지 않아도 효율 좋게 문제를 풀 수 있다는 내용이 기억에 남는다.

10. 생명공학 학/석 전공자

딥러닝이 가장 열등한 모델인데? 라는 글을 보고, 사람들에게 미지의 모델이라 무조건적인 믿음이 있던 부분이 많이 깨졌다. 글을 보면서, 막무가내로 모델을 적용하는 것이 아니라, 기초통계학을 배우는 것이 중요하다는 것을 느꼈다.

사내 연구소에 근무하고 있는데, 실험 데이터 모으는 1차원적인 작업은 잘 진행되고 있지만, 실험마다 오차가 크고, 해석이 정량적이지 않아서, 제대로 뭔가 심도있게 분석을 하는 것은 없는 상태다. 제대로 된 모델링을 해 보고 싶은데, 커리큘럼이 좋고 직장을 병행할 수 있어서 지원하게 되었다.

현업이 데이터 분석 업무인데, 거의 모든 직원이 데이터 분석에 대한 전문성이 없다. 2019년도까지는 딥러닝을 이용해서 미생물 실험에서 생기는 데이터 기반 예측하는 연구들이 조금 있었는데, 그 뒤로는 없어졌고, 그 이유를 알아보니 그렇게 모델을 만들어서 예측한 것들이 잘 맞지 않아서 더 이상 많은 연구가 없었다고 한다. 실험 연구자들이 실험 관련 지식은 많으나, 그 결과를 분석하는 통계 지식은 별로 없기 때문이라고 생각한다. "그냥 데이터를 많이 때려 넣으면 예측이 잘 되는 것"이 아니라는 대표님 말에 공감한다.

해외 대학원이다 보니, 온라인으로 밖에 수업을 할 수 없다고 생각하고, MBA 과정은 배우고 싶은 직장인들에게 접근성을 높여주기 위해 더욱 온라인으로 진행하시는거라고 짐작하고 있다. 모교에서 직장인 대상 통계 대학원을 갈까 생각도 했으나, 거리도 있고, 커리큘럼을 비교해보니 SIAI MBA 과정이 월등해 보여서 여기서 공부하면 정말 좋을 것 같다고 생각하고 있다.


눈에 띄는 10개를 뽑았는데, 다들 그간 파비블로그에서 공유되었던 지적들에 크게 공감한 상태에서 학교를 지원한 것 같다.

우리 방식 교육을 겪어본 적이 없으니 딱히 국내 학벌이나 전공으로 자를 생각은 없고,

면접 중에 Red flag이 올라온 분들에 대해서만 좀 더 내부 의견을 공유한 다음에 합/불 통보를 드리면 될 것 같다고 생각 중이다.

못 따라 오거나, 중간에 포기하거나 그럴거 같아서, 괜히 시간과 돈만 날릴 것 같아서 좀 찜찜하거든.

그리고 가능하면, 의지가 있는 분들에게 양질의 교육을 공급해 줄 수 있도록 어지간하면 문을 열어드리려고 한다.

어차피 아무나 지원하는 학교는 아니고, 저 위에 10명 중에 국내 최상위권 AI/DS 대학원 지원해서 떨어질 분은 안 보인다.

(다들 잘난 분들이다 ㅋㅋ)

 

그나저나 공대에 이렇게 B형 사고를 갖춘 분들이 많은데, A형들만 만났다고 biased된 샘플만 놓고 불만을 강하게 표현하는 블로그에

상처 입으신 B형 공대 분들께 고개 숙여 사과드린다.

모쪼록 우리 SIAI와서 좋은 교육을 받고 A형들에게 깨우침을 널리 전파해 주시면 좋겠다.

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

Why SIAI - 2. 여긴 교수님들이 책 밖에 있으신 분들인거 같아서요

Why SIAI - 2. 여긴 교수님들이 책 밖에 있으신 분들인거 같아서요
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

어느 MBA 지원자 분과의 인터뷰 중에 나왔던 대화다.

면접관: 왜 굳이 저희 대학원 MBA 프로그램에 지원하시는지 여쭤봐도 될까요?

지원자: 국내 학교들 대학원 가봐야 교수님들 다들 책만 보신 분들이고, MBA는 애들끼리 토론이나 해라고 그러고 시간만 때우잖아요. 근데 여긴 대표님 글만 봐도 알 수 있듯이 공부 많이 하신 분들이 책 속의 지식이 실제로 어떻게 쓰이는지 계속 이야기가 나올 것 같고, 그런 교수진만 뽑으시려는게 티가 나거든요.

여긴 교수님들이 책 속에 있으신 분들이 아니라, 책 밖에 있으신 분들인 거 같아서요. 진짜 MBA는 이래야 된다는 표현에 깊게 공감해서 여길 찾게 되었습니다.

 

이걸 공유하는게 너무 자뻑인 것 같아서 좀 부담스럽기는한데, 다른 한편으로보면 국내 대학 교육의 문제점, and/or 국내에서 보는 MBA 교육의 문제점을 너무 잘 짚어낸 대화인 것 같아서 일부러 골라봤다.

 

Brainstorming - 경험담

비슷한 문제 의식을 가진 대화를 하나 더 공유해보면,

: 부장님은 Wharton MBA 때 수업 중에 기억나는거 뭐 있으세요?

부장님: 어? 거시? 거시경제? 그게 젤 기억 나는데?

: 에이, 경영학과 출신에 MBA면 거시경제 깊게 못 들어가셨을텐데요? IS/LM? AD/AS? 통화정책? 재정정책? 뭐 기억나십니까?

부장님: 엉? 그게 뭐냐? MBA가 그런걸 왜 배우냐ㅋㅋ 우린 뭐 배우면 내일 주가 예측에 써보고 맞는지 틀린지 맞추는게 재밌는 수업이었는데?

 

한국의 학부 경영학과 + 국내 증권사 경력 + Wharton MBA 졸업 + 내 첫 직장 선임이셨던 분과의 대화다. 나중에 알게된 건데, 그 거시경제 강의하는 교수가 나름대로 스타 강사더라. 계속 학생들을 웃기면서 거시경제의 이런저런 주제들을 학생들이 쉽게 이해할 수 있도록 다양한 예제를 드는걸로 유명한 교수라고 하던데, U Penn 학부 경제학 출신인 형님 한 분이

딱 MBA가 좋아할만한 강의였지. 우린 TA해서 돈 벌러 들어가는 강의였고ㅋㅋㅋ

라고 평가를 하셨던 기억이 난다.

 

평가야 사람마다 제각각이겠지만, 거시경제학이라는 주제를 가르치면서 매일매일 주가 움직임에 대한 해석을 재료로 삼아 강의를 한다는게 정말 쉬운 일이 아닌데, 책 속에서만 끝날지도 모를 지식을 학부 저학년 수준 수업에서 현실 세계를 해석하는 용도로 풀어낼 수 있는 강의 능력은 절대로 아무나 가질 수 없는 능력이라고 생각한다.

경제학과의 거시경제학 정도 되는 과목은, 특히 학부 수준은 이미 교과서가 수백 종류도 더 나와있고, 가르치는 내용이 크게 바뀌기도 어렵다. 굳이 따지자면 이제 학계에서 아무도 안 쓰지만 행정고시 시험에 계속 나오는 IS/LM 같은건 국내 거시경제학 교과서에서 좀 빠졌으면 좋겠지만, 최소한 논리를 따라가면서 거시경제정책 하나가 전체 경제 시스템에 어떤 채널로 어떤 영향을 미치는지 공부하는데는 좋은 사고의 도구라는데, (학부 수준이라면) 별로 토를 달고 싶지 않다.

이런 과목을 도대체 어떻게 가르쳤길래 MBA처럼 지식 기반없이 술 파티와 골프 연습으로 2년을 보내는 학위를 마친 분께 그렇게 오랫동안 기억에 남을 수 있었을까?

결국 지식이라는 것이 현실에 어떻게 쓰이는지 알려줬기 때문에, 그런 사고방식을 체화시킬 수 있는 경험을 심어줬기 때문에 다른 과목은 다 까먹어도 거시경제학은 기억한다는 이야길 하셨을 것이다.

(물론 저렇게 기초 지식 하나도 기억 못하고 주가 맞추는거만 기억하는 졸업생을 만드는건 지양해야지. 제대로 지식 없이 아는체하는 악마를 만들어 내는 교육과정은 직업학교 수준 아니냐...)

 

Strategy - 교수진 채용 원칙

다시 교수진으로 돌아와서, 일부러 교수진 선별할 때 학교나 연구기관에만 오래 계신분을 피했다. 우리가 무슨 Nature, Science 같은 인류 최고의 저널에 논문 쓰려는 연구진들이 모인 기관도 아니고, (인생의 역량을 싹 다 끌어다 Nature, Science에 1저자 논문 1개만 올려놔도 우리나라 초일류 교수진이 되는 수준으로 인재 풀이 없는 나라에서 무슨ㅋㅋ), 학생들이 배운 지식을 현업에서 제대로 쓸 수 있도록 얼마나 잘 훈련시킬 수 있는지에 초점을 맞춘 교육기관을 목표로 한다.

시계열 데이터 전처리라고 Kalman filter를 배우고, 학교에서 써 보는 거 말고, 현업 뛰면서 Kalman을 어떻게 써서 문제를 해결했는지, 그런 경험을 수업에 녹여낼 수 있으면, 당연히 학생들에게 필요한 Kalman filter라는 지식과 현업 경험치를 같이 가르칠 수 있는 교수님이 된다. (인공지능이 알아서 해 줄텐데 그런걸 왜 배우냐는 다수의 국내 공돌이 박사들은 교수는 커녕 우리학교 학생 자격도 없고ㅋㅋ)

의사들 교육 과정을 보면, 굉장히 현실 친화적 or 임상 친화적이다. 내 치아 교정 결과물 사진을 치과 의사가 강의 자료로 쓰는 수업이나, 암 치료 과정을 수업에 쓰면서 의대생들에게 대장암 전이 방식과 치료 대응을 설명하는 수업을 참관해 본 적이 있다.

Data Science라는 학문이, 필요한 Skill set들을 배우고나면 그걸 어떻게 쓰는지 최소한 입으로 정리한 케이스라도 들어봐야 왜 그런 계산통계학 지식을 배우는지 이해가 되고, 이해력이 부족한 2류 학생들에게는 실제 코드로 돌려본 결과물들을 보여주면서, 어떤 사고 방식으로 문제를 해결하는지 알려주는 강의를 해줘야한다. (그것도 안 되는 3류 학생들은..... 그냥 1달 완성 같은 강의나 들어라...)

 

Execution - 강의 내용

얼마 전, 우리 회사가 속칭 AI를 활용한 외주 서비스를 제공하고 있는 어느 고객사 시스템에 외부 해킹이라고 결론 내릴 수 밖에 없는 사건을 겪은 적이 있다. 서버의 로그인 ID/PW를 뚫으려고 여러가지 ID를 썼던데, 일반적인 서버에서 흔히 쓰는 ID들 (ex. ubuntu, admin 등등) 뿐만 아니라, 내 이름을 들은 사람이 써 봤을 조합들도 꽤나 많은 숫자로 Log값이 남았더라.

그 URL이 외부에 비공개된 상태라 아무도 모르는 시스템인데, 내가 그 시스템 최종관리자라는 것도 알아냈으면 만만치 않게 많은 정보를 찾아냈다는 뜻이겠지. 짧은 시간동안 1만번 이상의 로그인 시도 기록과 출발 IP가 중국, 동남아 등등 전형적인 VPN 서버를 활용하는 사람들, 특히 특정 목적을 가진 사람들이 주로 쓰는 IP라는걸 하나하나 밝혀내고, 고객사와 이걸 경찰에 의뢰할까 말까 고민하다가 일단은 보안을 강화한 다음, 한번 더 공격이 들어오면 그 때는 경찰에 공식 수사를 의뢰하기로 결정을 봤었다

대화 끝에, 이번 사건을 MBA 수업 자료로 써야겠다고 그랬더니, 고객사 담당자 분이 어이가 없는지 한참 웃으시더라.

그런데, 내가 어떤 스텝을 거쳐 이걸 해킹이라고 결론을 내리게 됐는지 함께 따져본 분이다보니, 다시 말을 꺼내면서 수업 방향과 연결지으니 표정이 완전 바뀌더라. 자기도 그렇게 수업 좀 듣고 해킹이라고 결론 내릴 수 있는 IT수사관(?)이 되고 싶단다.

예전에 Data Science는 일종의 탐정놀이 같은 작업이라고 그랬었다. 데이터에서 남들이 못 찾아냈던 패턴을 찾고, 그 패턴을 우리의 목적에 맞게 활용하는 학문이기 때문이다. 물론 그 때 수학/통계학 공부를 더 했고, 그걸 응용하는 능력이 더 뛰어나면, 남들이 못 찾아냈던 패턴을 더 잘 찾아낼 수 있게 된다.

학교에서 책 속의 수학/통계학으로만 공부한 사람들에게 "수학은 가성비 안 나오는 지식"이라는 병신력 만렙 인증 섞인 비난 밖에 안 나오거나, 혹은 나는 어떻게 쓰는지 가르칠 생각이 없으니까, 그건 학교에서 가르칠 내용이 아니니까, 배우는 너네가 알아서 어떻게 쓸지 찾아내라, 나는 교수니까 그런거 관심없다는 투의 뻣뻣한 태도만 가진 사람도 많다. 통계학 재밌다는 학생에게 "내가 해 봤는데 별 거 없더라"는 어느 사립 초명문대 교수 이야길 해 주던 그 학교 석사 출신 학생의 넋두리도 기억이 나네.

우리 학교 교육의 가치를 정확하게 이해하고 지원 결정을 내렸다는 어느 지원자의 말처럼, 그런 지식과 응용을 두루두루 가르치는 교수진을, 혹은 그런 교육 과정을 찾기가 정말 쉽지 않다.

 

Next steps - 경영학과가 나아가야 할 방향?

평생 Business 전공을 무쓸모 전공이라고 생각하고 무시하면서 살았는데, 위의 생각을 하면서 커리큘럼을 짜고나니, 이런게 정말 진정한 Business 전공이었어야하지 않나는 생각을 하게됐다.

경영학과 교육 과정 대부분은 기초 지식이 필요없는데, 재무관리 관련 컨텐츠는 아무리 학부 과정이라고해도 상당한 기초지식이 필요하다. Asset Pricing 쪽으로 가면 수학, 통계학, 경제학 지식이 학부 수준으로는 터무니 없이 모자라고, Corporate Finance 같은 주제를 가르치려면 그래도 학부 수준의 수학, 통계학, 경제학에 중급회계 수준의 지식이 필요하고, 합병 같은 세부주제로 들어가면 회계 쪽으로 공부할 양이 크게 늘어난다. 거기다 경영학 대학원을 정상적으로 공부하고 있으면 스스로가 Economist by training이 되어야 할 정도로 경제학 대학원생과 거의 동급의 경제학의 학문적 도구들에 대한 지식을 갖춰야 한다. (여기까지 살아남는 경영학과 학생을 거의 못 봤다.)

경영학과에 전공 잘못 왔다고 생각했다가 재무, 회계를 보고 이거라도 하자로 생각이 바뀌는 부류와, 저건 너무 어려워서 못 하겠다는 부류로 나뉜다고 하는데, 너무 어려워서 못 하는 부류 때문에 그간 경영학을 대학 레벨 학문 취급도 안 했었다. (경영학과? 그거 고졸한테 대학 졸업장 주는 과 아니냐?)

재무, 회계 지식 기반으로 경영학의 특정 주제를 깊게 파고들어가면 아무리 학부 수준이어도 필요한 지식이 많아지는 것처럼, Data Science 관련 주제도 어차피 비지니스의 특정 문제를 풀어나가는 작업이기 때문에, 얼마든지 경영학과에서 가르치는 커리큘럼으로 만들 수 있겠더라. 아니, 요즘처럼 문송해서 취직 안 되는 시대일수록 더더욱 그런 지식을 가르치는 형태로 경영학과가 새롭게 진화해야겠다는 생각을 하게됐다. (STEM MBA라는 MBA의 "과학, 기술, 공학, 수학" 버전이 실제로 미국에서 엄청 Hot trend라는걸 학위 과정 만들면서 알게 되기도 했다.)

 

수준이 팍~ 올라간 강의에 엄청 쫀 학생들이 안스러운 마음에 수준을 좀 낮춰야되는거 아닌가 고민하다가, 이왕 제대로 가르치겠다고 만들었고, 제대로 배우겠다는 학생들이 찾아왔다는 생각에, 위의 생각을 다른 교수님이랑 공유했더니 이렇게 답변 주시더라

Dog나 Cow나 만들어 제공하는 여타 MBA랑 차별성을 둬야한다는 제약이 있어서, 수준을 낮춰서 마냥 학생들을 즐겁게 하는게 우리한테도 좋을게 없죠.

 

제대로 훈련 받은 교수 인력이 부족해 시간이 좀 많이 걸리기는 하겠지만, 몇 년 이내에 우리는 MBA in AI and Finance 같은, 배경지식 필요도 0인 허접 경영학 말고, 재무, 생산관리 처럼 이미 경영학과에서도 수학, 통계학 공부가 상당히 필요한 기초 학문 위에 수학, 통계학 훈련을 응용하는 Data Science를 얹는 새로운 MBA 프로그램들을 만들어 내려고 한다. (대학 레벨 기초 교육 수준이 낮은 한국인 학생 대상은 아닐 것 같다. 얼마나 오겠냐...)

계획을 얼마나 빠르게 현실에 옮길 수 있을지는 모르겠지만, 지금 계획하는대로만 프로그램을 만들 수 있으면, 아마 국내 탑스쿨 공대들보다 압도적으로 더 수학/통계학을 잘하는 학부 경영학과 졸업생을 만들어 낼 수 있을 것이다. (사실 이미 지금 나와있는 MBA in AI/BigData도 이미 국내 공돌이 박사들이 힘들어 하는 판국이군 ㅋㅋ) 어차피 계산 공식 하나 더 외워서 한 문제 더 푸는게 수학을 잘하는게 아니라, 지식의 체계를 구성해서 현실의 문제를 풀어내는데 쓸 수 있느냐 없느냐가 수학 실력을 평가하는 진정한 잣대일텐데, 우리 스타일로 훈련받으면 경영학과라도 수학, 통계학 공부를 엄청 많이 해야 될 테니까.

평생 무시했던 경영학과를 탈경영학과 만드는데 일조하는 인생을 살게 될 줄은 정말 꿈에도 몰랐다 ㅋㅋㅋ

 

Why SIAI 시리즈

  1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ
  2. 여긴 교수님들이 책 밖에 있으신 분들인거 같아서요
  3. 박사과정 중 필요성을 느꼈지만 엄두를 못냈던 지식들이라는 확신이 들었습니다
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

Why SIAI - 1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ

Why SIAI - 1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

지난 1년간 해외의 파트너 대학을 찾고, 협정을 맺고, 학위 인증 기관의 심사를 받는 일련의 과정을 거치면서, 단순히 교육부의 칼날 앞에서 오들오들 떠는 국내 대학들과는 다른 시장에서 대학이라는 "장사"를 하는 기관들의 여러 면모를 보게 됐다. 때로는 추악하게 돈벌이에 집착하면서 학생과 파트너 기관을 쥐어 짜려는 악마를 만나기도 했고, 학교의 실질적인 교육 능력은 사실상 0에 수렴하지만 겉만 화려하게 포장해 학위 장사를 하고 있는 무수히 많은 대학과 전공 담당자들을 만나기도 했고, 더 심하게는 그런 학위 장사꾼 학교의 학위를 팔아주는 "세일즈" 업무를 하고 큰 수수료를 챙기는 분들을 만나기도 했다.

이사장 저 X끼가, 내가 1년에 10억을 벌어주는데 나한테 태도가 저 따위.....

라는 표현을 하는 어느 원로 교수님의 술 한잔 걸친 입담에 충격을 먹은 적도 있었고, 그게 익숙해지고 나니 어쩌면 이게 대부분의 학위 장사꾼들의 "장사" 방식이지 않을까는 생각도 들더라.

같은 꼴이 될지도 모르겠다는 두려움을 막연히 느끼며 대학원 교육을 시작했는데,

그렇게 소수 정예만 뽑으려면 장사 못 할텐데...

라던 주변 지인의 우려대로, 돈 벌이와는 굉장히 거리가 먼 운영이 되고 있음을 느낀다.

뭐, 장사하려고 대학원을 만든게 아니라, 우리나라 교육의 썩은 뿌리를 송두리째 뽑아내지 않으면 기껏 키워놓은 나라가 다시 2류 (아니 2류에서 3류...)로 전락할지도 모르겠다는 두려움을 떨치고자 시작했던터라, 돈 안 남으면 뭐 어떠랴는 생각으로 운영 중이다.

그런 와중에, 진짜 제대로 된 교육을 공급해야겠다는 내 의지가 제대로 관철이 되고 있는지에 대한 막연하지 않은 불안감을 항상 떨치지 못하며 강의 자료를 만들고, 다른 교수님들의 강의를 모니터링 하는데, 요즘 학생들의 반응을 보면 그래도 좀 안도감이 생긴다.

에피소드 1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ

Data-based Decision Making이라는 과목의 첫 수업을 일부러 매우 간단한 주제로 골랐다. 다른 학교, 다른 교수들은 과목 이름을 보고 어디 Excel로 된 데이터 파일 하나 불러온 다음에 그걸 Github 어딘가에 있는 코드 복붙으로 돌려보는 수업을 하고 있을 것이라 짐작되는데, 난 Opportunity cost 설명하고, 그걸 바탕으로 Comparative Advantage로 수업 시간을 꽉 채웠다.

CA 설명을 하며 단순하게는 2명의 개인간 "거래"를 설명하는 모델을 N명의 개인으로, N개의 국가로, N명의 개인이 일하고 있는 기업으로 확장하면서 무역 문제, 인사 문제 등등, 주변에서 자주 겪지만 매우 단편적인 설명 밖에 들을 수 없었던 내용들을 다뤘는데, 너무 데이터 모델을 안 보여주면 "상상 속의 논리"가 아니냐고 우길 것 같아서, 일부러 Revealed Comparative Advantage (RCA)를 이용해 1970-2000년대 무역 데이터 기반으로 국가간 N개 상품군에 대해 CA가 생긴 것을 역추적할 수 있다는 걸 보여줬었다.

이런게 "Data-based" 모델이고, 이런 모델을 바탕으로 "Decision Making"을 해야하지 않나?ㅋ

간단한 아이디어, 간단한 모델을 제대로만 이해했으면, RCA를 국가간 무역 뿐만 아니라 인사 평가, 업무 배분 같은 여러 요인의 효과를 재배정하는 작업에 쉽게 응용해서 쓸 수 있을 것이다.

수업이 끝나고 난 다음에 국내 모 Data Science 대학원을 자퇴하고 우리학교로 갈아탔던 학생이 그러더라

이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ

얼마나 해외 명문대학 교육 수준에 가까울지 함부로 단언할 수 있을만큼 많은 샘플을 갖고 있지 않아 조심스럽기는 하지만, 적어도 국내 대학들처럼 단순히 개념을 알려주고, 그 개념을 적용하는 1차원적인 문제를 풀어라고 던지지는 않았다. (그냥 그 개념을 외우는걸로 시험치는 수준인 대학교 & 전공들도 많더라. Ex. 경영학과....) 내가 유학가서 제일 괴로웠던게, 심지어 기출 문제를 알아도 내 시험 점수가 바뀌지 않을 만큼 논리 기반 논술형의 수학/통계학/경제학 짬뽕 문제들에서 합격 턱걸이 점수를 받아놓고 안도하고 있는 아시아 학생들의 잘못된 학습법과 크게 다르지 않은 공부를 했던 나 자신의 서글픈 자화상이었다.

정도의 차이는 어느 정도 있겠지만, 우리 학생들이 비슷한 감정을 느끼는 것 같아서, 제대로 교육을 하고 있다는 안도감이 생기더라.

 

에피소드 2. 매주 "과제 치료"가 아니라 "과제 고문"을 받는 것 같아요 ㅠㅠㅠㅠ

우리 스타일의 논술형 답안지를, 그것도 수학/통계학/(경제학) 논리에 맞춰 작성하는 경험이 별로 없다보니 다들 엄청나게 괴로워하는 것 같더라. 단순한 3변수 Regression을 log 값 기반으로 만들고, 그 모델이 사실은 Cobb-Douglas Function 스타일의 비선형 함수에 Log를 씌운 후 선형 Regression으로 풀어낸 모델이라는 걸 가르쳐주고, 그 식을 "아주 살짝" 잘못 만들었을 때 어떻게 꼬이는지, 그랬을 때 해석 방식이 어떻게 달라지는지를 요리조리 숨겨놓은 문제를 하나 출제해봤다.

다른 해석에 맞춰 자기만의 방식으로 문제를 풀어나가는 능력을 키울 수 있었으면 했는데, 그런 고민을 녹여넣(었지만 아직 부족한 것 같)은 답안지를 만들었던 학생이 이렇게 말하더라

한주한주 Problem Set "치료"가 아니라 "고문"을 받는 느낌입니다 ㅠㅠㅠㅠ

우스개 소리로 MBA는 죽어도 못 하겠다고 까불다가 MSc DS Prep 입학시험 (어쩌면 MBA in AI/BigData 졸업시험?)에서 폭탄 맞은 점수를 받은 학생들이 "시험 치료"가 됐다고 농담을 했었는데, 매주 제출하는 과제로 "치료"만 되는 수준이 아니라 "고문"을 받는 것 같단다.

생각의 틀을 벗어나기 위해 엄청난 노력을 쏟아붓고 있는 것 같아서 응원하는 마음이 생기기도 했고, 다른 한편으로는 한국식 교육을 벗어난 과제를 던진 덕분에 학생들이 고통&성장의 시간을 보내고 있다는 생각에 역시 안도감을 갖게 됐다.

에피소드 3. 학부 때 이렇게 공부했으면 정말 좋았겠다는 생각을 참 많이 합니다

엄청나게 어려운 강의를 하고 있는 것처럼 써 놨지만, 사실은 거의 대부분 학부 1,2학년 수준에서 만났을법한 개념들, 어쩌면 전공 수업도 아니고 타과 학생 대상으로 만든 교양 수업들, 심지어는 고교 수준 과정에서도 볼 수 있는 개념들을 최대한 활용하는 수업을 한다.

예전에 파비클래스 다녀간 어느 학부 3학년 학생이 그러던데,

쉽게 만들려고 노력하신게 눈에 보이는데, 근데 너무 어려워요 ㅠㅠㅠㅠ

매우 고난이도 수학을 복잡하고 어렵게 써야 내용이 어려워지는게 아니라, 어떤 수학을 쓰는가는 본인의 선택이고 (물론 어려운 수학을 쓰면 좀 더 엄밀한 논리를 따질 수 있는 경우가 많음을 인정한다), 대부분의 일상 논리는 단순한 수학을 어떻게 결합해서 논리적으로 풀어내느냐에 달려 있다는걸 항상 강조하는 수업을 하려고 노력하는데, 최소한 MBA in AI/BigData 수업은 그렇게 하려고 노력하는데, 한 학생이 코로나-19 감염 및 후유증으로 어쩔 수 없이 학위를 중단해야겠다며 보낸 메일의 일부를 소개한다.

대표님 수업을 들을 때마다 너무 재미있고, 학부 때 이렇게 공부했으면 정말 좋았겠다는 생각을 참 많이 합니다. 개념을 곱씹어서 제 것으로 만들고, 사고를 확장하는 훈련을 해나가는 과정이 힘들지만 매우 유익할 것.....

학부 내내 왜 배우는지 모르겠다고 생각했던 통계학 개념들이 실생활에서 이렇게 쓰인다는 걸 느낄 수 있어서 정말 "배우는 느낌"이 든다고 하던데, 좀 "시험 치료"나 "과제 치료", 아니 "과제 고문"을 받으셨으면 생각이 달라졌으려나? ㅋㅋ

힘들겠지만 이렇게 사고의 구조가 바뀌는 훈련을 1년동안 지속적으로 받고나면, 학부 4년간, 아니 국내 교육 16년간의 잘못된 사고 방식을 교정하는데 조금이나마 도움이 될 것이다.

나가며 - PT받고 자세가 고쳐진 느낌

거북목과 라운드 숄더 같은 직장인 공통의 체형 문제를 겪고 있는 분이 PT를 6개월 정도 받고 자세가 많이 고쳐진 것 같다며 좋아하는 이야기를 들은 적이 있다. 나 자신도 비슷한 문제를 장기간의 PT를 통해 열심히 고치고 있는 중이기도 하고.

이런 이야기를 들은 학생 하나가 우리 교육이 딱 그런 PT와 비슷한 것 같단다.

잘 모르는 사람들은 PT가 무슨 근육량을 최대로 길러서 대회 출전하거나, 단순한 기구 사용법만 알려주는거라고 양 극단의 오해를 하는 경우가 많은데, 실제로 많은 분들이 받는 PT는 그대로 계속 놔뒀을 경우 멀쩡하게 헬스하다가 어느 날 허리디스크가 걸리는 걸 방지하도록, 그래서 온 몸의 근육을 제대로 활용할 수 있도록 운동 방식을 교정하는 것 같은데, 우리 교육도 무슨 노벨상 수상을 목표로 하는 연구원을 위한 것도 아니고, 단순 코드를 베끼는 허접 교육도 아니고, 지식을 제대로 이해해서 활용할 수 있도록 사고 방식을 수정해주는 훈련이란다.

우리가 MBA in AI/BigData 라는 학위 과정을 만들면서 "Business" 학위가 단순히 "쉽고, 널럴하고, 거져먹는" 그런 학위가 아니라, 현실 적용을 위해 수학/통계학/(경제학)의 학문적 도구들을 적절하게 활용하는 능력을 키워주는 학위라고 그랬었는데, 그 메세지가 잘 전달된 것 같아 은근 기뻤다. 아마 국내 대부분의 대학들이 이런 교육을 할 수 있는 교수진을 못 뽑거나, 뽑더라도 그 교수님들이 너무 바빠서 교육에 깊게 신경을 쓰지 못하기 때문에, 거기다 우리나라 대학 교육이 실패한지 이미 60, 70년이 지나 고착화가 된 상태이기 때문에, 국내에서 제대로 된 교육을 받기는 어려울 것이다. 마치 망가진 체형으로 평소 하던대로 헬스 기구를 당겨봐야 망가진 체형이 바뀌지 않는 것처럼.

(체형 바꿔야한다고 설명해주는 트레이너에게 화내고 자기 방식대로 운동하는 사람, 간경화 오고 있으니까 술, 담배 끊어야한다는 의사에게 돌팔이라고 주장하며 유사의학 찾아가는 사람들이 세상에 정말 많긴 하지ㅋㅋ)

우리를 찾아온 학생들만이라도 국내외의 학위 장사꾼 교육기관들 때문에 뒤틀어진 체형이 좀 바로잡혔으면 좋겠다.

열심히 공부하는 학생들 모두 꼭 자세 교정을 하고 무사히 졸업하기를 빈다.

 

Why SIAI 시리즈

  1. 이게 정말 해외 명문대학 교육 수준이군요 ㄷㄷㄷ
  2. 여긴 교수님들이 책 밖에 있으신 분들인거 같아서요
  3. 박사과정 중 필요성을 느꼈지만 엄두를 못냈던 지식들이라는 확신이 들었습니다
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (4)

한국 대학 vs. 해외 대학 (4)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

석사 시절, Financial Economics 라는 극악의 난이도를 가진 수업을 듣던 시절의 이야기다.

그 수업이 1학기는 Discrete time, 2학기는 Continuous time으로 Asset pricing 모델을 배우는 수업인데,

잘 모르는 사람들이 착각하는 것처럼 주식시장에서 차트 따라가서 돈 버는 방법을 가르쳐주는 "기능" 수업이 아니라,

괴로운 수학 모델 기반으로 Fundamental Theorem of Asset Pricing (FTAP) I, II를 증명해가며, Portfolio 구성에 어떤 위험과 어떤 수익 관계가 생기는지를 경제학 & 수학 을 이용해 추상화된 모델을 배우는 수업이다.

특히, 2학기에는 Stochastic Calculus라는 1/무한대, 즉 무한소의 영역을 다루는 완전히 새로운 종류의 수학을 이용해야 되는터라, 안 그래도 따라가기 버거운 지식의 수학적 난이도는 더 극악이 된다.

이쪽 학자들 중에 아예 Stochastic Calculus를 모르는 사람도 은근히 될 정도다.

나 역시 석사시절 정말 미친듯이 괴로웠던 과목이고, 나중에 박사가서 그 수업 A+받고 환희의 눈물을 흘렸던 기억도 난다.

그 수업 2학기 시작하던 어느 무렵, 옆 학생들끼리 농담하는 걸 들었는데,

A: How's going dude? You look terrible

B: Ya.. terrible as hell.. I feel like I am in a wrong program.

A: I thought so, too. I should've applied to easy masters, like MBA. I didn't know finance needs this much math.

그날 대화가 농담처럼 들리질 않더라.

What can I do, if I cannot understand most of the parts? 라고 학년 초에 질문했던 다른 친구는

차라리 널럴한 프로그램으로 가서, 아무 석사라도 하나 졸업했었던 기억도 난다.

박사 시절, 석사 애들한테 Stochastic Calculus 강의를 하다가 운이 좋아 Best TA of the Year 상을 두 차례나 받았었는데,

잘 모르고 가르치려다보니 문제 풀이에만 집착하는 나 자신이 싫었던 기억도 나고,

너무 어려운 학위에 도전해서 괴롭지만, 어떻게든 끝까지 해 보겠다고 이를 악물고 조교 수업을 찾아오던 석사 생들도 기억난다.

내 경험을 미뤄봤을 때, 그 석사생들도 진짜 힘들었을 것이다.

아무리 널럴한 국내의 경영학과라도, 대부분의 Finance 대학원 과정은 수학, 통계학 요구사항이 높다보니,

그쪽 대학원 생들은 거의 죽을상이 된 상태로 사는걸 자주 봤었는데,

지금와서 돌이켜보면, 박사 유학가려고 도전하던 국내 10명이 안 되는 극초최상위권만 힘들어했던 것 같고,

나머지 학생들은 그냥그냥 시간 때우다가 학위만 받아서 졸업하고, 어느어느 기업 그럴싸한 자리에 취직 했다고 하더라.

위는 Quara.com 이라는, 영어권에서 매우 유명한 질문/답변 서비스에 Good / Bad university를 어떻게 나누는지에 대한 질문에 대한 답이다.

저 위에서 Good univ 조건 중 3, 4번과 Bad univ 조건 1-4번이 눈에 너무 박혀서 갖고 와 봤다.

국내 IT학원들이나 국내 공학 박사들, 전반적으로 IT업계에 있는 공돌이들에게 팽배한 사고 방식을 보면,

"코드 복붙해서 라이브러리 활용하는 개발자들 = 데이터 과학자"라는 (정신나간?) 시장에서,

머리 숫자로 압도하는 자기네들이 "주류 (Mainstream)"이고,

통계학과, 경제학에서 통계학을 활용할 수 있는 훈련을 받은 계량경제학자 같은 소수 집단을 "비주류"라고 판단한다.

자기네들이 주류이기 때문에 자기네들이 맞고, 그래서 소수 집단이 뭐라고 하건 다 틀렸다고 주장하더라.

"우리나라 대학들이랑 대기업들, 공학 박사들이 맞다고 하는데" 라는 표현을 쓰는데,

나는 학부 들어가던 시절 이후로 한번도 국내 대학, 국내 대기업, 국내 대학 공학 박사 학위를 "내가 가는 리그"라고 생각한 적이 없다.

거긴 "쩌리"들이 가는 곳 아닌가? (그 중엔 극소수의 예외도 있긴 하겠지.)

"쩌리"들이 숫자가 많으면 갑자기 상대성 이론이 틀린 이론이 되는건가? ㅋㅋ

학문적으로 옳고 그름을 판단하고, 그 지식을 활용하는 영역에는 당연히 극소수의 똘똘이 밖에 없다.

"쩌리"들이 그 공부를 할 수 있을리 만무할테니, 그런 극상위 클래스 진입은 못 하고, 그냥 복붙하며 해봤다고 자위질이나 하겠지.

내가 갔었던 & 수업을 찾아들었던 영미권의 매우 좋은 대학들은 위의 Quora.com 질문에 Good Univ 답변을 충분히 받을 수 있을만큼

철저한 퀄리티 컨트롤과 높은 수준의 교육을 제공해 줬었다. (Good Univ의 3,4번)

반면, 국내 대학 출신들을 가르치면서 받은 타 학교 강의자료나 졸업생 수준을 보면,

우리나라 대학들 대부분이 Bad Univ 조건과 겹치는 부분이 대단히 많다는 것을 알 수 있다. (사실 Bad Univ의 모든 조건들....)

오죽하면 명문대 교수가 "잘 가르치면 학생들이 안 오죠"라는 소리를 입 밖에 읊을까?

나름 국내 최고 대학이라는 곳에서 학부를 했었는데, 내가 받았던 교육은 석사 유학가서 바로 박살이 났었다.

(물론 내가 대충대충 공부했던, 별로 대단치 않은 학생이었음을 인정한다.)

그나마 요즘은 비행기 타고가야 뵐 수 있는 기라성 같은 교수님들을 깜놀할만큼 많이 모셔놔서 믿음을 갖게 됐지만,

우리 학교만해도 내가 학생이었던 시절에 봤었던 함량 미달의, "Bad Univ" 조건과 오버랩이 있는 교수진들,

조속한 정년 퇴임이 필요했던 그런 교수진이 아직도 은근히 남아 있다는 사실에 이제 눈을 떠 버렸다.

다른 학교로 가면 상태는 더 심각하더라.

"어휴 니 까짓게 교수라고 어디가서 거들먹거리냐 ㅉㅉ" 같은 생각이 드는데 어쩌누

차라리 어린 시절처럼 아무것도 모르고, 그냥 수업 대충 하는 교수들 놀리고, 흉내 내고 욕이나 하는,

까막눈의 인생을 살았던게 더 나았을 것 같은데,

한 명의 교수라는 사람이 학계에서 어떤 지위에 있을지 평가할 수 있을만큼 지적 훈련을 받고 경험이 쌓이다보니,

국내 어지간한 대학의 어지간한 전공 교수진이 아니면 아예 색안경을 끼고 교수라는 직업군을 바라보게 됐다.

"좀 위험한 발언이긴한데, SKY 교수 아니면 말 안 섞어도 될 것 같애..."라고 자조하던 어느 명문대 교수 지인의 하소연을 들으며,

내가 보는 눈이, 내가 Respect을 던지는 분들의 눈과 크게 다르지 않음을 확인 받았는데,

뭐랄까, 빨간약과 파란약 중에 먹지 말아야 할 약을 먹은 느낌이랄까?

안타깝지만 이게 국내 대학 교수진들, 박사급 연구원들 대다수의 현실이다.

말을 바꾸면, 한국 대부분의 대학 및 전공은 Bad Univ의 매우 적절한 예시더라.

극소수의 글로벌 티어 교수님들, 그림자를 밟을까봐 죄송한 교수님들, 180도 폴더폰 인사도 부족한 교수님들,

그런 분들이 학교 안에서 분명 온갖 종류의 Negative externality를 받고 있을 것이다.

브랜드 마케팅 for Good Univ.?

지난 몇 년간 돈 안 되는 줄 알면서도 묵묵하게 국내 IT업계의 정신나간 데이터 사이언스 교육을 비판하는 블로깅을 하고,

중간중간 시간내서 데이터 사이언스 강의를 해 왔던 상황을,

가까운 지인이 "돈, 시간 깨진다고 잘 안 할려고하는 브랜드 마케팅을 4년동안 했던 셈이군"이라고 표현하더라.

난 그냥 어이가 없어서 글을 썼을 뿐이고, 답답해서 사람들을 깨우쳐야겠다는 생각에 강의를 했을 뿐이다.

브랜드 마케팅이라는 단어를 그 날 처음 들었을만큼 생각지도 못했던 이야기였는데,

다 듣고보니 맞는 말인거 같더라.

분노를 표현하다보니, 나도 모르게 "주식회사 파비"라는 회사 이름이 데이터 사이언스 업계에서 최정상의 전문가들,

특히 수학, 통계학 기반의 훈련이 탄탄하게 된 사람들이 만드는 조직이라는 메세지를 주게 됐다.

(대신 수알못 공돌이들 사이에선 성격 엄청 안 좋은 아저씨가 욕만 엄청나게 쏟아 붓는다는 악명도 같이 쌓이기는 했지만 ㅋㅋㅋ)

학교를 만들면서 했던 생각이, 정말 국내에서 좋은 교육을 못 받아서 울화통이 터진 사람들,

글로벌 최상위권 인재들이 받는 수학, 통계학 기반의 데이터 사이언스 교육을 받고 싶은 인재들,

그런 인재들 옆에서 나도 조금이나마 더 공부해보고 싶은 열정을 가진 사람들,

그런 사람들이 모이는 공간이 되면 좋겠다고 생각했었는데,

어찌보면 뜻하지 않았던 브랜드 마케팅이 같은 Fit이었던 것 같다.

실제로 그런 생각을 가진 학생들이 우리 학교의 "주류"이기도 하고ㅋ

우리는 학생 숫자 많이 받아서 그걸로 부자되겠다는 류의 Bad Univ를 만들 생각은 눈꼽만큼도 없다.

어차피 고급 지식은 소수의 뛰어난 인재들에게 독점될 수 밖에 없는 것이 수천년의 인류 역사에서 얻은 경험 데이터로 충분히 "수렴"되는 결과를 얻을 수준이고,

그 소수의 인재가 바보 그룹 전체에게 속칭 "땅 짚고 헤엄치기"가 가능해지는 만큼 쉽게 만든 결과물을 던져서,

그 바보 그룹들의 활용에서 나오는 부가가치로 "돈을 버는 것"이 지식기반 사업의 본질이라고 생각한다.

뛰어난 수학자 1명이 공돌이 10,000명의 일자리를 만들고, 1,000,000명을 먹여살린다는 표현도 있잖아?

그 지식을 사업화하는데는 여러가지 난관이 있고, 실패도 많이 겪겠지만,

적어도 돈을 벌려고 학생들 주머니를 뺏는, 그러려고 학생 숫자만 부풀리고 보는 3류 대학이 아니라,

소수의 뛰어난 인재가 세상을 바꾸는데 조금이나마 기여할 수 있는 지식을 전달하는데 초점을 맞춘,

1류, 아니 초1류 대학을 지향하는게 우리의 목표다.

나가며 - 국내 대학 vs. 해외 대학

국내 대학과 해외 대학 비교, 좀 더 정확하게 말하면 국내 대학이 얼마나 Bad Univ인지를 지적하는 시리즈 글을 쓰면서

교육부가 대학별로 정원을 빡빡하게 걸어놓고, 수능 같은 국가 단일화된 시험을 통해서 학생을 선발한 다음,

극소수의 인재만 속칭 "명문대"라는 곳에서 글로벌 탑티어 급의 교수님 수업을 들을 수 있도록 하는 현재의 시스템이,

그다지 정확하지 않은 선별 방식에 따라 학생들의 가능성을 철저하게 차단하는, 매우 악랄한 제도라는 생각이 들더라.

그 시험을 조금만 못 쳐도 Bad Univ를 가는 선택을 하거나, 해외로 눈을 돌릴 수 밖에 없는 것이 한국의 대학 교육 현실이다.

물론 그 국가 단일화된 시험이 정확성은 떨어지더라도 효율성이 높다는 점은 충분히 공감하고,

또 대학이 대부분 사립이라 적당한 숫자의 학생을 배정해 생존권을 보장해줘야한다는 점도 공감이 되기는 하지만,

공급 측면에서 교육 시스템 부분부분의 효율성 극대화가, 수요 측면에 있는 학생들에게 줄 효용을 다 뺏어가는 느낌이다.

(경제학 용어로 Producer surplus 최대화를 용인하는 정책 덕분에 Consumer surplus가 0에 수렴하는 느낌?)

애가 수능 못 쳤는데 돈 있으면 뭐하러 국내 2류 대학 보내나, 해외 대학 보내지... 같은 말이 나오는 것도 같은 이유일 것이다.

국내처럼 "입학" 커트라인으로 학교의 등급을 좌우하는게 아니라, "졸업" 시점의 학생 퀄리티로 학교의 등급을 정할 수 있다면,

그럼 많은 학생들을 받은 다음, 엄격한 교육 시스템 아래에서 살아남는 소수의 뛰어난 인재를 선별하는 시스템을 갖춘다면,

그렇게 몇 개 학교가 전공 별로 나눠 대부분의 학생을 받아서 최상급의 교육을 제공해주는 시스템으로 운영했었다면,

최소한 굳이 장소에 구애받지 않는 온라인 교육이 대세가 된 시대에 맞춰 그렇게 시스템을 바꾼다면,

지금처럼 어중이 떠중이들도 교수한다고 까불거리면서 Bad Univ를 유지하는 비효율의 극치를 피할 수 있지 않았을까?

Bad Univ와 Bad Professor가 시스템의 비효율성을 이용해 학생들의 주머니만 털어먹고 부실한 교육을 제공하는 현재의 시스템을 타파하는 것이,

그 목표를 위해 Good Univ의 문호를 열어 많은 학생들이 고급 교육을 받을 수 있는 기회를 열어주는 것이

그래서 굳이 해외로 가지 않더라도 해외대학의 글로벌 최상위 수준 컨텐츠로 공부를 할 수 있도록 해 주는 것이

우리 SIAI가 나아가는 길이다.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (3)

한국 대학 vs. 해외 대학 (3)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

학부 시절에 개인적인 사정으로 잠깐 알게 됐던 어느 선배의 사연이다.

재외국민 특별전형으로 우리 학교에 왔던 형인데, 이과에서 제일 점수대가 높은 애들이 가는 과니까 컴퓨터 공학과를 골랐다고 했었다.

오직 자기가 똑똑한 사람인데, 똑똑한 증거를 보여주기만 하면 된다는 생각 이외에,

해당 전공 지식을 어떻게 써서 어떻게 활용한다는 생각이 전혀 없던 분이었는데,

정작 컴퓨터 공학과 학점은 굉장히 안 좋았고, 경제학이건 경영학이건 상관없이 복수전공 하나를 해서 "상경계열" 학위를 하나만 갖고 있으면 된다고 생각하더라.

전형적인 국내 대기업 인사팀 방식의 채용에 특화된 사고방식을 가진 분이었다고 생각한다.

어차피 전문성이라는거 없이, 똑똑한 애 뽑아다가 일 시키면 되고, 기본적인거만 학교에서 배워오면 나머지는 직장에서 알게된다는 사고의 결과물이다.

 

그럭저럭 15년이 흐른 요즘, 우리 SIAI에 들어온 학생들 중 몇몇에게서도 비슷한 사고방식을 본다.

수학, 통계학 그런건 그냥 가르쳐주는대로 공식에 맞춰서 대입해서 문제 풀면 되고,

자기는 천재니까 가르쳐주는 내용을 이해하는데 별 어려움이 없을 것이라는 생각에 사로 잡힌데다,

결정적으로 학위 받고 꿀 빠는 생각 (아마도 커리어 전향? 연봉 인상?) 밖에 안 하고 있다.

 

그 형님은 외국에서 오래 살았다는 이유로, 집안이 빵빵하다는 이유로,

내가 하고 싶었던 인턴들을 경쟁없이 쉽게쉽게 찾아갔었고,

거기서 "주워들은" 지식이 참 많은 형이었다.

그러나, 회계처리가 애매모호한 문제의 경제적 실체에 맞춰 구분하는 문제 같은 걸 하나도 못 하는,

그래서 그냥 이런건 회계사 물어보고 답 알려줄 때까지 기다리면 된다, 상대 회사랑 분쟁하게 되면 더 비싼 회계사 붙여서 이기면 된다는 식의

말 그대로 자기 지식없이, 자기 생각없이, 학위만 받고, 돈만 쓰면 모든 문제가 해결된다는 사고 방식으로, 공부 따위는 집어치우고 사는 형이었다.

 

자기는 천재니까 우리 SIAI의 학위 과정이 쉽게쉽게 술렁술렁 넘어가야 할 것이라고 착각하는 학생들도

수업 시간에 배운 내용을 바탕으로 머리를 쥐어짜가며 전체적인 그림을 이해해야한다는 사실을 공감하지 못한 채,

좀 심한 말로 그냥 대충 가르치고 학위나 내놔라는 태도인 것 같아 보이는 경우가 꽤 된다.

 

앞으로 우리 학교 찾아올 학생들을 위해서 미리 선을 그어두면,

그 형님이 엉망진창인 학점을 받았어도 국내 대학이니까 어찌어찌 졸업하셨을지 모르겠는데,

우리 SIAI에서는 그딴 답안지 쓰고 있으면 영원히 유급만 할 것이다.

우리학교의 졸업 기준 최저학점은 1.7/4.3이고, 유급생 제외하고 평균 졸업학점은 2.3/4.3 정도 기대한다.

 

"대학", "대학원"이라는 곳에서 가르치는 내용은,

국내의 쩌리 커리큘럼에서 그럭저럭 대충대충 가르치는 내용이 아니기 때문에, (최소한, 아니어야 하기 때문에),

수업을 듣고나서 바로바로 이해하는건 거의 불가능하다. 본인이 정말 폰 노이만 급의 슈퍼 천재가 아닌이상.

 

난 학부시절 그 형의 행패를 더 이상 참질 못해서 한번 들이 받았는데,

"내가 그래도 형인데 임X~"라고 갑자기 나이를 내세우더라.

실력은 전혀 없던, 그냥 부모 덕분에 외국에서 오래 살았고,

국내와서는 재외국민 특별전형이라는 거저먹기 전형과, 그 전형에 특화된 쪽집게 과외 덕분에 쉽게 S대를 왔던 그 형,

설령 고교 수준까지의 지식은 그냥 보고 바로바로 이해할 수 있는 잠재력이 있었을지 모르겠으나,

대학와서는 "나는 천재다"는 자뻑에만 빠져 공부를 하나도 안 한 탓에 엉망진창인 학점을 받았던 그 형,

요즘 우리 SIAI와서 어렵다고 징징대는 학생들을 보면서 나는 그 형이 계속 오버랩된다.

 

어렵다고 징징대는건, 말을 바꾸면

"나는 원래 천재라서 쉽게 뚝딱 이해해야되는데, 즉석에서 이해가 안 되는 내용이 나오니까 이건 네가 잘못 가르친거다"는 뜻이다.

근데, 나는 학부 1-2학년 과정을 섞어서 MBA in AI/BigData에 가르치고 있고,

학부 3학년 이상 과정을 내가 아는 진짜 천재들이 듣다가 장렬하게 전사했던걸 평생 몇 백, 몇 천번 봤었다.

내 눈에 천재들도 학부 3학년 이상 과정에서 전사하는데, 학부 1-2학년 과정도 못 알아먹는 너네는 뭔데?

쉽게 말하면, 너네가 내 눈에 천재는 당연히 아니고, 학부 3학년 과정을 쉽게 도장 깨기 할 수 있는 슈퍼 천재와는 거리가 먼 인간이라는 거다.

 

진짜 제대로 공부하는 학생들은 징징대는 메세지를 여기저기에 뿌리기 전에, 참고서들을 뒤져가며 공부하는데 시간을 쓴다.

징징대는 시간도 아깝거든.

 

파비클래스 데이터 사이언스 강의 시절, 그 수업만 듣고는 어디에 어떻게 써야할지 감이 안 잡힌다,

그냥 어디에 쓸 수 있는지, 갖다 붙일 수 있는 코드가 뭔지, 라이브러리가 뭔지 가르쳐 달라던 그런 돌머리 학생들에게,

수학, 통계학을 학부 시절에 얼마나 대충 했길래 이 개념을 못 따라오냐고, 황당하다는 반문을 던지며 몇 년을 가르쳤었다.

 

말을 바꾸면, 나는 기초지식을 기술적으로 어떻게 활용하는지를 가르치고 있었는데,

학생들은 "기능적"인 지식만 찾아다니다보니, 기초 과학을 어떻게 활용하는지 연결을 못 하고 있고,

때문에 기초지식의 기술적 활용이라는 개념 자체를 따라올 수 없는,

즉 상고, 공고 출신 급인 주제에 대학 학위를 갖고 있었다는 것이다.

(경영, 공학, 의학 등 대부분의 암기 중심 전공 출신들이 자기 전공 굴레를 못 벗은 경우에 공통적으로 위의 특징을 보인다. 말 그대로 "기능인", 잘 해 봐야 "기능장" 수준의 지적 능력을 갖고 있는 것이다.)

 

요즘보면, 내가 생각했던 것보다 훠얼씬 더 수준이 낮은 교육을 받았을 것 같고, (상고, 공고 수준...)

설령 학부 수준 교육을 받았더라도, 본인 역량이 부족해서 사고방식이 단순 암기형에서 못 벗어났겠지.

결국, 학부 1-2학년 수준이건, 석사 수준이건, 박사 수준이건, 그 어느 레벨을 가릴 것 없이,

그냥 못 따라오는, 그래서 자기가 바보라는걸 인지해야하는데, 곧 죽어도 바보라는걸 못 받아들이는 고집쟁이로 남은 것이다.

 

다른 한편으로 생각하면, 그 형도 학문 자체가 사고력 깊이가 부족한 학문인, 컴퓨터 공학이 대학 전공이었고,

지금 학교와서 징징 DM으로 패악질(?)을 하고 있는 학생들도 경영학과 or 비슷한 수준으로 학위만 받은 사람들이라는걸 감안하면,

역시 멀쩡한 교육을 시켜서 애들이 고생고생하며 학부 학위를 받은 곳들과,

내 기억에 짜증이 장기 기억으로 박힌 전공, 암기로 버틸 수 있는 전공 출신들은 구분해줘야하지 않을까 싶다.

멀쩡한 전공 출신들은 한국 교육 수준이 낮아 제대로 된 훈련을 못 받긴 했어도, 최소한 징징 DM 폭탄 드랍을 하진 않잖아?

나는 왜 이렇게 모를까 자책하고, 숙제를 풀어낼 수 있는 방법을 찾아가는 훈련이 학부시절에 되었기 때문일 것이다.

 

CAPM을 공부했다고 Risk free rate, Mkt return, Beta, 이렇게 3개 값만 알면 공식에 대입해서 주식 가격 평가 할 수 있다고 주장하던 경영학과 애들한테,

Security Market Line이 사실상 분산/공분산의 2차 Moment 비율을 Risk로 계산에 쓰는,

그래놓고 1 variable regression을 한, 지극히 단순화한 계산이라는걸 어차피 이해 못 시킬거 아냐?

걔네가 2차 Moment -> Risk라는 단순 공식에서 벗어나서, Multivariate regression으로 여러가지의 "Risk"를 넣은 모델 (ex. Fama-French 3 factor model)을 이해시키는데 필요한 기초 교육이 얼마나 많았나?

Multivariable regression, Time series 같은 통계학 지식, 미시, 거시경제학 같은 경제학 지식, Multi-factor model 같은 Asset-pricing 모델 지식 정도가 학부 레벨에서 봤던 내용인 것 같은데,

이거 따라오는데만도 우리나라 경영학과 수준을 봤을 때는 최소한 석사 학위 하나를 더 해야 될 거다.

그간 경험으로 봤을 때는 국내 경영학과는 석사를 졸업해도 못할거라고 생각해도 될 것 같다.

학부를 그딴 3류 전공에서 교육받은 애들이 사실상 고교 수준이나 다를 바 없으니,

당연히 회귀분석을 토대로 학문적 이해도를 차곡차곡 쌓아올리는 데이터 사이언스 과정이 미친듯이 어렵게 느껴질 수 밖에.

 

얼마나 많이들 징징댔으면 조교들이 너무 괴로워하길래, 주말에 조용히 불러 고기 구워주면서 좀 달래줬다.

어차피 보면 바로 알 수 있어야 된다는 착각을 가진 애들이 정신 차리기 전에는 어쩔 수 없으니, 그냥 들어주라고.

첫 해니까, 어지간하면 다 받아주자고 했던 내 잘못이라고.

미안하다고.

 

자뻑 가득차서 자기가 얼마나 바보인지 인지조차 못하던 그 형이나, 징징 DM을 열심히 보내는 걸로 보람찬 하루를 보내는 몇몇 학생들이나,

어차피 학교 욕, 교수 욕, 커리큘럼 욕이나 할 줄 알지,

정작 본인이 바보라서 못 살아남는다는 생각을 못 하는건,

절대 자기 탓은 안 하고, 남 탓만 하는건,

뭐 어쩌랴. 인간이면 똑같겠지. 나도 지금 남 탓 하고 있네ㅋㅋ

 

나도 석사시절 동안 징징이였긴 했다. 왜 실력도 없는 주제에 욕심내서 엄청나게 좋은 학교 갔었는지 후회가 많았거든.

단지 내가 친했던 사람끼리는 징징의 내용이 "우리가 Byungsin이라서"라는 자기비하로 이어진 점이 달랐을 뿐.

나중에 박사 공부하러 가니까 B 앞에 "더"를 붙이게 됐었고ㅠㅠ

 

우린 "호로록~" 넘어가고, 성의없이 강의 준비하고, 대충대충 가르치는 교수들을 무시하고 욕하며 술 안주로 삼았는데,

어째 어렵다고 징징대는 학생들을 보니 생각이 많아질 뿐이다.

징징이들 거를 방법은 역시 "시험 치료" 뿐인가...

3줄(4줄) 요약하면, 징징이들이 징징대는 이유는

  1. "기초"와 "기술"을 배우려는게 아니라 "기능"을 배우던 가락이 있어서
  2. 자기가 "천재"라서 쉽게 배울 수 있을거라고 착각들을 해서
  3. (결정적으로) 자기 기초 실력이 부족해서
  4. (국내대학처럼 널럴할거라고 생각했는데, 제대로 된 수준의 교육을 받으니 미친듯이 어려워서)

이다.

보통 이쪽 리그에서는 기초 실력이 부족하면 석사를 2개 하면서 시간을 들이거나,

아니면 같은 수업을 2-3번 듣고, 학부 수업을 찾아가고 그런다.

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (2)

한국 대학 vs. 해외 대학 (2)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

15년쯤 전의 일이다.

University of WisXXXXXX이라는 대학 학부를 나온 분이 해외 대학이 좋은 이유를 짧게 설명하는 간담회(?) 같은 자리에 우연히 참석한 적이 있다.

자기가 한국에서 중X대학교를 2년 다니고, 군에서 유학 준비를 해서 아예 1학년부터 다시 해외대학을 갔단다.

약간 늦게 졸업하기는 하는데, 국내 학부 동기들과 지금의 자신은 주어진 기회라는 측면에서 비교 불가능한 레벨이고,

무엇보다 지식의 절대량이 다르고, 지식을 바라보고 이해하는 방식이 완전히 다르단다.

자기는 사물의 원리를 이해하며 지식을 습득하는 서구식 교육을 통해 자신의 국내 학벌을 지표로 삼을 수 있는 잠재력보다 훨씬 더 큰 사람이 되었는데,

중X대학교 친구들은 여전히 국내식 암기 달달달 교육을 통해 대학 내내 아무것도 배우는 것 없이 졸업하고 전공 살리지도 못하는 직장을 갔단다.

(솔직히 내 생각엔 본인이 매우 뛰어나신 분이고, 국내 모교에 대한 애정이 너무 박해서 까느라 or 졸업하는 해외 대학 자부심이 좀 지나치게 드러난 코멘트였던 것 같다고 생각은 하지만, 어쨌건 국내와 해외 대학간 격차가 매우 심한건 사실이니까...)

 

전공을 살린다는게, 그 전공에 대한 매우 깊은 전문지식이 있어서 회사에서 급여를 주고 쓰고 싶은 인력이 되었을때나 가능한 이야기다.

그런데, 저렇게 전문지식을 탄탄하게 갖추고, 그 분야에서 새로운 지식이 나와도 사물의 원리를 이해하는 사고 방식 덕분에 쉽게 성장하는 인력과,

학부 내내 그냥 암기만해서 머리가 빈 상태로 졸업하고, 어찌어찌 채용해도 새로 나오는건 못 배워서 모르겠다고 하는 인력이 있으면,

당신이 회사 오너라면 누구를 뽑겠나?

 

학교가 잘못 가르쳐서 학생의 시간과 돈을 뺏는 전공으로 가장 단적인 전공이 국내의 경영학과다.

학부 시절, 경영학과 게시판을 가보면 주기적으로 전공을 잘못 왔다, 배우는 내용이 없다, 생각없이 학교 다니면 인생 망한다,

등등으로 자기 전공의 커리큘럼이 얼마나 조잡한지에 대해서 비관하는 글들이 올라오고, 갑론을박이 벌어지곤 했다.

제대로 가르치려면 학생들이 힘들어 죽을 것 같아할 수학, 통계학, 경제학 기초를 탄탄히 다져야 되는데,

그걸 하나도 안 가르치고 그냥 껍데기만 가르치려니 제대로 된 지식으로 학생들에게 느껴질리가 있나?

그냥 암기나 해서, 학점이나 받고, 졸업장이나 하나 만들자고 생각하게 되는거지.

그러니까 나 같은 사람은 경영학과 학부 졸업장을 갖고 있는 학생은 고졸이라고 생각하는거고.

지난 몇 년간 국내에서 "너무 어렵다"고 욕을 먹은, 그렇지만 해외대학 2-3학년 수준에 불과한 데이터 사이언스 교육 과정을 운영하면서,

국내 대학들 수준이 비단 경영학과 뿐만 아니라, 거의 대부분의 대학 & 전공에서 비참하리만큼 한심한 수준이라는걸 깨닫게 됐다.

내가 이런 지식을 가진 상태에서 미국 명문대의 입학사정관을 하고 있으면 한국 학위 받은 학생은 아예 안 뽑을 것 같더라.

어차피 못 할텐데, 거기다 "어렵다"고 징징댈 줄이나 알았지, 그래서 "족보"나 찾아다닐 줄 알았지,

학문을 좀 더 깊게 이해해서 자기 커리어에서 어떻게 활용할 수 있겠다는 사고의 흐름을 그릴 수 없는 애들인 걸 아니까.

 

돌이켜보면, 정말 엄청나게 열심히 공부했던 극소수의 슈퍼인재 몇몇을 제외하면,

나머지 인원은 대학을 그냥 졸업장 하나 받아서 취직하는데 쓰는 스펙으로 삼거나, 고시 합격 후 인맥용으로만 생각한 것 같다.

좀 극단적으로 말해서, 국내 학위 과정은 어느 전공이나 가릴 것 없이 그냥 경영학과랑 똑같은 수준인 것 같다.

대학이 학문을 배우는 곳이 아니라, 그냥 미래의 직장 네트워크를 제공해주는 스터디 공간 정도에 불과한듯.

 

학부 시절, 수학적 직관과 경제학적 직관의 최정점을 달리는 극소수만이 교수님이 중간중간에 던지는 질문에 대답하고 식사 한 끼를 얻어먹을 수 있는 "훈장"을 받았던 게임이론 같은,

머리가 터져나갈 것 같이 어렵지만 공부하고 나면 세상을 보는 관점이 완전히 달라지게 되는 수업들 정도를 가르쳐야

정말 진짜 "대학 교육" 등급이 될 텐데, 그래서 학위에 대한 믿음도 생기고, 존중도 받을 수 있을텐데,

한국은 대학 학위를 마구 찍어주는 장사꾼 시스템이 돌아가서, 결국 대학 교육이 실패한 나라가 되어 버렸다.

 

학부 2학년 수준의 지식을 가르치는 MBA 수업에 온 국내 초명문대 공학 박사 하나는 1학년 수준을 몰라서 수업시간에 질문을 하고,

그걸 혼자서 자료를 찾아가며 공부할 수준조차 안 되어서 시간을 한참 낭비하고 있는 절망적인 상황을 보면서,

이렇게 교육을 엉망진창으로 하는 나라에서 기른 인재에게 뭘 더 기대해야하나는 좌절감 밖에 안 생기더라.

학교 운영을 통한 수익률이 마이너스가 되는 수준까지 강의료를 오퍼해도 제대로 가르칠 수 있는 인력이 없어서 교수진을 못 뽑는 나라인데,

그런 2-3류 교수들이 득시글한 학교들에서 기른 인재가 어떻게 제대로 된 교육을 받았을 수 있을까?

받았으면 기적이지.

 

사실 공대 박사들이 득시글한 몇몇 기관에 외부 출강을 몇 차례 나가보면서 이미 한국 공대 수준이 조악하기 그지 없음을 인지하기는 했는데,

그 중 몇몇이 학부 1학년 통계학 입문 과정에서나 배울 t-test, F-test 같은 내용을 몰라서, 근데 그걸 혼자 찾아서 공부할 능력이 안 되는걸 보고,

우리나라에서는 학위를 뭘 했건 상관없이 그냥 학부 1학년부터 다시 들어와라고 그래야겠다는 생각까지 했다.

 

학생들 몇몇은 자기는 죽어도 MBA가기 싫다고, 자기는 AI 박사급 인재가 될 후보인데, MBA in AI/BigData는 절대로 안 한다고 뻣뻣하게 굴었는데,

MBA에서 학부 2학년 과정 + 현실 응용을 위한 타 학문 (경제학, 마케팅, 경영학, 산업공학, 법학....) 연계 수업만 해도 뻗어나가는 판국이잖아?

 

블로그를 한참 읽어보고 꼭 이 대학을 가고 싶다, 실력이 안 되니까 MBA를 가겠다, 근데 MSc 가고 싶다 같은 종류의 메일을 꾸준히 받는다

예전엔 백지상태지만 무조건 할 수 있다는 정신병자들 이메일부터 "무뇌충"들에게서 다양한 헛소리를 들었는데,

대학 출범 이후로 요즘은 그냥 좀 헛소리의 종류가 통일되었다는 (무조건 MBA는 안 해...) 느낌적인 느낌(?)이다 ㅋㅋ

그런 정신병자들이 MBA 들어오면 첫 2-3주만에 앉은뱅이가 태산을 오르겠다고 도전했다는 사실을 깨달을 것이다.

S대 공대 + 대기업 직원 하나가 학기 시작 전 예비 수업으로 배정한 코딩 강의 듣고는 "뇌절" 왔다는 이야기가 얼핏 떠오르네.

그거 우리 개발 이사님이 두 달 동안 심혈을 기울여서 만든 MIT 컴공과 수업 보조 교재 기반 수업이다

 

우리 MBA in AI/BigData는 1. STEM MBA라서, 2. 국내 대학이 아니어서, 너네가 알고 있는 ABC 가르치는 가짜 학위 수준 아니라니까.

내 보기엔 국내대학 학위 있는 너네들 (거의) 전부 다 학부 1학년부터 다시 시작해야 되는데, 학부 다시 다닌다는게 잘 납득이 안 되는 상황인 것 같다.

 

학부 저학년 때 배우는 지식들 대부분은 굉장히 지루하고 재미없고, 현실과 너무나 동떨어진 것 같은 경우가 많다.

경제학 원론에서 비교우위론을 배우고, 생산함수, 한계비용 같은 개념들을 배우던 시절에,

해외 거주 특별전형으로 들어온 (이런 애들은 대부분 머리가 나빴다) 동기 하나가 경제학은 아무런 쓸모도 없는 학문이라고 그러더라.

(보통 공부 못 하는 애들이 학교 욕, 교수 욕, 조교 욕, 커리큘럼 욕을 하면서 정작 자기자신의 지적 무능은 절대로 탓하지 않는다.)

그 때 배운 내용을 학부 3학년 때 국제무역론에서 더 깊게 배우고, 나중에 해외 로스쿨을 가서 무역분쟁 전문가가 된 동기는,

"비교우위론 개념없이 FTA 협상하는 한국 외교관들이 바보라고 무시당하는거 듣고 있으니까 진짜 비참하더라"는 하소연을 했다.

무역분쟁 전문 국제변호사라는 화려한 타이틀만 갖고 싶지, 그걸 위해 가장 기초 지식 중 하나인 비교우위론 따위는 공부하고 싶지 않은,

그런 겉만 번지르르한 3류 지식인이 되고 싶다면, 뭐 또 그렇게 사는거다.

 

그러나, 정말 진짜 알짜 지식인이 되고 싶다면, 학부 저학년 때 힘들고 괴롭지만, 이걸 왜 배우는지 모르겠지만 일단 배우는 과정을 거칠 수 밖에 없다.

t-test, F-test 같은 입문 수준 통계학을 모르니까 결국 박사 학위가 있는데도 MBA수업을 못 따라가고, 혼자서 공부할 수 있을만큼 기초도 안 쌓인 상황이 되면, 본인은 얼마나 괴로울까?

자기도 하답답한 상황이니까, 여기 MBA는 다른 MBA랑 다른 것 같으니까, 나이들어서 힘들지만 그래도 꾹 참고 공부해야겠다고 생각하고 찾아온 거겠지?

그나마 이렇게 늦게라도 깨우치면 천만다행인데, 영원히 기초 지식은 "쓸모없는 내용"이라고 생각하고 사는 아둔한 특별전형 동기들 수준이

압도적인 대다수라는 것이 우리나라 대학 교육의 현실이다.

 

Quora.com에서 갖고 온 Good vs. Bad university 기준대로라면 그 해외 거주 특별전형 동기는 학교를 졸업 못 했어야 된다.

그러나 여전히 모 대기업에서 S대 욕 먹을 짓을 하고 돌아다닌다.

 

문제의 원인이 저학년 교육인지, 고학년 이상 교육인지, 아니면 아예 멍청한 학생들인지, 어느 쪽인지, 각각의 비중이 어느 정도인지 결론을 내릴 정보가 부족하기는 하지만,

적어도 지금까지 모은 정보를 봤을 때, 국내에서 대학 나왔으면, 꼭 경영학과가 아니라고해도, 학위에 색안경을 끼고 봐야된다는 것이 내 결론이다.

학교 입학하고 싶다고 궁금증을 담은 이메일을 보낸 예비 학생 분들,

당신들 대다수는 MSc AI vs. MSc DS 같은 고민, MSc DS vs. MBA 같은 고민이 아니라, MBA vs. 학부 1학년(?) 같은 고민을 해야 할 상황이라고.

 


+ 당신들을 위해 약간의 변명을 달아주면,

대학 교육이 잘못한거지, 당신들이 잘못한 건 아니다.

더 늦기 전에 제대로 된 교육을 찾아다니는 것만으로도 일단 눈을 떴으니까,

어떻게 제대로 된 "앎"을 찾을지 적절한 선택을 하기 바란다.

또 다시 잘못된 선택을 하면 그건 더 이상 대학 잘못이 아니라, 당신 탓이라고 봐야 한다.

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (1)

한국 대학 vs. 해외 대학 (1)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

오늘 글의 부제는

당신이 한국의 데이터 사이언스 대학원을 가면 안 되는 이유

라고 달고 싶다.

 

오늘 그 증거를 하나 보여준다.

아래는 우리 MBA in AI/BigData 학생이 보내온 개인 DM (Direct Message)다.

이 분은 국내의 모 데이터 사이언스 대학원을 다니다가,

이건 절대 아니다는 생각이 들어서 자퇴하고 우리 대학원으로 갈아탄 케이스다.

면접 때 주제넘게 MSc 도전 같은 생각은 안 하고, 그냥 MBA라도 졸업할 수 있으면 좋겠다고 했던 말도 기억나고,

국내 모 대학원 입학 중 겪은 충격적인 면접 이야기도 기억난다.

첫 수업 듣고 쇼크먹고 "유학가서부터 이렇게 공부하셨나요 ㄷㄷㄷㄷ" 같은 코멘트 했던 기억도 나네.

 

아무리 충격적인 이야기를 많이 들었어도, 그래도 정말 백보 양보해서, 우리나라 대학원이 그정도로 썩었겠나고 생각했었는데,

아래의 짤을 보고 정말 완전히 마음을 정리했다.

이제 우리나라 대학원 학위는 우리 학교에서 대학원 학위로 인정 안 한다.

(이미 국내 대학원 출신들의 심각한 학력 저하 수준을 몇 백 차례 확인했기도 하다.

우리 학생 중 하나는 이런 결론을 "샘플 많이 보셔서 이제 수렴하셨군요ㅋㅋ" 라고 우스개 소리로 바꾸더라.)

그리고, 아래의 상황을 알고도 그런 대학원에 한 학기 700만원씩을 갖다바친 인간들은 "호구"라고 서슴없이 불러줄 생각이다.

 

저 대화에서 받은 첨부파일의 내용이다.

저 대학 이름과 교수 이름은 정말 명예훼손 고소만 아니었으면 공유했을 것 같다 ㅋㅋㅋ

 

위의 11장이 강의 노트였고, 이걸로 그 중요한 Regression을 다 때운데다,

심지어 대학원 강의 전부가 이 수준을 크게 벗어나지 않았단다.

저 노트는 통계학 전공자가 아닌 내가 학부 3학년 때 알고 있던 내용보다 조잡스러운 내용이고,

통계학과 학부 2학년 회귀분석 강의하고 있는데, 학생이 저렇게 노트 만들어 왔으면, 솔직히 내가 교수면 F 준다.

 

이건 3류대학 경영학과 경영통계보다도 더 쓰레기 수업 아닌가? (사실 3류대학 경영학과 수업 안 들어봐서 모르겠다...)

이걸 국내 명문대 데이터 사이언스 대학원의 회귀분석 강의 교재로 썼다는거지?

이딴 강의에 한 학기 등록금 700만원을 꼴아박아????

 

아래는 우리 MBA in AI/BigData 프로그램 Math & Stat for MBA라는 기초수업 4강 강의자료다.

(마지막 5장이 짤렸는데 귀찮아서 그냥 냅둔다. 궁금하면 와서 들어라ㅋㅋ)

 

앞 강의들에서 기초 통계 개념과 실험설계 같은 주제들을 다루고,

Average Treatment Effect 같은 Non-parametric 셋팅이나, Regression 같은 Parametric 셋팅이나,

결국에는 여러 변수로 확장해서 "Partialling out" 해 주는 계산으로 확장될 수 밖에 없음을 설명한 다음,

가장 간단한 예시 중 하나인 기초 시계열을 이용해서 시간의 흐름이라는 변수를 어떻게 쓰는지를 활용해,

여러 변수가 하나의 식에 쓰인다는 것이 무슨 의미인지를 설명하는 노트다.

덧붙여서, Multivariate regression으로 넘어가면서 핵심 가정인 Gauss-Markov 가정 A1 ~ A5를 커버했다.

특히 시계열 데이터에서 자주 보이는 A3, A4 이슈를 다루고, 머신러닝, 딥러닝 쓰면 다 해결되지 않나요라는 헛소리가 왜 성립할 수 없는지를 간단하게 설명하고 싶은데,

아직 머신러닝, 딥러닝 (이라고 알려진 Non-linear & Network & Factor Analysis & Non-parametric 모델)을 안 가르쳤다

저걸 가르치려면 단계를 밟아 필요한 수학/통계학 지식들을 하나하나 다 쌓아올려야지, 어디 야매 학원처럼 코드만 던지는 수업 따윈 안 한다

지금은 예전 파비클래스 수업 듣고 온 학생들(중 일부)만 머신러닝, 딥러닝 쓰면 다 된다는 헛소리와 위의 A3Rsru fail을 묶어서 이해하고 있을듯.

앞으로 이어지는 노트들에서는 좀 더 구체적으로 언제 어떤 조건이 갖춰질 때 Regression이 효과적인지 더 공부하게 될 것이다.

 

자랑한다고 내 놨냐고? 솔직히 나는 부끄러운 노트다. 그냥 저 메세지 받은 직전일에 수업했던 강의자료라서 갖고 왔다.

강의노트에 안 쓴 부분들을 따로 OneNote 같은 걸 활용해서 이것저것 수식 설명하고 그림 많이 추가되는 수업을 해야 되더라.

가르칠 내용이 많은데, 애들이 쭉쭉 따라오질 못해서 천천히 가르치느라 속이 열불이 터지는 중이고,

그렇다고 못 알아듣는걸 폭탄 드랍할 수는 없어서, 징징대는걸 다 들어주며 천천히 올라가고 있는 중인데,

그리고 나도 이런 기초 수준까지 내려서 가르친 적이 없는 사람이라 노트 정리가 쉽지 않은 상황인데,

날 더러 저 위의 국내 모 대학원 데이터 사이언스 전공 교수랑 동급 취급하면 자존심이 엄청 상할 것 같다.

저런 분은 나라가 지식인을 제대로 쓰고 있으면 문지기, 청소부, 배달업 같은, 몸 쓰는 직군으로 이직하셔야 될 분이다.

 

몇 달 전에 국내 다른 초 유명 대학 교수로 있는 지인과 연구를 핑계로 코로나 방역 수칙을 위반하며 오밤중까지 "노가리"를 깐 적이 있다

(연구 주제 관련으로 말을 한참했으니 엄연히 "기업 미팅"이었고, 위반이라 그래봐야 우리 둘인데 뭐 ㅋㅋ)

정말 오랜만에 만났는데, 늦어진데다 오랜만에 대화되는 인간과 만나서 속이 뻥 뚫린다며 하소연을 한참하는데,

해외 대학 교수하다가 국내에 유명대학 교수 자리가 나서 "신나게" 한국에 돌아왔는데,

학교 안에는 자기랑 대화되는 인간이 한 명도 없어서, 연구 협조라는건 꿈도 못 꾸고,

교수들끼리 논문 발표하는데서 좀 Critical하겠다 싶은 질문들 몇 번 던졌더만,

"그렇게 어려운 질문만 하는데 누가 알아듣고 대답하냐고~"라는 동료 교수들 핀잔만 듣고 있단다.

 

그 동료 교수라는 인간들이 내놓는 논문은 쓰레기도 그런 쓰레기가 없는, 한국인 학자라고 알려질까봐 겁나는 쪽팔리는 수준이고,

그 교수들이 가르치는 강의노트 수준은 진짜 기가차더라. 그 강의를 듣고 있는 학생들이 불쌍할 뿐이다. (근데 한국 초명문대...)

 

분명히 국내에도 속칭 비행기를 타고 가야 만날 수 있는, 글로벌 최상위권의 교수님들이 계신다.

(양아치 수준인 먹물들 까는 글만 보고 내가 엄청 뻣뻣한 사람일 줄 알지만, 그런 분들 만나면 나도 90도 직각, 아니 180도 폴더폰 인사한다고ㅋㅋ)

그러나, 정부가 시류타서 돈 쏟아붓고 있는 데이터 사이언스, 인공지능 같은 이름이 붙은 대학, 대학원의 교수들 중에,

적어도 내가 아는 범위 안에서는 그런 교수님은 없다.

반면 저 위의 학부 2학년이 만들어도 F학점을 받을 쓰레기 같은 수준으로 강의하고 있는 그런 교수들은 좀 많이 안다 ㅋㅋ

우리나라 데이터 사이언스 대학원 (공대 출신) 교수들 전부 다~ 거든.

 

나가며 - (국내) 대학, 대학원 왜 가냐?

가끔 정부 기관들에 있는 지인이 무슨무슨 학회 같은 자리에 내가 참석하면 스펙상 적절할 것 같다고,

학자들의 대화를 이해하고, 현재 시장에서 쓰이는 지식을 이해하는 사람이라며 치켜세워주고는 이름을 올리는 경우가 있다.

까마귀 수준도 안 되는 짭새들만 모인 곳에 백로 아니고 까마귀.... 정도 되는 (된다고 생각하는) 내 입장에서 정말 가고 싶지 않더라.

어쩌다 한번 갔다가 짜증만 나게하는 짭새 수준 공학 박사(?)들의 "인공지능으로 다 해결되는데 무슨 통계학" 같은 드립을 보고 난 다음,

몇 달 후에 그 모임에서 비대면으로 또 S대 공학 박사 출신, 모 대기업 연구원 출신인 분의 논문 발표에 참석해달라는 연락을 받았다.

 

왜 그 모임에 탈퇴한다는 메일을 진작에 안 보냈나 싶어서 늦게라도 "꺼져버려~"라고 메일 쓰던 중에,

어차피 비대면이니, 혹시나 싶어서 우리 개발이사님 (공대 석사 출신...)한테 관심있으면 참석해보시라고 권유했었다.

 

그 얌전한 신사 분이 "아니 이게 무슨 (ㅆㅂ)...." 같은 표정으로 중간에 이어폰을 내려놓고 내 얼굴을 보며 어이없는 표정을 지으시더라.

석사시절 BioInformatics 들어가서 1년간 혼쭐나게 회귀분석 공부했다는 분 입장에서,

"머신러닝의 러닝이 도대체 뭔가요?" 이딴 질문하는 세미나에 갔으니 얼마나 기가 찼겠냐 ㅉㅉ

이런게 국내 지식인들이라고, 먹물들이라고 하는 "것"들이 연구비 낭비하는 방식이냐고 질문하시는데,

지난 몇 년간 내가 봐 왔던 국내 학계 수준을 봤을 때는 그런 거 같다고 대답할 수 밖에...

 

위의 국내 대학원 자퇴.... 아니 탈출 후 우리 대학원으로 피난 온 학생이 말한 것 처럼,

제대로 공부하려고 하는 학생이면 우리나라 대학원 가면 안 된다. 교수들을 싹 갈아치우기 전 까지는.

아, 내가 돈을 더블로 준다, 직장 다니며 세컨잡이어도 괜찮다고 해도 뽑을 실력이 되는 교수가 없어서 못 뽑고 있는데,

우리나라 대학원들이 반 값 수업료에 비정규직 교원으로 뽑기는 만만치 않겠지? ㅋㅋㅋ

뭐 그런 인력이 있어야 말이지.

 

타 대학 데이터 사이언스 전공 학생들에게 이렇게 묻고 싶다.

너네 호구지?

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

경제학자들이 알아야하는 ML, DL, RL 방법론

경제학자들이 알아야하는 ML, DL, RL 방법론
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

아직까지 머신러닝, 딥러닝, 인공지능 같은 단어들이 보고서를 통과시켜주는 마법의 단어인 2류 시장 대한민국과 달리, 미국, 서유럽에서는 이런 계산과학 방법론을 다른 학문들이 어떻게 받아들여야하는지 이미 한번의 웨이브가 지나가고, 어떤 방식으로 쓰는게 합리적인지 내부 토론으로 정리가 되어 있다.

출신이 경제학이라 석사 이후로 발을 뺀지 오래되었음에도 불구하고 습관처럼 유명한 경제학자들 웹페이지에 올라온 Working paper나 기고를 훑어보는데, 오늘은 경제학에서 ML 방법론을 어떻게 받아들이고 쓰고 있는지에 대한 정리글을 소개한다.

Machine Learning Methods Economists Should Know About

참고로 원 글의 저자는 Stanford 경제학 교수 2명이고, 글이 외부에 공개된 시점은 2019년 3월이다. (대략 2017-2018년에 이미 논의가 정리되었었다고 봐도 된다.) - 글 링크

Model-based vs. Algorithmic Approach

기존의 통계 모델링을 하는 사람들이 대체로 Model-based 접근을 하는 반면, 계산과학을 하는 사람들(중 일부)은/는 모델을 못 정하고 시작해도 Algorithm이 데이터 속의 관계를 찾아내줄 수 있다는 관점을 갖고 데이터에 접근한다.

어느 쪽이건 실제 데이터가 갖고 있는 숨겨진 구조를 찾아내고, 그 구조를 미래 예측이나 자신의 문제를 해결하는 용도로 쓰려고 한다는 "Listen to Data"라는 최종 목적지는 동일하지만, 출발점을 어디로 두느냐가 다를 뿐이다.

그간 파비클래스 강의에서부터 여러 경로로 꾸준히 반복해왔던 말이기도 한데, 데이터의 실제 구조를 어느 정도 예측할 수 있다면, 계산비용을 과다하게 지불하면서 적절한 모델을 찾아줄 것이라는 막연한 기대를 갖고 접근할 필요없이, 알고 있는 모델을 바탕으로 데이터를 활용하면 된다.

가장 단순한 계산이 OLS 같은 선형 계산법이고, 그 외에도 데이터의 분포함수를 알고 있다면 쓸 수 있는 Maximum Likelihood Estimation (MLE), 혹은 데이터가 반드시 충족해야하는 Expectation (ex. E(x) = 1)을 활용하는 Method of Moments Estimation (MME) 등의 계산법이 있다.

데이터가 정규 분포를 따르고 있지 않으면 OLS = MLE가 깨지면서 MLE가 우월한 계산법이 되고, 데이터의 입력 변수가 2개 이상일 경우에 (Decision Theory 논리에 따르면) 일반적으로 MME가 OLS보다 우월한 계산법이다.

그런데, 데이터의 분포함수도 모르고, Expectation도 확신이 없다면?

그렇다고 데이터 속에 Endogeneity 같은, 반드시 IV 등을 이용한 데이터 전처리가 굳이 필요없는 데이터를 모았는데, 그 데이터 속에서 패턴을 찾아내야한다면? 그 관계가 선형 구조가 아닐 것이라는 매우 강한 확신이 있다면? (ex. 이미지 인식, 자연어 처리)

이 때 Algorithmic approach가 엄청난 파워를 발휘할 수 있다.

기존의 OLS, MLE, MME 등의 통계학 계산법들이 못 찾아냈던 패턴을 찾아내주니까.

통계학에서는 "Need to move away from exclusive dependence on data models, and adopt a more diverse set of tools"라는 표현으로 Algorithmic approach를 반긴다.

단, 언제 쓴다? "Listen to Data"를 해야되니까, Data의 구조상 Algorithmic approach가 필요한 경우에만!

(데이터만 있으면 무조건 Algorithmic approach 중 가장 많이 알려진 Deep Neural Net만 쓴다는 사람들에게 바치는 문장이다.)

 

왜 경제학계에서는 Algorithmic approach를 안 or 늦게 받아들였나?

첫째, 경제학, 특히 계량경제학 하는 사람들은 수학적인 Formal Property를 너무 좋아한다. 수학적으로 딱 떨어지는 결과, ex. consistency, efficiency, normality, 값이 없으면 그 논문은 발표 자리에 한번 나갈 기회 얻기가 힘들다. ML 쪽에서 DNN이 항상, 언제나, 무조건 Random forest보다 우월하다는 증명이 가능할까? 아직까지 된 적도 없고, Empirical test는 안 된다는 걸 보여주고, 무엇보다 어느 모델이 다른 모델보다 Universal하게 우월할 수 없다는, 데이터에 따라 적절한 모델은 달라질 수 밖에 없다는 인식은 ML 연구자들이 공통적으로 갖고 있는 인식이다. (비전문가인 국내 개발자 집단만 DNN이 무조건 제일 좋은 줄 안다.) 그러니까 더더욱 Formal Property 좋아하는 사람들이 싫어하겠지.

둘째, 결과값의 정확도를 검증하는 방법이 1차원적이기 때문이다. 통계학 방법론들은 분산을 찾고, t-test를 위시한 평균-분산 구조에서 결과값의 검증이 가능하다. 1st moment인 평균만 쓰는게 아니라, 2nd moment인 분산까지 쓰니까, 분포함수가 정규분포라면 확정적인 결론을 얻을 수 있고, 그 외의 데이터라고해도 해당 분포함수 기반의 t-test 값이 있다면 신뢰구간에 대해 높은 확신을 가질 수 있다. 반면, ML 방법론들로는 분산을 찾는다는게 수만번 비슷한 계산을 돌려서 각각 다른 1st moment가 나오는걸 보는 방법 이외에 달리 합리적으로 분산을 얻어낼 수가 없다. 그러니까 training set, test set으로 데이터를 분리한 다음, test set에서의 정확도를 쳐다보는, 신뢰구간을 구할 수 없는 계산법에 의존하는 것이다. 이쪽에서는 Beta hat을 구하는게 아니라 Y hat을 구하고, Y hat과 실제값의 차이만 본다. 상황이 이렇다보니, 결과값의 Robustness에 논문 쓰는 능력을 검증받는 경제학계에서 ML 방법론을 쓴다는 것은, 자신의 논문이 Robustness 검증을 안 했다는 걸 스스로 인정하는 꼴이 되기 때문에, ML 방법론을 알아도 쓸 수가 없는 것이다.

셋째 이후는 배경 지식이 좀 (많이) 필요한 관계로 글 마지막에 추가한다.

약간 개인 의견을 추가하면, Algorithmic approach 중 하나로 활용 가능한 Network theory를 이용해 연구를 하던 무렵 (Network은 행렬로 정리했을 때 같은 Network이어도 눈에 보이는 Representation은 얼마든지 달라질 수 있다 - Isomorphism 참조), 이런 Network이 얼마나 Robust한 설명인지를 따지려면 여러가지 경우의 수를 놓고 봐야할텐데, 모델이 완전히 달라질 것 같고, 아니면 아예 못 푸는 문제가 될 것 같은데, 과연 논문을 Publish하는게 가능하겠냐는 우려 섞인 걱정을 해준 분이 있었을 정도였다.

요즘 DNN에서 Node-Link 구조가 조금만 바뀌어도 모델이 완전히 바뀌는데, 거기다 데이터만 바뀌어도 Link값들이 크게 변하는데 과연 믿고 쓸 수 있느냐는 질문이 나오는데, 이런 질문이 1990년대 후반, 2000년대 초반에 Neural Network에 Boltzmann 스타일의 Gibbs sampling + Factor Analysis 접근이 시도되었을 때도 나왔던 질문이다. 현재까지 Boltzmann 구조보다 더 효과적인 Network의 Layer간 Link 값 계산을 정리해주는 계산법이 없으니 현재도 유효한 질문이고, 사실 Network이라는 구조 그 자체가 이런 "코에 붙이면 코걸이, 귀에 붙이면 귀걸이"라는 반박을 이겨내기 힘든 구조를 갖고 있기도 하다.

 

Ensemble Methods vs. Model Averaging

무조건 Algorithmic approach를 피했던 것은 아니고, 실제로 Algorithmic approach라고 생각하는 계산법들을 경제학계에서 이용한 사례도 많다. 대표적인 경우가 ML에서 쓰는 Ensemble 모델과 경제학에서 흔히 쓰는 Model Averaging 방법이다.

예를 들어, Random Forest, Neural Network, LASSO를 결합하는 Stacking 계열의 Ensemble을 진행한다고 생각해보자. 이걸 Model Averaging이 익숙한 계량경제학의 관점으로 다시 표현하면,

$latex (\hat{p}^{RF}, \hat{p}^{NN}, \hat{p}^{LASSO}) = \underset{p^{RF},p^{NN}, p^{LASSO}} {\text{arg min}} \sum_{i=1}^{N^{test}} (Y_i - p^{RF} \hat{Y}_i^{RF} - p^{NN} \hat{Y}_i^{NN} - p^{LASSO} \hat{Y}_i^{LASSO})^2 \\ \\  \text{subject to } p^{RF} + p^{NN} + p^{LASSO} = 1, \text{  and } p^{RF}, p^{NN}, p^{LASSO} \geq 0 $

이라고 쓸 수 있다.

원래의 Y값을 가장 잘 설명하는 모델을 찾고 싶은데, 3개 모델의 가중치 합계가 1이 된다는 조건 (& 양수 조건) 아래, 셋 중 어떤 모델을 써서 오차를 최소화하는지에 맞춘 최적화 계산을 하는 것이다.

(아마 일반 유저들이 활용하는 Stacking Library도 위의 방식으로 최적화 계산이 돌아가고 있을 것이다.)

단순히 위의 3개 ML 계산법 뿐만 아니라, MLE, MME, OLS 등등의 통계학 계산법을 활용할 수도 있고, 어떤 계산법이건 합리적이라고 판단되는 계산법들을 모아서 Model Averaging을 하고 있으면, Ensemble과 이론적으로, 실제로도 동일한 계산이 된다.

단, 합리적이라고 판단할 수 있는 계산이 경제학에서는 Bias-Variance trade off를 놓고 볼 때, Bias가 없는 쪽만 따지는게 아니라, Confidence interval (또는 Inference)도 중요하게 생각하는 반면, ML에서는 분산 값 자체가 없으니까 철저하게 Out-of-sample performance, 즉 Bias가 없는 쪽에만 집중한다.

그래서 Stacking 또는 Model Averaging에 넣는 후보 계산법들도 달라질 수 있고, 결과값의 Inference에 대한 요구치도 다르다.

독자들의 이해를 돕기 위해 약간의 개인 견해를 덧붙이면, 선거 여론조사 여러개를 평균해서 가장 실제에 가까운 값을 찾는다고 했을 때, ML 방법론을 쓰는 사람들은 1,000명이건, 500명이건, 10,000명이건, 몇 명에게 물었건 상관없이 평균값 = 실제값으로 일단 가정하고, 그 값 근처에 있는 여론조사를 우선 갖다 쓰고, 틀렸으면 다른 여론조사로 갈아 끼운다는 관점이라고 볼 수 있다. 반면 경제학 방법론을 쓰는 사람들은 500명이면 분산이 너무 크기 때문에, 분산이 큰 경우에는 가중치를 낮게 주고, 분산이 작은 경우에 가중치를 높게 준 다음 가중 평균을 해서 기대값을 구하고, 그 때 +- x.y% 라는 신뢰구간을 꼭 붙여야된다고 생각하는 것이다.

어차피 신뢰구간 그거 누가보는거냐고 생각할 수도 있고, 신뢰구간이 +- 20% 이렇게 터무니없게 나오면, 아무리 여러 여론조사를 모아서 평균값을 썼다고해도, 그 숫자를 누가 믿고 선거 결과 예측에 쓰냐는 반박을 할 수도 있다.

파비클래스 수업 시간에도 항상 강조하는 내용이지만, Ensemble / Stacking / Model Averaging 그 어떤 단어를 쓰건 상관없이, 기본 모델 N개를 결합할 때는 계산의 오차 (Bias)가 작은 경우만 집중할게 아니라, 믿을 수 있냐 (Variance)는 질문에 답이 나오는 모델들을 결합해야 된다고 지적한다. 이름을 어떻게 붙여서 어느 학문에서 쓰고 있건 상관없이, 수학적인 Property는 어차피 같은데, 결과값을 내가 쓸 수 있느냐 없느냐가 바로 "Listen to Data"를 제대로 했는지 아닌지에 따라 결정되기 때문이다. 모델의 Variance가 크다는 말은 Listen to Data를 하지 않은 모델이라는 뜻이니까. (혹은 너무 샘플 데이터만 곧이곧대로 믿었다는 이야기니까.)

 

Decision Tree vs. Regression Tree

ML 계산법을 처음 보는 사람들은 Decision Tree라는게 Regression보다 압도적으로 우월한 계산 아니냐는 질문을 하는 경우가 종종 있다. 근데, 기본형 Tree도, 확장버전인 Random Forest도 모두 UC Berkeley 통계학자가 1984년, 2001년에 쓴 논문에 정리되어 있는 계산법들이다. 정리되기 오래 전부터 이미 다들 알고 있는 계산법이기도 했고.

위에서 보듯이, Regression에 기반한 모델을 여러개 Regression으로 구분하도록 구간별 평균값을 다르게 잡는게 Regression tree의 시작점이다.

역시 파비클래스 강의에서 계속 설명해왔던 내용인데, 여러 구간에 나눠서 Regression하는게 의미가 있는 경우(ex. 약에 반응하는 몸무게 구간이 여러개 나뉘어 있다는 가정)에만 Tree 계열의 모델이 의미가 있다. 예를 들어, c보다 작은 구간에서는 Regression이 별로 효과가 없는 반면, c보다 큰 구간에서는 Regression으로 특정 변수간 유의미한 관계가 두드러지게 나타날 수 있다.

Decision Tree라고 외부에 알려진 모델은 Y와 Y평균값 차이를 1개 변수에 한정해서 여러 스텝으로 반복하고, 구간을 나눌 때 0/1 형태로 구분하는 Step function을 Kernel로 활용하는 Regression Tree의 특수형태 중 하나다. 일반적으로 Regression Tree라는 명칭은 1 -> N개 변수에 대응할 수 있는 일반형 Tree 모델을 오랫동안 통계학에서 불러왔던 명칭이다. (참고로 이 모델을 중첩형으로 쌓으면 Neural Network가 된다)

위의 식에 Alpha값이라는 모델별 가중치에서 보듯이, Random Forest란 그런 여러 Tree 모델들에 각각 얼마만큼의 가중치를 배분해주느냐, 그래서 Stacking을 어떻게 하느냐는 계산이다. 차이가 있다면, Tree가 진화하는 구조 속에 데이터에서 알려주는대로 가중치를 나눠 배분하면서 구간을 쪼개가기 때문에, 좀 더 복잡한 구조를 가진 데이터일 경우에 적합한 모델을 얻을 가능성이 높아진다.

이해도를 높이기 위해 복잡한 구조를 가진 데이터의 예시를 하나만 들어보자. 몸무게 특정 구간 A, B, C, D, E 그룹 중 B와 D 그룹에서만 반응하는 약물이라고 생각하면, A, C, E 그룹과 데이터가 혼재된 상태에서의 Regression보다 구간을 여럿으로 쪼갤 수 있는 Tree가 더 효율적인 계산이고, 그런 구조가 단순히 몸무게 하나에서만 나타나는게 아니라, 키, 팔 길이, 다리 길이 등등의 다양한 신체 구성 요소의 범위에 제각각으로 영향을 받는다면, 이걸 Regression 하나로 찾아낸다는 것은 데이터 구조에 맞지 않는 계산이다. Tree로 모델을 만들고, 다양한 샘플에서 비슷하게 계속 맞아들어갈 수 있는 모델을 찾겠다면, Decision Tree 하나만 찾고 끝나는게 아니라, Random Forest를 이용해 여러 모델을 Model averaging하는게 적절한 계산법이다.

결론이 팔 길이 40cm - 45cm, 다리 길이 80cm - 85cm, 키 175cm - 180cm 구간과 각 값이 20%씩 더 뛴 구간에서만 약물이 효과가 있고, 그 외에 나머지 구간에서는 아예 효과가 없다면? 각 값이 10% 작은 구간과 10% 큰 구간에서는 아무런 효과가 없었다면? 일반적인 Regression은 그 약물이 그다지 효과가 없다고 결론 내리겠지만, Regression을 Tree를 이용해 구간으로 나눠보면 위의 특정 2개 구간에서만 두드러진 효과가 있음을 좀 더 쉽게 찾아낼 수 있다.

이런 구간별 효과는 Monotonic increase/decrease를 가정하는 기존 Regression 모델로 풀어내는데 한계가 있으니, 구간을 하나하나 다 뒤져보겠다는 관점에서 Algorithmic approach를 통해 (More specifically, Tree 모델을 통해) 그런 구간을 찾아낼 수 있도록 컴퓨터에 의존하는 것이다. (다만 Monotonic이 깨지는 경우가 그렇게 일반적이지는 않다. 팔 길이가 40cm, 50cm, 60cm +-1cm 인 구간에서만 효과가 있고, 나머지 팔 길이에서는 효과가 없는 약물이 과연 얼마나 될까?)

 

Neural Network vs. Factor Analysis

K개의 변수 X가 있다고 가정해보자. 그 중 실제로 숨겨진 변수 (Latent / Unobserved variable)인 Z는 총 K_1개가 있다고 하면,

Sigmoid 함수를 Kernel, 또는 (ML쪽 용어로) Activation Function으로 쓴다고 했을 때, 첫번째 Hidden Layer를 바로 위의 식으로 정리할 수 있다.

위에서 Beta는 ML에서 이야기하는 가중치이고, g(.)는 Activation function, K는 입력하는 변수의 숫자, K_1은 Node의 숫자, Z는 숨겨진 변수, epsilon은 회귀분석에서 말하는 오차항이다.

같은 논리로 Hidden Layer 1에서 Hidden Layer 2로 가는 식을 세울 수도 있다.

이런 식이 반복되는 구조가 Neural Network로 알려진 계산법인데, 파비클래스에서 설명해왔던대로, Activation Function을 단순 선형 함수로 쓰는 경우는 Linear Factor Analysis이고, 비선형 함수를 쓰는 경우는 Non-linear Factor Analysis이다. Factor Analysis와 동치인 이유는 Hidden Layer라고 부르는 곳에 있는 Node가 모두 숨겨진 변수 (Latent / Unobserved variable)이라는, 전형적인 Factor Analysis 계산의 결과값이기 때문이다. 숨겨진 변수를 정확하게 특정할 수 없기 때문에, FA 계산은 많은 경우에 "코에 걸면 코걸이, 귀에 걸면 귀걸이"라는 비난을 받는다. 글 앞 부분에 Network 모델이 가진 한계를 지적하던 부분과 일맥 상통한다.

정규분포의 합과 차는 정규분포이기 때문에, 입력 데이터가 정규분포인 경우에 출력값도 정규분포라고 가정한다면, 단순한 Linear Factor Analysis로 충분한 계산이다. 말을 바꾸면, Neural Network라는 계산이 필요한 데이터 프로세스는 입,출력 데이터가 모두 정규분포가 아닌 경우에 제한된다. Non-linear Factor Analysis가 필요하다는 뜻이기 때문이다.

같은 맥락에서 Deep Neural Network가 필요한 경우는, 여러번의 Factor Analysis가 반복되어야 하는 계산인 경우인데, 위의 정규분포 -> 정규분포 구조에서는 의미가 없다. 정규분포의 합과 차는 계속해서 정규분포를 결과값으로 내보낼 것이기 때문이다. DNN이라는 계산법이, 데이터가 위상구조를 띄고 있어서 Factor를 단번에 찾아내는게 어려운 구조, 그래서 여러 번의 Factor Analysis를 반복해서 위상구조의 깊숙한 곳을 찾아가야 원하는 데이터의 숨겨진 구조를 찾아낼 수 있는 경우에만 필요한 계산법이라는 것이 바로 이런 맥락이다.

 

경제학에서 Algorithmic approach를 안 쓴 셋째, 넷째 이유

위의 지식이 갖춰졌으니 경제학계에서 Algorithmic approach를 왜 안 다뤘을까에 대한 이유를 추가하면,

셋째, 경제학의 많은 데이터들이 Non-linear 패턴이나 구간별 효과값이 다른 경우가 거의 없기 때문이었다. 대부분의 X -> Y 관계는 Monotonic increase/decrease 관계를 갖고 있고, 그 패턴이 Non-linear하다고해도 Log값 기준으로 변화율간 관계, 특정 구간 (Equilibrium 근처)에서의 움직임을 보고 있으면 non-linearity가 대부분 제거된 구조를 보는 경우가 대부분이다. 위에서 보듯이, 대부분의 ML 방법론들이 기존의 통계학을 "단순히 다르게" 쓰는 계산법들이라 계량경제학을 하는 사람들이 몰랐을리가 없었음에도 불구하고 이용하지 않았던 가장 궁극적인 이유다. 필요가 없었으니까. 다루는 데이터가 달라지거나, 목적이 달라지는 경우에만 눈을 돌리겠지.

넷째, 사회과학 데이터는 Endogeneity가 있는 경우가 많기 때문에, Simultaneity, Mis-specification, Measurement error 등등을 다뤄주거나, Time series에서 Endogeneity 같은 모델 구조적인 문제가 아니어도 Noise를 제거해줘야하는 경우를 먼저 고민한다. 일단 알려진 or 짐작할 수 있는 문제를 제거하지 않고 데이터 작업에 들어가면 학자 자격을 의심 받는다. 반면, Algorithm approach는 그런 데이터 전처리를 깊게 고민하지 않고도 데이터 속의 패턴을 찾아낼 수 있다는 관점에서 활용되는 계산법인데, 데이터에 Endogeneity를 비롯한 모델 구조적인 문제 및 각종 Noise를 제거하지 않고 무작정 Algorithmic approach에만 기대봐야 원하는 값을 찾을 수도 없고, 우연히 찾아낸다고 해도 우연일 뿐이지, 계속 반복적으로 쓸 수는 없는, 즉 학문적 가치, 아니 지식의 가치가 없다고 판단하기 때문이다.

실제로 경제학자들이 모인 연구소에 ML, DL, RL 같은 Algorithm approach를 IT학원처럼 코드만 주워담는게 아니라, 제대로 수학적으로 빌드해서 강의하면,

에이~ 그걸 어떻게 써~

라는 말이 먼저 나온다. Noise 데이터에서 Noise를 제거하지 않고 Pattern을 찾을 수 있다는 "Algorithm approach"가 "사기"라는걸 바로 인지했기 때문에 즉, 사회과학 데이터에는 "틀린" 접근이라는걸 바로 인지하기 때문이다. Noise가 없고, 인과 관계 및 데이터 구조에 모델 구조적인 문제가 없는 데이터, 그런 고민 자체가 필요없는 데이터, 즉 이미지 인식, 자연어 처리 등등, Algorithm approach가 맞는 데이터에만 써야하는데, 그걸 모든 영역에 다 쓸 수 있다고 주장하는 국내 몇몇 공학도들의 우물 안 개구리 같은 모습을 경제학자들이 어떤 눈으로 볼지 충분히 이해되지 않나?

 

나가며 - ML방법론이 하늘에서 떨어진 방법론이 아니다

이 정도면 링크 건 Summary paper의 약 1/3 정도를 다룬 것 같다. 위의 설명이 어느 정도 길잡이가 됐을테니, 이해하는 독자 분들은 나머지 부분도 링크의 논문을 직접 읽고 이해할 수 있을 것이다. SIAI의 학부 고학년 수준 과목인 Machine Learning, Deep Learning, Reinforcement Learning 등의 수업 일부에서 위의 Summary paper를 다룬다. 그 수업 전에 배우는 다른 통계학 수업에서 배우는 방법론과 위의 설명처럼 하나하나 비교하며, 언제 어떤 경우에만 ML방법론을 쓸 수 있는지를 최대한 직관적으로 이해시키는 것이 그 계산과학 수업들의 목표다. (잘못 배워 나가면 Decision Tree 변형한 모델로 주가 예측하는 변수를 자동으로 찾아낼 수 있다고 망상하는 로보 어드바이저 회사 차리고 투자 받으러 돌아다닐 수도 있다.)

그런 이해도를 갖추게되면, 시장에서 ML, DL, RL을 적용해서 뭔가 엄청난 걸 해 냈다고 주장하는 언론 홍보의 실상을 좀 더 깊이있게, 냉혹한 시선으로 파악할 수 있을 것이다. 아마 학위 과정이 끝나는 무렵이 되면, MBAMSc 과정이건 상관없이, 위의 이해도 없이 코드만 갖다 붙여서 만든 결과물이 왜 제대로 작동하지 않는지, 그런 결과물에 시간과 인력과 돈을 쏟아붓는 작업이 얼마나 사회적 자원의 낭비인지, 그래서 제대로 된 지식을 볼 수 있는 시야를 갖춘다는 것이 단순히 연구 작업 뿐만 아니라 기업의 의사 결정과 생존, 발전에 얼마나 결정적인 영향을 미치는지 좀 더 열린 시야로 이해할 수 있게 될 것이다.

하늘 아래 새로운 것은 없다

라는 표현이 있다. ML방법론들, 좀 더 일반화해서 Algorithmic approach라는 것들이, 모델을 기반으로 하지 않고 모델이라고 판단되는 기본 식을 정리해보겠다는, 접근 관점의 차이만 있을 뿐, 사실 방법론들은 모두 기존의 통계학을 활용하는 계산법들에 불과하다. 즉, 기존의 통계학 계산법들이 못하는 걸 해내는 마법도 아니고, 기존의 방법론들이 가진 한계를 벗어나지도 못한다. 그냥 좀 "다른 관점"일 뿐이다.

단지, (특정한 몇몇 경우에만) 모델을 기반으로 하지 않고도 모델을 찾아내는 장점을 가진 반면, 분산, 검정력 등등의 수많은 통계학 도구들을 포기하는 계산법에 불과하다.

그런 한계를 명확하게 이해하고, Listen to Data를 하기 위해 현재 내가 가진 Data의 상황, 내 작업 목적 등등을 두루두루 감안해서 적절한 계산법을 선택하는 것이 진짜 Data Science아닐까?


 

믿을 수 없겠지만, 저 Summary Paper는 내가 석사했던 학교의 학부 2학년 Introduction to Econometrics 라는 수업의 읽기자료 및 Problem Set이다. 석사 레벨도 아니고, 학부 졸업반도 아니고, 학부 2학년 때 이미 ML, DL, RL이라고 불리는 계산과학적 접근법을 기초 계량경제학 수업 때 (Side로) 듣고(도) 이해하고, Problem Set을 풀 수 있는 수준의 교육을 받는다.

석사 공부하던 시절 내내 그들의 교육 수준에 충격 먹었었지만, 저 논문을 학부 2학년 수업 읽기자료와 연습문제에서 보고 말로 형용할 수 없는 충격을 받았었다. 우리나라 공대에서 자칭 AI한다는 교수들 중에 저 논문으로 만든 고급 연습문제 풀이는 커녕, 논문 자체를 이해하는 비율이 한 자리 숫자가 안 될텐데...

지극히 개인적인 견해를 덧붙이면, 경제학계에서 ML, DL, RL 으로 대표되는 Algorithm approach를 안 쓴 가장 결정적인 이유 (My version of 다섯째)는, 계량경제학자들이 통계학 훈련이 잘 되어 있어서 (최소한 공대보다는 잘 되어 있어서), 통계학 훈련을 하나도 안 받고 무조건 컴퓨터 신(神)님이 모든 문제를 해결해주실 것이라고 중세 신앙적 믿음을 갖는 공학도들보다, 인간의 지성을 더 중요시했던 르네상스 시대에 조금은 더 가까운 공부를 했기 때문이 아닐까 싶다.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI