Skip to main content

한국 대학 vs. 해외 대학 (3)

한국 대학 vs. 해외 대학 (3)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

학부 시절에 개인적인 사정으로 잠깐 알게 됐던 어느 선배의 사연이다.

재외국민 특별전형으로 우리 학교에 왔던 형인데, 이과에서 제일 점수대가 높은 애들이 가는 과니까 컴퓨터 공학과를 골랐다고 했었다.

오직 자기가 똑똑한 사람인데, 똑똑한 증거를 보여주기만 하면 된다는 생각 이외에,

해당 전공 지식을 어떻게 써서 어떻게 활용한다는 생각이 전혀 없던 분이었는데,

정작 컴퓨터 공학과 학점은 굉장히 안 좋았고, 경제학이건 경영학이건 상관없이 복수전공 하나를 해서 "상경계열" 학위를 하나만 갖고 있으면 된다고 생각하더라.

전형적인 국내 대기업 인사팀 방식의 채용에 특화된 사고방식을 가진 분이었다고 생각한다.

어차피 전문성이라는거 없이, 똑똑한 애 뽑아다가 일 시키면 되고, 기본적인거만 학교에서 배워오면 나머지는 직장에서 알게된다는 사고의 결과물이다.

 

그럭저럭 15년이 흐른 요즘, 우리 SIAI에 들어온 학생들 중 몇몇에게서도 비슷한 사고방식을 본다.

수학, 통계학 그런건 그냥 가르쳐주는대로 공식에 맞춰서 대입해서 문제 풀면 되고,

자기는 천재니까 가르쳐주는 내용을 이해하는데 별 어려움이 없을 것이라는 생각에 사로 잡힌데다,

결정적으로 학위 받고 꿀 빠는 생각 (아마도 커리어 전향? 연봉 인상?) 밖에 안 하고 있다.

 

그 형님은 외국에서 오래 살았다는 이유로, 집안이 빵빵하다는 이유로,

내가 하고 싶었던 인턴들을 경쟁없이 쉽게쉽게 찾아갔었고,

거기서 "주워들은" 지식이 참 많은 형이었다.

그러나, 회계처리가 애매모호한 문제의 경제적 실체에 맞춰 구분하는 문제 같은 걸 하나도 못 하는,

그래서 그냥 이런건 회계사 물어보고 답 알려줄 때까지 기다리면 된다, 상대 회사랑 분쟁하게 되면 더 비싼 회계사 붙여서 이기면 된다는 식의

말 그대로 자기 지식없이, 자기 생각없이, 학위만 받고, 돈만 쓰면 모든 문제가 해결된다는 사고 방식으로, 공부 따위는 집어치우고 사는 형이었다.

 

자기는 천재니까 우리 SIAI의 학위 과정이 쉽게쉽게 술렁술렁 넘어가야 할 것이라고 착각하는 학생들도

수업 시간에 배운 내용을 바탕으로 머리를 쥐어짜가며 전체적인 그림을 이해해야한다는 사실을 공감하지 못한 채,

좀 심한 말로 그냥 대충 가르치고 학위나 내놔라는 태도인 것 같아 보이는 경우가 꽤 된다.

 

앞으로 우리 학교 찾아올 학생들을 위해서 미리 선을 그어두면,

그 형님이 엉망진창인 학점을 받았어도 국내 대학이니까 어찌어찌 졸업하셨을지 모르겠는데,

우리 SIAI에서는 그딴 답안지 쓰고 있으면 영원히 유급만 할 것이다.

우리학교의 졸업 기준 최저학점은 1.7/4.3이고, 유급생 제외하고 평균 졸업학점은 2.3/4.3 정도 기대한다.

 

"대학", "대학원"이라는 곳에서 가르치는 내용은,

국내의 쩌리 커리큘럼에서 그럭저럭 대충대충 가르치는 내용이 아니기 때문에, (최소한, 아니어야 하기 때문에),

수업을 듣고나서 바로바로 이해하는건 거의 불가능하다. 본인이 정말 폰 노이만 급의 슈퍼 천재가 아닌이상.

 

난 학부시절 그 형의 행패를 더 이상 참질 못해서 한번 들이 받았는데,

"내가 그래도 형인데 임X~"라고 갑자기 나이를 내세우더라.

실력은 전혀 없던, 그냥 부모 덕분에 외국에서 오래 살았고,

국내와서는 재외국민 특별전형이라는 거저먹기 전형과, 그 전형에 특화된 쪽집게 과외 덕분에 쉽게 S대를 왔던 그 형,

설령 고교 수준까지의 지식은 그냥 보고 바로바로 이해할 수 있는 잠재력이 있었을지 모르겠으나,

대학와서는 "나는 천재다"는 자뻑에만 빠져 공부를 하나도 안 한 탓에 엉망진창인 학점을 받았던 그 형,

요즘 우리 SIAI와서 어렵다고 징징대는 학생들을 보면서 나는 그 형이 계속 오버랩된다.

 

어렵다고 징징대는건, 말을 바꾸면

"나는 원래 천재라서 쉽게 뚝딱 이해해야되는데, 즉석에서 이해가 안 되는 내용이 나오니까 이건 네가 잘못 가르친거다"는 뜻이다.

근데, 나는 학부 1-2학년 과정을 섞어서 MBA in AI/BigData에 가르치고 있고,

학부 3학년 이상 과정을 내가 아는 진짜 천재들이 듣다가 장렬하게 전사했던걸 평생 몇 백, 몇 천번 봤었다.

내 눈에 천재들도 학부 3학년 이상 과정에서 전사하는데, 학부 1-2학년 과정도 못 알아먹는 너네는 뭔데?

쉽게 말하면, 너네가 내 눈에 천재는 당연히 아니고, 학부 3학년 과정을 쉽게 도장 깨기 할 수 있는 슈퍼 천재와는 거리가 먼 인간이라는 거다.

 

진짜 제대로 공부하는 학생들은 징징대는 메세지를 여기저기에 뿌리기 전에, 참고서들을 뒤져가며 공부하는데 시간을 쓴다.

징징대는 시간도 아깝거든.

 

파비클래스 데이터 사이언스 강의 시절, 그 수업만 듣고는 어디에 어떻게 써야할지 감이 안 잡힌다,

그냥 어디에 쓸 수 있는지, 갖다 붙일 수 있는 코드가 뭔지, 라이브러리가 뭔지 가르쳐 달라던 그런 돌머리 학생들에게,

수학, 통계학을 학부 시절에 얼마나 대충 했길래 이 개념을 못 따라오냐고, 황당하다는 반문을 던지며 몇 년을 가르쳤었다.

 

말을 바꾸면, 나는 기초지식을 기술적으로 어떻게 활용하는지를 가르치고 있었는데,

학생들은 "기능적"인 지식만 찾아다니다보니, 기초 과학을 어떻게 활용하는지 연결을 못 하고 있고,

때문에 기초지식의 기술적 활용이라는 개념 자체를 따라올 수 없는,

즉 상고, 공고 출신 급인 주제에 대학 학위를 갖고 있었다는 것이다.

(경영, 공학, 의학 등 대부분의 암기 중심 전공 출신들이 자기 전공 굴레를 못 벗은 경우에 공통적으로 위의 특징을 보인다. 말 그대로 "기능인", 잘 해 봐야 "기능장" 수준의 지적 능력을 갖고 있는 것이다.)

 

요즘보면, 내가 생각했던 것보다 훠얼씬 더 수준이 낮은 교육을 받았을 것 같고, (상고, 공고 수준...)

설령 학부 수준 교육을 받았더라도, 본인 역량이 부족해서 사고방식이 단순 암기형에서 못 벗어났겠지.

결국, 학부 1-2학년 수준이건, 석사 수준이건, 박사 수준이건, 그 어느 레벨을 가릴 것 없이,

그냥 못 따라오는, 그래서 자기가 바보라는걸 인지해야하는데, 곧 죽어도 바보라는걸 못 받아들이는 고집쟁이로 남은 것이다.

 

다른 한편으로 생각하면, 그 형도 학문 자체가 사고력 깊이가 부족한 학문인, 컴퓨터 공학이 대학 전공이었고,

지금 학교와서 징징 DM으로 패악질(?)을 하고 있는 학생들도 경영학과 or 비슷한 수준으로 학위만 받은 사람들이라는걸 감안하면,

역시 멀쩡한 교육을 시켜서 애들이 고생고생하며 학부 학위를 받은 곳들과,

내 기억에 짜증이 장기 기억으로 박힌 전공, 암기로 버틸 수 있는 전공 출신들은 구분해줘야하지 않을까 싶다.

멀쩡한 전공 출신들은 한국 교육 수준이 낮아 제대로 된 훈련을 못 받긴 했어도, 최소한 징징 DM 폭탄 드랍을 하진 않잖아?

나는 왜 이렇게 모를까 자책하고, 숙제를 풀어낼 수 있는 방법을 찾아가는 훈련이 학부시절에 되었기 때문일 것이다.

 

CAPM을 공부했다고 Risk free rate, Mkt return, Beta, 이렇게 3개 값만 알면 공식에 대입해서 주식 가격 평가 할 수 있다고 주장하던 경영학과 애들한테,

Security Market Line이 사실상 분산/공분산의 2차 Moment 비율을 Risk로 계산에 쓰는,

그래놓고 1 variable regression을 한, 지극히 단순화한 계산이라는걸 어차피 이해 못 시킬거 아냐?

걔네가 2차 Moment -> Risk라는 단순 공식에서 벗어나서, Multivariate regression으로 여러가지의 "Risk"를 넣은 모델 (ex. Fama-French 3 factor model)을 이해시키는데 필요한 기초 교육이 얼마나 많았나?

Multivariable regression, Time series 같은 통계학 지식, 미시, 거시경제학 같은 경제학 지식, Multi-factor model 같은 Asset-pricing 모델 지식 정도가 학부 레벨에서 봤던 내용인 것 같은데,

이거 따라오는데만도 우리나라 경영학과 수준을 봤을 때는 최소한 석사 학위 하나를 더 해야 될 거다.

그간 경험으로 봤을 때는 국내 경영학과는 석사를 졸업해도 못할거라고 생각해도 될 것 같다.

학부를 그딴 3류 전공에서 교육받은 애들이 사실상 고교 수준이나 다를 바 없으니,

당연히 회귀분석을 토대로 학문적 이해도를 차곡차곡 쌓아올리는 데이터 사이언스 과정이 미친듯이 어렵게 느껴질 수 밖에.

 

얼마나 많이들 징징댔으면 조교들이 너무 괴로워하길래, 주말에 조용히 불러 고기 구워주면서 좀 달래줬다.

어차피 보면 바로 알 수 있어야 된다는 착각을 가진 애들이 정신 차리기 전에는 어쩔 수 없으니, 그냥 들어주라고.

첫 해니까, 어지간하면 다 받아주자고 했던 내 잘못이라고.

미안하다고.

 

자뻑 가득차서 자기가 얼마나 바보인지 인지조차 못하던 그 형이나, 징징 DM을 열심히 보내는 걸로 보람찬 하루를 보내는 몇몇 학생들이나,

어차피 학교 욕, 교수 욕, 커리큘럼 욕이나 할 줄 알지,

정작 본인이 바보라서 못 살아남는다는 생각을 못 하는건,

절대 자기 탓은 안 하고, 남 탓만 하는건,

뭐 어쩌랴. 인간이면 똑같겠지. 나도 지금 남 탓 하고 있네ㅋㅋ

 

나도 석사시절 동안 징징이였긴 했다. 왜 실력도 없는 주제에 욕심내서 엄청나게 좋은 학교 갔었는지 후회가 많았거든.

단지 내가 친했던 사람끼리는 징징의 내용이 "우리가 Byungsin이라서"라는 자기비하로 이어진 점이 달랐을 뿐.

나중에 박사 공부하러 가니까 B 앞에 "더"를 붙이게 됐었고ㅠㅠ

 

우린 "호로록~" 넘어가고, 성의없이 강의 준비하고, 대충대충 가르치는 교수들을 무시하고 욕하며 술 안주로 삼았는데,

어째 어렵다고 징징대는 학생들을 보니 생각이 많아질 뿐이다.

징징이들 거를 방법은 역시 "시험 치료" 뿐인가...

3줄(4줄) 요약하면, 징징이들이 징징대는 이유는

  1. "기초"와 "기술"을 배우려는게 아니라 "기능"을 배우던 가락이 있어서
  2. 자기가 "천재"라서 쉽게 배울 수 있을거라고 착각들을 해서
  3. (결정적으로) 자기 기초 실력이 부족해서
  4. (국내대학처럼 널럴할거라고 생각했는데, 제대로 된 수준의 교육을 받으니 미친듯이 어려워서)

이다.

보통 이쪽 리그에서는 기초 실력이 부족하면 석사를 2개 하면서 시간을 들이거나,

아니면 같은 수업을 2-3번 듣고, 학부 수업을 찾아가고 그런다.

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (2)

한국 대학 vs. 해외 대학 (2)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

15년쯤 전의 일이다.

University of WisXXXXXX이라는 대학 학부를 나온 분이 해외 대학이 좋은 이유를 짧게 설명하는 간담회(?) 같은 자리에 우연히 참석한 적이 있다.

자기가 한국에서 중X대학교를 2년 다니고, 군에서 유학 준비를 해서 아예 1학년부터 다시 해외대학을 갔단다.

약간 늦게 졸업하기는 하는데, 국내 학부 동기들과 지금의 자신은 주어진 기회라는 측면에서 비교 불가능한 레벨이고,

무엇보다 지식의 절대량이 다르고, 지식을 바라보고 이해하는 방식이 완전히 다르단다.

자기는 사물의 원리를 이해하며 지식을 습득하는 서구식 교육을 통해 자신의 국내 학벌을 지표로 삼을 수 있는 잠재력보다 훨씬 더 큰 사람이 되었는데,

중X대학교 친구들은 여전히 국내식 암기 달달달 교육을 통해 대학 내내 아무것도 배우는 것 없이 졸업하고 전공 살리지도 못하는 직장을 갔단다.

(솔직히 내 생각엔 본인이 매우 뛰어나신 분이고, 국내 모교에 대한 애정이 너무 박해서 까느라 or 졸업하는 해외 대학 자부심이 좀 지나치게 드러난 코멘트였던 것 같다고 생각은 하지만, 어쨌건 국내와 해외 대학간 격차가 매우 심한건 사실이니까...)

 

전공을 살린다는게, 그 전공에 대한 매우 깊은 전문지식이 있어서 회사에서 급여를 주고 쓰고 싶은 인력이 되었을때나 가능한 이야기다.

그런데, 저렇게 전문지식을 탄탄하게 갖추고, 그 분야에서 새로운 지식이 나와도 사물의 원리를 이해하는 사고 방식 덕분에 쉽게 성장하는 인력과,

학부 내내 그냥 암기만해서 머리가 빈 상태로 졸업하고, 어찌어찌 채용해도 새로 나오는건 못 배워서 모르겠다고 하는 인력이 있으면,

당신이 회사 오너라면 누구를 뽑겠나?

 

학교가 잘못 가르쳐서 학생의 시간과 돈을 뺏는 전공으로 가장 단적인 전공이 국내의 경영학과다.

학부 시절, 경영학과 게시판을 가보면 주기적으로 전공을 잘못 왔다, 배우는 내용이 없다, 생각없이 학교 다니면 인생 망한다,

등등으로 자기 전공의 커리큘럼이 얼마나 조잡한지에 대해서 비관하는 글들이 올라오고, 갑론을박이 벌어지곤 했다.

제대로 가르치려면 학생들이 힘들어 죽을 것 같아할 수학, 통계학, 경제학 기초를 탄탄히 다져야 되는데,

그걸 하나도 안 가르치고 그냥 껍데기만 가르치려니 제대로 된 지식으로 학생들에게 느껴질리가 있나?

그냥 암기나 해서, 학점이나 받고, 졸업장이나 하나 만들자고 생각하게 되는거지.

그러니까 나 같은 사람은 경영학과 학부 졸업장을 갖고 있는 학생은 고졸이라고 생각하는거고.

지난 몇 년간 국내에서 "너무 어렵다"고 욕을 먹은, 그렇지만 해외대학 2-3학년 수준에 불과한 데이터 사이언스 교육 과정을 운영하면서,

국내 대학들 수준이 비단 경영학과 뿐만 아니라, 거의 대부분의 대학 & 전공에서 비참하리만큼 한심한 수준이라는걸 깨닫게 됐다.

내가 이런 지식을 가진 상태에서 미국 명문대의 입학사정관을 하고 있으면 한국 학위 받은 학생은 아예 안 뽑을 것 같더라.

어차피 못 할텐데, 거기다 "어렵다"고 징징댈 줄이나 알았지, 그래서 "족보"나 찾아다닐 줄 알았지,

학문을 좀 더 깊게 이해해서 자기 커리어에서 어떻게 활용할 수 있겠다는 사고의 흐름을 그릴 수 없는 애들인 걸 아니까.

 

돌이켜보면, 정말 엄청나게 열심히 공부했던 극소수의 슈퍼인재 몇몇을 제외하면,

나머지 인원은 대학을 그냥 졸업장 하나 받아서 취직하는데 쓰는 스펙으로 삼거나, 고시 합격 후 인맥용으로만 생각한 것 같다.

좀 극단적으로 말해서, 국내 학위 과정은 어느 전공이나 가릴 것 없이 그냥 경영학과랑 똑같은 수준인 것 같다.

대학이 학문을 배우는 곳이 아니라, 그냥 미래의 직장 네트워크를 제공해주는 스터디 공간 정도에 불과한듯.

 

학부 시절, 수학적 직관과 경제학적 직관의 최정점을 달리는 극소수만이 교수님이 중간중간에 던지는 질문에 대답하고 식사 한 끼를 얻어먹을 수 있는 "훈장"을 받았던 게임이론 같은,

머리가 터져나갈 것 같이 어렵지만 공부하고 나면 세상을 보는 관점이 완전히 달라지게 되는 수업들 정도를 가르쳐야

정말 진짜 "대학 교육" 등급이 될 텐데, 그래서 학위에 대한 믿음도 생기고, 존중도 받을 수 있을텐데,

한국은 대학 학위를 마구 찍어주는 장사꾼 시스템이 돌아가서, 결국 대학 교육이 실패한 나라가 되어 버렸다.

 

학부 2학년 수준의 지식을 가르치는 MBA 수업에 온 국내 초명문대 공학 박사 하나는 1학년 수준을 몰라서 수업시간에 질문을 하고,

그걸 혼자서 자료를 찾아가며 공부할 수준조차 안 되어서 시간을 한참 낭비하고 있는 절망적인 상황을 보면서,

이렇게 교육을 엉망진창으로 하는 나라에서 기른 인재에게 뭘 더 기대해야하나는 좌절감 밖에 안 생기더라.

학교 운영을 통한 수익률이 마이너스가 되는 수준까지 강의료를 오퍼해도 제대로 가르칠 수 있는 인력이 없어서 교수진을 못 뽑는 나라인데,

그런 2-3류 교수들이 득시글한 학교들에서 기른 인재가 어떻게 제대로 된 교육을 받았을 수 있을까?

받았으면 기적이지.

 

사실 공대 박사들이 득시글한 몇몇 기관에 외부 출강을 몇 차례 나가보면서 이미 한국 공대 수준이 조악하기 그지 없음을 인지하기는 했는데,

그 중 몇몇이 학부 1학년 통계학 입문 과정에서나 배울 t-test, F-test 같은 내용을 몰라서, 근데 그걸 혼자 찾아서 공부할 능력이 안 되는걸 보고,

우리나라에서는 학위를 뭘 했건 상관없이 그냥 학부 1학년부터 다시 들어와라고 그래야겠다는 생각까지 했다.

 

학생들 몇몇은 자기는 죽어도 MBA가기 싫다고, 자기는 AI 박사급 인재가 될 후보인데, MBA in AI/BigData는 절대로 안 한다고 뻣뻣하게 굴었는데,

MBA에서 학부 2학년 과정 + 현실 응용을 위한 타 학문 (경제학, 마케팅, 경영학, 산업공학, 법학....) 연계 수업만 해도 뻗어나가는 판국이잖아?

 

블로그를 한참 읽어보고 꼭 이 대학을 가고 싶다, 실력이 안 되니까 MBA를 가겠다, 근데 MSc 가고 싶다 같은 종류의 메일을 꾸준히 받는다

예전엔 백지상태지만 무조건 할 수 있다는 정신병자들 이메일부터 "무뇌충"들에게서 다양한 헛소리를 들었는데,

대학 출범 이후로 요즘은 그냥 좀 헛소리의 종류가 통일되었다는 (무조건 MBA는 안 해...) 느낌적인 느낌(?)이다 ㅋㅋ

그런 정신병자들이 MBA 들어오면 첫 2-3주만에 앉은뱅이가 태산을 오르겠다고 도전했다는 사실을 깨달을 것이다.

S대 공대 + 대기업 직원 하나가 학기 시작 전 예비 수업으로 배정한 코딩 강의 듣고는 "뇌절" 왔다는 이야기가 얼핏 떠오르네.

그거 우리 개발 이사님이 두 달 동안 심혈을 기울여서 만든 MIT 컴공과 수업 보조 교재 기반 수업이다

 

우리 MBA in AI/BigData는 1. STEM MBA라서, 2. 국내 대학이 아니어서, 너네가 알고 있는 ABC 가르치는 가짜 학위 수준 아니라니까.

내 보기엔 국내대학 학위 있는 너네들 (거의) 전부 다 학부 1학년부터 다시 시작해야 되는데, 학부 다시 다닌다는게 잘 납득이 안 되는 상황인 것 같다.

 

학부 저학년 때 배우는 지식들 대부분은 굉장히 지루하고 재미없고, 현실과 너무나 동떨어진 것 같은 경우가 많다.

경제학 원론에서 비교우위론을 배우고, 생산함수, 한계비용 같은 개념들을 배우던 시절에,

해외 거주 특별전형으로 들어온 (이런 애들은 대부분 머리가 나빴다) 동기 하나가 경제학은 아무런 쓸모도 없는 학문이라고 그러더라.

(보통 공부 못 하는 애들이 학교 욕, 교수 욕, 조교 욕, 커리큘럼 욕을 하면서 정작 자기자신의 지적 무능은 절대로 탓하지 않는다.)

그 때 배운 내용을 학부 3학년 때 국제무역론에서 더 깊게 배우고, 나중에 해외 로스쿨을 가서 무역분쟁 전문가가 된 동기는,

"비교우위론 개념없이 FTA 협상하는 한국 외교관들이 바보라고 무시당하는거 듣고 있으니까 진짜 비참하더라"는 하소연을 했다.

무역분쟁 전문 국제변호사라는 화려한 타이틀만 갖고 싶지, 그걸 위해 가장 기초 지식 중 하나인 비교우위론 따위는 공부하고 싶지 않은,

그런 겉만 번지르르한 3류 지식인이 되고 싶다면, 뭐 또 그렇게 사는거다.

 

그러나, 정말 진짜 알짜 지식인이 되고 싶다면, 학부 저학년 때 힘들고 괴롭지만, 이걸 왜 배우는지 모르겠지만 일단 배우는 과정을 거칠 수 밖에 없다.

t-test, F-test 같은 입문 수준 통계학을 모르니까 결국 박사 학위가 있는데도 MBA수업을 못 따라가고, 혼자서 공부할 수 있을만큼 기초도 안 쌓인 상황이 되면, 본인은 얼마나 괴로울까?

자기도 하답답한 상황이니까, 여기 MBA는 다른 MBA랑 다른 것 같으니까, 나이들어서 힘들지만 그래도 꾹 참고 공부해야겠다고 생각하고 찾아온 거겠지?

그나마 이렇게 늦게라도 깨우치면 천만다행인데, 영원히 기초 지식은 "쓸모없는 내용"이라고 생각하고 사는 아둔한 특별전형 동기들 수준이

압도적인 대다수라는 것이 우리나라 대학 교육의 현실이다.

 

Quora.com에서 갖고 온 Good vs. Bad university 기준대로라면 그 해외 거주 특별전형 동기는 학교를 졸업 못 했어야 된다.

그러나 여전히 모 대기업에서 S대 욕 먹을 짓을 하고 돌아다닌다.

 

문제의 원인이 저학년 교육인지, 고학년 이상 교육인지, 아니면 아예 멍청한 학생들인지, 어느 쪽인지, 각각의 비중이 어느 정도인지 결론을 내릴 정보가 부족하기는 하지만,

적어도 지금까지 모은 정보를 봤을 때, 국내에서 대학 나왔으면, 꼭 경영학과가 아니라고해도, 학위에 색안경을 끼고 봐야된다는 것이 내 결론이다.

학교 입학하고 싶다고 궁금증을 담은 이메일을 보낸 예비 학생 분들,

당신들 대다수는 MSc AI vs. MSc DS 같은 고민, MSc DS vs. MBA 같은 고민이 아니라, MBA vs. 학부 1학년(?) 같은 고민을 해야 할 상황이라고.

 


+ 당신들을 위해 약간의 변명을 달아주면,

대학 교육이 잘못한거지, 당신들이 잘못한 건 아니다.

더 늦기 전에 제대로 된 교육을 찾아다니는 것만으로도 일단 눈을 떴으니까,

어떻게 제대로 된 "앎"을 찾을지 적절한 선택을 하기 바란다.

또 다시 잘못된 선택을 하면 그건 더 이상 대학 잘못이 아니라, 당신 탓이라고 봐야 한다.

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

한국 대학 vs. 해외 대학 (1)

한국 대학 vs. 해외 대학 (1)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

오늘 글의 부제는

당신이 한국의 데이터 사이언스 대학원을 가면 안 되는 이유

라고 달고 싶다.

 

오늘 그 증거를 하나 보여준다.

아래는 우리 MBA in AI/BigData 학생이 보내온 개인 DM (Direct Message)다.

이 분은 국내의 모 데이터 사이언스 대학원을 다니다가,

이건 절대 아니다는 생각이 들어서 자퇴하고 우리 대학원으로 갈아탄 케이스다.

면접 때 주제넘게 MSc 도전 같은 생각은 안 하고, 그냥 MBA라도 졸업할 수 있으면 좋겠다고 했던 말도 기억나고,

국내 모 대학원 입학 중 겪은 충격적인 면접 이야기도 기억난다.

첫 수업 듣고 쇼크먹고 "유학가서부터 이렇게 공부하셨나요 ㄷㄷㄷㄷ" 같은 코멘트 했던 기억도 나네.

 

아무리 충격적인 이야기를 많이 들었어도, 그래도 정말 백보 양보해서, 우리나라 대학원이 그정도로 썩었겠나고 생각했었는데,

아래의 짤을 보고 정말 완전히 마음을 정리했다.

이제 우리나라 대학원 학위는 우리 학교에서 대학원 학위로 인정 안 한다.

(이미 국내 대학원 출신들의 심각한 학력 저하 수준을 몇 백 차례 확인했기도 하다.

우리 학생 중 하나는 이런 결론을 "샘플 많이 보셔서 이제 수렴하셨군요ㅋㅋ" 라고 우스개 소리로 바꾸더라.)

그리고, 아래의 상황을 알고도 그런 대학원에 한 학기 700만원씩을 갖다바친 인간들은 "호구"라고 서슴없이 불러줄 생각이다.

 

저 대화에서 받은 첨부파일의 내용이다.

저 대학 이름과 교수 이름은 정말 명예훼손 고소만 아니었으면 공유했을 것 같다 ㅋㅋㅋ

 

위의 11장이 강의 노트였고, 이걸로 그 중요한 Regression을 다 때운데다,

심지어 대학원 강의 전부가 이 수준을 크게 벗어나지 않았단다.

저 노트는 통계학 전공자가 아닌 내가 학부 3학년 때 알고 있던 내용보다 조잡스러운 내용이고,

통계학과 학부 2학년 회귀분석 강의하고 있는데, 학생이 저렇게 노트 만들어 왔으면, 솔직히 내가 교수면 F 준다.

 

이건 3류대학 경영학과 경영통계보다도 더 쓰레기 수업 아닌가? (사실 3류대학 경영학과 수업 안 들어봐서 모르겠다...)

이걸 국내 명문대 데이터 사이언스 대학원의 회귀분석 강의 교재로 썼다는거지?

이딴 강의에 한 학기 등록금 700만원을 꼴아박아????

 

아래는 우리 MBA in AI/BigData 프로그램 Math & Stat for MBA라는 기초수업 4강 강의자료다.

(마지막 5장이 짤렸는데 귀찮아서 그냥 냅둔다. 궁금하면 와서 들어라ㅋㅋ)

 

앞 강의들에서 기초 통계 개념과 실험설계 같은 주제들을 다루고,

Average Treatment Effect 같은 Non-parametric 셋팅이나, Regression 같은 Parametric 셋팅이나,

결국에는 여러 변수로 확장해서 "Partialling out" 해 주는 계산으로 확장될 수 밖에 없음을 설명한 다음,

가장 간단한 예시 중 하나인 기초 시계열을 이용해서 시간의 흐름이라는 변수를 어떻게 쓰는지를 활용해,

여러 변수가 하나의 식에 쓰인다는 것이 무슨 의미인지를 설명하는 노트다.

덧붙여서, Multivariate regression으로 넘어가면서 핵심 가정인 Gauss-Markov 가정 A1 ~ A5를 커버했다.

특히 시계열 데이터에서 자주 보이는 A3, A4 이슈를 다루고, 머신러닝, 딥러닝 쓰면 다 해결되지 않나요라는 헛소리가 왜 성립할 수 없는지를 간단하게 설명하고 싶은데,

아직 머신러닝, 딥러닝 (이라고 알려진 Non-linear & Network & Factor Analysis & Non-parametric 모델)을 안 가르쳤다

저걸 가르치려면 단계를 밟아 필요한 수학/통계학 지식들을 하나하나 다 쌓아올려야지, 어디 야매 학원처럼 코드만 던지는 수업 따윈 안 한다

지금은 예전 파비클래스 수업 듣고 온 학생들(중 일부)만 머신러닝, 딥러닝 쓰면 다 된다는 헛소리와 위의 A3Rsru fail을 묶어서 이해하고 있을듯.

앞으로 이어지는 노트들에서는 좀 더 구체적으로 언제 어떤 조건이 갖춰질 때 Regression이 효과적인지 더 공부하게 될 것이다.

 

자랑한다고 내 놨냐고? 솔직히 나는 부끄러운 노트다. 그냥 저 메세지 받은 직전일에 수업했던 강의자료라서 갖고 왔다.

강의노트에 안 쓴 부분들을 따로 OneNote 같은 걸 활용해서 이것저것 수식 설명하고 그림 많이 추가되는 수업을 해야 되더라.

가르칠 내용이 많은데, 애들이 쭉쭉 따라오질 못해서 천천히 가르치느라 속이 열불이 터지는 중이고,

그렇다고 못 알아듣는걸 폭탄 드랍할 수는 없어서, 징징대는걸 다 들어주며 천천히 올라가고 있는 중인데,

그리고 나도 이런 기초 수준까지 내려서 가르친 적이 없는 사람이라 노트 정리가 쉽지 않은 상황인데,

날 더러 저 위의 국내 모 대학원 데이터 사이언스 전공 교수랑 동급 취급하면 자존심이 엄청 상할 것 같다.

저런 분은 나라가 지식인을 제대로 쓰고 있으면 문지기, 청소부, 배달업 같은, 몸 쓰는 직군으로 이직하셔야 될 분이다.

 

몇 달 전에 국내 다른 초 유명 대학 교수로 있는 지인과 연구를 핑계로 코로나 방역 수칙을 위반하며 오밤중까지 "노가리"를 깐 적이 있다

(연구 주제 관련으로 말을 한참했으니 엄연히 "기업 미팅"이었고, 위반이라 그래봐야 우리 둘인데 뭐 ㅋㅋ)

정말 오랜만에 만났는데, 늦어진데다 오랜만에 대화되는 인간과 만나서 속이 뻥 뚫린다며 하소연을 한참하는데,

해외 대학 교수하다가 국내에 유명대학 교수 자리가 나서 "신나게" 한국에 돌아왔는데,

학교 안에는 자기랑 대화되는 인간이 한 명도 없어서, 연구 협조라는건 꿈도 못 꾸고,

교수들끼리 논문 발표하는데서 좀 Critical하겠다 싶은 질문들 몇 번 던졌더만,

"그렇게 어려운 질문만 하는데 누가 알아듣고 대답하냐고~"라는 동료 교수들 핀잔만 듣고 있단다.

 

그 동료 교수라는 인간들이 내놓는 논문은 쓰레기도 그런 쓰레기가 없는, 한국인 학자라고 알려질까봐 겁나는 쪽팔리는 수준이고,

그 교수들이 가르치는 강의노트 수준은 진짜 기가차더라. 그 강의를 듣고 있는 학생들이 불쌍할 뿐이다. (근데 한국 초명문대...)

 

분명히 국내에도 속칭 비행기를 타고 가야 만날 수 있는, 글로벌 최상위권의 교수님들이 계신다.

(양아치 수준인 먹물들 까는 글만 보고 내가 엄청 뻣뻣한 사람일 줄 알지만, 그런 분들 만나면 나도 90도 직각, 아니 180도 폴더폰 인사한다고ㅋㅋ)

그러나, 정부가 시류타서 돈 쏟아붓고 있는 데이터 사이언스, 인공지능 같은 이름이 붙은 대학, 대학원의 교수들 중에,

적어도 내가 아는 범위 안에서는 그런 교수님은 없다.

반면 저 위의 학부 2학년이 만들어도 F학점을 받을 쓰레기 같은 수준으로 강의하고 있는 그런 교수들은 좀 많이 안다 ㅋㅋ

우리나라 데이터 사이언스 대학원 (공대 출신) 교수들 전부 다~ 거든.

 

나가며 - (국내) 대학, 대학원 왜 가냐?

가끔 정부 기관들에 있는 지인이 무슨무슨 학회 같은 자리에 내가 참석하면 스펙상 적절할 것 같다고,

학자들의 대화를 이해하고, 현재 시장에서 쓰이는 지식을 이해하는 사람이라며 치켜세워주고는 이름을 올리는 경우가 있다.

까마귀 수준도 안 되는 짭새들만 모인 곳에 백로 아니고 까마귀.... 정도 되는 (된다고 생각하는) 내 입장에서 정말 가고 싶지 않더라.

어쩌다 한번 갔다가 짜증만 나게하는 짭새 수준 공학 박사(?)들의 "인공지능으로 다 해결되는데 무슨 통계학" 같은 드립을 보고 난 다음,

몇 달 후에 그 모임에서 비대면으로 또 S대 공학 박사 출신, 모 대기업 연구원 출신인 분의 논문 발표에 참석해달라는 연락을 받았다.

 

왜 그 모임에 탈퇴한다는 메일을 진작에 안 보냈나 싶어서 늦게라도 "꺼져버려~"라고 메일 쓰던 중에,

어차피 비대면이니, 혹시나 싶어서 우리 개발이사님 (공대 석사 출신...)한테 관심있으면 참석해보시라고 권유했었다.

 

그 얌전한 신사 분이 "아니 이게 무슨 (ㅆㅂ)...." 같은 표정으로 중간에 이어폰을 내려놓고 내 얼굴을 보며 어이없는 표정을 지으시더라.

석사시절 BioInformatics 들어가서 1년간 혼쭐나게 회귀분석 공부했다는 분 입장에서,

"머신러닝의 러닝이 도대체 뭔가요?" 이딴 질문하는 세미나에 갔으니 얼마나 기가 찼겠냐 ㅉㅉ

이런게 국내 지식인들이라고, 먹물들이라고 하는 "것"들이 연구비 낭비하는 방식이냐고 질문하시는데,

지난 몇 년간 내가 봐 왔던 국내 학계 수준을 봤을 때는 그런 거 같다고 대답할 수 밖에...

 

위의 국내 대학원 자퇴.... 아니 탈출 후 우리 대학원으로 피난 온 학생이 말한 것 처럼,

제대로 공부하려고 하는 학생이면 우리나라 대학원 가면 안 된다. 교수들을 싹 갈아치우기 전 까지는.

아, 내가 돈을 더블로 준다, 직장 다니며 세컨잡이어도 괜찮다고 해도 뽑을 실력이 되는 교수가 없어서 못 뽑고 있는데,

우리나라 대학원들이 반 값 수업료에 비정규직 교원으로 뽑기는 만만치 않겠지? ㅋㅋㅋ

뭐 그런 인력이 있어야 말이지.

 

타 대학 데이터 사이언스 전공 학생들에게 이렇게 묻고 싶다.

너네 호구지?

 

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

경제학자들이 알아야하는 ML, DL, RL 방법론

경제학자들이 알아야하는 ML, DL, RL 방법론
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

아직까지 머신러닝, 딥러닝, 인공지능 같은 단어들이 보고서를 통과시켜주는 마법의 단어인 2류 시장 대한민국과 달리, 미국, 서유럽에서는 이런 계산과학 방법론을 다른 학문들이 어떻게 받아들여야하는지 이미 한번의 웨이브가 지나가고, 어떤 방식으로 쓰는게 합리적인지 내부 토론으로 정리가 되어 있다.

출신이 경제학이라 석사 이후로 발을 뺀지 오래되었음에도 불구하고 습관처럼 유명한 경제학자들 웹페이지에 올라온 Working paper나 기고를 훑어보는데, 오늘은 경제학에서 ML 방법론을 어떻게 받아들이고 쓰고 있는지에 대한 정리글을 소개한다.

Machine Learning Methods Economists Should Know About

참고로 원 글의 저자는 Stanford 경제학 교수 2명이고, 글이 외부에 공개된 시점은 2019년 3월이다. (대략 2017-2018년에 이미 논의가 정리되었었다고 봐도 된다.) - 글 링크

Model-based vs. Algorithmic Approach

기존의 통계 모델링을 하는 사람들이 대체로 Model-based 접근을 하는 반면, 계산과학을 하는 사람들(중 일부)은/는 모델을 못 정하고 시작해도 Algorithm이 데이터 속의 관계를 찾아내줄 수 있다는 관점을 갖고 데이터에 접근한다.

어느 쪽이건 실제 데이터가 갖고 있는 숨겨진 구조를 찾아내고, 그 구조를 미래 예측이나 자신의 문제를 해결하는 용도로 쓰려고 한다는 "Listen to Data"라는 최종 목적지는 동일하지만, 출발점을 어디로 두느냐가 다를 뿐이다.

그간 파비클래스 강의에서부터 여러 경로로 꾸준히 반복해왔던 말이기도 한데, 데이터의 실제 구조를 어느 정도 예측할 수 있다면, 계산비용을 과다하게 지불하면서 적절한 모델을 찾아줄 것이라는 막연한 기대를 갖고 접근할 필요없이, 알고 있는 모델을 바탕으로 데이터를 활용하면 된다.

가장 단순한 계산이 OLS 같은 선형 계산법이고, 그 외에도 데이터의 분포함수를 알고 있다면 쓸 수 있는 Maximum Likelihood Estimation (MLE), 혹은 데이터가 반드시 충족해야하는 Expectation (ex. E(x) = 1)을 활용하는 Method of Moments Estimation (MME) 등의 계산법이 있다.

데이터가 정규 분포를 따르고 있지 않으면 OLS = MLE가 깨지면서 MLE가 우월한 계산법이 되고, 데이터의 입력 변수가 2개 이상일 경우에 (Decision Theory 논리에 따르면) 일반적으로 MME가 OLS보다 우월한 계산법이다.

그런데, 데이터의 분포함수도 모르고, Expectation도 확신이 없다면?

그렇다고 데이터 속에 Endogeneity 같은, 반드시 IV 등을 이용한 데이터 전처리가 굳이 필요없는 데이터를 모았는데, 그 데이터 속에서 패턴을 찾아내야한다면? 그 관계가 선형 구조가 아닐 것이라는 매우 강한 확신이 있다면? (ex. 이미지 인식, 자연어 처리)

이 때 Algorithmic approach가 엄청난 파워를 발휘할 수 있다.

기존의 OLS, MLE, MME 등의 통계학 계산법들이 못 찾아냈던 패턴을 찾아내주니까.

통계학에서는 "Need to move away from exclusive dependence on data models, and adopt a more diverse set of tools"라는 표현으로 Algorithmic approach를 반긴다.

단, 언제 쓴다? "Listen to Data"를 해야되니까, Data의 구조상 Algorithmic approach가 필요한 경우에만!

(데이터만 있으면 무조건 Algorithmic approach 중 가장 많이 알려진 Deep Neural Net만 쓴다는 사람들에게 바치는 문장이다.)

 

왜 경제학계에서는 Algorithmic approach를 안 or 늦게 받아들였나?

첫째, 경제학, 특히 계량경제학 하는 사람들은 수학적인 Formal Property를 너무 좋아한다. 수학적으로 딱 떨어지는 결과, ex. consistency, efficiency, normality, 값이 없으면 그 논문은 발표 자리에 한번 나갈 기회 얻기가 힘들다. ML 쪽에서 DNN이 항상, 언제나, 무조건 Random forest보다 우월하다는 증명이 가능할까? 아직까지 된 적도 없고, Empirical test는 안 된다는 걸 보여주고, 무엇보다 어느 모델이 다른 모델보다 Universal하게 우월할 수 없다는, 데이터에 따라 적절한 모델은 달라질 수 밖에 없다는 인식은 ML 연구자들이 공통적으로 갖고 있는 인식이다. (비전문가인 국내 개발자 집단만 DNN이 무조건 제일 좋은 줄 안다.) 그러니까 더더욱 Formal Property 좋아하는 사람들이 싫어하겠지.

둘째, 결과값의 정확도를 검증하는 방법이 1차원적이기 때문이다. 통계학 방법론들은 분산을 찾고, t-test를 위시한 평균-분산 구조에서 결과값의 검증이 가능하다. 1st moment인 평균만 쓰는게 아니라, 2nd moment인 분산까지 쓰니까, 분포함수가 정규분포라면 확정적인 결론을 얻을 수 있고, 그 외의 데이터라고해도 해당 분포함수 기반의 t-test 값이 있다면 신뢰구간에 대해 높은 확신을 가질 수 있다. 반면, ML 방법론들로는 분산을 찾는다는게 수만번 비슷한 계산을 돌려서 각각 다른 1st moment가 나오는걸 보는 방법 이외에 달리 합리적으로 분산을 얻어낼 수가 없다. 그러니까 training set, test set으로 데이터를 분리한 다음, test set에서의 정확도를 쳐다보는, 신뢰구간을 구할 수 없는 계산법에 의존하는 것이다. 이쪽에서는 Beta hat을 구하는게 아니라 Y hat을 구하고, Y hat과 실제값의 차이만 본다. 상황이 이렇다보니, 결과값의 Robustness에 논문 쓰는 능력을 검증받는 경제학계에서 ML 방법론을 쓴다는 것은, 자신의 논문이 Robustness 검증을 안 했다는 걸 스스로 인정하는 꼴이 되기 때문에, ML 방법론을 알아도 쓸 수가 없는 것이다.

셋째 이후는 배경 지식이 좀 (많이) 필요한 관계로 글 마지막에 추가한다.

약간 개인 의견을 추가하면, Algorithmic approach 중 하나로 활용 가능한 Network theory를 이용해 연구를 하던 무렵 (Network은 행렬로 정리했을 때 같은 Network이어도 눈에 보이는 Representation은 얼마든지 달라질 수 있다 - Isomorphism 참조), 이런 Network이 얼마나 Robust한 설명인지를 따지려면 여러가지 경우의 수를 놓고 봐야할텐데, 모델이 완전히 달라질 것 같고, 아니면 아예 못 푸는 문제가 될 것 같은데, 과연 논문을 Publish하는게 가능하겠냐는 우려 섞인 걱정을 해준 분이 있었을 정도였다.

요즘 DNN에서 Node-Link 구조가 조금만 바뀌어도 모델이 완전히 바뀌는데, 거기다 데이터만 바뀌어도 Link값들이 크게 변하는데 과연 믿고 쓸 수 있느냐는 질문이 나오는데, 이런 질문이 1990년대 후반, 2000년대 초반에 Neural Network에 Boltzmann 스타일의 Gibbs sampling + Factor Analysis 접근이 시도되었을 때도 나왔던 질문이다. 현재까지 Boltzmann 구조보다 더 효과적인 Network의 Layer간 Link 값 계산을 정리해주는 계산법이 없으니 현재도 유효한 질문이고, 사실 Network이라는 구조 그 자체가 이런 "코에 붙이면 코걸이, 귀에 붙이면 귀걸이"라는 반박을 이겨내기 힘든 구조를 갖고 있기도 하다.

 

Ensemble Methods vs. Model Averaging

무조건 Algorithmic approach를 피했던 것은 아니고, 실제로 Algorithmic approach라고 생각하는 계산법들을 경제학계에서 이용한 사례도 많다. 대표적인 경우가 ML에서 쓰는 Ensemble 모델과 경제학에서 흔히 쓰는 Model Averaging 방법이다.

예를 들어, Random Forest, Neural Network, LASSO를 결합하는 Stacking 계열의 Ensemble을 진행한다고 생각해보자. 이걸 Model Averaging이 익숙한 계량경제학의 관점으로 다시 표현하면,

$latex (\hat{p}^{RF}, \hat{p}^{NN}, \hat{p}^{LASSO}) = \underset{p^{RF},p^{NN}, p^{LASSO}} {\text{arg min}} \sum_{i=1}^{N^{test}} (Y_i - p^{RF} \hat{Y}_i^{RF} - p^{NN} \hat{Y}_i^{NN} - p^{LASSO} \hat{Y}_i^{LASSO})^2 \\ \\  \text{subject to } p^{RF} + p^{NN} + p^{LASSO} = 1, \text{  and } p^{RF}, p^{NN}, p^{LASSO} \geq 0 $

이라고 쓸 수 있다.

원래의 Y값을 가장 잘 설명하는 모델을 찾고 싶은데, 3개 모델의 가중치 합계가 1이 된다는 조건 (& 양수 조건) 아래, 셋 중 어떤 모델을 써서 오차를 최소화하는지에 맞춘 최적화 계산을 하는 것이다.

(아마 일반 유저들이 활용하는 Stacking Library도 위의 방식으로 최적화 계산이 돌아가고 있을 것이다.)

단순히 위의 3개 ML 계산법 뿐만 아니라, MLE, MME, OLS 등등의 통계학 계산법을 활용할 수도 있고, 어떤 계산법이건 합리적이라고 판단되는 계산법들을 모아서 Model Averaging을 하고 있으면, Ensemble과 이론적으로, 실제로도 동일한 계산이 된다.

단, 합리적이라고 판단할 수 있는 계산이 경제학에서는 Bias-Variance trade off를 놓고 볼 때, Bias가 없는 쪽만 따지는게 아니라, Confidence interval (또는 Inference)도 중요하게 생각하는 반면, ML에서는 분산 값 자체가 없으니까 철저하게 Out-of-sample performance, 즉 Bias가 없는 쪽에만 집중한다.

그래서 Stacking 또는 Model Averaging에 넣는 후보 계산법들도 달라질 수 있고, 결과값의 Inference에 대한 요구치도 다르다.

독자들의 이해를 돕기 위해 약간의 개인 견해를 덧붙이면, 선거 여론조사 여러개를 평균해서 가장 실제에 가까운 값을 찾는다고 했을 때, ML 방법론을 쓰는 사람들은 1,000명이건, 500명이건, 10,000명이건, 몇 명에게 물었건 상관없이 평균값 = 실제값으로 일단 가정하고, 그 값 근처에 있는 여론조사를 우선 갖다 쓰고, 틀렸으면 다른 여론조사로 갈아 끼운다는 관점이라고 볼 수 있다. 반면 경제학 방법론을 쓰는 사람들은 500명이면 분산이 너무 크기 때문에, 분산이 큰 경우에는 가중치를 낮게 주고, 분산이 작은 경우에 가중치를 높게 준 다음 가중 평균을 해서 기대값을 구하고, 그 때 +- x.y% 라는 신뢰구간을 꼭 붙여야된다고 생각하는 것이다.

어차피 신뢰구간 그거 누가보는거냐고 생각할 수도 있고, 신뢰구간이 +- 20% 이렇게 터무니없게 나오면, 아무리 여러 여론조사를 모아서 평균값을 썼다고해도, 그 숫자를 누가 믿고 선거 결과 예측에 쓰냐는 반박을 할 수도 있다.

파비클래스 수업 시간에도 항상 강조하는 내용이지만, Ensemble / Stacking / Model Averaging 그 어떤 단어를 쓰건 상관없이, 기본 모델 N개를 결합할 때는 계산의 오차 (Bias)가 작은 경우만 집중할게 아니라, 믿을 수 있냐 (Variance)는 질문에 답이 나오는 모델들을 결합해야 된다고 지적한다. 이름을 어떻게 붙여서 어느 학문에서 쓰고 있건 상관없이, 수학적인 Property는 어차피 같은데, 결과값을 내가 쓸 수 있느냐 없느냐가 바로 "Listen to Data"를 제대로 했는지 아닌지에 따라 결정되기 때문이다. 모델의 Variance가 크다는 말은 Listen to Data를 하지 않은 모델이라는 뜻이니까. (혹은 너무 샘플 데이터만 곧이곧대로 믿었다는 이야기니까.)

 

Decision Tree vs. Regression Tree

ML 계산법을 처음 보는 사람들은 Decision Tree라는게 Regression보다 압도적으로 우월한 계산 아니냐는 질문을 하는 경우가 종종 있다. 근데, 기본형 Tree도, 확장버전인 Random Forest도 모두 UC Berkeley 통계학자가 1984년, 2001년에 쓴 논문에 정리되어 있는 계산법들이다. 정리되기 오래 전부터 이미 다들 알고 있는 계산법이기도 했고.

위에서 보듯이, Regression에 기반한 모델을 여러개 Regression으로 구분하도록 구간별 평균값을 다르게 잡는게 Regression tree의 시작점이다.

역시 파비클래스 강의에서 계속 설명해왔던 내용인데, 여러 구간에 나눠서 Regression하는게 의미가 있는 경우(ex. 약에 반응하는 몸무게 구간이 여러개 나뉘어 있다는 가정)에만 Tree 계열의 모델이 의미가 있다. 예를 들어, c보다 작은 구간에서는 Regression이 별로 효과가 없는 반면, c보다 큰 구간에서는 Regression으로 특정 변수간 유의미한 관계가 두드러지게 나타날 수 있다.

Decision Tree라고 외부에 알려진 모델은 Y와 Y평균값 차이를 1개 변수에 한정해서 여러 스텝으로 반복하고, 구간을 나눌 때 0/1 형태로 구분하는 Step function을 Kernel로 활용하는 Regression Tree의 특수형태 중 하나다. 일반적으로 Regression Tree라는 명칭은 1 -> N개 변수에 대응할 수 있는 일반형 Tree 모델을 오랫동안 통계학에서 불러왔던 명칭이다. (참고로 이 모델을 중첩형으로 쌓으면 Neural Network가 된다)

위의 식에 Alpha값이라는 모델별 가중치에서 보듯이, Random Forest란 그런 여러 Tree 모델들에 각각 얼마만큼의 가중치를 배분해주느냐, 그래서 Stacking을 어떻게 하느냐는 계산이다. 차이가 있다면, Tree가 진화하는 구조 속에 데이터에서 알려주는대로 가중치를 나눠 배분하면서 구간을 쪼개가기 때문에, 좀 더 복잡한 구조를 가진 데이터일 경우에 적합한 모델을 얻을 가능성이 높아진다.

이해도를 높이기 위해 복잡한 구조를 가진 데이터의 예시를 하나만 들어보자. 몸무게 특정 구간 A, B, C, D, E 그룹 중 B와 D 그룹에서만 반응하는 약물이라고 생각하면, A, C, E 그룹과 데이터가 혼재된 상태에서의 Regression보다 구간을 여럿으로 쪼갤 수 있는 Tree가 더 효율적인 계산이고, 그런 구조가 단순히 몸무게 하나에서만 나타나는게 아니라, 키, 팔 길이, 다리 길이 등등의 다양한 신체 구성 요소의 범위에 제각각으로 영향을 받는다면, 이걸 Regression 하나로 찾아낸다는 것은 데이터 구조에 맞지 않는 계산이다. Tree로 모델을 만들고, 다양한 샘플에서 비슷하게 계속 맞아들어갈 수 있는 모델을 찾겠다면, Decision Tree 하나만 찾고 끝나는게 아니라, Random Forest를 이용해 여러 모델을 Model averaging하는게 적절한 계산법이다.

결론이 팔 길이 40cm - 45cm, 다리 길이 80cm - 85cm, 키 175cm - 180cm 구간과 각 값이 20%씩 더 뛴 구간에서만 약물이 효과가 있고, 그 외에 나머지 구간에서는 아예 효과가 없다면? 각 값이 10% 작은 구간과 10% 큰 구간에서는 아무런 효과가 없었다면? 일반적인 Regression은 그 약물이 그다지 효과가 없다고 결론 내리겠지만, Regression을 Tree를 이용해 구간으로 나눠보면 위의 특정 2개 구간에서만 두드러진 효과가 있음을 좀 더 쉽게 찾아낼 수 있다.

이런 구간별 효과는 Monotonic increase/decrease를 가정하는 기존 Regression 모델로 풀어내는데 한계가 있으니, 구간을 하나하나 다 뒤져보겠다는 관점에서 Algorithmic approach를 통해 (More specifically, Tree 모델을 통해) 그런 구간을 찾아낼 수 있도록 컴퓨터에 의존하는 것이다. (다만 Monotonic이 깨지는 경우가 그렇게 일반적이지는 않다. 팔 길이가 40cm, 50cm, 60cm +-1cm 인 구간에서만 효과가 있고, 나머지 팔 길이에서는 효과가 없는 약물이 과연 얼마나 될까?)

 

Neural Network vs. Factor Analysis

K개의 변수 X가 있다고 가정해보자. 그 중 실제로 숨겨진 변수 (Latent / Unobserved variable)인 Z는 총 K_1개가 있다고 하면,

Sigmoid 함수를 Kernel, 또는 (ML쪽 용어로) Activation Function으로 쓴다고 했을 때, 첫번째 Hidden Layer를 바로 위의 식으로 정리할 수 있다.

위에서 Beta는 ML에서 이야기하는 가중치이고, g(.)는 Activation function, K는 입력하는 변수의 숫자, K_1은 Node의 숫자, Z는 숨겨진 변수, epsilon은 회귀분석에서 말하는 오차항이다.

같은 논리로 Hidden Layer 1에서 Hidden Layer 2로 가는 식을 세울 수도 있다.

이런 식이 반복되는 구조가 Neural Network로 알려진 계산법인데, 파비클래스에서 설명해왔던대로, Activation Function을 단순 선형 함수로 쓰는 경우는 Linear Factor Analysis이고, 비선형 함수를 쓰는 경우는 Non-linear Factor Analysis이다. Factor Analysis와 동치인 이유는 Hidden Layer라고 부르는 곳에 있는 Node가 모두 숨겨진 변수 (Latent / Unobserved variable)이라는, 전형적인 Factor Analysis 계산의 결과값이기 때문이다. 숨겨진 변수를 정확하게 특정할 수 없기 때문에, FA 계산은 많은 경우에 "코에 걸면 코걸이, 귀에 걸면 귀걸이"라는 비난을 받는다. 글 앞 부분에 Network 모델이 가진 한계를 지적하던 부분과 일맥 상통한다.

정규분포의 합과 차는 정규분포이기 때문에, 입력 데이터가 정규분포인 경우에 출력값도 정규분포라고 가정한다면, 단순한 Linear Factor Analysis로 충분한 계산이다. 말을 바꾸면, Neural Network라는 계산이 필요한 데이터 프로세스는 입,출력 데이터가 모두 정규분포가 아닌 경우에 제한된다. Non-linear Factor Analysis가 필요하다는 뜻이기 때문이다.

같은 맥락에서 Deep Neural Network가 필요한 경우는, 여러번의 Factor Analysis가 반복되어야 하는 계산인 경우인데, 위의 정규분포 -> 정규분포 구조에서는 의미가 없다. 정규분포의 합과 차는 계속해서 정규분포를 결과값으로 내보낼 것이기 때문이다. DNN이라는 계산법이, 데이터가 위상구조를 띄고 있어서 Factor를 단번에 찾아내는게 어려운 구조, 그래서 여러 번의 Factor Analysis를 반복해서 위상구조의 깊숙한 곳을 찾아가야 원하는 데이터의 숨겨진 구조를 찾아낼 수 있는 경우에만 필요한 계산법이라는 것이 바로 이런 맥락이다.

 

경제학에서 Algorithmic approach를 안 쓴 셋째, 넷째 이유

위의 지식이 갖춰졌으니 경제학계에서 Algorithmic approach를 왜 안 다뤘을까에 대한 이유를 추가하면,

셋째, 경제학의 많은 데이터들이 Non-linear 패턴이나 구간별 효과값이 다른 경우가 거의 없기 때문이었다. 대부분의 X -> Y 관계는 Monotonic increase/decrease 관계를 갖고 있고, 그 패턴이 Non-linear하다고해도 Log값 기준으로 변화율간 관계, 특정 구간 (Equilibrium 근처)에서의 움직임을 보고 있으면 non-linearity가 대부분 제거된 구조를 보는 경우가 대부분이다. 위에서 보듯이, 대부분의 ML 방법론들이 기존의 통계학을 "단순히 다르게" 쓰는 계산법들이라 계량경제학을 하는 사람들이 몰랐을리가 없었음에도 불구하고 이용하지 않았던 가장 궁극적인 이유다. 필요가 없었으니까. 다루는 데이터가 달라지거나, 목적이 달라지는 경우에만 눈을 돌리겠지.

넷째, 사회과학 데이터는 Endogeneity가 있는 경우가 많기 때문에, Simultaneity, Mis-specification, Measurement error 등등을 다뤄주거나, Time series에서 Endogeneity 같은 모델 구조적인 문제가 아니어도 Noise를 제거해줘야하는 경우를 먼저 고민한다. 일단 알려진 or 짐작할 수 있는 문제를 제거하지 않고 데이터 작업에 들어가면 학자 자격을 의심 받는다. 반면, Algorithm approach는 그런 데이터 전처리를 깊게 고민하지 않고도 데이터 속의 패턴을 찾아낼 수 있다는 관점에서 활용되는 계산법인데, 데이터에 Endogeneity를 비롯한 모델 구조적인 문제 및 각종 Noise를 제거하지 않고 무작정 Algorithmic approach에만 기대봐야 원하는 값을 찾을 수도 없고, 우연히 찾아낸다고 해도 우연일 뿐이지, 계속 반복적으로 쓸 수는 없는, 즉 학문적 가치, 아니 지식의 가치가 없다고 판단하기 때문이다.

실제로 경제학자들이 모인 연구소에 ML, DL, RL 같은 Algorithm approach를 IT학원처럼 코드만 주워담는게 아니라, 제대로 수학적으로 빌드해서 강의하면,

에이~ 그걸 어떻게 써~

라는 말이 먼저 나온다. Noise 데이터에서 Noise를 제거하지 않고 Pattern을 찾을 수 있다는 "Algorithm approach"가 "사기"라는걸 바로 인지했기 때문에 즉, 사회과학 데이터에는 "틀린" 접근이라는걸 바로 인지하기 때문이다. Noise가 없고, 인과 관계 및 데이터 구조에 모델 구조적인 문제가 없는 데이터, 그런 고민 자체가 필요없는 데이터, 즉 이미지 인식, 자연어 처리 등등, Algorithm approach가 맞는 데이터에만 써야하는데, 그걸 모든 영역에 다 쓸 수 있다고 주장하는 국내 몇몇 공학도들의 우물 안 개구리 같은 모습을 경제학자들이 어떤 눈으로 볼지 충분히 이해되지 않나?

 

나가며 - ML방법론이 하늘에서 떨어진 방법론이 아니다

이 정도면 링크 건 Summary paper의 약 1/3 정도를 다룬 것 같다. 위의 설명이 어느 정도 길잡이가 됐을테니, 이해하는 독자 분들은 나머지 부분도 링크의 논문을 직접 읽고 이해할 수 있을 것이다. SIAI의 학부 고학년 수준 과목인 Machine Learning, Deep Learning, Reinforcement Learning 등의 수업 일부에서 위의 Summary paper를 다룬다. 그 수업 전에 배우는 다른 통계학 수업에서 배우는 방법론과 위의 설명처럼 하나하나 비교하며, 언제 어떤 경우에만 ML방법론을 쓸 수 있는지를 최대한 직관적으로 이해시키는 것이 그 계산과학 수업들의 목표다. (잘못 배워 나가면 Decision Tree 변형한 모델로 주가 예측하는 변수를 자동으로 찾아낼 수 있다고 망상하는 로보 어드바이저 회사 차리고 투자 받으러 돌아다닐 수도 있다.)

그런 이해도를 갖추게되면, 시장에서 ML, DL, RL을 적용해서 뭔가 엄청난 걸 해 냈다고 주장하는 언론 홍보의 실상을 좀 더 깊이있게, 냉혹한 시선으로 파악할 수 있을 것이다. 아마 학위 과정이 끝나는 무렵이 되면, MBAMSc 과정이건 상관없이, 위의 이해도 없이 코드만 갖다 붙여서 만든 결과물이 왜 제대로 작동하지 않는지, 그런 결과물에 시간과 인력과 돈을 쏟아붓는 작업이 얼마나 사회적 자원의 낭비인지, 그래서 제대로 된 지식을 볼 수 있는 시야를 갖춘다는 것이 단순히 연구 작업 뿐만 아니라 기업의 의사 결정과 생존, 발전에 얼마나 결정적인 영향을 미치는지 좀 더 열린 시야로 이해할 수 있게 될 것이다.

하늘 아래 새로운 것은 없다

라는 표현이 있다. ML방법론들, 좀 더 일반화해서 Algorithmic approach라는 것들이, 모델을 기반으로 하지 않고 모델이라고 판단되는 기본 식을 정리해보겠다는, 접근 관점의 차이만 있을 뿐, 사실 방법론들은 모두 기존의 통계학을 활용하는 계산법들에 불과하다. 즉, 기존의 통계학 계산법들이 못하는 걸 해내는 마법도 아니고, 기존의 방법론들이 가진 한계를 벗어나지도 못한다. 그냥 좀 "다른 관점"일 뿐이다.

단지, (특정한 몇몇 경우에만) 모델을 기반으로 하지 않고도 모델을 찾아내는 장점을 가진 반면, 분산, 검정력 등등의 수많은 통계학 도구들을 포기하는 계산법에 불과하다.

그런 한계를 명확하게 이해하고, Listen to Data를 하기 위해 현재 내가 가진 Data의 상황, 내 작업 목적 등등을 두루두루 감안해서 적절한 계산법을 선택하는 것이 진짜 Data Science아닐까?


 

믿을 수 없겠지만, 저 Summary Paper는 내가 석사했던 학교의 학부 2학년 Introduction to Econometrics 라는 수업의 읽기자료 및 Problem Set이다. 석사 레벨도 아니고, 학부 졸업반도 아니고, 학부 2학년 때 이미 ML, DL, RL이라고 불리는 계산과학적 접근법을 기초 계량경제학 수업 때 (Side로) 듣고(도) 이해하고, Problem Set을 풀 수 있는 수준의 교육을 받는다.

석사 공부하던 시절 내내 그들의 교육 수준에 충격 먹었었지만, 저 논문을 학부 2학년 수업 읽기자료와 연습문제에서 보고 말로 형용할 수 없는 충격을 받았었다. 우리나라 공대에서 자칭 AI한다는 교수들 중에 저 논문으로 만든 고급 연습문제 풀이는 커녕, 논문 자체를 이해하는 비율이 한 자리 숫자가 안 될텐데...

지극히 개인적인 견해를 덧붙이면, 경제학계에서 ML, DL, RL 으로 대표되는 Algorithm approach를 안 쓴 가장 결정적인 이유 (My version of 다섯째)는, 계량경제학자들이 통계학 훈련이 잘 되어 있어서 (최소한 공대보다는 잘 되어 있어서), 통계학 훈련을 하나도 안 받고 무조건 컴퓨터 신(神)님이 모든 문제를 해결해주실 것이라고 중세 신앙적 믿음을 갖는 공학도들보다, 인간의 지성을 더 중요시했던 르네상스 시대에 조금은 더 가까운 공부를 했기 때문이 아닐까 싶다.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

해외 대학의 커리큘럼 설계 방식 (교수 vs. 시스템)

해외 대학의 커리큘럼 설계 방식 (교수 vs. 시스템)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

필자에게 데이터 사이언스로 해외 유학을 준비한다면서 한국 대학과 차별되는 해외 대학의 차이는 무엇이며, 어떤 기준으로 학교를 선택해야하는지를 묻는 분들이 있다. 그 분들께 데이터 사이언스를 가르치는 커리큘럼을 먼저 보시라 조언을 드리면, 해당 학과의 교수진이 누구인지를 먼저 파악해야되는게 아니냐고 반문을 하신다. 마음 속에는 교수진이 누구인지 그렇게 중요하지 않은데, 왜 저런 질문들이 나올까하는 궁금증이 있었다.

질문주신 분들이 아마 일반 학원들처럼 1명의 스타 강사 의존형 시스템이 아니라, 학교가 갖는 커리큘럼의 위력을 보지 못하셨기 때문이라는 생각이 들기도 했다. 우리나라 대학들이 커리큘럼을 탄탄하게 운영하는 곳이 거의 없고, 노력하는 극소수의 교수 몇몇의 고급 강의 컨텐츠가 아니면 학생들이 알아서 공부해야하는 교육 시스템을 갖고 있기 때문이다.

적어도 1류 교육 시스템 아래에서는 교육의 질은 연구 분야처럼 소수의 엄청난 실력자 몇 명에 의존하는 부분을 제외하면, 모두 학교 자체가 보유한 커리큘럼의 역량에 달려있는데, 오늘은 이 부분을 좀 더 구체적으로 지적해본다.

국내에서 대학원이 설립되는 방식

특정 산업이 트렌드라며, 그 트렌드를 밀어주는 정치인이 되고 싶은 분들이 정부 지원금을 배정한다. 교육부는 흐름에 맞춰 어떤 이름을 가진 전공을 만들고, 특정 조건을 충족시키는 교수진을 뽑고, 학생을 뽑으면 지원금을 준다고 공문을 보낸다. 이제 교수들끼리 전쟁이 시작된다. 학교 간 경쟁은 당연하고, 교내에서 전공 간 경쟁, 전공 내 경쟁에 피가 튄다. 특히 자기 전공에서 그 지원금을 가져와서 학생 숫자를 유치해야 학내 정치에서 승리하는 몇몇 관련 전공 교수진들이 치열하게 '교내 정치'를 시작한다.

그렇게 자기 전공으로 그 신규 전공을 만들게 된 리더급 교수진들은 미국의 비슷한 프로그램에 맞춰 그럴듯한 이름의 과목들을 만들고, 조교수들에게 수업들을 배정한다. 그러다 인력 채용에 한계가 오면, 외부 채용으로 '강사' 또는 '겸임교수'를 채용한다. 강의료는 시간당 15만원, 많게는 25만원, 그래서 한 학기 3 x 16 = 48시간에 약 1,000만원 남짓을 쓴다. 그러나, 한 학기 1,000만원에 세계적인 수준의 강의를 해 줄 수 있는 인력은 존재하지 않을 것이다. 이를 위해 어떤 학교 교수 타이틀을 준다는 식으로 회유하거나, 교수 자리를 구하고 있는 연구실 출신 대학원생들에게 자리를 배정해줄 것이다.

이렇게 채용된 '교수'들이 제대로 된 강의를 구성할 확률은 적을 것이다. 그동안 가르치던 내용, 본인의 지도교수가 작성한 강의노트를 그대로 가져온다. 본인이 배웠던 내용과 신규 전공의 관점이 다르지만, 학생들의 의아해하지만, 강의에 대한 보상이 적으므로 이를 보완하려고 하지 않는다. 정부지원금 선정된 학교도 몇 군데 없기에 경쟁도 없고, 특별히 경쟁해봐야 학교 명성이 올라가지도 않는다. 결정적으로, 학생들을 쉽게 가르치고, 좋은 학점을 주면 강의평가가 좋게 나오고, 윗 사람들과 좋은 관계를 유지하면 자기 자리는 탄탄하게 지켜진다.

몇 년이 지나서 학생들이 취직해보니, 학교에서 배운 지식들이 유용하지 않다고 불평하지만, 강의 교수는 이를 모른체하고 정부 과제・기업 프로젝트를 따서 돈을 많이 벌었으면 상관없다는 태도로 일관한다. 그런데, 성과물이 나오지 않으니 트렌드가 끝나 교육부가 지원금을 끊고, 해당 학과는 폐과 절차를 밟게 되고, 학생들은 선・후배도 없는 낙동강 오리알 신세로 전락한다.

이런 이유로 학생들이 XXXX융합학과 라는 전공 어떻게 생각하는지 선배들에게 조언을 구하면, 선배들은 차라리 통계학과, 컴퓨터공학과 처럼 평범한 학과가서 혼자서 공부하라고 조언한다. 그 전공들을 가봐야 교수와 강의 수준이 같기 때문이다. 우리나라 교육 구조상 공부는 교수가 시켜주는 것이 아니라, 학생이 알아서 해야한다. 우리나라 대학들의 CS가 AI라는 전공을 '잡아먹은' 구조가 위의 설명과 정확히 맞아들어간다.

 

해외에서 대학원이 설립되는 방식

해외 대학원 설립방식은 국내와는 상황이 다르게 흘러간다. 물론 정부가 지원금을 많이 주기도 하지만, 일단 하버드, MIT, 예일, 스탠포드 급의 초특급 명문대는 글로벌 시장 트렌드를 보고, 그 외에 지역별 주립대들은 각 주별 시장 수요를 보고 전공 인원, 월급 줄 수 있는 교수진 숫자 등을 판단한다. 학교는 정부 지원금으로만 운영되는게 아닌, 학생들 등록금과 동문 후원금으로 운영되기 때문이다. 주변에 좋은 학교들이 많기 때문에 경쟁 대학에서 무슨 과목을 개설하는지 유심히 지켜보고, 더 좋은 커리큘럼을 개발하기 위해 고민하다가 그런 주제를 가르칠 수 있는 교수진도 모색한다.

자기 학교에 있는 교수들, 타 대학에 있는 교수들만 찾아다니는게 아니라, 업계에 있는 뛰어난 실력자들에게도 적극적인 러브 콜을 보낸다. 업계 경쟁만해도 치열한데, 교수 오퍼까지 들어가니 실력자들의 몸 값은 몇 배로 뛴다. 그렇게 뽑아온 교수진의 강의 퀄리티가 기대 이하라면 학생들이 떨어져나가기 때문에 프로그램 관리자(Program Coordinator)가 강의 진행 상황을, 최소한 첫 해에는, 매우 세심하게 확인한다. 이 덕분에, 학생들이 따라올 수 있는 한계치와 받을 수 있는 학생의 훈련도에 맞추는 미세조정이 끝나기 전까지는 강의 퀄리티가 계속 올라가는 경쟁이 꾸준히 이어진다.

특정 주립대가 아니면 학교도 사업의 일환이기 때문이고, 학생이 고객이기 때문에 교수 또한 좋은 교육을 공급하기 위해 굉장히 많은 노력들을 한다.

 

고급 커리큘럼이란?

강의력이 뛰어난 교수진이 받쳐준다면 개별 강의의 퀄리티는 끌어올릴 수 있다. 그러나, 좋은 강의를 모두 합친다고 커리큘럼 전체의 퀄리티가 좋아지는 것은 아니다. 그 전공의 목적에 맞는 강의가 되어야하기 때문이고, 이런 지식들은 단계별로 쌓아올려야하기 때문이다. 따라서 강의 순서를 맞추고, 그 순서를 학생들이 하나씩 밟아갈 수 있도록 모든 교육이 알차게 짜여져야 고급 커리큘럼이 된다.

이러한 목표를 달성하기 위해, 다음과 같은 절차를 밟는다.

  1. 특정 교육과정이 반드시 가르쳐야하는 대주제들, 소주제들을 뽑는다.
  2. 그걸 가르칠 수 있는 기초 지식을 정리한다.
  3. 프로그램이 공식 학위인정 기관에서 승인 받을 수 있도록 학점 요건, 커리큘럼 이름 등을 확정한다.
  4. 학점 요건에 맞게 기간을 설정한 뒤,
    1. 시장 경쟁력과 장기 생존이 가능한 가격 설정
    2. 신입생의 훈련도 레벨을 어디로 정할지 확정 후 신입생 요강 공개
    3. 졸업생이 어느 퀄리티로 배워서 졸업할지 확정 후 졸업 요건 확정
  5. 대주제, 소주제를 각 과목별로 분배
  6. 각 과목별로 세부 커리큘럼 확정
    1. 시험문제들 목록 도출
    2. 연습문제 목록 도출
    3. 강의노트 작성
  7. 신임 교수진 채용시
    1. 연습문제, 시험문제를 보여준 후, 그걸 풀 수 있도록 강의노트를 만들라고 지정

 

시험문제 ⇒ 연습문제 강의노트

위의 커리큘럼 구성 절차에서 한국인의 눈에 의아한 부분은 강의의 방향이 시험문제 연습문제 강의노트 로 이어지는 구조일 것이다. 그러나, 이와 같이 구성되어야 교수가 바뀌어도 교육과정이 유사한 형태로 계속 이어질 수 있다. 즉, 시험문제 스타일과 내용이 이미 나와있고, 연습문제도 정해져있기 때문에, 교수자는 약간의 자기 스타일이 추가된, 학교 커리큘럼에 맞춘 강의노트를 만들게 된다.

이를 위한 필수적인 사항은 프로그램 관리자가 커리큘럼을 완벽하게 파악하고 있어야한다는 것이다. 어떤 과목이 어떤 실력을 테스트하고, 다른 어떤 과목과 어느 부분에서 겹치도록 만들고, 그 과목을 들었을 때 어느 정도의 지식이 있어야 그 다음 레벨로 도전할 수 있는지를 세부적으로 지정할 수 있어야 한다. 우리나라는 어떤 사건이 발생하면 부하직원들이 대응해야되는 구조지만, 영미권은 윗 사람이 나와서 대응하고, 부하직원은 정말 급한 일이 아니라면 대기하는 구조다. 위의 시스템도 마찬가지로, 프로그램 관리자에게 막중한 부담이 가해지는 반면, 과목별 교수들은 자기 일만 집중하면 되는 구조가 된다. 필자의 그간 사업 경험상, 잘 모르는 분야를 새로 도전하면 시행 착오를 겪어야하니 기획이라는게 거의 불가능했기에 구성원들이 힘들어질 수 밖에 없었다. 반면 '기획'에서 모든 지식을 꿰고 있으면, 미래 발생 가능한 상황에 맞춰 유연한 '기획서'를 뽑아낼 수 있게 된다.

필자가 봐왔던 고급 커리큘럼들은 공통적으로 오랜 세월의 경험치가 쌓인 결과물들이었다. 그 학교들도 초창기에는 교수 1-2명의 역량에 많이 의존할 수밖에 없었겠지만, 그렇게 몇 년간 학생들을 배출하면서 순서를 조절하고, 필요한 내용을 추가하면서 지금의 커리큘럼이 나왔을 것이다. 이를 가르칠 수 있는 교수진을 구성하다보면 나중에는 학교마다 '색채'라는게 정해지기도 했을 것이다.

 

유럽 최상위권 대학들은 기말고사가 매년 (거의) 똑같네요?

유럽 최상위권 대학들을 보면 매년 기말고사 시험 문제 유형이 거의 동일하다. 심지어 가르치는 교수진이 거의 다 바뀌어도 유형을 고정한 상태에서 교수들에게 약간의 옵션을 주는 방식이다. 졸업하는 학생들이 직장에서 해야하는 업무를 예측하고 수요에 맞춘 커리큘럼이기 때문이다.

교수들이 임의대로 강의내용을 바꾸게 되면, 학생들이 시험 문제를 풀지 못해 교수는 해고된다. 수능 문제를 못 푸는 교육을 하면 학원 선생님이 퇴출되는 것과 같은 구조다.

이런 짜여진 교육 시스템은 교수가 누구인지가 상대적으로 덜 중요해진다. 핵심은 커리큘럼의 퀄리티다. 이는 주로 Teaching school이 교육 프로그램을 만드는 방법인데, Teaching school 교수는 연구를 잘 해서 노벨상을 노리는 사람이 아니라, 주어진 커리큘럼을 학생들에게 잘 전달하는 사람이다. 이런 Teaching school에는 연구실적이 화려한 교수가 올 필요가 없다. 커리큘럼에서 가르치라고하는 내용을 무사히 다 가르칠 수만 있으면 충분하다. 되려 학교의 커리큘럼에 적합한 교수를 찾는게 중요해진다.

 

Teaching school이라는 개념이 안 익숙한 한국인들의 오해

이렇게 문제 유형이 정해져있다고 하면, 한국식으로 교육 받은 사람들은 기출문제가 쌓이기 때문에 학점 받기 유리하지 않겠냐고 반문하기도 한다. 필자의 석사 시절, 10년치 기출문제 풀고 기말고사를 들어갔는데도 여전히 어려웠다. 전 세계에서 탁월한 학생들을 모았던 필자의 석사 프로그램에서 최소 30%는 학위 과정 중에 퇴출됐고, 또 30%는 졸업을 못했다.

필자도 국내에서 암기만 하면 학점을 잘 받는 것을 알만큼 훈련을 받은 사람이었는데, 석사 과정에서는 새로운 문제 하나는 항상 새로운 도전 하나였다. 마치 방법론은 다 알고 있는데, 데이터가 달라져서 마치 새 논문을 쓰는 난이도와 같았다고 느껴졌었다. 기말고사의 4문제를 3시간 안에 전부 풀기 위해서는 눈은 변형된 문제 구조를 순식간에 파악하고, 손은 쉬지않고 계속 써야한다. 이렇게 좋은 문제를 만들면, 답안지 쓸 시간도 부족할 뿐만 아니라 시험자의 서술 답안에 논리의 구멍이 뚫릴 수 밖에 없다. 즉, 기출문제를 아무리 보더라도 지식의 깊이 수준에 따라 점수의 최대치가 결정된다.

이것이 국내 방식의 교수의 개인 역량 의존형 커리큘럼보다 시험문제 ⇒ 연습문제 ⇒ 강의노트 형태로 컨텐츠를 만드는 Teaching school 시스템의 교육 결과물이 더 좋은 이유다. 문제 유형 자체가 문제 출제를 하는데 엄청난 노력을 요구하고, 그 문제를 풀도록 답을 외워도 답안지에 논리적 결함이 생기고, 엄청난 시간을 투입하면서 개념을 이해하는 과정을 거쳐야 겨우 합격점을 받고 졸업하게 된다.

 

국내 대학원의 현실 - Fail in Research, Fail in Teaching, and Fail in Education

냉정하게 국내 대학원의 현실을 한번 돌아보자. 평균적으로 대학원생들의 95%는 학벌 세탁을 위해, 5%는 박사 유학 추천서를 위해 석사 2년을 희생한다. 공대는 정부 과제, 기업 프로젝트를 완수하기 위한 작은 컨설팅 업체 방식으로 운영된다. 면접 때 전공 지식이 얼마나 있는지를 치밀하게 면접하는 학교, 전공은 거의 없다. 파이썬 할 수 있는지 면접 질문하고, 그 질문 후 곧바로 면접이 종료되는 수 많은 데이터 사이언스 석사 학위 면접 후기들은 필자의 한국 대학에 대한 편견을 확인시켜 줄 뿐이었다.

우리나라 대학은 교육부의 압박이 있기 때문에 Teaching school이 아닌, 연구 성과가 좋은 학교를 목표로 해야한다. 그런데, 필자의 경험상 한국의 대학은 수준 낮은 학회지를 K-SCI으로 인정해느냐의 싸움, 그래서 교수들의 논문 실적으로 인정되느냐로 교수들끼리 싸우는 정치판이 되었다고 언급해왔다. 또한 글로벌 경쟁력이 없는 절망적인 연구에, 교육에 신경써서 커리큘럼을 잘 만드는 것은 더더욱 아니라는 사실을 장기간 언급해왔다.

K-SCI가 글로벌 학계에서 논문 실적이 낮은 한국 교수들을 대상으로 논문을 인정해주는 저널이고, 대부분은 연구가 아닌 정도의 논문들이 주를 이루고 있다는 것을 고려해보면, 대학교라는 곳이 정부에서 연구를 위해 국민의 혈세로 지원금을 출자해주었더니 기업의 하청 프로젝트도 연구라고 포장하는 기관이 되어 버린 것이 씁쓸한 작금의 현실이다.

 

나가며 - 학교 이름값? 교수가 유학한 학교? Teaching의 퀄리티!

필자가 여러차례 언급한대로, 우리나라는 지식후진국이다. 최근 AI 열풍에 대학들이 'Data Science', 'Artificial Intelligence'라는 이름을 넣은 학위・비학위 과정들을 만들면서 교수진이 어느 학교에서 공부했는지를 홍보해오는 것을 볼 수 있다. Teaching의 퀄리티를 제대로 인지할 수 없는 일반 대중에게 그나마 합리적인 잣대가 될 수 있다는 공감대는 있지만, 교수진 대학원 학위 이름에 의존하는 학원식 홍보는 우리가 얼마나 '지식후진국'인지를 단적으로 보여준다.

최소한 대학 교수로 이름을 내세우려면 암기식 학점으로 덕에 갔던 대학원 학교 이름이 아니라, 1타 강사의 대학 교수 버젼에 해당하는 네이처(Nature), 사이언스(Science) 같은 자기 학문에서 존경 받을 수 있는 탑 저널에 논문이 있는 분을 내세워야되는 것 아닌가 생각이 든다.

지식 선진국들의 교육은 교수 몇 명에 대한 의존형 아닌, 커리큘럼의 파워에 좌우된다. 교수들은 언제든지 그 학교를 떠날 수 있지만 커리큘럼은 영원히 남는 '시스템'이 되기 때문이다. 그리고 소비자인 학생들은 커리큘럼으로 공부하지, 교수 이름과 학교로 공부하지 않는다. 학생들의 인생을 바꿔주는 것은 배운 지식이기 때문이다. 그렇게 지식선진국들이 대학 교육을 높은 퀄리티로 유지할 수 있는 '시스템'을 만들어왔다.

그간 한국에서는 보기 힘들었을 교육 방식이라고 생각되는데, 한국에서도 지식인들이 힘을 합쳐 위처럼 수준 높은 Teaching school 하나 나왔다는 이야기를 들어봤으면 좋겠다.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 수강 후기 (4)

MSDS Boot Camp 수강 후기 (4)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

아래는 합격점을 받은 학부 통계학과 출신의 수강후기다.

초반부 답안지는 굉장히 열심히 공부한 티가 났지만, 후반부로 가면서 구멍이 좀 많이 났다 싶었던 답안지였는데,

후기를 보니, 이런 종류의 시험을 처음 치렀을 때 흔히 겪는 대로, 시간 배분에 실패한 듯 싶다.

본인의 부족함을 알고 더 열심히 공부하고 있는만큼, 더더욱 발전할 수 있는 여지가 있으리라 생각한다.


(중략)

저는 시험을 치고 50점도 못 받을 거라고 생각했습니다. 그래서 점수를 받고는 정말 어안이 벙벙했습니다. 50점도 못 받을 거라고 생각했던 이유는 크게 두 가지였는데 첫 번째는 시간 배분을 잘 못해서 Dynamic Optimization의 3, 4, 5번 답안을 거의 못 쓴 것과 두 번째는 모든 problem 속에 담겨있는 insight에 대한 답안을 작성하지 못했다는 것이었습니다(물론 멀쩡히 답을 썼는데 틀린 부분도 있고요). 시험 준비는 개인적으로 복습을 여러 번 하고 problem에 들어있는 의도를 대표님의 설명과 더불어 직관적으로 이해하려고 하다보니 솔직히 재밌었습니다. 아 이런 idea가 숨어져있구나 와 미쳤다.. 문제 속에 담겨있는 수식이 이론을 위한 이론이 아니라 현실에 적용되기 위한 이론임을 제대로 이해하는 순간에 대표님이 말하는 sense가 왜 중요한지도 어림짐작으로 이해하게 됐었던 것 같습니다.

준비해 간 내용이 많으니 그걸 다 적으려고 욕심을 부린 탓에 1번 문제를 푸는 데만 1시간을 넘게 사용하고 그 뒤로는 빨리 푸느라 insight 혹은 point를 적지 못했습니다. 시간 분배에 실패하고 마지막 문제를 많이 못 풀었으니 대표님이 평소에 강조하신 기준대로 채점하면 50점도 안 나오겠구나 라는 생각이 들었고 정말 눈물이 났습니다. 미국식 채점기준과 성실성 반영이 없었다면 50점을 못 받았을 거라고 지금도 확신(?)합니다.

이렇게 시험 문제에 대해 반추하다보니 통계학과 친구가 내년에 시험 쳐서 MSDS바로 들어가면 안되냐는 기억이 떠올랐습니다. 실은 이 친구가 저에게 한 번 Trinity까지 강의를 받고 어렵지 않게 이해를 해서 그런 생각을 하게 된 것 같았습니다. MSDS 입학 시험을 혼자서 준비할 수 있냐는 물음에 저는 불가능하다고 생각합니다. 단순히 시험의 난이도가 어렵다기 보다는 시험 문제와 같이 좋은 논문을 재구성해 그 속에 담긴 논리와 아이디어를 깨달을 수 있게 만드는 problem은 얻기도 힘들 뿐만 아니라 얻을 수 있더라도 그 속에 담긴 의미까지 이해하기에는 실력을 갖춘 멘토의 지도 없이는 정말 많은 시간과 노력이 필요할 것이기 때문입니다. 대표님이 입시설명회에서 말씀하셨듯이 미적분하는데 미적분 개념을 뉴턴과 라이프니츠처럼 처음부터 증명하고 발전시키는 것처럼요. 물론, 시험을 잘 못 친 제가 이런 말을 할 자격은 없는 것 같습니다.

대표님의 직관적이고 핵심적인 설명 덕분에 수업 내용이 정말 머릿속으로 계속 박히는 경험을 했습니다. 하지만 대표님이 질문할 때마다 정답보다는 엉뚱한 대답을 많이 해서 부끄러웠던 경험도 많이 했습니다. 저의 경우는 아마 수업 시간 내에 지식을 저의 것으로 승화하지 못했기에 엉뚱한 대답을 많이 했던 것이라고 생각합니다. 그래서 제가 제대로 이해한 것인지 궁금하거나 이해가 안 되는 부분이 있으면 계속 질문을 했습니다. 당시에 다른 사람들이 질문이 없으시길래 대부분 이해하고 있다고 생각해서 나는 모르니까 그냥 여쭤보자 라고 생각했습니다. 물론 스스로 공부하다보면 깨달을 수 있는 내용들이 대부분이었지만 대표님의 친절한 설명 덕에 더욱 제대로 이해할 수 있었습니다.

수업을 따라가는 데 있어서 시간을 가장 많이 들였던 부분은 머릿 속 이미지로 떠올리면서 이해하는 것이었습니다. 저의 경우는 Dynamic Optimization 부분이 머릿속으로 잘 그려지지가 않았었는데 당시 Continuous type에서 자연수 e에 대해 잘 이해하지 못했던 것과 difference equation에서 beta와 rho의 관계를 제대로 이해하지 못했기 때문인 것 같습니다. 웃기게도 시험 전 날 다시 한 번 개념을 정리하다보니 딱 정리가 되더군요. 그래서 그런지 Dynamic Optimization 문제 점수를 만점을 받을 수 있도록 열심히 준비했는데 제가 망친 것 같아 속상하기도 했습니다.

수업 시간 내내 개념들을 직관적으로 이해할 수 있도록 설명해주고 그것들을 스스로 이해하고 연결할 수 있도록 질문을 던지는 수업 방식 덕분에 저의 사고방식이 많이 바뀐 것 같습니다. 다시 생각해보면 올해 초만 하더라도 이런 사고방식을 가질 거라고는 전혀 상상도 못했습니다(그리고 대표님이 말씀하신 좋은 problem이 왜 필요한지도 이제야 절실히 느끼게 됐네요).

현재는 운이 좋게 시험에 합격했으니까 면접을 볼 수 있다면 정말 제가 준비한 것의 100%를 보여드리고 싶어서 배웠던 내용들과 문제의 인사이트를 연결하면서 따로 정리해보고 있습니다. 저에게 MSDS 시험에 대해 물어봤던 그 친구에게 다시 한 번 강의를 해달라고 부탁을 받기도 해서 이번에는 제가 정리한 자료로 IV까지 한 번 강의를 해볼까 합니다. 그리고 이 때까지 정말 빈약하게 공부를 했다는 반성이 들어 수리통계학과 해석학개론에 대해서도 다시 정리를 하고 있습니다. 대표님 수준까지는 아니어도 가능하다면 누군가 통계 개념에 대해 물어봤을 때 수식을 써서 derivation하고 대답하는 것보다는 우선은 직관적으로 어떤 개념이 어떻게 연결이 돼서 이런 결론이 나오게 됐다는 대답을 할 수 있는 수준을 목표로 삼고 있습니다. 다시 한 번 열심히 공부해보겠습니다.

그동안 좋은 강의를 제공해주시고 부족한 학생의 질문에 항상 친절히 답해주셔서 감사했습니다.


제일 고맙게 느껴지는 점은, 문제를 낸 사람의 의도를 잘 파악해주는 점이다.

한 문제 한 문제를 그냥 성의없이 시험을 위한 시험으로 냈던게 아니라,

논문을 써나간다고 생각했을 때 어떤 난관이 있을 수 있고, 배운 지식의 범위 안에서 그런 문제들을 어떻게 해결하면 될까,

같은 생각을 하면서, 큰 방향을 잡아주는 형식으로 문제를 만들었는데, 그 생각을 따라가며 문제를 푼다는 것,

즉, 대화하며 문제를 풀면서 자기도 모르게 논문을 읽는 능력을 기르고, 궁극적으로는 논문을 쓰는 능력, 연구를 하는 능력,

아니, 사물을 바라보고 판단하는 능력을 기르는데 눈을 뜬 것 같다.

 

MSc Data Science, MSc Artificial Intelligence 교육 목표

내 교육, 아니 내가 겪어서 비슷한 방식으로 공급하고 싶은 교육이 딱 이런 교육이다.

열심히 외우는 공부만 해서는 뉴턴, 라이프니츠 같은 천재가 아니라면 혼자서 도달하는게 거의 불가능한 걸 잡아주는 교육,

그래서 끊임없이 생각하는 훈련을 반복하다보면 논문 쓰기 => 연구 하기 => 일상의 문제 풀어내기 를 따라가는

"사고력"과 "논리력"을 키워서 졸업하는 교육이다.

 

위의 후기에서 느껴지겠지만, 이걸 수학적인 도구를 쓰면 분명히 더 효과적으로, 깊이있게 전달할 수 있다.

학계에서는 이렇게 간략한 수식으로 많은 의미를 전달하는 염화미소 같은 상황을 "Elegant"한 연구라고 표현한다.

"양놈"들이 연구를 잘하는 걸, 아니 공부를 잘하는 걸 평가하는 기준이 저기에 있다는 걸 석/박 학위 중에 깨달았었는데,

이걸 전달해서, 우리 학생들도 글로벌 시장에 경쟁력 있는 인재로 키워내는게 MSc 석사 학위 과정의 목표다.

 

Global MBA in AI/BigData 프로그램 교육 목표

약간 덧붙이면, 그런 수학 없이, 완벽하지는 않겠지만, 최대한 직관적인 이해에 초점을 맞춰서 스토리를 써 내려가는게

역시 위의 후기에서 느껴지겠지만 불가능한 교육 방법이 아니다.

저 후기 작성자도 수식으로 다 이해하고 난 다음에는 스토리를 쓰고, 그 스토리를 남에게 들려주겠다는 생각으로

수식을 써서 derivation하고 대답하는 것보다는 우선은 직관적으로 어떤 개념이 어떻게 연결이 돼서 이런 결론이 나오게 됐다는 대답을 할 수 있는 수준을 목표로 삼고 있습니다

라는 표현을 쓰는걸 봐라.

이게 내가 Global MBA in AI/BigData 프로그램에서 교육하려는 방식이다.

수식이 핵심이 아니라, 직관적으로 이해할 수 있는 "이야기"가 핵심이기 때문이다.

수학은 그런 결론을 얻어낼 수 있도록 해 주는 "도구"에 불과하다.

수학은 "언어"라니까. 마치 지금 내가 쓰고 있는 "한국어"처럼.

 

단지 신의 언어인 수학 대신 인간의 언어를 쓰면 깊이가 얕고, 전달력이 떨어질 뿐이다.

 

왜 국내 교육으로는 안 될까?

이런 교육을 받아보면 알겠지만, 강의 노트를 구한다고 내용을 쉽게 따라갈 수 있지도 않고,

국내에서 암기식 교육을 받았으면 사고가 닫혀 있어서, 생각하는 방식을 따라가기는 더더욱 어렵다.

어느 국내 토종 박사 한 분이 학부 3학년 수준에 맞춘 파비클래스 DS 강의 동영상을 30번이나 봤다는 이야기도 기억난다.

 

예를 들어, 어떤 지식을 담은 노트의 특정 부분을 이해하려는데

  1. 미분, 적분이 필요하다는 걸 추측하는 것도, 2. 미분, 적분 개념을 증명하고 만들어내는 것도

이미 수 백년 전에 인류 역사의 물줄기를 바꾼 천재들이 해 놨던 업적인데,

그걸 제대로 가르쳐주는 사람 없이 혼자서 만들고 이해할 수 있는 수준의 천재가 과연 몇 명이나 될까?

당신이 17세기에 태어났으면 인류 역사의 물줄기를 바꿀 수 있는 레벨의 천재일까?

나 역시 어린시절부터 천재 소리 많이 들으면서 자랐지만, 천재 소리 듣는 집단에서도 그런 진짜 천재는 드물었다.

 

이미 파비블로그에서 여러차례 밝히는 내용이지만, 이런 교육을 받고 난 다음부터

해외의 유명 대학을 나온 또래들이 내가 꿈꾸던 직장에서 더 선호되었던 걸 당연하다고 생각했다.

본인의 지적 능력이 얼마나 차이가 나건 상관없이, 한 쪽은 거인의 어깨 위에 서 있고, 다른 한 쪽은 혼자 서 있으니까.

 

우리 교육은 황야의 방목식 교육이 아닌, 거인의 어깨 위에서 출발하도록 돕는 교육이다.

우리 학생들이 나처럼 혼자만의 힘겨운 싸움, "도와줘요, 나가게 해줘요", 을 하지 말았으면 좋겠다.

나도 도움을 받았었더라면 조금은 덜 힘들게 공부했을텐데.

 

前 MSDS, 현 MSc Artificial Intelligence 입시시험 후기 시리즈

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 수강 후기 (2)

MSDS Boot Camp 수강 후기 (2)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 시험을 치르고 나니 몇 개 후기를 더 받았는데,

프로그램 결정하는데 or 업무하는데 도움 될 것 같아보이는 구절들만 몇 개 골라봤습니다.


(중략)

제가 이번 강의를 들었던 가장 큰 이유는 MSDS 과정을 밟기 위해서가 아니라, (*주: MSDA 지원하겠다고 미리 말씀하신 분)
데이터 사이언스라는 분야에 발을 들이기 위해선
최소한 어떤 학문 또는 역량, 훈련이 필요한지 알기 위해서였습니다.

강의를 들었을 땐 조각이 맞춰지는 기분이었는데,
이상하게 시험을 치뤘을 땐 '아 그 때 다 맞춰진 게 아니라 그냥 기분이었구나. 아직 멀었구나'라고 생각했습니다. 웃프네요.

12년 동안 수학은 암기과목이다 생각하고 살아온 탓에,
수학, 통계학을 직관적으로 바라볼 수 있는 훈련(혹은 교육)을 받고 싶었습니다.
직관적인 시각, 훈련을 기르기에 2달이라는 기간은 제게 조금 짧았던 것 같아요.
(중략)


(중략)

대표님 강의는 항상 느끼는 것이 많지만, 금번 강의 및 시험은 특히나 와 닿는 것이 더 많았습니다.

(중략)

문제와는 별개로, 시험을 준비하면서 잊고 있었던 수리통계 지식들을 복구하는 과정은 힘들었지만 재밌었습니다.

예전에는 단순히 개념/증명을 외우고 문제를 푸는데 집중했다면,

현업에 있고 & 대표님 강의를 듣고 난 지금은 이 성질 / 정리들이 왜 중요하고, 어디에 어떻게 쓰일 수 있을 지를 고민하다보니 더 좋았던 것 같습니다.

(중략)

말씀주셨던 대로, 더욱 열심히 공부하라는 뜻으로 받아들이고 그만 좌절하고 더욱 정진하겠습니다.

어차피 통계 / 데이터 사이언스 공부는 끝이 없기 때문에 갈 길도 멀고,

당장의 조급함에 치우쳐 전체를 그르치는 것 보다 한 계단 한 계단 내공을 쌓아올리는 데 집중하겠습니다.

(중략)


표면적 사고에 적응해서 깊이있는 논리적 사고가 부족한 제 분수를 알게된 시험 덕분에 마음이 많이 아프지만..

어떻게 공부하고 생각해야 하는가에 대한 방향을 이제 좀 알 것 같습니다.

부끄럽지만 앞으로 더 열심히 하겠습니다 ㅜ.ㅜ


 

먼저, 두 달 동안 좋은 강의를 해주셔서 감사합니다.

Prep class를 들으면서 시험을 쳐야하나 말아야하나 고민이 많았지만,
스스로가 얼마나 심각한지 느끼고 각성해야겠다는 마음으로 시험장에 들어갔네요.

저는 산업공학으로 학사, 석사를 마쳤는데 Prep class 8번의 통계학 수업은 전부 다 처음 다뤄본 내용이었습니다..
(Wald, LR 등 parameter의 variance에 대한 test나 heteroskedasticity, endogeneity가 존재할 경우...)
동적최적화 부분 역시도 마찬가지지만요..

첫 수업을 듣자마자 흔히 말하는 멘붕이 왔지만 작년 들었던 DS 수업을 떠올리며 버텼습니다.
DS 수업도 어찌저찌 흐름만 따라가고 실제는 반도 이해못했었지만, 다 듣고 나니 깨닫는게 많았던 수업이었고
당시 데이터 업무를 어떻게 해나가야 되는지 모르는 저에게 방향성과 지식의 깊이가 어느정도 돼야 하는지 가늠자가 됐었습니다.
(그 전에도 여러 강의를 찾아봤지만 다 코드 기반의 수업들만 있어서 회피하다가 진짜 없어서 그나마 하나 선택해서 들었었는데 크게 도움은 안됐었습니다. 그렇게 떠돌다가 결국 파비클래스를 알게 되긴 했지만요ㅎㅎ)

이번 Prep class를 들으면서 선형대수, 통계도 다시 공부하게 됐고 그 후에 다시 수업내용을 따라가느라 많이 버거웠던 것 같습니다.
그래도 추천해주신 김창진 교수님의 계량경제학 노트 덕분에 많은 도움이 됐었습니다. 확실히 이 노트를 보고 수업 내용을 복기하면서
'대표님께서 이 정도는 알고 있다는 가정 하에 수업을 진행하시는구나'를 많이 느꼈습니다. 부끄럽습니다..

그리고 전공에서 왜 이러한 관점에서는 안 다룬건지 너무 화가 나서 일부 과목들의 교재를 살펴보고 생각을 해봤는데,
그냥 품질, 실험계획 과목이나 제조 데이터 특성상 데이터 분석 영역의 대부분이 one variable로 확률분포 분석을 하거나
반복 측정으로 measurement error를 줄일 수 있거나 regression을 해도 보통 A3F와 A5N인 상황이 많기 때문이라는 것을 깨달았습니다.

산업공학이라는 학문이 흔히들 넓고 얕게 많은 걸 배운다라고 하는데 그러다보니
정말 딱 그 프레임 안에서 필요한 것만 가르칠 수 밖에 없었던 건가 싶지만
Prep class로 다양한 주제를 배우고 나니 뭔가 아쉬움이 남았습니다.
특히나 이제는 기존 분석 외에도 다양한 데이터를 다룰 기회들이 많아지고 요구할텐데
이러한 직무로 오는 전공자들이 경쟁력이 있을까 싶네요.
물론 산업에 따른 도메인 지식도 중요하지만 부족한 수학적 논리로 인해 필드 데이터와 분석결과 간 괴리감이 클 것 같습니다.

(중략)

이러한 환경에서 제가 잘못된 지식이 쌓여가면 어떻게 하나 염려가 되면서도 저의 부족함을 한탄했습니다.

그래서 파비 대학원이 생긴다고 했을 때 많은 생각을 했던 것 같습니다.
(제가 다른 기업으로 이직한다한들 이 직무에 대해 제대로 알려 줄 선배나 시니어를 만날 확률이 극히 낮을 것이고
그런 운에 기댈 바에는 파비 대학원 가서 제대로 공부하는게 빠르지 않을까.. 이런 생각들..)
Prep class 모집 초기 당시에는 사실 대학원 과정이 이렇게 세분화될 줄은 몰랐지만 DS 수강 경험상 어려울 걸 알았기에
더욱 더 수준을 알아야 저에게 맞는 과정 선택을 할 수 있다고 생각하여 등록을 했는데 역시나 저에겐 어려웠네요..

아마 채점을 하면서 한숨을 많이 쉬셨을 생각을 하니 죄송해집니다.
저 또한 미리 포기하고 메일을 드려야하나, 망하더라도 시험을 봐야 하나 등등 머리 터질 듯 고민했습니다. (그 와중에 동적 최적화는 너무 어렵고..ㅠ)
그래도 어떤 과정이든 대학원을 가고 싶기 때문에 부딪혀보는게 맞다고 생각해서 시험을 지원했습니다.
(시험장에서의 많은 빈자리와 오전에 블로그 Boot camp 후기를 읽으면서 저와 같이 생각하는 분들도 있구나라는 생각이 드네요.)


 

이런 유형의 시험이 익숙하지 않아서 좀 얼어 있던거 같습니다..

동적최적화 부분은 아직 이해못한 내용도 있지만 다른 문제들은 저 또한 아쉬움이 큰 것 같습니다..

(준비가 그만큼 미흡했다는 것이겠지만요..)


 

+ 간단 의견

전반적으로 보면, 내용이 어려운 부분도 있었겠지만, 시험 준비 방식이 시험 점수를 결정했지 않나 싶다.

 

나 역시 처음 이런 지식을 이런 방식으로 배울 때 그림을 하나로 그려내면서 문제 풀이를 하지 못했던 탓에 고생이 많았었다.

계속 문제들을 풀면서 어느 시점엔가 이게 문제를 만들려고 문제를 만든게 아니라,

굉장히 좋은 논문이 구성된 방식을 정리하고, 그 정리한 내용을 문제로 바꾼거라는걸 깨닫는 순간이 있었는데,

딱 그 때부터 시험 점수의 레벨이 완전히 달라졌던 것 같다.

 

이런 전환이 단기간에 쉽게 일어나려면 이미 수학적으로 준비가 굉장히 많이 된 상태거나,

아니면 원래부터 논리를 쌓는 훈련도가 높고, 최소한의 수학 지식을 갖췄어야 할 것이다.

 

그 둘을 우리나라 대학들이 제대로 못 시켜준다는걸 느낄 수 있는 후기이기도 했고,

강의 끝나고 조교 수업을 붙여서 문제들을 풀어주는 훈련이 반드시 필요하겠다는 확신을 갖게되는 후기이기도 한 것 같다.

 

MSDA (-> 변경 MSc in Data Science) 첫 학기에 배울 Mathematical Statistics 1 (-> 변경 Regression Analysis) 수업은 아예 교수님 두 분에게 본인들 방식으로 하나씩 만들어달라고 부탁을 했다.

한 수업을 듣고 잘 이해가 안 되면 같은 내용을 다룬 다른 교수님 수업을 들으면서 좀 더 보완을 해 보는거다.

이렇게까지해도 MSDA의 첫번째 관문을 넘을 수 없으면 Science DNA가 부족하다는 걸 스스로 인정하고

MBA in AI BigData에서 공부를 조금이라도 더 즐겁게 하면 좋겠다.

 

논문을 정리해서 문제를 만들었다는 걸 깨닫고 갑자기 문제를 푸는 길, 논문을 쓰는 길이 눈에 확~ 들어오던 그 무렵,

너무 기분이 좋아서 구글링으로 여러 학교 문제들을 뒤져서 한동안은 못 푸는 문제가 없다고 자뻑감에 좀 사로잡혔었는데,

우리 학생들도 어느 레벨에서 공부하건 그런 즐거움을 만끽하는 순간을 경험하면 좋겠다.

 

前 MSDS, 현 MSc Artificial Intelligence 입시시험 후기 시리즈

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 수강 후기 (3)

MSDS Boot Camp 수강 후기 (3)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS 입학시험 문제가 공개되고 난 다음에 또 말들이 돌던데, 무슨 박사 시험 문제를 냈다는 둥 어쨌다는 둥ㅋㅋ

학부 4학년 경제학과 고급계량 정도, 통계학과 학부 고학년 시계열 정도에 나올만한 내용들에 불과하다.

나중에 대학원 박사 수업 문제들 공개하면 무슨 말이 나올려나? ㅋㅋ

문제가 AI랑 아무 관계 없다는 둥 그러던데, 일부러 Deep Neural Net, Reinforcement Learning이 쓰일 수 있는 DGP가 얼마나 제한적인지를 확인하는 항목을 추가했다.

암튼, 이번에는 어문계열 출신인데 정말 이 악물고 열심히 공부해서 이 모든 걸 이해하고 시험 잘 치신 분의 후기를 공유한다.


학부는 XX과 (*주-어문계열)를 나왔고요, 석사는 대표님께서 익히 알고 계시는 빅데이터 석사를 나왔습니다.

(중략)

이러나 저러나 대학원 시절에 대표님을 만났더라면 대학원 수준의 통계수업도 도전해보고 했을텐데 너무 아쉽다는 생각을 하게 되네요.

하지만 지금이라도 만나뵙게 된 것을 너무나도 감사하게 생각하고 있습니다.

(중략)

 

어쨌든 이렇게 부족한 문과 출신이 감히... 어떻게... MSDS에 가겠다고 이 수업을? 이라고 충분히 생각하실 수 있을 것 같아요.

그게 참 무섭고 두려워서 지금까지 딱히 저의 배경에 대해 정확하게 말씀을 못드리고 있다가

이제서야 admission을 앞두고 어차피 알게 되실테니 조심스럽게 메일 드립니다.

 

당연히 제가 MSDS에 직행할 수 있을거라는 오만하고 가벼운 생각으로 수강을 한 것이 아니었어요.

다른 분께서 쓰신 후기를 봤는데 저랑 비슷한 마음이셨더라고요.

신청을 하면서 제 마음은 딱 뱁새의 마음이었습니다. 황새를 너무나도 따라가고 싶은 뱁새의 마음이요.

황새를 따라가다 가랑이가 찢어질 지 언정 출발점에 누워있는 뱁새보다는 나을 것이다 라는 생각으로 MSDS prep class를 신청했습니다.

 

첫 수업부터 되게 멘붕이었어요. 이런 스타일의 교육을 받아본 적도 없고 저 말고 대부분의 다른 황새 분들은 A1~A5 이런건 당연히 모두 알고계시며 heteroskedascity, heteroskedasticity, OLS, MLE, Asymptotic, CUAN, BLUE 등등 용어들은 쏟아져 나오는데 제가 아는건 하나도 없었기 때문에요. 대표님께서 따라 오냐고 물어보시는데 제가 따라가고 있는 것인지 아닌 것인지를 분간하기조차 힘들었습니다. 황새분들의 발목을 잡으며 민폐를 끼칠 순 없으니 뱁새로서 수업시간은 대부분 조용히 넘어갔고 복습으로 부족한 부분을 메우려고 노력했어요. 모르는 용어가 나오면 일단 적어두었다가 수업이 끝나면 김창진 교수님 노트라든가, 유튜브, 블로그 등등을 활용해서 개념에 대해 다시 익혔고 그런 후 문제를 보니까 서서히 익숙해지더라고요. 검색하다가 찾은 UCL의 Econometrics 강의노트도 뱁새인 제겐 많은 도움이 되었습니다.

Dynamic Optimisation 부분은 대표님께서 겁주신(?) 것에 비하면 훨씬 괜찮았습니다. 당연히 대표님께서 강의를 너무 잘 해주셨기 때문이겠죠. 수업시간에 수식을 바로바로 따라가기는 어려웠지만, 개념적으로 BE (*주 - Bellman Equation)는 어떤 것이다, Hamiltonian은 어떤 것이다, Phase diagram은 어떤 것이다 이런 것들은 수업을 들으면서 이해를 했고, 끝난 후에 다시 하나하나 derivation을 따라가보면서 Lecture note를 꼼꼼히 따라가니까 깊이있는 이해까지는 아니겠지만 내주신 문제를 풀 수 있을 정도는 가능했습니다. 막히는 부분은 또 유튜브 등을 통해서 메웠구요.

시험 준비를 위해서 2주 정도는 잠을 제대로 잔 날이 없었어요. 회사가서 몽롱하게 있을지언정 거의 밤을 새고... 공부를 했고 몬스터, 글루콤 같은 약물에 의존해 공부를 했습니다. 제가 뱁새라는 것을 알고 있었기에 대표님께서 아... 진짜 얘는 시험을 너무 못봐서 블랙리스트감이다 이렇게 생각하지 않으셨으면 좋겠다고 생각해서 열심히 했어요. 바보같이 수준 낮은 질문들을 office hour에 들고가야 했던 게 쪽팔렸지만 그래도 지금 쪽팔린 게 낫다 하는 마음으로... 질문을 드렸습니다. office hour에 거의 제 질문만 다뤄주실땐 아....... 황새분들께 폐를 끼친 것은 아닌가 하고 굉장히 죄송한 마음이었고요.

시험은 말씀해주신대로 어려웠습니다.

첫 문제부터 예상치 못한 OVB (*주 - Omitted Variable Bias)가 나와서 많이 당황했어요. Measurement Error를 다루는 문제들이 많았다보니 그 위주로 나올거라고 생각했었거든요. 참 바보같은 생각이었습니다. 그래도 배운 내용, 공부한 내용을 떠올리며 열심히 풀어보았습니다. 한 문제 푸는데 이미 1시간이 지났더라고요. 이러다 답안 작성을 다 못하겠다 싶어서 크게 흔들렸던 것 같아요. MA(5)까지는 상상도 못했는데 그런 내용이 나와서 너무 놀랐고 x_2t=y_(t-2)라는 조건도 상상도 못한 조건이라 많이 당황했던 것 같아요. 그러는 사이 2시간이 지났다고 하셔서 정말 마음이 너무 급해졌습니다. 4번은 너무나 감사하게도 평이하게 바꿔주신 관계로 보자마자 풀 수 있다는 확신이 있었는데, 3번을 고민하다가 답안을 다 못쓸까봐 4번부터 답안을 썼던 게 기억납니다. 여러모로 부랴부랴 쓰느라 되게 두서없이 엉망으로 써서 쓰면서도 죄송했습니다.

그렇게 시험이 끝나고 나오면서 40점은 나오려나? 하면서 자책을 많이 했어요. 주말엔 부족했던 잠을 몰아잤는데 시험점수 나오면 이제 대표님께 뭐라고 말씀을 드려야 하나 나 혼자 말도 안되는 점수를 받아서 대표님께서 대노하시면 어떡하지... 하고 걱정을 계속 했습니다. 오늘은 출근길에 블로그에 MBA와 MSDA 설명을 해두신걸 보고는 대표님께서 나는 역시 MBA를 가라고 하실까? 하면서 아침 내내 계속 고민했습니다. 어떤 과정으로 가든 개강 전 공부를 더 해가고 싶은데 수리통계학을 보고 갈까 하고 강의도 알아보던 중이었고요.

그런데 너무나 감사하게도 미국식 채점기준을 적용해주신 덕에, 성실성 점수를 반영해 주신 덕에 저에게 예상치 못한 합격목걸이가 쥐어진 걸 알게 되었어요. 솔직히 성적표를 보고는 너무 기뻐서 회사에서 소리지르면서 뛰어다닐 뻔 했습니다. 커트라인을 간신히 턱걸이로 넘은 수준이지만 저 따위가........ 뱁새가.... 감히.......? 합격을 해도 되는 것인지 어안이 벙벙합니다.

뱁새지만 그래도 폐를 최소한으로 끼치면서 턱걸이지만 완주를 해낸 거 아닐까 하는 뿌듯한 마음도 있지만 사실 내가 이래도 되나? 하는 두려움이 앞섭니다. 대표님께서 이건 그냥 기초라고. 그 다음에 훨씬 어려운 것들이 MSDS에서 우릴 기다리고 있다고 몇 번이고 말씀해 주셨으니까요.

그래서 지금 굉장히 혼란스럽습니다. 대표님도 메일 보고 많이 당혹스러우실 것 같아요. 이런 애는... 당연히 걸러져야 하는데 왜 여기에? 싶으실 것 같고요. 혹은 그럼에도 불구하고 제가 감히 이 시험을 턱걸이지만 통과는 한 것이니 자랑스러워해도 되는 것 일까요. 통과를 해서 기쁘기는 한데 잠이 안옵니다....... 통과한다는 것 자체를 감히 상상조차 한적이 없어서요.......... 부디 노여워 마시고 ㅠ_ㅠ 뱁새 주제에 용케도 여기까지 왔네... 라는 관점으로 봐주셨으면 합니다.............ㅠㅠ

지난 한달 반 동안 내용이 버겁긴 했지만 (제가 감히 이런 말씀을 드려도 될지 모르겠지만) 참 재밌었습니다. 몰랐던 새로운 언어들을 배워가면서 아! 이게 이거였구나! 하는 순간들이 많아서 세계가 확장되는 기분과 더불어 즐거움을 느낄 수밖에 없었던 것 같아요. 저 같은 뱁새조차도 그렇게 느낄 수 있도록 어디가서 배우기 힘든 이런 좋은 강의 해주셔서 너무너무 감사드립니다.

메일이 너무 길었죠?ㅠㅠ 찔리는게 많아서 구구절절 쓰게 되었습니다.......

빅데이터 석사를 했지만 항상 마음속에 의구심이 있었어요. 졸업 논문도 쓰레기 같은 걸 쓰고 졸업해서... 너무너무 부끄러운 마음이 항상 있었고요. 대표님께 배운 한달 반 덕에 이제 아주 조금은 어깨를 살짝 펴도 되지 않을까 하는 생각을 해봅니다. 어디가서 부끄럽지 않기 위해서, 이제 참새에서 비둘기가 되기 위해서 계속 열심히 공부할게요.


 

감동의 쓰나미가 몰려와서 한동안 말을 잃었습니다.

주변에 이런 케이스들이 드물게 있기는 했습니다.

경영학과 출신에 대기업 다니다가 그만두고 와서는 대학원 통계 수업 한번에 따라가고 그런 애들.

제가 평소에 말하는대로, DNA가 다른 애들이었습니다.

저보다 덜 고생해도 더 빨리, 더 많은 지식을 익힐 수 있는 축복받은 인재들이죠.

(중략)


진짜 농담이 아니고 메일 받고 울었다. 공부하느라 얼마나 고생했을지, 내가 딱 저 부분 공부하던 시절이 떠오르더라.

나도 그 때 생긴 중지 손가락의 펜 자국이 몇 년간 안 없어질만큼 펜을 놓질 않고 또 쓰고 또 쓰면서 겨우겨우 이해했었으니까.

Office Hour 질문이라고 장문의 이메일을 몇 차례 받으면서, 정말 이 악물고 열심히 공부하는 중이구나 싶었는데,

답안 채점하는 내내, 문제 상황을 제대로 이해하고 접근하는 훈련, 수업 내용을 활용하는 능력이 잘 갖춰진 답안지라고 생각했고,

Office Hour 까지 진행해가며 가르친 보람(?)이 느껴지는 답안지였다.

 

충분히 어깨를 펴고 자랑해도 된다... 가 아니라 열정과 학습 속도에 고개 숙이고 존경심을 표하고 싶다.

이런 인재 분들이 2류 교육을 받고, 자신의 가치와 역량을 영원히 모르고 사는 그런 인생 대신,

자신의 역량을 마음껏 발휘할 수 있는 토대를 닦는 1류 교육을 제공해서,

내가 공급하는 교육을 2류, 3류로 추락시킬 수 있도록 청출어람 하기를 바라 마지않는다.

 

前 MSDS, 현 MSc Artificial Intelligence 입시시험 후기 시리즈

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 수강 후기 (1)

MSDS Boot Camp 수강 후기 (1)
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

MSDS Boot Camp 시험을 치르기도 전에 아래의 후기를 받았습니다.

학생들의 프로그램 선택 및 수학/통계학에 대한 접근 방식에 좋은 정보가 될 것 같아,

본인 동의 하에 개인정보를 생략하고 공유합니다.


안녕하세요. 이번 MSDS Prep 강의 수강자 XXX입니다.

준비가 너무 미흡하여 입학시험을 포기하겠습니다. 죄송합니다.

아직 미련이 남아 시기를 정확히 말씀드리지는 못하지만 이번 MBA 코스 혹은 내년 MSDA를 목표하고 있어 이하 변명의 글을 적습니다.

저는 CS학부를 졸업하고 현재 데이터 직종에 종사하고 있습니다. 사내 분류상 DS직무로 분류되지만 본 업무는 데이터 모델링 및 분석 업무가 주된 업무입니다.

파비클래스를 알기 전 타 DS 온라인 강의를 수강했고, XXX 주최의 작은 AI경진대회의 한 분야에서 우승을 했었습니다. (그 때 사용했던 모델은 랜덤포레스트였습니다ㅎ) 그냥 라이브러리 가져와서 돌리고, 점수 낮으면 설정값 바꿔서 돌리고 다시 점수내고.. DS를 이런 식으로 배우고 쓰는 건 아니다라는 생각을 하며 찾다가 파비블로그를 접하게 되었습니다.

블로그 글을 보며 부족함과 깨달음을 얻고 제대로 된 DS를 배우고 싶어 대학원 설립 전 MSDS수업을 목표로 베이스가 되는 수학 및 통계학 공부를 시작했습니다.

미적분, 선형대수, 수리통계를 공부하고 Math & Stat for MSDA를 들으며 괜찮을지도 모른다는 오만한 생각을 했습니다. (이번 강의를 들으며 문제풀이와 암기에만 급급한 잘못된 방법으로 공부를 했다는 것을 깨달았습니다. 괜찮을지도 모른다고 생각한 것도 사고의 깊이가 얕아 그 의미를 정확하게 이해하지 못했기 때문일거 같습니다. 그냥 단순히 그런가보다 하고 아는 용어 나오니까 안다고 착각하고 넘어갔겠죠.. 부끄럽습니다..)

처음부터 MSDS는 언감생심으로 MSDA를 생각하고 있었지만 혹시나 하는 마음이 없었다고 한다면 거짓말입니다. 그리고 좋은 강의를 듣고 싶다는 욕심에 무리임을 알면서도 수강 신청을 했습니다.

수학은 언어라고 하셨던 것처럼 수학으로 내 논리를 탄탄하게 앃아올리는 연습을 해야하는데 숫자 보기에만 연연했던지라 응용 및 사고의 확장이 자유롭게 되지 않았습니다. (추가로 정규 과정이 아닌 자율학습으로 공부한지라 첫 시간에는 영어로 표현되는 용어에 멘붕이 와서 수업 내용이 잘 기억이 나지 않습니다.)

수강을 취소하지 않았던 것은 그래도 다행히 전혀 못 알아듣지는 않았고, 공부하는 과정이 힘들지만 단순 노가다성 암기가 아닌 즐거움과 성취감이 있었기 때문입니다.

시험을 준비하며 시간이 조금만 더 있었으면 하는 마음이 들었습니다. 그리고 혹시나 운이 엄청나게 좋을수도 있지 않을까하는 허황된 생각도 해보기는 했지만 주어진 시간 안에 소화할 수 없다는 것은 결국 수업을 따라갈 수 없는 수준이라 판단하였습니다.

더 공부를 하면 벽을 넘을 수 있을까 꽤 오랜시간 고민을 하고 있지만 아직 답을 내지 못했습니다. 미련이고 지금보다 훨씬 괴로운 길일 것이라 생각하지만 포기를 하기에는 아직 덜 깨진 것 같습니다.

마지막으로 제 분수에 맞지 않는 좋은 강의를 들을 수 있는 기회를 주셔서 감사하다는 말씀을 꼭 드리고 싶었습니다. 개인적인 레벨에서 첫 강의를 들었을 때와 마지막 강의까지 들은 지금을 비교하면 정말 문제를 대하는 방법부터 사고의 흐름 및 관점까지 많은 발전이 있었습니다. 만약 강의를 듣지 않았다면 여전히 계산에만 집착 하거나 그마저도 못한 라이브러리 가져다가 안 맞으면 다른 라이브러리 찾는 짓을 하고 있었을 거라 생각합니다.

다시 한 번 죄송하다는 말씀과 염치 불구하고 감사하다는 말씀 드립니다.

 

사담입니다. SNS를 하지 않아 올라오는 글로만 보았지만 논지를 이해 못하는 분들과 억지로 눈을 돌리려고 하시는 분들이 계신 것 같습니다. 맞는 말을 하고 계시니 아마 자연스레 사라질 것이라 생각합니다. 힘든 길을 가주시는 덕분에 저 같은 사람은 감사하고 있습니다. 나아가시는 길 존경을 담아 응원하겠습니다.


 

안녕하세요 XXX님,

 

많은 고민이 느껴지는 장문의 이메일을 받고 안타까운 마음이 커집니다.

CS출신 직장인이라는 알려주신 스펙만 놓고봤을 때는 MBA vs. MSDA 놓고 고민하는 것조차 버거울 것 같은데

MSDA 수업 요약에 해당하는 Prep을 단기간에 들으셨으니 보통 난이도가 아니었을겁니다.

그럼에도 불구하고 Math & Stat for MSDA까지 들으며 준비하신 열정에 고개를 숙입니다.

 

직접적인 타겟이 아닌 분이었음에도 짧은 수업을 거치며 제 의도가 많은 부분 전달되었던 것 같아

한편으로는 다행으로 생각하고, 다른 한편으로는 선악과를 준 뱀이 된 것 같아 되려 찜찜해지는군요.

 

비슷한 상황이신 분들께 MBA in AI BigData를 하면서 MSDA와 수업이 겹치는 몇 과목의 과제/시험을 MSDA로 하라고 권유합니다.

XX님께도 같은 추천을 드리고 싶습니다.

 

살짝 맛보기를 해 봤으니 어느 정도 느껴지겠지만, 수학, 통계학의 고학년/대학원을 위한 수업들 앞에 놓인 벽은

그리고 제가 고생해서 배운 후 전달하고 있는 직관적, 추론적, 추상화된 사고력을 기르는 방식의 또 하나의 벽은

국내의 계산 위주로 구성된 공학 or 유사한 수준의 교육과정을 거친 분들이 직장 다니면서 쉽게 넘을 수 있는 벽이 아닙니다.

 

직장에서 제대로 쓰지도 못하는 Scientific 지식을 굳이 욕심내서 공부하려고 돌아가는 길을 선택하는 대신,

주어진 상황에 적절한 선택을 하시는 편이 맞지 않나 생각합니다.

 

옷도 무조건 큰 옷, 무조건 유명 브랜드의 옷이 예쁜게 아니라, 자기 체형과 분위기에 맞아야 좋은 옷이잖아요.

 

수업 듣느라 고생 많으셨습니다.


 

안녕하세요.

진심어린 조언 감사드립니다. 과정 선택에 많은 도움이 될 것 같습니다!

메일 내용은 편하신대로 공개하셔도 괜찮습니다.

답변 주셔서 부족함으로 수업 목적에 부합하지 못해 죄송스러웠던 마음이 조금이나마 가벼워졌습니다.

감사합니다.


(Note: 여태 이런 수준 교육에만 헛 돈을 썼으니ㅠㅠ)

 

아예 한 마디도 못 알아듣고 코드만 달라고 하거나, 욕하면서 강의장을 엉망으로 만들었던 CS 출신들이 은근 있었는데,

저 분은 실력의 격차를 메우려면 수학/통계학이 필요하다는 사실을 (막연하게나마) 인지하고 수업을 찾아온 것 같고,

하필이면 준비상태에 맞지 않은, 너무 무리한 도전을 했다고 생각된다.

 

아마도 Data Scientist를 꿈꾸는 국내 공학도들 거의 대부분이 영미권 학부 3,4학년 수준인 이번 MSDS 입학시험 문제에 손도 못 댈 것이다.

국내 비전공 학부 출신이 1년간 MSDA 과목들을 듣는다고 해도 이번 입학시험 정도의 난이도 문제들을 풀기 쉽지 않을 것이다.

기본에 해당하는 수학, 통계학 교육, 직관적 추상화 교육이 사실상 전무한 상황인데, 그걸 1년만에 따라잡는건 기적이니까.

(그 정도 지식이 있어야 왜 수학, 통계학, 직관적 추상화가 Data Science에 핵심인지 알텐데, 그걸 모르니 맨날 우리를 욕하는거겠지.)

(아니면 그렇게 욕해야 자기네 코딩 학원에 학생들이 많이오는 마케팅 담당자들의 교묘한 바이럴 마케팅이었을지도?)

(어쩌면 그런 사리사욕만 챙기는 바이럴 마케팅에 속아 넘어간 불쌍한 짝퉁 Data Scientist였을지도 모르겠다.)

 

3년 남짓 국내에서 데이터 사이언스 교육을 하면서 느꼈지만, 교육 연구를 해서 제대로 가르치는 교수들은 정말 드물더라.

못하는게 딱히 학생들 잘못은 아닌 것 같고, 교수들의 책임 방기라고 지적하고 싶지만, 교수들이라고해서 제대로 안 가르치고 싶을까?

 

학부시절에도, 심지어 S대 최상위권 학과에, 수학, 통계학 지식이 중요하다는걸 과 전체가 느끼면서 공부하는 전공이었는데도

같은 과목을 쉽게/어렵게 가르치는 교수 2명이 강의하고 있으면 학점 잘 받아서 교환학생, 취직에 활용하려는 애들이

쉽게 가르치는 수업에 우르르 몰려갔었다. 학점 바닥을 깔더라도 어려운 수업 찾아가는 나같은 Psycho는 그 때도 괴물 취급 받았으니까.

고집 피우며 어렵게 (즉, 제대로) 가르칠 수 있는 분위기가 조성된 전공과 학교에서도 그랬는데, 하물며 다른 곳들이야.

 

반값 등록금의 파장이 낳은 쥐꼬리 월급을 받는 교수들의 현실, 돈 되는 프로젝트에 양심을 팔 수 밖에 없는 현실들이 이해되는터라,

그런 와중에 제대로 고민해서 수업 만들어봐야 소수만 살아남아서 학장에게 돈 안 된다고 꾸중만 듣는 수업이 되는데, 왜 고생해야되지?

어차피 대학 교수들의 직위는 단순히 노동3법 정도가 아니라 사립학교법, 고등교육법으로 보장될만큼 안정적인데?

월급 잘 나오는데, 강의 잘해서는 월급 말고 돈 더 나올 구석이 없는데 왜 오버함?

 

그냥 안타깝다.

직장가서도 저렇게 열정을 갖고 공부하는 학부 졸업생이 영미권 학부 3-4학년 수준 지식 공부하려면

직장 그만두고 몇 년을 쏟아부어야 할 만큼 우리나라 학부 교육이 부실하다는 사실이.

내 자식이 저런 상황이었으면 교수들에게 분노가 치밀고, 자식을 국내 대학 보낸 나 자신의 어리석음에 자책감만 생길듯

 

前 MSDS, 현 MSc Artificial Intelligence 입시시험 후기 시리즈

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

수학, 통계학 중심의 AI대학원 커리큘럼

수학, 통계학 중심의 AI대학원 커리큘럼
Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI

업계에서 필자의 컬럼에 대해 "코딩은 필요없다는건가", "현업에서 수학의 효율은 기대하기 어렵다", "통계학은 평균,분산 구하는것 아닌가", "수학・통계학의 시대는 지났고, 인공지능에게 맡기면 된다"등의 지적들을 하고 있는 것으로 안다. 그러나, 이는 단지 필자만의 주장이 아닌, 영미권 응용 수학・통계학(Applied Mathematics & Statistics) 전공에서 운영하는 데이터 사이언스 프로그램이 선도하고 있는 AI라는 학문의 전반적인 흐름이다. 필자는 지금까지 많은 글들을 통해 관련 오해들을 지적해왔는데, 이와 비슷한 관점을 대한민국에서 유일하게 S대 계산과학 연계전공에서도 볼 수 있다는 점을 이번 글에서 전하고자 한다.

아래 소개하는 교수님과는 개인적인 친분이 전혀 없고, 순수하게 구글링을 통해 찾은 정보임을 미리 밝힌다.

 

S대 컴퓨터 공학과에서 수학・통계학 기반의 AI 관련 교육을 하시는 장병탁 교수님이시다. 그동안 필자가 봐왔던 우리나라 컴퓨터 과학(Computer Science) 교수님들의 강의 목차 중 처음 볼츠만 머신(Boltzmann Machine)을 가르치시고 계셨다. 또, 볼츠만 머신을 이해하기 위해 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC), 깁스 샘플링(Gibbs sampling)으로 이어지는 베이지안(Bayesian) 계산통계학의 한 축과 네트워크 이론(Network theory)에서 랜덤 워크(random walk)와 같은 주제, 그리고 이를 다루기 위한 마르코프 과정(Markovian process), 그리고 요인 분석(Factor Analysis)을 가르치시는 강의 노트를 확인할 수 있었다.

그간 필자는 역전파(Back-propagation)은 80년대 계산법이고, 90년대 후반 이후에 문제점을 보완한 볼츠만 머신을 쓰지 않는 이상, 그 한계로 인해 신경망(Neural Net) 계산을 신뢰하기는 어렵다고 강조해왔다. S대 대학원 수업에 볼츠만을 가르치시는 위 교수님의 커리큘럼이 필자의 신경망에 대한 견해와 같은 선상에 있다는 것을 확인할 수 있다.

 

위 교수님이 남들은 고개를 한번쯤은 숙일 S대 컴퓨터 공학과 교수, S대 AI 연구원장, 그리고 N사에서 연구원 100명이 참여하는 수백억원대 공동 프로젝트를 맡기는 핵심 인력이니, 충분히 설득이 될 것이다. 우선, 이런 분을 못 찾고 그동안 컴퓨터 과학 분야를 비난한 부분에 대해서 고개 숙여 사과드린다. 대신, 이런 글로벌 수준 지식을 갖고 있는 분이 아니라면, 인공지능에 대한 오해를 불러일으키는 언행은 자제해주셨으면 좋겠다. 이와 비슷한 수학・통계학 훈련을 받아 연구 주제만 전환하면 짧은 시간 안에 적응할 수 있는 분들이 문과인 경제학에만도 국내 최소 수백명은 있다는 점을 상기시켜드리고 싶다.

영미권의 유수 대학 데이터 사이언스 프로그램들과 비교해서, 위 교수님의 커리큘럼과 관련해서 공유할만한 포인트가 크게 3가지가 있다.

 

1. 영미권에서는 여러 과목에 나눠서 가르치는 내용을 1-2과목에 압축했다

해외 대학의 플래그십(flagship)에 해당하는 데이터 사이언스 프로그램들을 살펴보면,

  • Graph Theory,
  • Information Theory,
  • Machine Learning,
  • Reinforcement Learning,
  • Bayesian Time Series

에 걸쳐 나눠넣은 교육 과정을 1-2과목에 다 가르치시고 있다. 필자 또한 필요한 수학은 스스로 찾아가며 공부하면 된다고 생각하기에, 이런 1-2과목 압축형 커리큘럼에 동의한다.

그러나, 비슷한 수업을 여러 주제를 필요한 수학・통계학 기준에 맞춰 12시간의 수업으로 묶어 필자의 '데이터 사이언스 모델링'이라는 수업으로 운영한 적이 있었는데, 대부분의 수강생이 좌절하고 한 학기 수업으로 만들어달라고 요청하는 경우가 대부분이었다.

꽤 준비되신 분들마저도 수업 중반부에 들어서면서 퍼지시는 모습을 지켜봤는데, 위처럼 1-2과목에 내용을 모두 몰아넣으면 충분히 지식이 전달 되었을지 우려스러운 부분이 있다. 해당 커리큘럼을 소화하기 위해 수강생들이 그 전에 상당한 수준의 수학・통계학 훈련을 받았어야 할 것이다.

 

2. 얼마나 지식을 소화할 수 있었을까?

필자가 3년간 '데이터 사이언스 모델링' 강의를 총 3번 진행했던 경험이 있다. 약 50명의 인원을 가르치면서, 수학 및 통계학으로 일정 수준 이상의 훈련을 받은 분들만 수강생으로 받았고, 상당수는 국내외 대학의 박사과정을 거치셨던 분들이었음에도 불구하고, 대부분이 지식을 완전히 소화하기 버거워하셨던 것으로 기억한다.

S대 컴퓨터 공학과 전공 커리큘럼 상 수학・통계학을 훈련하는 수업이 주를 이루고 있지는 않다보니, 얼마나 많은 수의 학생들이 제대로 듣고 이해했을지 우려스럽다.

남의 전공 상황을 함부로 재단하고 싶지는 않으나, 배운 지식에 대한 측정이 가능한, 볼츠만 머신과 관련된 질문에 대답을 제대로 하셨던 분이 거의 없었던 필자의 경험상, 다른 기초 훈련없이 해당 수업을 제대로 이해한 분이 있을지, 고급 지식을 이해하기 위한 추가적인 기초 수업들이 필요하진 않을지 걱정되는 부분이 있다.

 

3. 체계적인 커리큘럼의 중요성

필자가 견지하고 있는 AI에 대한 견해는 필자의 석・박 유학 시절 혹독하게 받은 영미권 교육 및 해외 유수 대학의 데이터 사이언스라는 학문의 전반적인 흐름에 기반하고 있다. S대 계산과학 연계전공이 위 흐름을 유일하게 이해하고 있는 것으로 보이나, 학부 사정 및 커리큘럼의 구성을 고려했을 때, 혹독한 교육과정에서 제대로 살아남을 수 있는 인재는 몇 안될 것으로 짐작된다.

어느 유명 해외의 데이터 사이언스 프로그램의 경우, 위 커리큘럼 스타일을 유지하면서도, 이를 더 자세하게 가르쳐 주는 커리큘럼을 제공하고 있다. 더불어 많은 데이터 셋에서 데이터 생성 과정(Data Generating Process, DGP)에 맞춘 적절한 모델링을 할 수 있도록 경제학의 계량경제학 도구, 방법론, 활용처 일부까지 가르치는 커리큘럼을 제공하는 경우도 있다. 이러한 교육과정을 거쳐야 수학, 통계학을 해당 교육기관이 가르치는 레벨로 이해하고, 나아가 데이터 사이언스 업계에서 복잡한 현실 상황을 맞닥뜨려도, 배운 수학・통계학적 지식과 도구들로 문제들을 논리적으로 해결할 수 있는 능력을 갖추게 될 것이다.

그러나, 아직 우리나라의 AI 교육기관은 위와 같은 지식선진국의 체계적인 교육 커리큘럼이 구성된 바가 없어 아쉬울 따름이다. 언젠가는 '진짜' 전문가들이 힘을 합쳐 경제학, 수학, 통계학의 기반을 단단히 다져 계산과학 및 인공지능 전문가를 양성할 수 있는 체계적인 커리큘럼을 갖춘 데이터 사이언스, 인공지능 교육 기관이 출범할 수 있기를 바래본다.

 

+AI를 제대로 공부하고 싶은 분들께

AI를 제대로 공부하고 싶다면, 수학・통계학적 훈련은 일정 수준 이상으로 필요할 것이다. 다른 양적(Quantative) 학문의 상황도 별반 다르지 않다.

경영학과를 예로 들면, 경영학과에서 재무(Finance) 교수님들이 다루는 수학・통계학 훈련이 된 경우는 경영학과 학・석사를 마친 분들이 아닌, 수학・통계학을 복수전공 하신 분들이다. 이런 훈련을 받았어야 대학원에서 재무 전공과 관련된 논문들을 이해할 수 있기 때문이다. 수학・통계학 공부를 자체적으로 하는 경제학과 또한 상황은 다르지 않다. 수학, 통계학과의 해석개론, 수리통계학 이수기록 및 학점이 있어야 대학원 추천서를 받을 수 있다.

위의 CS 대학원 수업 커리큘럼 또한 AI로 이름을 달아놓은 주제도 위와 맥락을 같이한다. 수학・통계학을 어느 정도 깊이 이상으로 공부해야하는 전공의 대학원은 누구나 다 괴로운 벽을 넘어야한다. 다루는 내용이 이미지 인식, 언어 처리인지, IT업계의 개인 행동 데이터인지, 금융데이터인지 등으로 도메인의 차이만 있을 뿐이다. AI라고 불리는 계산과학을 제대로 공부하고 싶다면, 수학적인 도전은 반드시 필요할 것이다.

Picture

Member for

6 months
Real name
Keith Lee
Bio
Head of GIAI Korea
Professor of AI/Data Science @ SIAI