๊ฒฝ์ ํ์๋ค์ด ์์์ผํ๋ ML, DL, RL ๋ฐฉ๋ฒ๋ก
Input
์์ง๊น์ง ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋, ์ธ๊ณต์ง๋ฅ ๊ฐ์ ๋จ์ด๋ค์ด ๋ณด๊ณ ์๋ฅผ ํต๊ณผ์์ผ์ฃผ๋ ๋ง๋ฒ์ ๋จ์ด์ธ 2๋ฅ ์์ฅ ๋ํ๋ฏผ๊ตญ๊ณผ ๋ฌ๋ฆฌ, ๋ฏธ๊ตญ, ์์ ๋ฝ์์๋ ์ด๋ฐ ๊ณ์ฐ๊ณผํ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฅธ ํ๋ฌธ๋ค์ด ์ด๋ป๊ฒ ๋ฐ์๋ค์ฌ์ผํ๋์ง ์ด๋ฏธ ํ๋ฒ์ ์จ์ด๋ธ๊ฐ ์ง๋๊ฐ๊ณ , ์ด๋ค ๋ฐฉ์์ผ๋ก ์ฐ๋๊ฒ ํฉ๋ฆฌ์ ์ธ์ง ๋ด๋ถ ํ ๋ก ์ผ๋ก ์ ๋ฆฌ๊ฐ ๋์ด ์๋ค.
์ถ์ ์ด ๊ฒฝ์ ํ์ด๋ผ ์์ฌ ์ดํ๋ก ๋ฐ์ ๋บ์ง ์ค๋๋์์์๋ ๋ถ๊ตฌํ๊ณ ์ต๊ด์ฒ๋ผ ์ ๋ช ํ ๊ฒฝ์ ํ์๋ค ์นํ์ด์ง์ ์ฌ๋ผ์จ Working paper๋ ๊ธฐ๊ณ ๋ฅผ ํ์ด๋ณด๋๋ฐ, ์ค๋์ ๊ฒฝ์ ํ์์ ML ๋ฐฉ๋ฒ๋ก ์ ์ด๋ป๊ฒ ๋ฐ์๋ค์ด๊ณ ์ฐ๊ณ ์๋์ง์ ๋ํ ์ ๋ฆฌ๊ธ์ ์๊ฐํ๋ค.
์ฐธ๊ณ ๋ก ์ ๊ธ์ ์ ์๋ Stanford ๊ฒฝ์ ํ ๊ต์ 2๋ช ์ด๊ณ , ๊ธ์ด ์ธ๋ถ์ ๊ณต๊ฐ๋ ์์ ์ 2019๋ 3์์ด๋ค. (๋๋ต 2017-2018๋ ์ ์ด๋ฏธ ๋ ผ์๊ฐ ์ ๋ฆฌ๋์์๋ค๊ณ ๋ด๋ ๋๋ค.) - ๊ธ ๋งํฌ
Model-based vs. Algorithmic Approach
๊ธฐ์กด์ ํต๊ณ ๋ชจ๋ธ๋ง์ ํ๋ ์ฌ๋๋ค์ด ๋์ฒด๋ก Model-based ์ ๊ทผ์ ํ๋ ๋ฐ๋ฉด, ๊ณ์ฐ๊ณผํ์ ํ๋ ์ฌ๋๋ค(์ค ์ผ๋ถ)์/๋ ๋ชจ๋ธ์ ๋ชป ์ ํ๊ณ ์์ํด๋ Algorithm์ด ๋ฐ์ดํฐ ์์ ๊ด๊ณ๋ฅผ ์ฐพ์๋ด์ค ์ ์๋ค๋ ๊ด์ ์ ๊ฐ๊ณ ๋ฐ์ดํฐ์ ์ ๊ทผํ๋ค.
์ด๋ ์ชฝ์ด๊ฑด ์ค์ ๋ฐ์ดํฐ๊ฐ ๊ฐ๊ณ ์๋ ์จ๊ฒจ์ง ๊ตฌ์กฐ๋ฅผ ์ฐพ์๋ด๊ณ , ๊ทธ ๊ตฌ์กฐ๋ฅผ ๋ฏธ๋ ์์ธก์ด๋ ์์ ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ฉ๋๋ก ์ฐ๋ ค๊ณ ํ๋ค๋ "Listen to Data"๋ผ๋ ์ต์ข ๋ชฉ์ ์ง๋ ๋์ผํ์ง๋ง, ์ถ๋ฐ์ ์ ์ด๋๋ก ๋๋๋๊ฐ ๋ค๋ฅผ ๋ฟ์ด๋ค.
๊ทธ๊ฐ ํ๋นํด๋์ค ๊ฐ์์์๋ถํฐ ์ฌ๋ฌ ๊ฒฝ๋ก๋ก ๊พธ์คํ ๋ฐ๋ณตํด์๋ ๋ง์ด๊ธฐ๋ ํ๋ฐ, ๋ฐ์ดํฐ์ ์ค์ ๊ตฌ์กฐ๋ฅผ ์ด๋ ์ ๋ ์์ธกํ ์ ์๋ค๋ฉด, ๊ณ์ฐ๋น์ฉ์ ๊ณผ๋คํ๊ฒ ์ง๋ถํ๋ฉด์ ์ ์ ํ ๋ชจ๋ธ์ ์ฐพ์์ค ๊ฒ์ด๋ผ๋ ๋ง์ฐํ ๊ธฐ๋๋ฅผ ๊ฐ๊ณ ์ ๊ทผํ ํ์์์ด, ์๊ณ ์๋ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด ๋๋ค.
๊ฐ์ฅ ๋จ์ํ ๊ณ์ฐ์ด OLS ๊ฐ์ ์ ํ ๊ณ์ฐ๋ฒ์ด๊ณ , ๊ทธ ์ธ์๋ ๋ฐ์ดํฐ์ ๋ถํฌํจ์๋ฅผ ์๊ณ ์๋ค๋ฉด ์ธ ์ ์๋ Maximum Likelihood Estimation (MLE), ํน์ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋์ ์ถฉ์กฑํด์ผํ๋ Expectation (ex. E(x) = 1)์ ํ์ฉํ๋ Method of Moments Estimation (MME) ๋ฑ์ ๊ณ์ฐ๋ฒ์ด ์๋ค.
๋ฐ์ดํฐ๊ฐ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ ์์ง ์์ผ๋ฉด OLS = MLE๊ฐ ๊นจ์ง๋ฉด์ MLE๊ฐ ์ฐ์ํ ๊ณ์ฐ๋ฒ์ด ๋๊ณ , ๋ฐ์ดํฐ์ ์ ๋ ฅ ๋ณ์๊ฐ 2๊ฐ ์ด์์ผ ๊ฒฝ์ฐ์ (Decision Theory ๋ ผ๋ฆฌ์ ๋ฐ๋ฅด๋ฉด) ์ผ๋ฐ์ ์ผ๋ก MME๊ฐ OLS๋ณด๋ค ์ฐ์ํ ๊ณ์ฐ๋ฒ์ด๋ค.
๊ทธ๋ฐ๋ฐ, ๋ฐ์ดํฐ์ ๋ถํฌํจ์๋ ๋ชจ๋ฅด๊ณ , Expectation๋ ํ์ ์ด ์๋ค๋ฉด?
๊ทธ๋ ๋ค๊ณ ๋ฐ์ดํฐ ์์ Endogeneity ๊ฐ์, ๋ฐ๋์ IV ๋ฑ์ ์ด์ฉํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๊ฐ ๊ตณ์ด ํ์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์๋๋ฐ, ๊ทธ ๋ฐ์ดํฐ ์์์ ํจํด์ ์ฐพ์๋ด์ผํ๋ค๋ฉด? ๊ทธ ๊ด๊ณ๊ฐ ์ ํ ๊ตฌ์กฐ๊ฐ ์๋ ๊ฒ์ด๋ผ๋ ๋งค์ฐ ๊ฐํ ํ์ ์ด ์๋ค๋ฉด? (ex. ์ด๋ฏธ์ง ์ธ์, ์์ฐ์ด ์ฒ๋ฆฌ)
์ด ๋ Algorithmic approach๊ฐ ์์ฒญ๋ ํ์๋ฅผ ๋ฐํํ ์ ์๋ค.
๊ธฐ์กด์ OLS, MLE, MME ๋ฑ์ ํต๊ณํ ๊ณ์ฐ๋ฒ๋ค์ด ๋ชป ์ฐพ์๋๋ ํจํด์ ์ฐพ์๋ด์ฃผ๋๊น.
ํต๊ณํ์์๋ "Need to move away from exclusive dependence on data models, and adopt a more diverse set of tools"๋ผ๋ ํํ์ผ๋ก Algorithmic approach๋ฅผ ๋ฐ๊ธด๋ค.
๋จ, ์ธ์ ์ด๋ค? "Listen to Data"๋ฅผ ํด์ผ๋๋๊น, Data์ ๊ตฌ์กฐ์ Algorithmic approach๊ฐ ํ์ํ ๊ฒฝ์ฐ์๋ง!
(๋ฐ์ดํฐ๋ง ์์ผ๋ฉด ๋ฌด์กฐ๊ฑด Algorithmic approach ์ค ๊ฐ์ฅ ๋ง์ด ์๋ ค์ง Deep Neural Net๋ง ์ด๋ค๋ ์ฌ๋๋ค์๊ฒ ๋ฐ์น๋ ๋ฌธ์ฅ์ด๋ค.)
์ ๊ฒฝ์ ํ๊ณ์์๋ Algorithmic approach๋ฅผ ์ or ๋ฆ๊ฒ ๋ฐ์๋ค์๋?
์ฒซ์งธ, ๊ฒฝ์ ํ, ํนํ ๊ณ๋๊ฒฝ์ ํ ํ๋ ์ฌ๋๋ค์ ์ํ์ ์ธ Formal Property๋ฅผ ๋๋ฌด ์ข์ํ๋ค. ์ํ์ ์ผ๋ก ๋ฑ ๋จ์ด์ง๋ ๊ฒฐ๊ณผ, ex. consistency, efficiency, normality, ๊ฐ์ด ์์ผ๋ฉด ๊ทธ ๋ ผ๋ฌธ์ ๋ฐํ ์๋ฆฌ์ ํ๋ฒ ๋๊ฐ ๊ธฐํ ์ป๊ธฐ๊ฐ ํ๋ค๋ค. ML ์ชฝ์์ DNN์ด ํญ์, ์ธ์ ๋, ๋ฌด์กฐ๊ฑด Random forest๋ณด๋ค ์ฐ์ํ๋ค๋ ์ฆ๋ช ์ด ๊ฐ๋ฅํ ๊น? ์์ง๊น์ง ๋ ์ ๋ ์๊ณ , Empirical test๋ ์ ๋๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ๊ณ , ๋ฌด์๋ณด๋ค ์ด๋ ๋ชจ๋ธ์ด ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค Universalํ๊ฒ ์ฐ์ํ ์ ์๋ค๋, ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ ์ ํ ๋ชจ๋ธ์ ๋ฌ๋ผ์ง ์ ๋ฐ์ ์๋ค๋ ์ธ์์ ML ์ฐ๊ตฌ์๋ค์ด ๊ณตํต์ ์ผ๋ก ๊ฐ๊ณ ์๋ ์ธ์์ด๋ค. (๋น์ ๋ฌธ๊ฐ์ธ ๊ตญ๋ด ๊ฐ๋ฐ์ ์ง๋จ๋ง DNN์ด ๋ฌด์กฐ๊ฑด ์ ์ผ ์ข์ ์ค ์๋ค.) ๊ทธ๋ฌ๋๊น ๋๋์ฑ Formal Property ์ข์ํ๋ ์ฌ๋๋ค์ด ์ซ์ดํ๊ฒ ์ง.
๋์งธ, ๊ฒฐ๊ณผ๊ฐ์ ์ ํ๋๋ฅผ ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ด 1์ฐจ์์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ํต๊ณํ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ถ์ฐ์ ์ฐพ๊ณ , t-test๋ฅผ ์์ํ ํ๊ท -๋ถ์ฐ ๊ตฌ์กฐ์์ ๊ฒฐ๊ณผ๊ฐ์ ๊ฒ์ฆ์ด ๊ฐ๋ฅํ๋ค. 1st moment์ธ ํ๊ท ๋ง ์ฐ๋๊ฒ ์๋๋ผ, 2nd moment์ธ ๋ถ์ฐ๊น์ง ์ฐ๋๊น, ๋ถํฌํจ์๊ฐ ์ ๊ท๋ถํฌ๋ผ๋ฉด ํ์ ์ ์ธ ๊ฒฐ๋ก ์ ์ป์ ์ ์๊ณ , ๊ทธ ์ธ์ ๋ฐ์ดํฐ๋ผ๊ณ ํด๋ ํด๋น ๋ถํฌํจ์ ๊ธฐ๋ฐ์ t-test ๊ฐ์ด ์๋ค๋ฉด ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํด ๋์ ํ์ ์ ๊ฐ์ง ์ ์๋ค. ๋ฐ๋ฉด, ML ๋ฐฉ๋ฒ๋ก ๋ค๋ก๋ ๋ถ์ฐ์ ์ฐพ๋๋ค๋๊ฒ ์๋ง๋ฒ ๋น์ทํ ๊ณ์ฐ์ ๋๋ ค์ ๊ฐ๊ฐ ๋ค๋ฅธ 1st moment๊ฐ ๋์ค๋๊ฑธ ๋ณด๋ ๋ฐฉ๋ฒ ์ด์ธ์ ๋ฌ๋ฆฌ ํฉ๋ฆฌ์ ์ผ๋ก ๋ถ์ฐ์ ์ป์ด๋ผ ์๊ฐ ์๋ค. ๊ทธ๋ฌ๋๊น training set, test set์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ ๋ค์, test set์์์ ์ ํ๋๋ฅผ ์ณ๋ค๋ณด๋, ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ ์ ์๋ ๊ณ์ฐ๋ฒ์ ์์กดํ๋ ๊ฒ์ด๋ค. ์ด์ชฝ์์๋ Beta hat์ ๊ตฌํ๋๊ฒ ์๋๋ผ Y hat์ ๊ตฌํ๊ณ , Y hat๊ณผ ์ค์ ๊ฐ์ ์ฐจ์ด๋ง ๋ณธ๋ค. ์ํฉ์ด ์ด๋ ๋ค๋ณด๋, ๊ฒฐ๊ณผ๊ฐ์ Robustness์ ๋ ผ๋ฌธ ์ฐ๋ ๋ฅ๋ ฅ์ ๊ฒ์ฆ๋ฐ๋ ๊ฒฝ์ ํ๊ณ์์ ML ๋ฐฉ๋ฒ๋ก ์ ์ด๋ค๋ ๊ฒ์, ์์ ์ ๋ ผ๋ฌธ์ด Robustness ๊ฒ์ฆ์ ์ ํ๋ค๋ ๊ฑธ ์ค์ค๋ก ์ธ์ ํ๋ ๊ผด์ด ๋๊ธฐ ๋๋ฌธ์, ML ๋ฐฉ๋ฒ๋ก ์ ์์๋ ์ธ ์๊ฐ ์๋ ๊ฒ์ด๋ค.
์ ์งธ ์ดํ๋ ๋ฐฐ๊ฒฝ ์ง์์ด ์ข (๋ง์ด) ํ์ํ ๊ด๊ณ๋ก ๊ธ ๋ง์ง๋ง์ ์ถ๊ฐํ๋ค.
์ฝ๊ฐ ๊ฐ์ธ ์๊ฒฌ์ ์ถ๊ฐํ๋ฉด, Algorithmic approach ์ค ํ๋๋ก ํ์ฉ ๊ฐ๋ฅํ Network theory๋ฅผ ์ด์ฉํด ์ฐ๊ตฌ๋ฅผ ํ๋ ๋ฌด๋ ต (Network์ ํ๋ ฌ๋ก ์ ๋ฆฌํ์ ๋ ๊ฐ์ Network์ด์ด๋ ๋์ ๋ณด์ด๋ Representation์ ์ผ๋ง๋ ์ง ๋ฌ๋ผ์ง ์ ์๋ค - Isomorphism ์ฐธ์กฐ), ์ด๋ฐ Network์ด ์ผ๋ง๋ Robustํ ์ค๋ช ์ธ์ง๋ฅผ ๋ฐ์ง๋ ค๋ฉด ์ฌ๋ฌ๊ฐ์ง ๊ฒฝ์ฐ์ ์๋ฅผ ๋๊ณ ๋ด์ผํ ํ ๋ฐ, ๋ชจ๋ธ์ด ์์ ํ ๋ฌ๋ผ์ง ๊ฒ ๊ฐ๊ณ , ์๋๋ฉด ์์ ๋ชป ํธ๋ ๋ฌธ์ ๊ฐ ๋ ๊ฒ ๊ฐ์๋ฐ, ๊ณผ์ฐ ๋ ผ๋ฌธ์ Publishํ๋๊ฒ ๊ฐ๋ฅํ๊ฒ ๋๋ ์ฐ๋ ค ์์ธ ๊ฑฑ์ ์ ํด์ค ๋ถ์ด ์์์ ์ ๋์๋ค.
์์ฆ DNN์์ Node-Link ๊ตฌ์กฐ๊ฐ ์กฐ๊ธ๋ง ๋ฐ๋์ด๋ ๋ชจ๋ธ์ด ์์ ํ ๋ฐ๋๋๋ฐ, ๊ฑฐ๊ธฐ๋ค ๋ฐ์ดํฐ๋ง ๋ฐ๋์ด๋ Link๊ฐ๋ค์ด ํฌ๊ฒ ๋ณํ๋๋ฐ ๊ณผ์ฐ ๋ฏฟ๊ณ ์ธ ์ ์๋๋๋ ์ง๋ฌธ์ด ๋์ค๋๋ฐ, ์ด๋ฐ ์ง๋ฌธ์ด 1990๋ ๋ ํ๋ฐ, 2000๋ ๋ ์ด๋ฐ์ Neural Network์ Boltzmann ์คํ์ผ์ Gibbs sampling + Factor Analysis ์ ๊ทผ์ด ์๋๋์์ ๋๋ ๋์๋ ์ง๋ฌธ์ด๋ค. ํ์ฌ๊น์ง Boltzmann ๊ตฌ์กฐ๋ณด๋ค ๋ ํจ๊ณผ์ ์ธ Network์ Layer๊ฐ Link ๊ฐ ๊ณ์ฐ์ ์ ๋ฆฌํด์ฃผ๋ ๊ณ์ฐ๋ฒ์ด ์์ผ๋ ํ์ฌ๋ ์ ํจํ ์ง๋ฌธ์ด๊ณ , ์ฌ์ค Network์ด๋ผ๋ ๊ตฌ์กฐ ๊ทธ ์์ฒด๊ฐ ์ด๋ฐ "์ฝ์ ๋ถ์ด๋ฉด ์ฝ๊ฑธ์ด, ๊ท์ ๋ถ์ด๋ฉด ๊ท๊ฑธ์ด"๋ผ๋ ๋ฐ๋ฐ์ ์ด๊ฒจ๋ด๊ธฐ ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ณ ์๊ธฐ๋ ํ๋ค.
Ensemble Methods vs. Model Averaging
๋ฌด์กฐ๊ฑด Algorithmic approach๋ฅผ ํผํ๋ ๊ฒ์ ์๋๊ณ , ์ค์ ๋ก Algorithmic approach๋ผ๊ณ ์๊ฐํ๋ ๊ณ์ฐ๋ฒ๋ค์ ๊ฒฝ์ ํ๊ณ์์ ์ด์ฉํ ์ฌ๋ก๋ ๋ง๋ค. ๋ํ์ ์ธ ๊ฒฝ์ฐ๊ฐ ML์์ ์ฐ๋ Ensemble ๋ชจ๋ธ๊ณผ ๊ฒฝ์ ํ์์ ํํ ์ฐ๋ Model Averaging ๋ฐฉ๋ฒ์ด๋ค.
์๋ฅผ ๋ค์ด, Random Forest, Neural Network, LASSO๋ฅผ ๊ฒฐํฉํ๋ Stacking ๊ณ์ด์ Ensemble์ ์งํํ๋ค๊ณ ์๊ฐํด๋ณด์. ์ด๊ฑธ Model Averaging์ด ์ต์ํ ๊ณ๋๊ฒฝ์ ํ์ ๊ด์ ์ผ๋ก ๋ค์ ํํํ๋ฉด,
$latex (\hat{p}^{RF}, \hat{p}^{NN}, \hat{p}^{LASSO}) = \underset{p^{RF},p^{NN}, p^{LASSO}} {\text{arg min}} \sum_{i=1}^{N^{test}} (Y_i - p^{RF} \hat{Y}_i^{RF} - p^{NN} \hat{Y}_i^{NN} - p^{LASSO} \hat{Y}_i^{LASSO})^2 \\ \\ \text{subject to } p^{RF} + p^{NN} + p^{LASSO} = 1, \text{ and } p^{RF}, p^{NN}, p^{LASSO} \geq 0 $
์ด๋ผ๊ณ ์ธ ์ ์๋ค.
์๋์ Y๊ฐ์ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ๋ชจ๋ธ์ ์ฐพ๊ณ ์ถ์๋ฐ, 3๊ฐ ๋ชจ๋ธ์ ๊ฐ์ค์น ํฉ๊ณ๊ฐ 1์ด ๋๋ค๋ ์กฐ๊ฑด (& ์์ ์กฐ๊ฑด) ์๋, ์ ์ค ์ด๋ค ๋ชจ๋ธ์ ์จ์ ์ค์ฐจ๋ฅผ ์ต์ํํ๋์ง์ ๋ง์ถ ์ต์ ํ ๊ณ์ฐ์ ํ๋ ๊ฒ์ด๋ค.
(์๋ง ์ผ๋ฐ ์ ์ ๋ค์ด ํ์ฉํ๋ Stacking Library๋ ์์ ๋ฐฉ์์ผ๋ก ์ต์ ํ ๊ณ์ฐ์ด ๋์๊ฐ๊ณ ์์ ๊ฒ์ด๋ค.)
๋จ์ํ ์์ 3๊ฐ ML ๊ณ์ฐ๋ฒ ๋ฟ๋ง ์๋๋ผ, MLE, MME, OLS ๋ฑ๋ฑ์ ํต๊ณํ ๊ณ์ฐ๋ฒ์ ํ์ฉํ ์๋ ์๊ณ , ์ด๋ค ๊ณ์ฐ๋ฒ์ด๊ฑด ํฉ๋ฆฌ์ ์ด๋ผ๊ณ ํ๋จ๋๋ ๊ณ์ฐ๋ฒ๋ค์ ๋ชจ์์ Model Averaging์ ํ๊ณ ์์ผ๋ฉด, Ensemble๊ณผ ์ด๋ก ์ ์ผ๋ก, ์ค์ ๋ก๋ ๋์ผํ ๊ณ์ฐ์ด ๋๋ค.
๋จ, ํฉ๋ฆฌ์ ์ด๋ผ๊ณ ํ๋จํ ์ ์๋ ๊ณ์ฐ์ด ๊ฒฝ์ ํ์์๋ Bias-Variance trade off๋ฅผ ๋๊ณ ๋ณผ ๋, Bias๊ฐ ์๋ ์ชฝ๋ง ๋ฐ์ง๋๊ฒ ์๋๋ผ, Confidence interval (๋๋ Inference)๋ ์ค์ํ๊ฒ ์๊ฐํ๋ ๋ฐ๋ฉด, ML์์๋ ๋ถ์ฐ ๊ฐ ์์ฒด๊ฐ ์์ผ๋๊น ์ฒ ์ ํ๊ฒ Out-of-sample performance, ์ฆ Bias๊ฐ ์๋ ์ชฝ์๋ง ์ง์คํ๋ค.
๊ทธ๋์ Stacking ๋๋ Model Averaging์ ๋ฃ๋ ํ๋ณด ๊ณ์ฐ๋ฒ๋ค๋ ๋ฌ๋ผ์ง ์ ์๊ณ , ๊ฒฐ๊ณผ๊ฐ์ Inference์ ๋ํ ์๊ตฌ์น๋ ๋ค๋ฅด๋ค.
๋ ์๋ค์ ์ดํด๋ฅผ ๋๊ธฐ ์ํด ์ฝ๊ฐ์ ๊ฐ์ธ ๊ฒฌํด๋ฅผ ๋ง๋ถ์ด๋ฉด, ์ ๊ฑฐ ์ฌ๋ก ์กฐ์ฌ ์ฌ๋ฌ๊ฐ๋ฅผ ํ๊ท ํด์ ๊ฐ์ฅ ์ค์ ์ ๊ฐ๊น์ด ๊ฐ์ ์ฐพ๋๋ค๊ณ ํ์ ๋, ML ๋ฐฉ๋ฒ๋ก ์ ์ฐ๋ ์ฌ๋๋ค์ 1,000๋ช ์ด๊ฑด, 500๋ช ์ด๊ฑด, 10,000๋ช ์ด๊ฑด, ๋ช ๋ช ์๊ฒ ๋ฌผ์๊ฑด ์๊ด์์ด ํ๊ท ๊ฐ = ์ค์ ๊ฐ์ผ๋ก ์ผ๋จ ๊ฐ์ ํ๊ณ , ๊ทธ ๊ฐ ๊ทผ์ฒ์ ์๋ ์ฌ๋ก ์กฐ์ฌ๋ฅผ ์ฐ์ ๊ฐ๋ค ์ฐ๊ณ , ํ๋ ธ์ผ๋ฉด ๋ค๋ฅธ ์ฌ๋ก ์กฐ์ฌ๋ก ๊ฐ์ ๋ผ์ด๋ค๋ ๊ด์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ฐ๋ฉด ๊ฒฝ์ ํ ๋ฐฉ๋ฒ๋ก ์ ์ฐ๋ ์ฌ๋๋ค์ 500๋ช ์ด๋ฉด ๋ถ์ฐ์ด ๋๋ฌด ํฌ๊ธฐ ๋๋ฌธ์, ๋ถ์ฐ์ด ํฐ ๊ฒฝ์ฐ์๋ ๊ฐ์ค์น๋ฅผ ๋ฎ๊ฒ ์ฃผ๊ณ , ๋ถ์ฐ์ด ์์ ๊ฒฝ์ฐ์ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ์ค ๋ค์ ๊ฐ์ค ํ๊ท ์ ํด์ ๊ธฐ๋๊ฐ์ ๊ตฌํ๊ณ , ๊ทธ ๋ +- x.y% ๋ผ๋ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ผญ ๋ถ์ฌ์ผ๋๋ค๊ณ ์๊ฐํ๋ ๊ฒ์ด๋ค.
์ด์ฐจํผ ์ ๋ขฐ๊ตฌ๊ฐ ๊ทธ๊ฑฐ ๋๊ฐ๋ณด๋๊ฑฐ๋๊ณ ์๊ฐํ ์๋ ์๊ณ , ์ ๋ขฐ๊ตฌ๊ฐ์ด +- 20% ์ด๋ ๊ฒ ํฐ๋ฌด๋์๊ฒ ๋์ค๋ฉด, ์๋ฌด๋ฆฌ ์ฌ๋ฌ ์ฌ๋ก ์กฐ์ฌ๋ฅผ ๋ชจ์์ ํ๊ท ๊ฐ์ ์ผ๋ค๊ณ ํด๋, ๊ทธ ์ซ์๋ฅผ ๋๊ฐ ๋ฏฟ๊ณ ์ ๊ฑฐ ๊ฒฐ๊ณผ ์์ธก์ ์ฐ๋๋ ๋ฐ๋ฐ์ ํ ์๋ ์๋ค.
ํ๋นํด๋์ค ์์ ์๊ฐ์๋ ํญ์ ๊ฐ์กฐํ๋ ๋ด์ฉ์ด์ง๋ง, Ensemble / Stacking / Model Averaging ๊ทธ ์ด๋ค ๋จ์ด๋ฅผ ์ฐ๊ฑด ์๊ด์์ด, ๊ธฐ๋ณธ ๋ชจ๋ธ N๊ฐ๋ฅผ ๊ฒฐํฉํ ๋๋ ๊ณ์ฐ์ ์ค์ฐจ (Bias)๊ฐ ์์ ๊ฒฝ์ฐ๋ง ์ง์คํ ๊ฒ ์๋๋ผ, ๋ฏฟ์ ์ ์๋ (Variance)๋ ์ง๋ฌธ์ ๋ต์ด ๋์ค๋ ๋ชจ๋ธ๋ค์ ๊ฒฐํฉํด์ผ ๋๋ค๊ณ ์ง์ ํ๋ค. ์ด๋ฆ์ ์ด๋ป๊ฒ ๋ถ์ฌ์ ์ด๋ ํ๋ฌธ์์ ์ฐ๊ณ ์๊ฑด ์๊ด์์ด, ์ํ์ ์ธ Property๋ ์ด์ฐจํผ ๊ฐ์๋ฐ, ๊ฒฐ๊ณผ๊ฐ์ ๋ด๊ฐ ์ธ ์ ์๋๋ ์๋๋๊ฐ ๋ฐ๋ก "Listen to Data"๋ฅผ ์ ๋๋ก ํ๋์ง ์๋์ง์ ๋ฐ๋ผ ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ชจ๋ธ์ Variance๊ฐ ํฌ๋ค๋ ๋ง์ Listen to Data๋ฅผ ํ์ง ์์ ๋ชจ๋ธ์ด๋ผ๋ ๋ป์ด๋๊น. (ํน์ ๋๋ฌด ์ํ ๋ฐ์ดํฐ๋ง ๊ณง์ด๊ณง๋๋ก ๋ฏฟ์๋ค๋ ์ด์ผ๊ธฐ๋๊น.)
Decision Tree vs. Regression Tree
ML ๊ณ์ฐ๋ฒ์ ์ฒ์ ๋ณด๋ ์ฌ๋๋ค์ Decision Tree๋ผ๋๊ฒ Regression๋ณด๋ค ์๋์ ์ผ๋ก ์ฐ์ํ ๊ณ์ฐ ์๋๋๋ ์ง๋ฌธ์ ํ๋ ๊ฒฝ์ฐ๊ฐ ์ข ์ข ์๋ค. ๊ทผ๋ฐ, ๊ธฐ๋ณธํ Tree๋, ํ์ฅ๋ฒ์ ์ธ Random Forest๋ ๋ชจ๋ UC Berkeley ํต๊ณํ์๊ฐ 1984๋ , 2001๋ ์ ์ด ๋ ผ๋ฌธ์ ์ ๋ฆฌ๋์ด ์๋ ๊ณ์ฐ๋ฒ๋ค์ด๋ค. ์ ๋ฆฌ๋๊ธฐ ์ค๋ ์ ๋ถํฐ ์ด๋ฏธ ๋ค๋ค ์๊ณ ์๋ ๊ณ์ฐ๋ฒ์ด๊ธฐ๋ ํ๊ณ .
์์์ ๋ณด๋ฏ์ด, Regression์ ๊ธฐ๋ฐํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ Regression์ผ๋ก ๊ตฌ๋ถํ๋๋ก ๊ตฌ๊ฐ๋ณ ํ๊ท ๊ฐ์ ๋ค๋ฅด๊ฒ ์ก๋๊ฒ Regression tree์ ์์์ ์ด๋ค.
์ญ์ ํ๋นํด๋์ค ๊ฐ์์์ ๊ณ์ ์ค๋ช ํด์๋ ๋ด์ฉ์ธ๋ฐ, ์ฌ๋ฌ ๊ตฌ๊ฐ์ ๋๋ ์ Regressionํ๋๊ฒ ์๋ฏธ๊ฐ ์๋ ๊ฒฝ์ฐ(ex. ์ฝ์ ๋ฐ์ํ๋ ๋ชธ๋ฌด๊ฒ ๊ตฌ๊ฐ์ด ์ฌ๋ฌ๊ฐ ๋๋์ด ์๋ค๋ ๊ฐ์ )์๋ง Tree ๊ณ์ด์ ๋ชจ๋ธ์ด ์๋ฏธ๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, c๋ณด๋ค ์์ ๊ตฌ๊ฐ์์๋ Regression์ด ๋ณ๋ก ํจ๊ณผ๊ฐ ์๋ ๋ฐ๋ฉด, c๋ณด๋ค ํฐ ๊ตฌ๊ฐ์์๋ Regression์ผ๋ก ํน์ ๋ณ์๊ฐ ์ ์๋ฏธํ ๊ด๊ณ๊ฐ ๋๋๋ฌ์ง๊ฒ ๋ํ๋ ์ ์๋ค.
Decision Tree๋ผ๊ณ ์ธ๋ถ์ ์๋ ค์ง ๋ชจ๋ธ์ Y์ Yํ๊ท ๊ฐ ์ฐจ์ด๋ฅผ 1๊ฐ ๋ณ์์ ํ์ ํด์ ์ฌ๋ฌ ์คํ ์ผ๋ก ๋ฐ๋ณตํ๊ณ , ๊ตฌ๊ฐ์ ๋๋ ๋ 0/1 ํํ๋ก ๊ตฌ๋ถํ๋ Step function์ Kernel๋ก ํ์ฉํ๋ Regression Tree์ ํน์ํํ ์ค ํ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Regression Tree๋ผ๋ ๋ช ์นญ์ 1 -> N๊ฐ ๋ณ์์ ๋์ํ ์ ์๋ ์ผ๋ฐํ Tree ๋ชจ๋ธ์ ์ค๋ซ๋์ ํต๊ณํ์์ ๋ถ๋ฌ์๋ ๋ช ์นญ์ด๋ค. (์ฐธ๊ณ ๋ก ์ด ๋ชจ๋ธ์ ์ค์ฒฉํ์ผ๋ก ์์ผ๋ฉด Neural Network๊ฐ ๋๋ค)
์์ ์์ Alpha๊ฐ์ด๋ผ๋ ๋ชจ๋ธ๋ณ ๊ฐ์ค์น์์ ๋ณด๋ฏ์ด, Random Forest๋ ๊ทธ๋ฐ ์ฌ๋ฌ Tree ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ ์ผ๋ง๋งํผ์ ๊ฐ์ค์น๋ฅผ ๋ฐฐ๋ถํด์ฃผ๋๋, ๊ทธ๋์ Stacking์ ์ด๋ป๊ฒ ํ๋๋๋ ๊ณ์ฐ์ด๋ค. ์ฐจ์ด๊ฐ ์๋ค๋ฉด, Tree๊ฐ ์งํํ๋ ๊ตฌ์กฐ ์์ ๋ฐ์ดํฐ์์ ์๋ ค์ฃผ๋๋๋ก ๊ฐ์ค์น๋ฅผ ๋๋ ๋ฐฐ๋ถํ๋ฉด์ ๊ตฌ๊ฐ์ ์ชผ๊ฐ๊ฐ๊ธฐ ๋๋ฌธ์, ์ข ๋ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ผ ๊ฒฝ์ฐ์ ์ ํฉํ ๋ชจ๋ธ์ ์ป์ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋ค.
์ดํด๋๋ฅผ ๋์ด๊ธฐ ์ํด ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์ ์์๋ฅผ ํ๋๋ง ๋ค์ด๋ณด์. ๋ชธ๋ฌด๊ฒ ํน์ ๊ตฌ๊ฐ A, B, C, D, E ๊ทธ๋ฃน ์ค B์ D ๊ทธ๋ฃน์์๋ง ๋ฐ์ํ๋ ์ฝ๋ฌผ์ด๋ผ๊ณ ์๊ฐํ๋ฉด, A, C, E ๊ทธ๋ฃน๊ณผ ๋ฐ์ดํฐ๊ฐ ํผ์ฌ๋ ์ํ์์์ Regression๋ณด๋ค ๊ตฌ๊ฐ์ ์ฌ๋ฟ์ผ๋ก ์ชผ๊ฐค ์ ์๋ Tree๊ฐ ๋ ํจ์จ์ ์ธ ๊ณ์ฐ์ด๊ณ , ๊ทธ๋ฐ ๊ตฌ์กฐ๊ฐ ๋จ์ํ ๋ชธ๋ฌด๊ฒ ํ๋์์๋ง ๋ํ๋๋๊ฒ ์๋๋ผ, ํค, ํ ๊ธธ์ด, ๋ค๋ฆฌ ๊ธธ์ด ๋ฑ๋ฑ์ ๋ค์ํ ์ ์ฒด ๊ตฌ์ฑ ์์์ ๋ฒ์์ ์ ๊ฐ๊ฐ์ผ๋ก ์ํฅ์ ๋ฐ๋๋ค๋ฉด, ์ด๊ฑธ Regression ํ๋๋ก ์ฐพ์๋ธ๋ค๋ ๊ฒ์ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ๋ง์ง ์๋ ๊ณ์ฐ์ด๋ค. Tree๋ก ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ๋ค์ํ ์ํ์์ ๋น์ทํ๊ฒ ๊ณ์ ๋ง์๋ค์ด๊ฐ ์ ์๋ ๋ชจ๋ธ์ ์ฐพ๊ฒ ๋ค๋ฉด, Decision Tree ํ๋๋ง ์ฐพ๊ณ ๋๋๋๊ฒ ์๋๋ผ, Random Forest๋ฅผ ์ด์ฉํด ์ฌ๋ฌ ๋ชจ๋ธ์ Model averagingํ๋๊ฒ ์ ์ ํ ๊ณ์ฐ๋ฒ์ด๋ค.
๊ฒฐ๋ก ์ด ํ ๊ธธ์ด 40cm - 45cm, ๋ค๋ฆฌ ๊ธธ์ด 80cm - 85cm, ํค 175cm - 180cm ๊ตฌ๊ฐ๊ณผ ๊ฐ ๊ฐ์ด 20%์ฉ ๋ ๋ด ๊ตฌ๊ฐ์์๋ง ์ฝ๋ฌผ์ด ํจ๊ณผ๊ฐ ์๊ณ , ๊ทธ ์ธ์ ๋๋จธ์ง ๊ตฌ๊ฐ์์๋ ์์ ํจ๊ณผ๊ฐ ์๋ค๋ฉด? ๊ฐ ๊ฐ์ด 10% ์์ ๊ตฌ๊ฐ๊ณผ 10% ํฐ ๊ตฌ๊ฐ์์๋ ์๋ฌด๋ฐ ํจ๊ณผ๊ฐ ์์๋ค๋ฉด? ์ผ๋ฐ์ ์ธ Regression์ ๊ทธ ์ฝ๋ฌผ์ด ๊ทธ๋ค์ง ํจ๊ณผ๊ฐ ์๋ค๊ณ ๊ฒฐ๋ก ๋ด๋ฆฌ๊ฒ ์ง๋ง, Regression์ Tree๋ฅผ ์ด์ฉํด ๊ตฌ๊ฐ์ผ๋ก ๋๋ ๋ณด๋ฉด ์์ ํน์ 2๊ฐ ๊ตฌ๊ฐ์์๋ง ๋๋๋ฌ์ง ํจ๊ณผ๊ฐ ์์์ ์ข ๋ ์ฝ๊ฒ ์ฐพ์๋ผ ์ ์๋ค.
์ด๋ฐ ๊ตฌ๊ฐ๋ณ ํจ๊ณผ๋ Monotonic increase/decrease๋ฅผ ๊ฐ์ ํ๋ ๊ธฐ์กด Regression ๋ชจ๋ธ๋ก ํ์ด๋ด๋๋ฐ ํ๊ณ๊ฐ ์์ผ๋, ๊ตฌ๊ฐ์ ํ๋ํ๋ ๋ค ๋ค์ ธ๋ณด๊ฒ ๋ค๋ ๊ด์ ์์ Algorithmic approach๋ฅผ ํตํด (More specifically, Tree ๋ชจ๋ธ์ ํตํด) ๊ทธ๋ฐ ๊ตฌ๊ฐ์ ์ฐพ์๋ผ ์ ์๋๋ก ์ปดํจํฐ์ ์์กดํ๋ ๊ฒ์ด๋ค. (๋ค๋ง Monotonic์ด ๊นจ์ง๋ ๊ฒฝ์ฐ๊ฐ ๊ทธ๋ ๊ฒ ์ผ๋ฐ์ ์ด์ง๋ ์๋ค. ํ ๊ธธ์ด๊ฐ 40cm, 50cm, 60cm +-1cm ์ธ ๊ตฌ๊ฐ์์๋ง ํจ๊ณผ๊ฐ ์๊ณ , ๋๋จธ์ง ํ ๊ธธ์ด์์๋ ํจ๊ณผ๊ฐ ์๋ ์ฝ๋ฌผ์ด ๊ณผ์ฐ ์ผ๋ง๋ ๋ ๊น?)
Neural Network vs. Factor Analysis
K๊ฐ์ ๋ณ์ X๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ๊ทธ ์ค ์ค์ ๋ก ์จ๊ฒจ์ง ๋ณ์ (Latent / Unobserved variable)์ธ Z๋ ์ด K_1๊ฐ๊ฐ ์๋ค๊ณ ํ๋ฉด,
Sigmoid ํจ์๋ฅผ Kernel, ๋๋ (ML์ชฝ ์ฉ์ด๋ก) Activation Function์ผ๋ก ์ด๋ค๊ณ ํ์ ๋, ์ฒซ๋ฒ์งธ Hidden Layer๋ฅผ ๋ฐ๋ก ์์ ์์ผ๋ก ์ ๋ฆฌํ ์ ์๋ค.
์์์ Beta๋ ML์์ ์ด์ผ๊ธฐํ๋ ๊ฐ์ค์น์ด๊ณ , g(.)๋ Activation function, K๋ ์ ๋ ฅํ๋ ๋ณ์์ ์ซ์, K_1์ Node์ ์ซ์, Z๋ ์จ๊ฒจ์ง ๋ณ์, epsilon์ ํ๊ท๋ถ์์์ ๋งํ๋ ์ค์ฐจํญ์ด๋ค.
๊ฐ์ ๋ ผ๋ฆฌ๋ก Hidden Layer 1์์ Hidden Layer 2๋ก ๊ฐ๋ ์์ ์ธ์ธ ์๋ ์๋ค.
์ด๋ฐ ์์ด ๋ฐ๋ณต๋๋ ๊ตฌ์กฐ๊ฐ Neural Network๋ก ์๋ ค์ง ๊ณ์ฐ๋ฒ์ธ๋ฐ, ํ๋นํด๋์ค์์ ์ค๋ช ํด์๋๋๋ก, Activation Function์ ๋จ์ ์ ํ ํจ์๋ก ์ฐ๋ ๊ฒฝ์ฐ๋ Linear Factor Analysis์ด๊ณ , ๋น์ ํ ํจ์๋ฅผ ์ฐ๋ ๊ฒฝ์ฐ๋ Non-linear Factor Analysis์ด๋ค. Factor Analysis์ ๋์น์ธ ์ด์ ๋ Hidden Layer๋ผ๊ณ ๋ถ๋ฅด๋ ๊ณณ์ ์๋ Node๊ฐ ๋ชจ๋ ์จ๊ฒจ์ง ๋ณ์ (Latent / Unobserved variable)์ด๋ผ๋, ์ ํ์ ์ธ Factor Analysis ๊ณ์ฐ์ ๊ฒฐ๊ณผ๊ฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์จ๊ฒจ์ง ๋ณ์๋ฅผ ์ ํํ๊ฒ ํน์ ํ ์ ์๊ธฐ ๋๋ฌธ์, FA ๊ณ์ฐ์ ๋ง์ ๊ฒฝ์ฐ์ "์ฝ์ ๊ฑธ๋ฉด ์ฝ๊ฑธ์ด, ๊ท์ ๊ฑธ๋ฉด ๊ท๊ฑธ์ด"๋ผ๋ ๋น๋์ ๋ฐ๋๋ค. ๊ธ ์ ๋ถ๋ถ์ Network ๋ชจ๋ธ์ด ๊ฐ์ง ํ๊ณ๋ฅผ ์ง์ ํ๋ ๋ถ๋ถ๊ณผ ์ผ๋งฅ ์ํตํ๋ค.
์ ๊ท๋ถํฌ์ ํฉ๊ณผ ์ฐจ๋ ์ ๊ท๋ถํฌ์ด๊ธฐ ๋๋ฌธ์, ์ ๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ์ธ ๊ฒฝ์ฐ์ ์ถ๋ ฅ๊ฐ๋ ์ ๊ท๋ถํฌ๋ผ๊ณ ๊ฐ์ ํ๋ค๋ฉด, ๋จ์ํ Linear Factor Analysis๋ก ์ถฉ๋ถํ ๊ณ์ฐ์ด๋ค. ๋ง์ ๋ฐ๊พธ๋ฉด, Neural Network๋ผ๋ ๊ณ์ฐ์ด ํ์ํ ๋ฐ์ดํฐ ํ๋ก์ธ์ค๋ ์ ,์ถ๋ ฅ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ ์ ๊ท๋ถํฌ๊ฐ ์๋ ๊ฒฝ์ฐ์ ์ ํ๋๋ค. Non-linear Factor Analysis๊ฐ ํ์ํ๋ค๋ ๋ป์ด๊ธฐ ๋๋ฌธ์ด๋ค.
๊ฐ์ ๋งฅ๋ฝ์์ Deep Neural Network๊ฐ ํ์ํ ๊ฒฝ์ฐ๋, ์ฌ๋ฌ๋ฒ์ Factor Analysis๊ฐ ๋ฐ๋ณต๋์ด์ผ ํ๋ ๊ณ์ฐ์ธ ๊ฒฝ์ฐ์ธ๋ฐ, ์์ ์ ๊ท๋ถํฌ -> ์ ๊ท๋ถํฌ ๊ตฌ์กฐ์์๋ ์๋ฏธ๊ฐ ์๋ค. ์ ๊ท๋ถํฌ์ ํฉ๊ณผ ์ฐจ๋ ๊ณ์ํด์ ์ ๊ท๋ถํฌ๋ฅผ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ๋ด๋ณด๋ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค. DNN์ด๋ผ๋ ๊ณ์ฐ๋ฒ์ด, ๋ฐ์ดํฐ๊ฐ ์์๊ตฌ์กฐ๋ฅผ ๋๊ณ ์์ด์ Factor๋ฅผ ๋จ๋ฒ์ ์ฐพ์๋ด๋๊ฒ ์ด๋ ค์ด ๊ตฌ์กฐ, ๊ทธ๋์ ์ฌ๋ฌ ๋ฒ์ Factor Analysis๋ฅผ ๋ฐ๋ณตํด์ ์์๊ตฌ์กฐ์ ๊น์ํ ๊ณณ์ ์ฐพ์๊ฐ์ผ ์ํ๋ ๋ฐ์ดํฐ์ ์จ๊ฒจ์ง ๊ตฌ์กฐ๋ฅผ ์ฐพ์๋ผ ์ ์๋ ๊ฒฝ์ฐ์๋ง ํ์ํ ๊ณ์ฐ๋ฒ์ด๋ผ๋ ๊ฒ์ด ๋ฐ๋ก ์ด๋ฐ ๋งฅ๋ฝ์ด๋ค.
๊ฒฝ์ ํ์์ Algorithmic approach๋ฅผ ์ ์ด ์ ์งธ, ๋ท์งธ ์ด์
์์ ์ง์์ด ๊ฐ์ถฐ์ก์ผ๋ ๊ฒฝ์ ํ๊ณ์์ Algorithmic approach๋ฅผ ์ ์ ๋ค๋ค์๊น์ ๋ํ ์ด์ ๋ฅผ ์ถ๊ฐํ๋ฉด,
์ ์งธ, ๊ฒฝ์ ํ์ ๋ง์ ๋ฐ์ดํฐ๋ค์ด Non-linear ํจํด์ด๋ ๊ตฌ๊ฐ๋ณ ํจ๊ณผ๊ฐ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ๊ฐ ๊ฑฐ์ ์๊ธฐ ๋๋ฌธ์ด์๋ค. ๋๋ถ๋ถ์ X -> Y ๊ด๊ณ๋ Monotonic increase/decrease ๊ด๊ณ๋ฅผ ๊ฐ๊ณ ์๊ณ , ๊ทธ ํจํด์ด Non-linearํ๋ค๊ณ ํด๋ Log๊ฐ ๊ธฐ์ค์ผ๋ก ๋ณํ์จ๊ฐ ๊ด๊ณ, ํน์ ๊ตฌ๊ฐ (Equilibrium ๊ทผ์ฒ)์์์ ์์ง์์ ๋ณด๊ณ ์์ผ๋ฉด non-linearity๊ฐ ๋๋ถ๋ถ ์ ๊ฑฐ๋ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค. ์์์ ๋ณด๋ฏ์ด, ๋๋ถ๋ถ์ ML ๋ฐฉ๋ฒ๋ก ๋ค์ด ๊ธฐ์กด์ ํต๊ณํ์ "๋จ์ํ ๋ค๋ฅด๊ฒ" ์ฐ๋ ๊ณ์ฐ๋ฒ๋ค์ด๋ผ ๊ณ๋๊ฒฝ์ ํ์ ํ๋ ์ฌ๋๋ค์ด ๋ชฐ๋์๋ฆฌ๊ฐ ์์์์๋ ๋ถ๊ตฌํ๊ณ ์ด์ฉํ์ง ์์๋ ๊ฐ์ฅ ๊ถ๊ทน์ ์ธ ์ด์ ๋ค. ํ์๊ฐ ์์์ผ๋๊น. ๋ค๋ฃจ๋ ๋ฐ์ดํฐ๊ฐ ๋ฌ๋ผ์ง๊ฑฐ๋, ๋ชฉ์ ์ด ๋ฌ๋ผ์ง๋ ๊ฒฝ์ฐ์๋ง ๋์ ๋๋ฆฌ๊ฒ ์ง.
๋ท์งธ, ์ฌํ๊ณผํ ๋ฐ์ดํฐ๋ Endogeneity๊ฐ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์, Simultaneity, Mis-specification, Measurement error ๋ฑ๋ฑ์ ๋ค๋ค์ฃผ๊ฑฐ๋, Time series์์ Endogeneity ๊ฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ๋ฌธ์ ๊ฐ ์๋์ด๋ Noise๋ฅผ ์ ๊ฑฐํด์ค์ผํ๋ ๊ฒฝ์ฐ๋ฅผ ๋จผ์ ๊ณ ๋ฏผํ๋ค. ์ผ๋จ ์๋ ค์ง or ์ง์ํ ์ ์๋ ๋ฌธ์ ๋ฅผ ์ ๊ฑฐํ์ง ์๊ณ ๋ฐ์ดํฐ ์์ ์ ๋ค์ด๊ฐ๋ฉด ํ์ ์๊ฒฉ์ ์์ฌ ๋ฐ๋๋ค. ๋ฐ๋ฉด, Algorithm approach๋ ๊ทธ๋ฐ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ๊น๊ฒ ๊ณ ๋ฏผํ์ง ์๊ณ ๋ ๋ฐ์ดํฐ ์์ ํจํด์ ์ฐพ์๋ผ ์ ์๋ค๋ ๊ด์ ์์ ํ์ฉ๋๋ ๊ณ์ฐ๋ฒ์ธ๋ฐ, ๋ฐ์ดํฐ์ Endogeneity๋ฅผ ๋น๋กฏํ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ๋ฌธ์ ๋ฐ ๊ฐ์ข Noise๋ฅผ ์ ๊ฑฐํ์ง ์๊ณ ๋ฌด์์ Algorithmic approach์๋ง ๊ธฐ๋๋ด์ผ ์ํ๋ ๊ฐ์ ์ฐพ์ ์๋ ์๊ณ , ์ฐ์ฐํ ์ฐพ์๋ธ๋ค๊ณ ํด๋ ์ฐ์ฐ์ผ ๋ฟ์ด์ง, ๊ณ์ ๋ฐ๋ณต์ ์ผ๋ก ์ธ ์๋ ์๋, ์ฆ ํ๋ฌธ์ ๊ฐ์น, ์๋ ์ง์์ ๊ฐ์น๊ฐ ์๋ค๊ณ ํ๋จํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ค์ ๋ก ๊ฒฝ์ ํ์๋ค์ด ๋ชจ์ธ ์ฐ๊ตฌ์์ ML, DL, RL ๊ฐ์ Algorithm approach๋ฅผ ITํ์์ฒ๋ผ ์ฝ๋๋ง ์ฃผ์๋ด๋๊ฒ ์๋๋ผ, ์ ๋๋ก ์ํ์ ์ผ๋ก ๋น๋ํด์ ๊ฐ์ํ๋ฉด,
์์ด~ ๊ทธ๊ฑธ ์ด๋ป๊ฒ ์จ~
๋ผ๋ ๋ง์ด ๋จผ์ ๋์จ๋ค. Noise ๋ฐ์ดํฐ์์ Noise๋ฅผ ์ ๊ฑฐํ์ง ์๊ณ Pattern์ ์ฐพ์ ์ ์๋ค๋ "Algorithm approach"๊ฐ "์ฌ๊ธฐ"๋ผ๋๊ฑธ ๋ฐ๋ก ์ธ์งํ๊ธฐ ๋๋ฌธ์ ์ฆ, ์ฌํ๊ณผํ ๋ฐ์ดํฐ์๋ "ํ๋ฆฐ" ์ ๊ทผ์ด๋ผ๋๊ฑธ ๋ฐ๋ก ์ธ์งํ๊ธฐ ๋๋ฌธ์ด๋ค. Noise๊ฐ ์๊ณ , ์ธ๊ณผ ๊ด๊ณ ๋ฐ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ๋ฌธ์ ๊ฐ ์๋ ๋ฐ์ดํฐ, ๊ทธ๋ฐ ๊ณ ๋ฏผ ์์ฒด๊ฐ ํ์์๋ ๋ฐ์ดํฐ, ์ฆ ์ด๋ฏธ์ง ์ธ์, ์์ฐ์ด ์ฒ๋ฆฌ ๋ฑ๋ฑ, Algorithm approach๊ฐ ๋ง๋ ๋ฐ์ดํฐ์๋ง ์จ์ผํ๋๋ฐ, ๊ทธ๊ฑธ ๋ชจ๋ ์์ญ์ ๋ค ์ธ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ ๊ตญ๋ด ๋ช๋ช ๊ณตํ๋๋ค์ ์ฐ๋ฌผ ์ ๊ฐ๊ตฌ๋ฆฌ ๊ฐ์ ๋ชจ์ต์ ๊ฒฝ์ ํ์๋ค์ด ์ด๋ค ๋์ผ๋ก ๋ณผ์ง ์ถฉ๋ถํ ์ดํด๋์ง ์๋?
๋๊ฐ๋ฉฐ - ML๋ฐฉ๋ฒ๋ก ์ด ํ๋์์ ๋จ์ด์ง ๋ฐฉ๋ฒ๋ก ์ด ์๋๋ค
์ด ์ ๋๋ฉด ๋งํฌ ๊ฑด Summary paper์ ์ฝ 1/3 ์ ๋๋ฅผ ๋ค๋ฃฌ ๊ฒ ๊ฐ๋ค. ์์ ์ค๋ช ์ด ์ด๋ ์ ๋ ๊ธธ์ก์ด๊ฐ ๋์ํ ๋, ์ดํดํ๋ ๋ ์ ๋ถ๋ค์ ๋๋จธ์ง ๋ถ๋ถ๋ ๋งํฌ์ ๋ ผ๋ฌธ์ ์ง์ ์ฝ๊ณ ์ดํดํ ์ ์์ ๊ฒ์ด๋ค. SIAI์ ํ๋ถ ๊ณ ํ๋ ์์ค ๊ณผ๋ชฉ์ธ Machine Learning, Deep Learning, Reinforcement Learning ๋ฑ์ ์์ ์ผ๋ถ์์ ์์ Summary paper๋ฅผ ๋ค๋ฃฌ๋ค. ๊ทธ ์์ ์ ์ ๋ฐฐ์ฐ๋ ๋ค๋ฅธ ํต๊ณํ ์์ ์์ ๋ฐฐ์ฐ๋ ๋ฐฉ๋ฒ๋ก ๊ณผ ์์ ์ค๋ช ์ฒ๋ผ ํ๋ํ๋ ๋น๊ตํ๋ฉฐ, ์ธ์ ์ด๋ค ๊ฒฝ์ฐ์๋ง ML๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๋์ง๋ฅผ ์ต๋ํ ์ง๊ด์ ์ผ๋ก ์ดํด์ํค๋ ๊ฒ์ด ๊ทธ ๊ณ์ฐ๊ณผํ ์์ ๋ค์ ๋ชฉํ๋ค. (์๋ชป ๋ฐฐ์ ๋๊ฐ๋ฉด Decision Tree ๋ณํํ ๋ชจ๋ธ๋ก ์ฃผ๊ฐ ์์ธกํ๋ ๋ณ์๋ฅผ ์๋์ผ๋ก ์ฐพ์๋ผ ์ ์๋ค๊ณ ๋ง์ํ๋ ๋ก๋ณด ์ด๋๋ฐ์ด์ ํ์ฌ ์ฐจ๋ฆฌ๊ณ ํฌ์ ๋ฐ์ผ๋ฌ ๋์๋ค๋ ์๋ ์๋ค.)
๊ทธ๋ฐ ์ดํด๋๋ฅผ ๊ฐ์ถ๊ฒ๋๋ฉด, ์์ฅ์์ ML, DL, RL์ ์ ์ฉํด์ ๋ญ๊ฐ ์์ฒญ๋ ๊ฑธ ํด ๋๋ค๊ณ ์ฃผ์ฅํ๋ ์ธ๋ก ํ๋ณด์ ์ค์์ ์ข ๋ ๊น์ด์๊ฒ, ๋ํนํ ์์ ์ผ๋ก ํ์ ํ ์ ์์ ๊ฒ์ด๋ค. ์๋ง ํ์ ๊ณผ์ ์ด ๋๋๋ ๋ฌด๋ ต์ด ๋๋ฉด, MBA๊ฑด MSc ๊ณผ์ ์ด๊ฑด ์๊ด์์ด, ์์ ์ดํด๋ ์์ด ์ฝ๋๋ง ๊ฐ๋ค ๋ถ์ฌ์ ๋ง๋ ๊ฒฐ๊ณผ๋ฌผ์ด ์ ์ ๋๋ก ์๋ํ์ง ์๋์ง, ๊ทธ๋ฐ ๊ฒฐ๊ณผ๋ฌผ์ ์๊ฐ๊ณผ ์ธ๋ ฅ๊ณผ ๋์ ์์๋ถ๋ ์์ ์ด ์ผ๋ง๋ ์ฌํ์ ์์์ ๋ญ๋น์ธ์ง, ๊ทธ๋์ ์ ๋๋ก ๋ ์ง์์ ๋ณผ ์ ์๋ ์์ผ๋ฅผ ๊ฐ์ถ๋ค๋ ๊ฒ์ด ๋จ์ํ ์ฐ๊ตฌ ์์ ๋ฟ๋ง ์๋๋ผ ๊ธฐ์ ์ ์์ฌ ๊ฒฐ์ ๊ณผ ์์กด, ๋ฐ์ ์ ์ผ๋ง๋ ๊ฒฐ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋์ง ์ข ๋ ์ด๋ฆฐ ์์ผ๋ก ์ดํดํ ์ ์๊ฒ ๋ ๊ฒ์ด๋ค.
ํ๋ ์๋ ์๋ก์ด ๊ฒ์ ์๋ค
๋ผ๋ ํํ์ด ์๋ค. ML๋ฐฉ๋ฒ๋ก ๋ค, ์ข ๋ ์ผ๋ฐํํด์ Algorithmic approach๋ผ๋ ๊ฒ๋ค์ด, ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ง ์๊ณ ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋จ๋๋ ๊ธฐ๋ณธ ์์ ์ ๋ฆฌํด๋ณด๊ฒ ๋ค๋, ์ ๊ทผ ๊ด์ ์ ์ฐจ์ด๋ง ์์ ๋ฟ, ์ฌ์ค ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ชจ๋ ๊ธฐ์กด์ ํต๊ณํ์ ํ์ฉํ๋ ๊ณ์ฐ๋ฒ๋ค์ ๋ถ๊ณผํ๋ค. ์ฆ, ๊ธฐ์กด์ ํต๊ณํ ๊ณ์ฐ๋ฒ๋ค์ด ๋ชปํ๋ ๊ฑธ ํด๋ด๋ ๋ง๋ฒ๋ ์๋๊ณ , ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ก ๋ค์ด ๊ฐ์ง ํ๊ณ๋ฅผ ๋ฒ์ด๋์ง๋ ๋ชปํ๋ค. ๊ทธ๋ฅ ์ข "๋ค๋ฅธ ๊ด์ "์ผ ๋ฟ์ด๋ค.
๋จ์ง, (ํน์ ํ ๋ช๋ช ๊ฒฝ์ฐ์๋ง) ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ง ์๊ณ ๋ ๋ชจ๋ธ์ ์ฐพ์๋ด๋ ์ฅ์ ์ ๊ฐ์ง ๋ฐ๋ฉด, ๋ถ์ฐ, ๊ฒ์ ๋ ฅ ๋ฑ๋ฑ์ ์๋ง์ ํต๊ณํ ๋๊ตฌ๋ค์ ํฌ๊ธฐํ๋ ๊ณ์ฐ๋ฒ์ ๋ถ๊ณผํ๋ค.
๊ทธ๋ฐ ํ๊ณ๋ฅผ ๋ช ํํ๊ฒ ์ดํดํ๊ณ , Listen to Data๋ฅผ ํ๊ธฐ ์ํด ํ์ฌ ๋ด๊ฐ ๊ฐ์ง Data์ ์ํฉ, ๋ด ์์ ๋ชฉ์ ๋ฑ๋ฑ์ ๋๋ฃจ๋๋ฃจ ๊ฐ์ํด์ ์ ์ ํ ๊ณ์ฐ๋ฒ์ ์ ํํ๋ ๊ฒ์ด ์ง์ง Data Science์๋๊น?
๋ฏฟ์ ์ ์๊ฒ ์ง๋ง, ์ Summary Paper๋ ๋ด๊ฐ ์์ฌํ๋ ํ๊ต์ ํ๋ถ 2ํ๋ Introduction to Econometrics ๋ผ๋ ์์ ์ ์ฝ๊ธฐ์๋ฃ ๋ฐ Problem Set์ด๋ค. ์์ฌ ๋ ๋ฒจ๋ ์๋๊ณ , ํ๋ถ ์กธ์ ๋ฐ๋ ์๋๊ณ , ํ๋ถ 2ํ๋ ๋ ์ด๋ฏธ ML, DL, RL์ด๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ณ์ฐ๊ณผํ์ ์ ๊ทผ๋ฒ์ ๊ธฐ์ด ๊ณ๋๊ฒฝ์ ํ ์์ ๋ (Side๋ก) ๋ฃ๊ณ (๋) ์ดํดํ๊ณ , Problem Set์ ํ ์ ์๋ ์์ค์ ๊ต์ก์ ๋ฐ๋๋ค.
์์ฌ ๊ณต๋ถํ๋ ์์ ๋ด๋ด ๊ทธ๋ค์ ๊ต์ก ์์ค์ ์ถฉ๊ฒฉ ๋จน์์์ง๋ง, ์ ๋ ผ๋ฌธ์ ํ๋ถ 2ํ๋ ์์ ์ฝ๊ธฐ์๋ฃ์ ์ฐ์ต๋ฌธ์ ์์ ๋ณด๊ณ ๋ง๋ก ํ์ฉํ ์ ์๋ ์ถฉ๊ฒฉ์ ๋ฐ์์๋ค. ์ฐ๋ฆฌ๋๋ผ ๊ณต๋์์ ์์นญ AIํ๋ค๋ ๊ต์๋ค ์ค์ ์ ๋ ผ๋ฌธ์ผ๋ก ๋ง๋ ๊ณ ๊ธ ์ฐ์ต๋ฌธ์ ํ์ด๋ ์ปค๋ , ๋ ผ๋ฌธ ์์ฒด๋ฅผ ์ดํดํ๋ ๋น์จ์ด ํ ์๋ฆฌ ์ซ์๊ฐ ์ ๋ ํ ๋ฐ...
์ง๊ทนํ ๊ฐ์ธ์ ์ธ ๊ฒฌํด๋ฅผ ๋ง๋ถ์ด๋ฉด, ๊ฒฝ์ ํ๊ณ์์ ML, DL, RL ์ผ๋ก ๋ํ๋๋ Algorithm approach๋ฅผ ์ ์ด ๊ฐ์ฅ ๊ฒฐ์ ์ ์ธ ์ด์ (My version of ๋ค์ฏ์งธ)๋, ๊ณ๋๊ฒฝ์ ํ์๋ค์ด ํต๊ณํ ํ๋ จ์ด ์ ๋์ด ์์ด์ (์ต์ํ ๊ณต๋๋ณด๋ค๋ ์ ๋์ด ์์ด์), ํต๊ณํ ํ๋ จ์ ํ๋๋ ์ ๋ฐ๊ณ ๋ฌด์กฐ๊ฑด ์ปดํจํฐ ์ (็ฅ)๋์ด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ฃผ์ค ๊ฒ์ด๋ผ๊ณ ์ค์ธ ์ ์์ ๋ฏฟ์์ ๊ฐ๋ ๊ณตํ๋๋ค๋ณด๋ค, ์ธ๊ฐ์ ์ง์ฑ์ ๋ ์ค์์ํ๋ ๋ฅด๋ค์์ค ์๋์ ์กฐ๊ธ์ ๋ ๊ฐ๊น์ด ๊ณต๋ถ๋ฅผ ํ๊ธฐ ๋๋ฌธ์ด ์๋๊น ์ถ๋ค.