[ํด์ธ DS] ๋ง์ดํฌ๋ก์ํํธ ์ํ ์ ์ฉ SLM '์ค๋ฅด์นด-๋งค์ฐ' ๋ฐํ, LLM๊ณผ ๊ธฐ์กด ๋ชจ๋ธ ๋ชจ๋ ๋ฅ๊ฐ
์ ๋ ฅ
์์
์ค๋ฅด์นด-๋งค์ฐ๋ ๋ฏธ์คํธ๋ 7B ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก์ผ๋ฉฐ, GSM8K ๋ฒค์น๋งํฌ์์ LLM๊ณผ ๊ธฐ์กด ์ํ ์ ์ฉ ๋ชจ๋ธ์ ๋ชจ๋ ๋ฅ๊ฐํด ์ฃผ์ ์ฑ๊ณต ์์ธ์ ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ, ๋ฐ๋ณต ํ์ต, SFT-KTO-KTO ์ํ์ค๋ฅผ ํ์ฉํ ๊ต์ฌ์ ํผ๋๋ฐฑ ํ์ง ํฅ์์ ์์ด ๋ง์ดํฌ๋ก์ํํธ๋ 20๋ง ๋จ์ด์ AI ์์ฑ ํฉ์ฑ ์ํ ๋ฌธ์ ์ธํธ๋ฅผ ํ๊น ํ์ด์ค์ ๊ณต๊ฐ

๋ง์ดํฌ๋ก์ํํธ ๋ฆฌ์์น(์ดํ MS)์์ ์ํ ์ ๋ฌธ ์ธ์ด ๋ชจ๋ธ '์ค๋ฅด์นด-๋งค์ฐ'(Orca-Math, ์ดํ ์ค๋ฅด์นด)๋ฅผ ๋ฐํํ๋ค. ์ค๋ฅด์นด๋ ์ํ์ธ์ด๋ชจ๋ธ(SLM)๋ก ์ํ ๋ฌธ์ ํด๊ฒฐ์ ์์ด ์ ๋ฏธ๋์ด ํ๋ก(Gemini Pro) ๋ฐ GPT-3.5์ ๊ฐ์ ๋ํ์ธ๋ชจ๋ธ(LLM)๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ฌ ํน์ ๋๋ฉ์ธ์ ํนํ๋ SLM์ ์ ์ฌ๋ ฅ์ ๋ฝ๋๋ค.
์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์์ LLM๊ณผ ๊ธฐ์กด ์ํ ์ ์ฉ ๋ชจ๋ธ์ ๋ชจ๋ ๋ฅ๊ฐ
'๋ฏธ์คํธ๋ 7B'(Mistral 7B) ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ์ค๋ฅด์นด๋ GSM8K pass@1์์ 86.81%๋ผ๋ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋๋ฉฐ ๋ฉํ, ๊ตฌ๊ธ, ์คํAI์ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ถ์ํ๋ค. GSM8K๋ ์ธ๊ฐ ์์ฑ์๊ฐ ๋ง๋ 8.5๋ง ๊ฐ์ ์ด๋ฑํ๊ต ์์ค์ ์ํ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ ์ธํธ๋ค. ์ฃผ๋ก ๊ธฐ๋ณธ ์ฐ์ ์ฐ์ฐ(+ - รรท)์ ์ฌ์ฉํ์ฌ ์ผ๋ จ์ ๊ณ์ฐ์ ์ํํด ์ต์ข ๋ต์ ๋๋ฌํ๋ ๋ฐฉ์์ผ๋ก ํธ๋ ๋ฌธ์ ๋ค. ์๋ฆฌํ ์คํ์์ด๋ผ๋ฉด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํ ์ ์์ด์ผ ํ๋ ์์ค์ด๋ค.

์ค๋ฅด์นด๋ LLM๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์์ ๋ฟ๋ง ์๋๋ผ, MetaMath-70B ๋ฐ WizardMa8th-70B์ ๊ฐ์ ๋ค๋ฅธ ์ํ ์ ์ฉ ๋ชจ๋ธ๊ณผ์ ๊ฒฝ์์์๋ ์ฐ์๋ฅผ ์ง์ผฐ๋ค. ๋ํ AddSub, MultiArith, SinglEq์ ๊ฐ์ ๋ค๋ฅธ ์ํ ๋ฐ์ดํฐ ์ธํธ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ๋ค. ์ํ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ด SLM์๊ฒ ์ค๋ซ๋์ ๋ณต์กํ ์์ ์ผ๋ก ์ธ์๋์ด ์๋ ๊ฑธ ๋ฏธ๋ฃจ์ด ๋ณด๋ฉด ๊ด๋ชฉํ ๋งํ ์ฑ๊ณผ๋ผ๋ ํ์ด ๋ฉ๋์ด ๊ฐ๋ ์ด์ ๋ค.
๋ ์์ ๋ชจ๋ธ๋ก ๋ ๋์ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ฐ๊ตฌ์๋ค์ ์ข ์ข SLM์ ํ๋ จ์์ผ ์ฝ๋๋ฅผ ์์ฑํ๊ฑฐ๋ ๊ณ์ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ ์ค๋ฅ๋ฅผ ๋ฐฉ์งํ๋ค. ์์ธ๋ฌ ๋ชจ๋ธ์ ์ต๋ 100ํ๊น์ง ํธ์ถํ์ฌ ๊ฐ ํธ์ถ๋ง๋ค ๋ฌธ์ ํด๊ฒฐ์ ๋ค์ ์๋ํ๋ ์์๋ธ์ด๋ผ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋๋ฐ, ์์๋ธ์ ์ฌ์ฉํ๋ฉด ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋์ง๋ง, ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฒ ํธ์ถํ๊ธฐ ๋๋ฌธ์ ์ปดํจํ ๋น์ฉ์ด ํฌ๊ฒ ์ฆ๊ฐํ๋ ๋ฌธ์ ์ ์ด ์๋ค. ์ค๋ฅด์นด ์ฐ๊ตฌ์ง์ ๋ฐ๋ฅด๋ฉด ์ด๋ฒ ์ฐ๊ตฌ๋ ์ํ ๋ฌธ์ ํด๊ฒฐ์ ํนํ๋ SLM์ด ์ธ๋ถ ๋๊ตฌ, ๊ฒ์ฆ์ ๋๋ ์์๋ธ์ ์ฌ์ฉํ์ง ์๊ณ ๋ ์ผ๋ง๋ ๋ ๋์ ์์ค์ ๋ฅ๋ ฅ์ ๋ฐํํ ์ ์๋์ง ํ๊ตฌํ๋ ๊ฒ์ ๋ชฉํํ๋ค๊ณ ํ๋ค.
๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ฐ๋ณต ํ์ต
๋จผ์ MS ์ฐ๊ตฌ์ง์ ์ค๋ฅด์นด์ ์ฑ๊ณต ์์ธ์ ๊ณ ํ์ง์ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๊ผฝ์๋ค. ์๋ ๋ฌธ์ ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์์ ์์ฑ์ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ์์ฑํ๋ฉด ์์ ๋ชจ๋ธ์ ์ํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋ค. ์ฐ๊ตฌ์ง์ ์๋ ์์ฑ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ฌธ์ ์ ์๋ฃจ์ ์ ์์ฑํ๋ ๋ค์ค ์์ด์ ํธ๋ก ํ์ด๋ฒ์ ๋ ๋ง์ด ๋ง๋ค ์ ์์์ ๋ฟ๋ง ์๋๋ผ ๋ฌธ์ ์ ๋ค์์ฑ๊ณผ ๋์ด๋๋ ๋์ผ ์ ์์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ์ ์์(suggester)์ ํธ์ง์(editor) ์์ด์ ํธ๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ ์์๋ ๋ฌธ์ ๋ฅผ ๊ฒํ ํ๊ณ ๋ณต์ก๋๋ฅผ ๋์ด๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ํธ์ง์๋ ์๋์ ๋ฌธ์ ์ ์ ์์์ ์ถ์ฒ์ ์ฐธ๊ณ ํด ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์ฌ๋ฌ ๋ผ์ด๋์ ๊ฑธ์ณ ์งํ๋ ์ ์์ผ๋ฉฐ ๊ฐ ๋ผ์ด๋๋ง๋ค ๋ฌธ์ ์ ๋์ด๋๊ฐ ๋์์ง๋ค. ๋ง์ง๋ง์ผ๋ก ์ ์ผ์ ์์ด์ ํธ๋ ๋ฌธ์ ๊ฐ ํด๊ฒฐ ๊ฐ๋ฅํ์ง ํ์ธํ๊ณ ํด๊ฒฐ์ฑ ์ ๋ง๋ ๋ค.
ํ์ต ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ๋ง๊ฒ ํ์ต ๊ณผ์ ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ต์ฌ(LLM)์ ํ์(SLM) ๊ฐ์ ๋ฐ๋ณตํ์ต์ด ์ด๋ฃจ์ด์ง๋ค. ๋ง์น ์ค์ ํ์์ด ๊ต์ฌ๋ก๋ถํฐ ์ํ ๋ฌธ์ ํ์ด๋ฒ์ ๋ฐฐ์ฐ๋ฏ์ด ํ์ ๋ชจ๋ธ์ ๋จผ์ ๊ต์ฌ ๋ชจ๋ธ์ ์๋ฒ์ ํตํด ํ์ด๋ฒ์ ๋ฐฐ์ด๋ค. ๊ทธ๋ฐ ๋ค์ ํ์ ๋ชจ๋ธ์ ์ค์ค๋ก ๋ฌธ์ ํด๊ฒฐ์ ์ฐ์ตํ๊ณ ๊ต์ฌ ๋ชจ๋ธ์ ๊ทธ์ ๋ง๋ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ฉฐ, ์ฌ๊ธฐ์ ๋์ผํ ๋ฌธ์ ์ ๋ํ ์ข์ ํด๊ฒฐ์ฑ ๊ณผ ๋์ ํด๊ฒฐ์ฑ ์ ๋ชจ๋ ๋ณด์ฌ์ฃผ๋ ์ ํธ๋ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋๋ค. ํผ๋๋ฐฑ์ ๋ฐ์ ํ์ ๋ชจ๋ธ์ ํด๋น ๋ด์ฉ์ ์ฐธ๊ณ ํด ๋ ์ข์ ํ์ด๋ฒ์ ๋ง๋ค์ด๋ด๊ณ ์ด๋ฌํ ํ๋ก์ธ์ค๋ ๋ฐ๋ณต์ ์ผ๋ก ์งํ๋๋ค. ๋ฌผ๋ก ์ฌ๋ฌ ๋ฒ ์๋ํ ํ์๋ ํ์ ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํด๊ฒฐํ ์ ์๋ ๊ฒฝ์ฐ, ๊ต์ฌ๊ฐ ์ ๊ณตํ ์๋ฃจ์ ์ ์ฌ์ฉํ๋๋ก ์ค์ ๋๋ค.
๊ต์ฌ์ ํผ๋๋ฐฑ ํ์ง์ด ํต์ฌ, 'SFT-KTO-KTO'
๊ฒฐ๊ตญ ๊ต์ฌ์ ํผ๋๋ฐฑ์ด ํ์์ ๋ฅ๋ฅ ์ ์ข์ฐํ๋ค. ํ์ง๋ง ์ธ๊ฐ์ ํตํด "์ ๋ ฅ X์ ๋ํด ์ถ๋ ฅ A๊ฐ B๋ณด๋ค ๋ซ๋ค"๋ผ๋ ํผ๋๋ฐฑ์ ๋ง๋๋ ๋น์ฉ์ด ๋ง๋ง์น ์๋ค. ๊ฒ๋ค๊ฐ ์ธ๊ฐ์ ํ๋จ์ด ์ฃผ๊ด์ ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ ์์ถฉ๋ ์ ์์ด ์ฐ๋ฆฌ๊ฐ ์ตํ ์๊ณ ์๋ LLM์ ํธํฅยทํ๊ฐยท์ ์ฉ์ฑ ๋ฐ ํด์ ๊ฐ๋ฅ์ฑ ๋ถ์กฑ ๋ฑ์ ์ฆ์์ด ๋ํ๋๋ค. ๋ฐ๋ผ์ MS ์ฐ๊ตฌํ์ ๊ธฐ์กด์ ๊ฐ๋ ํ์ ๋ฏธ์ธ์กฐ์ (Supervised Fine-Tuning, ์ดํ SFT)๊ณผ ๋๋ถ์ด ์ฑ๋ฅ ์ ํ ์์ด ์ฝ๊ณ ์ ๋ ดํ๊ฒ LLM์ ์ ๋ ฌํ ์ ์๋ ์นด๋ค๋ง-ํธ๋ฒ ๋ฅด์คํค ์ต์ ํ(Kahneman-Tversky Optimization, ์ดํ KTO)๋ผ๋ ๋ฐฉ๋ฒ์ ์ฐจ์ฉํ๋ค.
KTO๋ ์๋ ๋ง ์คํํธ์ ์ปจํ ์ค์ธ์ผ AI(Contextual AI)๊ฐ ๊ฐ๋ฐํ์ฌ ์คํ์์ค๋ก ๊ณต๊ฐํ ์ผ๋ผ์ธ๋จผํธ ๊ธฐ๋ฒ์ผ๋ก, ์ธ๊ฐ์ ์์ฌ๊ฒฐ์ ์ ๋ํ ๊ฒฝ์ ํ์ ์นด๋ค๋ง๊ณผ ํธ๋ฒ ๋ฅด์คํค์ ์ฐ๊ตฌ๋ฅผ ํตํด "์ ๋ ฅ X์ ๋ํด ์ถ๋ ฅ Y๊ฐ ๋ฐ๋์งํ์ง ๋ฐ๋์งํ์ง ์์์ง"๋ง ๋ฌผ์ด๋ณธ๋ค. ์ด๋ฌํ ์ข ๋ฅ์ ํผ๋๋ฐฑ์ ์ ์ฉ ๋ฒ์๊ฐ ๋์ ์ฅ์ ์ด ์๋ค. ์๋ก ๋ค์ด ๋ชจ๋ ํ์ฌ์๋ ๋ฐ๋์งํ(์: ํ๋งค๊ฐ ์ด๋ฃจ์ด์ง) ๋๋ ๋ฐ๋์งํ์ง ์์(์: ํ๋งค๊ฐ ์ด๋ฃจ์ด์ง์ง ์์) ๊ฒ์ผ๋ก ํ์ํ ์ ์๋ ๊ณ ๊ฐ ์ํธ ์์ฉ ๋ฐ์ดํฐ๊ฐ ์๋ค. ์ด๋ฒ ์ฐ๊ตฌ์ ๋ฆฌ๋์ด์ MS์ ์ ์ ์ฐ๊ตฌ์์ธ ์๋ฆฐ๋ด ๋ฏธํธ๋ผ(Arindam Mitra)์ ๋ฐ๋ฅด๋ฉด SFT๋ก ์์ํ์ฌ ๋ ์ฐจ๋ก์ KTO๋ก ์ด์ด์ง๋ 'SFT-KTO-KTO' ์ํ์ค๊ฐ ์ฐ์์ ์ธ SFT ์ํ์ค๋ณด๋ค ๋ ํจ๊ณผ์ ์ด์์ผ๋ฉฐ DPO(Direct Preference Optimization๋ ์ํ์ ์ผ๋ก RLHF์ ๋๋ฑํ๋ฉด์๋ ํจ์ฌ ๊ฐ๋จํ์ฌ ์คํ์์ค์์๋ ์ผ๋ผ์ธ๋จผํธ๊ฐ ์ฉ์ดํ ๊ฐํํ์ต ๊ธฐ๋ฒ)๋ ๋ฐ์ด๋๋ ๊ฒ์ผ๋ก ์ ์ฆ๋๋ค.
ํํธ MS์ ์ค๋ฅด์นด ์ฐ๊ตฌํ์ ์์ ์ ์ฉ๋๋ก๋ "๋๊ตฌ๋ ํ์, ๊ตฌ์ถ ๋ฐ ํ์ "ํ ์ ์๋๋ก ํ์ฉํ๋ MIT ๋ผ์ด์ ์ค์ ๋ฐ๋ผ 20๋ง ๋จ์ด๋ก ๊ตฌ์ฑ๋ AI ์์ฑ ํฉ์ฑ ์ํ ๋ฌธ์ ์ธํธ๋ฅผ ํ๊น ํ์ด์ค(Hugging Face)์ ๊ฒ์ํ๋ค. ๋ฐ๋ผ์ ์คํํธ์ ๊ณผ ๊ธฐ์ ์์ ์ด๋ฅผ ํ์ฉํ ์ ์๊ฒ ๋๋ค. ํนํ LLM์ ๊ฐ๋ฐยท์ ์ง ๋น์ฉ์ ๊ฐ๋นํ๊ธฐ ์ด๋ ค์ด ๊ธฐ์ ์ด ๋๋ค์์ธ ๋งํผ ์ ์ฉ ๋์์ด ๋์ ๊ฒ์ผ๋ก ์์๋๋ค.