[ํด์ธ DS] OpenAI ๋ฐ์ดํฐ ํํธ๋์ญ ์์ฒญ, "์์ง๋ ๋ฐ์ดํฐ ๋ถ์กฑํด"
์ ๋ ฅ
์์
์คํ AI, ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์ ์ํด ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ ๊ณต๊ฐ ๋ชจ์ง ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ ๊ฐ์ธํ ์ถ์ง ๋ฐ ๋ง์กฑ๋ ํฅ์ ๊ธฐ๋ ํ์ต ๋ฐ์ดํฐ ํฌ๋ช ์ฑ ํ๋ณด ์ ๋ต, ๊ทธ๋ฌ๋ ํ์ต๋ ๊ฐ์ธ์ ๋ณด๋ ๊ทธ๋๋ก
[ํด์ธDS]๋ ํด์ธ ์ ์์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์ ๋ฌธ์ง๋ค์์ ์ ํ๋ ์ ๊ณ ์ ๋ฌธ๊ฐ๋ค์ ์๊ฒฌ์ ๋ด์์ต๋๋ค. ์ ํฌ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฒฝ์ ์ฐ๊ตฌ์ (GIAI R&D Korea)์์ ์์ด ์๋ฌธ ๊ณต๊ฐ ์กฐ๊ฑด์ผ๋ก ์ฝํ ์ธ ์ ํด๊ฐ ์งํ ์ค์ ๋๋ค.

๋ฐ์ดํฐ ํํธ๋์ญ ์์ฒญ, ๊ฐ์ธยท๊ธฐ์ ๋๊ตฌ๋ ์ฐธ์ฌ ๊ฐ๋ฅ
์ด๋ฏธ ์ธํฐ๋ท '๊ณต๊ฐ' ๋ฐ์ดํฐ๋ก ChatGPT๋ฅผ ํ๋ จํ OpenAI๋ ๋ชจ๋ธ์ ์ง์์ ๋์ฑ ํฅ์ํ๊ธฐ ์ํด ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ๋ฅผ ์ฐพ๊ณ ์์ผ๋ฉฐ, ๋์ค์๊ฒ ๋์์ ์์ฒญํ๊ณ ์๋ค. OpenAI ๋ฐ์ดํฐ ํํธ๋์ญ์ ํตํด ์กฐ์ง๊ณผ ํ๋ ฅํ์ฌ ๊ณต๊ณต ๋ฐ ๋ฏผ๊ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ตฌ์ฑํ์ฌ GPT-4์ GPT-4 ํฐ๋ณด์ ๊ฐ์ ๋ชจ๋ธ์ ํ๋ จํ ๊ฒ์ด๋ผ๊ณ ๋งํ๋ค.
OpenAI๋ ์ธ๊ฐ ์ฌํ๋ฅผ ๋ฐ์ํ๊ณ ์ค๋๋ ๋์ค์ด ์จ๋ผ์ธ์์ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ํ๋ ์ดํ ํ๋ ๋ฐ ๊ด์ฌ์ด ์๋ค๊ณ ๋ฐํ๋ค. ๋ํ ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค๋ฅผ ํฌํจํ ๋ชจ๋ ํ์๊ณผ ํํ์ ์ฝํ ์ธ ์ ์ ์ฉํ ์ ์๋ค๊ณ ๋ง๋ถ์๊ณ , ๋จ์ ๋ ํํ๊ฐ ์๋ ๊ธด ํ์์ ๊ธ์ด๋ ๋ํ์ ๊ฐ์ด '์ธ๊ฐ์ ์๋๋ฅผ ๋๋ฌ๋ด๋' ๋ฐ์ดํฐ๋ฅผ ์ํ๋ค๊ณ ๋ช ์ํ๋ค.
์์ด์ฌ๋๋ ์ ๋ถ ๋ฐ ๋ฏธ๋ฐ์ธ๋ ์ํ(Miรฐeind ehf.)๋ฅผ ํฌํจํ ๋ช๋ช ๊ธฐ๊ด๊ณผ ํ๋ ฅํ์ฌ, ํน๋ณํ ์ ๋ณ๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ GPT-4์ ์์ด์ฌ๋๋์ด ๋งํ๊ธฐ ๋ฅ๋ ฅ์ ํฅ์ํ๊ณ ์๋ค๊ณ ์๋ฅผ ๋ค์๋ค. ๋ํ OpenAI๋ ๋ฐฉ๋ํ ๋ฒ๋ฅ ๋ฌธ์ ์ง์ ํ์ต์ ํฌํจํด ๋ฒ๋ฅ ์ดํด์ ๋ํ ์ ๊ทผ์ฑ์ ๋ฏผ์ฃผํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ๋น์๋ฆฌ ๋จ์ฒด์ธ Free Law Project์ ํํธ๋์ญ์ ๋งบ์์ต๋๋ค. ํ์ฌ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ๋ฐ๋ฅด๋ฉด "๋ฐ์ดํฐ ํํธ๋์ญ์ ๋ ๋ง์ ์กฐ์ง์ด ๊ด์ฌ ์๋ ์ฝํ ์ธ ๋ฅผ ๊ณต์ ํจ์ผ๋ก์จ ๋ ์ ์ฉํ ๋ชจ๋ธ์ ํํ์ ๋๋ฆด ์ ์๋๋ก ์ง์ํ๊ธฐ ์ํ ๊ฒ์ ๋๋ค"๋ผ๊ณ ์ค๋ช ํ๋ค.
๋ฏผ๊ฐ ์ ๋ณด ์๋ ์คํ ์์ค ๋๋ ๋น๊ณต๊ฐ ๋ฐ์ดํฐ ์ธํธ ๊ตฌ์ถ
๊ทธ๋ฌ๋ ๋ฏผ๊ฐํ ์ ๋ณด๋ ๊ฐ์ธ ์ ๋ณด ๋๋ ์ ์ผ์ ์์ ์ ์ ๋ณด๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ ์ธํธ์์ ์์ ํ๊ณ ์ถ์ง ์๋๋ค๊ณ ์ ํ๋ค. ๋์ ๋๊ตฌ๋ ์ฌ์ฉํ ์ ์๋ ๋ชจ๋ธ ํ์ต์ฉ ์คํ ์์ค ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ตฌ์ถํ๊ณ ์ ํ๋ ๋ชฉํ๊ฐ ์๊ณ , ๋ ์ ์ ์ธ AI ๋ชจ๋ธ ํ์ต์ ์ํ ๋น๊ณต๊ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ค๋นํ๋ ๋ฐ์๋ ๊ด์ฌ์ด ์๋ค๊ณ ํ๋ค.
OpenAI์ CEO์ธ ์ ์ํธ๋จผ์ ์ต๊ทผ ์ฃผ์ตํ ์ฒซ ๋ฒ์งธ ๊ฐ๋ฐ์ ์ปจํผ๋ฐ์ค์ธ DevDay์์ ๋ฐ์ดํฐ์ธํธ ์ธ์๋ ๊ธฐ์ ๊ณ ๊ฐ๊ณผ ํ๋ ฅํ์ฌ ๋ง์ถคํ AI ๋ชจ๋ธ์ ๋ง๋ค ๊ฒ์ด๋ผ๊ณ ๋งํ๋ค. ํ์ง๋ง ์ํธ๋จผ์ OpenAI๊ฐ "๋ง์ ๊ธฐ์ ๊ณผ ํจ๊ป ์์ํ๊ธฐ๋ ์ด๋ ค์ธ ๊ฒ"์ด๋ฉฐ "์ด๊ธฐ์๋ ๋น์ฉ์ด ์ ๋ ดํ์ง ์์ ๊ฒ์ ๋๋ค. ํ์ง๋ง ํ์ฌ ํ ์ ์๋ ํ๋๊น์ง ๋ฐ์ด๋ถ์ธ๋ค๋ฉดโฆ ์ฐ๋ฆฌ๋ ๊ฝค ๋ฉ์ง ์ผ์ ํ ์ ์๋ค๊ณ ์๊ฐํฉ๋๋ค"๋ผ๊ณ ์ ์ง์ ์ธ ์๋น์ค ํ๋๋ฅผ ์๊ณ ํ๋ค.
์ํธ๋จผ์ ์ดํ ๋ฐ๋ธ๋ฐ์ด์ ์๋ก์ด ๋ชจ๋ธ๊ณผ ์ ๋ฐ์ดํธ ๋ฐํ์ ๋ํ ๋ฐ์์ด "์ฐ๋ฆฌ์ ์์์ ํจ์ฌ ๋ฐ์ด๋๋๋ค"๋ผ๊ณ ๋งํ๋ฉฐ ์์๋ก ์ธํ ์๋ฒ์ ์๋น์ค ๋ถ์์ ์ ๊ฒฝ๊ณ ํ๋ค.
๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ์ง ๋ฐ ๋ง์ถคํ ๋ฏธ์ธ ์กฐ์ ์ผ๋ก ์ ํ๋ ํฅ์ ๊ธฐ๋
์ด๋ฒ OpenAI์ ํํธ๋์ญ ์์ฒญ์ AI ํ์ต์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ๊ด๋ จ๋ ๋ฒ์ ๋ถ์์ ํผํ๊ธฐ ์ํ ํ์ฌ์ ์ ๋ต์ผ๋ก ๋ณด์ธ๋ค. ์ต๊ทผ ์ ์๊ถ ์นจํด ์์ก์ด ์๋ฐ๋ฅด์, AP ํต์ ๊ณผ ์ฝํ ์ธ ๊ณ์ฝ์ ๋งบ๋ ๋ฑ ๋ฐ์ดํฐ ๊ฐ ์ง๊ธ ์์ง๋ฅผ ํ๋ช ํ๋ ํ๋ณด์ ์ฐ์ฅ์ ์ด๋ผ๋ ๋ถ์์ด๋ค. ์ฌ๊ธฐ์๋ ํ์ต ๋ฐ์ดํฐ ํฌ๋ช ์ฑ๊ณผ ๊ณต์ ์ฑ์ ๊ธฐ์ฌํ๋ ๋ชจ์ต๋ ๋น์น ์ ์์ด์ ๊ณต์ง ๋ฐ์ดํฐ๋ ์ป์ ์ ์๋ ์ผ๊ฑฐ์๋ ํจ๊ณผ๋ฅผ ๋ณด๋ ์๋ฆฌํ ์กฐ์น๊ฐ ์๋ ์ ์๋ค.
ํํธ ๊ฐ ๊ธฐ๊ด์ ๋ง๋ ๋ฏธ์ธ ์กฐ์ ์ ๋์ฑ ์ ๋ฐํ๊ฒ ์ํํ ์ ์์ด์, ํฅ์๋ ์ ํ๋๋ฅผ ๊ธฐ๋ํ ์ ์์ ๊ฑฐ๋ ์ ๋ง์ ํ์ค์ ์ด๋ค. ํน์ ๊ธฐ๊ด์ ์ฐ์ ์์๊ฐ ๋ช ํํ๊ฒ ๋ฐ์๋ ๋ฐ์ดํฐ ์ธํธ๋ก '์ธ๊ฐํผ๋๋ฐฑํ ๊ฐํํ์ต'์ ์ฝ์ ์ธ ์ฌ์ฉ์ ์ ํธ ์ด์ง์ฑ์ ์ํํ ๊ฒ์ผ๋ก ๋ณด์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฌผ๋ก ์ผ๋ฐ ๊ฐ์ธ ์ฌ์ฉ์์ ์ ํธ๋๋ฅผ ์ถฉ์กฑํ๊ธฐ ์ํด ์ปค์คํ ์ธ์คํธ๋ญ์ ์ต์ ๋ ์ฌ์ฉํ ์ ์์ผ๋ฏ๋ก ๊ฐ์ธ๊ณผ ๋ฒ์ธ ์ฌ์ฉ์ ๋ชจ๋ ์ ์ฐจ ๋ ๋์ ์๋น์ค๋ฅผ ๊ธฐ๋ํ ์ ์์ ๊ฒ ๊ฐ๋ค.
ํ์ง๋ง LLM(๊ฑฐ๋์ธ์ด๋ชจ๋ธ) ๊ธฐ๋ฐ ๋ชจ๋ธ ๊ตฌ์ถ์ ์ด๋ฏธ ๋์๋ ๊ฐ์ธยท๋ฏผ๊ฐ ์ ๋ณด๋ค์ ๋ํด์ ์์ง ํ์ค์ ์ธ ํด๊ฒฐ ๋ฐฉ์์ด ์๋ ์ค์ ์ด๋ค. LLM ๋ชจ๋ธ ํ์ต์ ํํ ์ฌ์ฉ๋๋ ํ์ต ๋ฐ์ดํฐ(์: LAION)์ ํ ๋ฒ ๋ ธ์ถ๋ ์ ๋ณด๋ค์ ์ด๋ฏธ ๊ฐ ํ์ฌ ๋ฐ์ดํฐ ์ธํธ์ ์๊ตฌํ ์ ์ฅ๋ ์ํ๊ณ OpenAI์์๋ ๋ชจ๋ ๋ฏผ๊ฐ ์ ๋ณด๋ฅผ ํ๋ํ๋ ์ญ์ ํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ ์ํ๋ค. ํ๋กฌํํธ ๋ต๋ณ ์์ฑ ์์ ๊ฐ์ธ ์ ๋ณด ๊ฒ์ด ๊ธฐ๋ฅ์ ์ถ๊ฐ๋ก ์ ๊ณตํ๊ณ ์์ผ๋ ์ด๋ง์ ๋ ์ฐํํ๊ฑฐ๋ ํดํนํ๋ ๋ฐฉ๋ฒ์ด ๋ง๊ธฐ ๋๋ฌธ์ ์์ ํ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ๋ ์์ผ๋ก๋ ์ด๋ ค์ธ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
OpenAI Asks Public for More Data to Train Its AI Models
Having trained its AI models on the whole internet, OpenAI is now seeking domain-specific data - from you.
Having already trained its AI models on the entire internet, OpenAI is seeking domain-specific data to further sharpen these systemsโ knowledge โ and it is asking the public for help.
The maker of ChatGPT said it will work with organizations to produce public and private datasets under a new program, the OpenAI Data Partnerships, to train models like GPT-4 and the new GPT-4 Turbo.
OpenAI is interested in helping curate large-scale datasets that โreflect human society and that are not already easily accessible online to the public today.โ
It said it can work with โanyโ modality or form of content including text, images, audio and video. The Microsoft-backed startup said it would like data that โexpresses human intentionโ โ like long-form writing or conversations rather than disconnected snippets.
OpenAI said it is already working with a few parties โ including the Icelandic Government and Miรฐeind ehf. to improve GPT-4โs ability to speak Icelandic using a specially curated dataset.
OpenAI has also partnered with non-profit the Free Law Project, which aims to democratize access to legal understanding by including its large collection of legal documents in AI training.
โData Partnerships are intended to enable more organizations to help steer the future of AI and benefit from models that are more useful to them, by including content they care about,โ a company blog post reads.
No personal data, please
However, OpenAI does not want to work on datasets with sensitive or personal information or information that belongs to a third party.
Instead, OpenAI wants to build an open source dataset for training models which anyone can use. The company is also interested in preparing private datasets for training proprietary AI models.
To apply, click here.
Beyond datasets, OpenAI CEO Sam Altman said on Monday at the startupโs first developer conference, DevDay, that it would work with corporate clients to make custom AI models.
However, Altman warned that OpenAI โwon't be able to do this with many companies to start.โ
โIt'll take a lot of work and in the interest of expectations, at least initially it won't be cheap. But if you're excited to push things as far as they can currently go, โฆ we think we can do something pretty great.โ
Altman later said the response to DevDayโs announcement of new models and updates is โfar outpacing our expectationsโ and warned of โservice instabilityโ on its servers due to demand.
At around the same time, OpenAI confirmed that ChatGPT was the target of a DDoS attack by hackers. It was resolved in two days.