๐Ÿง  ChatGPT์˜ ๋‹ต๋ณ€ ์กฐ์ข…์„ ์œ„ํ•œ Superposition Hypothesis

Seonglae Cho
15 min readApr 10, 2024

--

10์–ต๋ช…์˜ ์‚ฌ์šฉ์ž๋ฅผ ๊ฐ€์ง„ ChatGPT์˜ ๋‹ต๋ณ€์„ ์กฐ์ข…ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์–ด๋–จ๊นŒ์š”? ๊ฐ€๋ น ๋Œ€ํ™”์— ์€๊ทผ์Šฌ์ฉ ๊ด‘๊ณ ๋ฅผ ๋ผ์›Œ ๋„ฃ๋Š”๋‹ค๊ฑฐ๋‚˜, ์„ ๊ฑฐ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜๋„ ์žˆ๊ฒ ์ฃ . ์ด๋ ‡๊ฒŒ AI์— ๋Œ€ํ•œ ์ธ๊ฐ„์˜ ๊ฐœ์ž… ๋Šฅ๋ ฅ์ด ์ƒ๊ธด๋‹ค๋ฉด, ์ด๋Š” ๋ถ„๋ช… ์—„์ฒญ๋‚œ ๊ถŒ๋ ฅ์ž…๋‹ˆ๋‹ค.

ChatGPT๊ฐ™์€ ์ธ๊ณต์ง€๋Šฅ์€ ์ธ๊ณต์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ๊ตฌํ˜„๋˜๊ณ , ์ฃผ๋กœ ์ด์šฉ๋˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ ๋˜ํ•œ MLP (Multi-Layer Perceptron) ๋‰ด๋Ÿฐ ์ธต์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๋Š” ์ด๋Ÿฐ ๋‰ด๋Ÿฐ ์กฐํ•ฉ์œผ๋กœ ์ธ๊ณต์ง€๋Šฅ์ด ์–ด๋–ป๊ฒŒ โ€˜์ƒ๊ฐโ€™ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋Š” ์ž˜ ๋ชจ๋ฆ…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ธ๊ณต์ง€๋Šฅ์˜ ์‚ฌ๊ณ ๋ฅผ ์ปจํŠธ๋กคํ•  ์ˆ˜๋„ ์—†์ฃ . ๋‰ด๋Ÿฐ์˜ ์—ญํ• ๊ณผ ์ž‘๋™์›๋ฆฌ๋ฅผ ์ž˜ ์•ˆ๋‹ค๋ฉด, ๋‰ด๋Ÿฐ์„ ์กฐ์ž‘ํ•˜์—ฌ ์ธ๊ณต์ง€๋Šฅ์„ ์ปจํŠธ๋กคํ•  ์ˆ˜ ์žˆ์„ํ…๋ฐ ๋ง์ด์ฃ .

๊ทธ๋Ÿฐ๋ฐ Anthropic์ด๋ผ๋Š” ํšŒ์‚ฌ๊ฐ€ ํŠธ๋žœ์Šคํฌ๋จธ AI ์–ธ์–ด๋ชจ๋ธ์—์„œ ์ธ๊ณต ์‹ ๊ฒฝ๋ง์˜ ๋‰ด๋Ÿฐ ์กฐ์ž‘์„ ํ†ตํ•ด ๋‹ต๋ณ€์„ ์ปจํŠธ๋กคํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์˜ค๋Š˜ ์†Œ๊ฐœํ•  Superposition Hypothesis์™€ Sparse AutoEncoder๋กœ ๋ง์ด์ฃ . ์šฐ์„  ๋ฐœ๊ฒฌํ•œ ๋‰ด๋Ÿฐ๋ถ€ํ„ฐ ๊ฐ„๋‹จํžˆ ์‚ดํŽด๋ด…์‹œ๋‹ค. ์•„๋ž˜๋Š” Anthropic์—์„œ ๋ถ„์„ํ•œ ๋‰ด๋Ÿฐ๋“ค ์ค‘ ํ•˜๋‚˜์ธ ์•”ํ˜ธํ™”ํ ๋‰ด๋Ÿฐ์ž…๋‹ˆ๋‹ค.

์•”ํ˜ธํ™”ํ ์ฃผ์ œ์— ๊ฐ•ํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š” Cryptocurrency ๋‰ด๋Ÿฐ

์ด ๋‰ด๋Ÿฐ์€ ์ธ๊ณต์ง€๋Šฅ์ด ์•”ํ˜ธํ™”ํ์— ๊ด€๋ จ๋œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ๋•Œ ํ™œ์„ฑํ™”๋ฉ๋‹ˆ๋‹ค. ์‚ฌ์ง„ ์šฐ์ธก์„ ๋ณด๋ฉด ํ•ด๋‹น ๋‰ด๋Ÿฐ์ด ๋น„ํŠธ์ฝ”์ธ๊ณผ ๊ด€๋ จ๋œ ๋ฐœํ™”์— ๊ฐ•ํ•˜๊ฒŒ ํ™œ์„ฑํ™”(activation)๋˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(์ง„ํ•œ ๋ฐฐ๊ฒฝ์œผ๋กœ ํ‘œ์‹œ). ์ด๋Ÿฐ ๋ฐœ๊ฒฌ์€ ์—ฌ๋Ÿฌ๋ถ„์ด ChatGPT์™€ ๋Œ€ํ™”ํ•  ๋•Œ ํŠน์ • ์ฃผ์ œ์— ๋”ฐ๋ผ ํ™œ์„ฑํ™”๋˜๋Š” ๋‰ด๋Ÿฐ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.

ํ•œ๊ตญ์–ด ๋‰ด๋Ÿฐ๋„ ๋ฐœ๊ฒฌ๋˜์—ˆ์ฃ 

Anthropic์€ ์•”ํ˜ธํ™”ํ ๋‰ด๋Ÿฐ ๋ฟ ์•„๋‹ˆ๋ผ ์œ„ ์‚ฌ์ง„ ๊ฐ™์€ ํ•œ๊ตญ์–ด ๋‰ด๋Ÿฐ, ์ „์น˜์‚ฌ ๋‰ด๋Ÿฐ ๊ทธ๋ฆฌ๊ณ  ์œ ๋จธ ๋‰ด๋Ÿฐ ๋“ฑ ๋‹ค์–‘ํ•œ ๋‰ด๋Ÿฐ๋“ค์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์‹ ๊ฒฝ๋ง ๋‚ด๋ถ€์˜ ๋‰ด๋Ÿฐ ํ™œ์„ฑํ™”๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๋ถ„์•ผ๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๊ณ , ๊ฐ์‚ฌํ•˜๊ฒŒ๋„ AI๊ณ„์˜ ๊ฑฐ๋ฌผ์ธ ๋‘ ํšŒ์‚ฌ, OpenAI์™€ Anthropic๋„ ์•ž๋‹คํˆฌ์–ด ์—ฐ๊ตฌ๋ฅผ ๊ณต๊ฐœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

ํ˜„์žฌ AI ์‚ฐ์—…์˜ ํˆฌํƒ‘์€ ๋‹จ์—ฐ์ฝ” OpenAI์™€ Anthropic์ž…๋‹ˆ๋‹ค

Explainable AI

XAI(Explainable AI)๋ผ๋Š” ๋ถ„์•ผ์—๋Š” ์ธ๊ณต์ง€๋Šฅ์˜ ์ธ๊ณต์‹ ๊ฒฝ๋ง ์† ๋‰ด๋Ÿฐ๋“ค์ด โ€˜์ง€๋Šฅโ€™์— ์–ด๋–ค ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š” ์ง€๋ฅผ ์•Œ์•„๋‚ด๊ธฐ ์œ„ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ง ๊ทธ๋Œ€๋กœ ๋ธ”๋ž™๋ฐ•์Šค์ธ AI ์ž‘๋™์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ ์‹œ๋„์ธ๋ฐ์š”. ํ•ด๋‹น ๋ถ„์•ผ๋Š” AI๋ฐœ์ „์—๋„ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์™”์Šต๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ OpenAI๋ฅผ ์ด๋ˆ ์—ฐ๊ตฌ์ž ์ค‘ ํ•œ๋ช…์ธ ์ผ๋ฆฌ์•ผ ์ˆ˜์ธ ์ผ€๋ฒ„์— ๋”ฐ๋ฅด๋ฉด 2017๋…„ OpenAI์—์„œ ๋ฐœ๊ฒฌํ•œ ๊ฐ์„ฑ๋‰ด๋Ÿฐ(sentiment neuron)์ด ChatGPT์˜ ๊ฐœ๋ฐœ์„ ์ด๋ˆ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์ด์—ˆ๋‹ค๊ณ  ํ•˜์ฃ . ์ด์ฒ˜๋Ÿผ ์ธ๊ณต ์‹ ๊ฒฝ๋ง์„ ์ดํ•ดํ•˜๋Š” ๊ฑด ์ธ๊ณต์ง€๋Šฅ ์ž์ฒด์˜ ๋ฐœ์ „๊ณผ ๋งž๋ฌผ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ถˆ๊ณผ ๋ช‡ ๊ฐœ์›” ์ „ Anthropic์ด LLM์˜ ๋Œ€ํ‘œ๊ฒฉ ๋ชจ๋ธ์ธ ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์•ฝ 4000๊ฐœ์˜ ๋‰ด๋Ÿฐ์„ ๋Œ€๋Ÿ‰ ๋ฐœ๊ฒฌํ•ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.

์ •ํ™•ํžˆ ํ‘œํ˜„ํ•˜๋ฉด ์ธ๊ณต ์‹ ๊ฒฝ๋ง์˜ ๋‰ด๋Ÿฐ 4000๊ฐœ๋ฅผ ๋ฐœ๊ฒฌํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ ๋‰ด๋Ÿฐ๋“ค์— ๋ถ„์‚ฐ๋˜์–ด ์žˆ๋Š” 4000๊ฐœ์˜ ๊ธฐ๋Šฅ์„ ๋ถ„๋ฆฌํ•ด ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ โ€˜๋ถ„๋ฆฌโ€™๋ผ๊ณ  ํ‘œํ˜„ํ•œ ์ด์œ ๋Š”, ์‹ ๊ฒฝ๋ง์—์„œ ํ•˜๋‚˜์˜ ๊ธฐ๋Šฅ์ด ์—ฌ๋Ÿฌ ๋‰ด๋Ÿฐ์— ๋‚˜๋‰˜์–ด ์กด์žฌํ•˜๊ณ  ๋˜, ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ธฐ๋Šฅ์„ ๋‹ด๋‹นํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ๋ฐํ˜€์ง„ ์žฌ๋ฐŒ๋Š” ํ˜„์ƒ์ด์ฃ . ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ ๊ฐœ๋…์„ superposition hypothesis ๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‰ด๋Ÿฐ๊ณผ ๊ธฐ๋Šฅ์ด ์ค‘์ฒฉ๋˜์–ด ๋…๋ฆฝ์ ์ธ ๊ฒƒ์ฒ˜๋Ÿผ ์กด์žฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ธ๊ณต ์‹ ๊ฒฝ๋ง์„ ์„ค๋ช…ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๋“ค์ด ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜์ง€ ๋ชปํ–ˆ๋˜ ๊ฒ๋‹ˆ๋‹ค.

์ดํ•ด์˜ ํŽธ์˜์ƒ ์ด ๊ธ€์—์„œ๋Š” ๋ถ„๋ฆฌ๋œ ๊ธฐ๋Šฅ ๋…ธ๋“œ๋„ ๋‰ด๋Ÿฐ์ด๋ผ ํ‘œํ˜„ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค

์ด๋ ‡๊ฒŒ โ€˜ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์ด ํ•˜๋‚˜ ์ด์ƒ์˜ ๊ธฐ๋Šฅ์„ ํ•œ๋‹คโ€™๋ผ๋Š” ๋ฌธ์ œ์—์„œ ์ถœ๋ฐœํ•ด ์–ด๋–ป๊ฒŒ ํ˜ผ์žฌ๋œ ๊ธฐ๋Šฅ์„ ๋ถ„๋ฆฌํ•ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ์„๊นŒ์š”? Anthropic์€ ๊ฐ„๋‹จํ•œ ๋ฐฉ์‹์œผ๋กœ ํ’€์–ด๋‚˜๊ฐ‘๋‹ˆ๋‹ค. โ€œํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ธฐ๋Šฅ์„ ๋‹ด๋‹นํ•œ๋‹ค๋ฉด, ๊ธฐ๋Šฅ ๋ณ„๋กœ ๋‚˜๋‰  ๋•Œ๊นŒ์ง€ ๋ถ„๋ฆฌํ•ด๋ณด์ž!โ€ ์ž…๋‹ˆ๋‹ค. ์ •ํ™•ํžˆ๋Š” ๋‰ด๋Ÿฐ ์ธต ์ „์ฒด์˜ ํ™œ์„ฑํ™”(activation)๊ฐ’์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฒกํ„ฐ์—์„œ, ๊ฐ๊ฐ์˜ ์ฐจ์›์ด ํ•˜๋‚˜์˜ ๊ธฐ๋Šฅ์„ ํ•  ๋•Œ๊นŒ์ง€ ๋ฒกํ„ฐ๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด Sparse AutoEncoder๋ผ๋Š” ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ด ๋‰ด๋Ÿฐ์˜ ํ™œ์„ฑํ™” ๋ฒกํ„ฐ์—์„œ ๊ธฐ๋Šฅ์„ ๋ถ„๋ฆฌํ•ด๋ƒ…๋‹ˆ๋‹ค.

Anthropic์€ 512์ฐจ์›์˜ MLP ๋‰ด๋Ÿฐ์ธต์˜ ํ™œ์„ฑํ™” ๋ฒกํ„ฐ๋ฅผ ๊ธฐ๋Šฅ๋ณ„๋กœ ์ฐจ์›์„ ๊ฐ€์ง„ ์‚ฌ์ „ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์šฐ์„ , ์ฒ˜์Œ์— 512 ์ฐจ์› ๊ธธ์ด์˜ ๋นฝ๋นฝํ•œ ํ™œ์„ฑํ™” ๋ฒกํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค. ์ด๋ฅผ ์„œ์„œํžˆ ํ™•์žฅํ•˜๋ฉด์„œ 4096์ฐจ์›์˜ ๋ฒกํ„ฐ๊ฐ€ ๋˜๋ฉด 8๋ฐฐ๋‚˜ ์ฐจ์›์ด ๋Š˜์–ด๋‚œ ๋ฒกํ„ฐ๋Š” ์•„์ฃผ ๋Š์Šจํ•ด์งˆ ๊ฒ๋‹ˆ๋‹ค. ๋ฒกํ„ฐ ๊ณต๊ฐ„์˜ ๋ถ€ํ”ผ๋Š” ์ฐจ์›์— ๋”ฐ๋ผ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์ด์ฃ . ์ด๋ ‡๊ฒŒ ๋Š์Šจํ•ด์ง„ ๋ฒกํ„ฐ๋ฅผ sparseํ•˜๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ •ํ™•ํžˆ๋Š” ๋„“์€ ์ฐจ์›์„ ์‚ฌ์šฉํ•˜๋ฉฐ ๋ฒกํ„ฐ ์š”์†Œ๋“ค์— 0๊ฐ’์ด ๋งŽ์•„์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด ๋•Œ, ์šฐ๋ฆฌ์˜ ๋ชฉ์ ์€ ๋นฝ๋นฝํ–ˆ๋˜ ํ™œ์„ฑํ™” ๋ฒกํ„ฐ(dense activation vector)๋ฅผ ๊ธฐ๋Šฅ ๋ณ„๋กœ ๋ถ„ํ•ดํ•œ ๋Š์Šจํ•œ ๊ธฐ๋Šฅ ๋ฒกํ„ฐ(sparse feature vector)๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์ ‘๊ทผ ๋ฐฉ์‹์„ Dictionary learning์ด๋ผ๊ณ  ๋ถ€๋ฅด๋Š”๋ฐ, ์ค‘์ฒฉ๋˜์–ด ์žˆ๋Š” ๊ธฐ๋Šฅ์„ ๋ถ„ํ•ดํ•˜์—ฌ 4096๊ฐœ์˜ ๋ฒกํ„ฐ ์š”์†Œ ์š”์†Œ์— ๊ธฐ๋Šฅ์„ ์‚ฌ์ „์ฒ˜๋Ÿผ ๋ถ„๋ฆฌํ•˜์—ฌ ์ •๋ˆํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‰ด๋Ÿฐ์˜ ํ™œ์„ฑํ™”๋ฅผ ์‚ฌ์ „ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ชจ๋ธ์„ ์œ„ํ•ด Sparse AutoEncoder๋ผ๋Š” ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜๋Š”๋ฐ, ์ด ์•„์ด๋””์–ด๋Š” ์•„์ฃผ ์ค‘์š”ํ•˜๋‹ˆ ์ข€ ๋” ์ž์„ธํžˆ ๋“ค์—ฌ๋‹ค ๋ด…์‹œ๋‹ค.

Sparse AutoEncoer

https://arxiv.org/pdf/2309.08600.pdf

AutoEncoder๋ž€ ๋Œ€ํ‘œ์ ์ธ Encoder-Decoder ๊ตฌ์กฐ์˜ ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. AutoEncoder๋ฅผ ์™„์ „ํžˆ ์ดํ•ดํ•  ํ•„์š”๋Š” ์—†์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์€ ์ด ๊ตฌ์กฐ๊ฐ€ ์ธ์ฝ”๋” ํŒŒํŠธ์™€ ๋””์ฝ”๋” ํŒŒํŠธ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค๋Š” ์ ์ด์ฃ . ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋Š” ๊ฐ๊ฐ ๋ฒกํ„ฐ๋ฅผ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ์ฐจ์›์œผ๋กœ ๋งคํ•‘ํ•ด์ค๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” ๋‰ด๋Ÿฐ ํ™œ์„ฑํ™” ์ธต ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์ „ ๋ฒกํ„ฐ(dictionary vector)๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ๋””์ฝ”๋”๋Š” ์ด ๋ฒกํ„ฐ๋กœ ์›๋ณธ ๋‰ด๋Ÿฐ ํ™œ์„ฑํ™” ์ธต์„ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ณผ์ •์—์„œ Sparse AutoEncoder๋Š” ์ค‘๊ฐ„์˜ ์‚ฌ์ „ ๋ฒกํ„ฐ์— ํฌ์†Œ์„ฑ(sparsity)๋ฅผ ๊ฐ•์ œํ•˜์—ฌ ๊ฐ๊ฐ์˜ ์ฐจ์›์— ํ•˜๋‚˜์˜ ๊ธฐ๋Šฅ๋งŒ ๋“ค์–ด๊ฐ€๋„๋ก ๊ฐ•์ œํ•ฉ๋‹ˆ๋‹ค. Sparseํ•ด์ง„ ๋ฒกํ„ฐ๋กœ ๋ถ„์„์ด ์‰ฌ์›Œ์ง€๋Š” ๊ฑด ๋ค์ด๊ณ ์š”. ์ž ๊ทธ๋Ÿฌ๋ฉด ์šฐ๋ฆฌ๋Š” ๋‰ด๋Ÿฐ ํ™œ์„ฑํ™”๋ฅผ ์‚ฌ์ „ ๋ฒกํ„ฐ ์ฆ‰ ๋‹จ์ผ ์˜๋ฏธ(Mono-semanticity)๋กœ์˜ ๋ถ„๋ฆฌ์— ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

Sparse AutoEncoder๋ฅผ ํ™œ์šฉํ•œ ๋‰ด๋Ÿฐ ๋ถ„์„์€ LessWrong forum์—์„œ Lee Sharkey์—์„œ ๋จผ์ € ์—ฐ๊ตฌ๋˜์—ˆ์œผ๋‚˜, ๋…๋ฆฝ์ ์ธ ์—ฐ๊ตฌ์ด๊ณ  Anthropic์˜ Toy Models of Superposition์— ์ผ๋ถ€ ์˜ํ–ฅ์„ ๋ฐ›์•˜๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ก ์  ๋ถ„์„

Anthropic์ด ๋ณด์—ฌ์ค€ ๋‹จ์ผ ์˜๋ฏธ(Mono-semanticity) ๋ฒกํ„ฐ๋ฅผ ์Œ๋ฏธํ•˜๊ธฐ ์ „์— superposition hypothesis๋ฅผ ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•ด ๋ด…์‹œ๋‹ค. ์ฆ‰ ์—ฌ๋Ÿฌ ๋‰ด๋Ÿฐ์— ์—ฌ๋Ÿฌ ๊ธฐ๋Šฅ์ด ์‚ฐ์žฌํ•ด ์žˆ๋Š” ์ด์œ ๋ฅผ ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ณ„๋‹ค๋ฅธ ๋ฌธ์ œ๊ฐ€ ์•„๋‹Œ ๊ฒƒ ๊ฐ™์ง€๋งŒ ์ด์ƒํ•œ ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๋‰ด๋Ÿฐ ๊ฐœ์ˆ˜๋ณด๋‹ค ๊ธฐ๋Šฅ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์„ ํ˜• ๋Œ€์ˆ˜๋ฅผ ๊ณต๋ถ€ํ•œ ์‚ฌ๋žŒ๋“ค์€ ๋ ์šฉํ• ๊ฒ๋‹ˆ๋‹ค. ์ฐจ์› ๊ฐœ์ˆ˜๋ณด๋‹ค ๋งŽ์€ ๊ธฐ๋Šฅ์ด ์กด์žฌํ•œ๋‹ค๋Š” ๊ฒŒ ๋ง์ด ๋ฉ๋‹ˆ๊นŒ? (์—„๊ทผ์ง„) ํ•˜์ง€๋งŒ ์ด๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ์•„์ฃผ ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ์˜๊ฒฌ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ฐจ์›๋ผ๋ฆฌ ์ฐจ์›์„ ๊ณต์œ ํ•˜์—ฌ ๋˜ ๋‹ค๋ฅธ ์ง๊ต์„ฑ(orthogonality)๊ฐ€ ์ผ์–ด๋‚œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ superposition์ด ์ƒ๊ธฐ๊ณ  ์ด๋ฅผ ๋” ๋†’์€ ์ฐจ์›์œผ๋กœ ๋ฒกํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•ด์„œ ๋ถ„ํ•ดํ•  ์ˆ˜๋„ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ฐ„์„ญ์„ ์ธ์ •ํ•˜๋ฉด ๋” ๋†’์€ ์ฐจ์›๊นŒ์ง€ ํ™œ์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค

์šฐ๋ฆฌ๋Š” ์ฐจ์› ๋‚ด์— ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์ œํ•œ๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. xy๊ทธ๋ž˜ํ”„์—๋Š” x์™€ y ๊ฐ’๋งŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์ง€ z๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ ์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์–ด์ด๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. โ€œ์ €๊ฒŒ ๋œ๋‹ค๊ณ ? ๊ธฐ์ €(basis)๋งŒํผ ์ฐจ์›์„ ์จ์•ผ์ง€!โ€ ํ•˜์ง€๋งŒ ์ €ํฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์€ 2์ฐจ์›์ด๋‚˜ 3์ฐจ์›์ด ์•„๋‹ˆ๋ผ ์ˆ˜๋ฐฑ ์ฐจ์›์ž…๋‹ˆ๋‹ค. ์ฐจ์›์˜ ์ €์ฃผ๋กœ ์ธํ•ด ๋ถ€ํ”ผ๊ฐ€ ์–ด๋งˆ์–ด๋งˆํ•˜๊ฒŒ ๋Š˜์–ด๋‚˜๋Š” ๋งŒํผ, ์„œ๋กœ ๊ฐ„์„ญํ•  ์ผ๋„ ๊ฑฐ์˜ ์—†๋‹ค๋Š” ๊ฑฐ์ฃ .

๊ทธ๋ฆฌ๊ณ  ์—ฌ๊ธฐ์— Compressed sensing์ด๋ผ๋Š” ์ด๋ก ์  ์„ค๋ช…์ด ๋’ท๋ฐ›์นจ๋ฉ๋‹ˆ๋‹ค. Compressed sensing์€ ์‹ ํ˜ธ ์ฒ˜๋ฆฌ์—์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ sparseํ•˜๋‹ค๋ฉด ๊ธฐ์ €(basis)๊ฐ€ ๋ถ€์กฑํ•ด๋„ ์™„์ „ํžˆ ์‹ ํ˜ธ๋ฅผ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ด๋ก ์ธ๋ฐ์š”. ์ด์ „ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ธฐ๋Šฅ์€ sparseํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์—, Compressed sensing์˜ ์กฐ๊ฑด์— ๋ถ€ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒŒ ๋” ์ ์€ ์ฐจ์›์—์„œ ๋งŽ์€ ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•ด๋„ ๋ฌธ์ œ๊ฐ€ ์—†๋Š” ์ด์œ ์ด๊ณ , superposition hypothesis์—์„œ ์ฐจ์›์„ ๊ณต์œ ํ•ด์„œ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ค‘์š”ํ•œ ๊ทผ๊ฑฐ์ž…๋‹ˆ๋‹ค.

Superposition์œผ๋กœ ์ธํ•ด, ์ ์€ ๋‰ด๋Ÿฐ์œผ๋กœ๋„ ๋งŽ์€ ๋‰ด๋Ÿฐ์„ ๊ฐ€์ง„ ๊ฒƒ์ฒ˜๋Ÿผ ๋ชจ๋ธ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

๊ฐœ์ธ์ ์œผ๋กœ ๋†€๋ผ์šด ์ ์€ ์ด๋Ÿฐ ํ†ต์ฐฐ์ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ positional embedding์ด ์ž‘๋™ํ•˜๋Š” ์ธ์‚ฌ์ดํŠธ์™€ ๋น„์Šทํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ €๋Š” ์˜ˆ์ „ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ฒ˜์Œ ๊ณต๋ถ€ํ•  ๋•Œ positional embedding์ด token embedding๊ณผ ๋™์ผํ•œ ์ฐจ์›์„ ์ด์šฉํ•ด๋„ ๋ฌธ์ œ์—†๋Š” ๊ฒŒ ๋„ˆ๋ฌด ์ดํ•ด๊ฐ€ ์•ˆ๋์Šต๋‹ˆ๋‹ค. ๋‹น์—ฐํžˆ ๋‘˜์€ ๋‹ค๋ฅธ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฅธ ์ฐจ์›์„ ์ด์šฉํ•ด์•ผ ํ•  ๊ฒƒ ๊ฐ™์•˜๊ฑฐ๋“ ์š”. ๊ทธ๋Ÿฐ๋ฐ๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ token embedding๊ณผ positional embedding์„ ์ฐจ์›์„ ์—ฐ๊ฒฐ(concat)ํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ๋‹จ์ˆœํžˆ ๋”ํ•˜๊ธฐ๋งŒ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Š” ์ž˜ ์ž‘๋™ํ•˜๋Š”๋ฐ ๋ฐ”๋กœ ์œ„์™€ ๋™์ผํ•œ ์„ ํ—˜์  ํ†ต์ฐฐ์— ๊ธฐ๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค. ๋†’์€ ์ฐจ์›์—์„œ ์ถ”๊ฐ€์ ์ธ ์ง๊ต์„ฑ(approximate orthogonality)์ด ์ž‘๋™ํ•œ๋‹ค๋Š” ์ ์ด์ฃ .

์ •๋ง ํฅ๋ฏธ๋กœ์šด ๋ถ„์„์ž…๋‹ˆ๋‹ค. ๋งˆ์น˜ ๊ธฐ๊ณ„ ๋ฟ ์•„๋‹ˆ๋ผ ์ธ๊ฐ„์˜ ๋‰ด๋Ÿฐ๋„ ์ด๋ ‡๊ฒŒ superposition hypothesis์— ๊ธฐ๋ฐ˜ํ•ด ํ™œ์„ฑํ™”๋  ๊ฒƒ ๊ฐ™์ฃ . ๋งŒ์•ฝ ๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ค ๊ฐœ๋…์— ๋Œ€ํ•ด ์ƒ๊ฐํ•  ๋•Œ superposition์œผ๋กœ ์ธํ•ด ์—ฌ๋Ÿฌ ๊ฐœ๋…์ด ์ค‘์ฒฉ๋œ ๋‰ด๋Ÿฐ์— ๊ด€๋ จ๋œ ๊ฐœ๋…๋“ค์„ ๊ฐ•์ œ๋กœ ํ™œ์„ฑํ™”๋˜๋Š” ๊ฒƒ์ด ํšจ์œจ์ ์ด๋ผ ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ๊ฒƒ์€ ์•„๋‹๊นŒ ํ•˜๋Š” ์ถ”์ธก๋„ ๋“ญ๋‹ˆ๋‹ค.

์ž ์šฐ๋ฆฌ๋Š” ๊ธฐ๋ง‰ํžŒ ์ด๋ก ์  ๋ถ„์„์„ ๊ฐ€์ง€๊ณ  AI ๋‰ด๋Ÿฐ์˜ ๋น„๋ฐ€์„ ํŒŒํ—ค์ณค์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฉ‹๋“ค์–ด์ง„ ์ˆ˜์‹๊ณผ ๋ถ„์„์ด ์–ธ์ œ๋‚˜ ์“ธ๋ชจ๊ฐ€ ์žˆ๋Š” ๊ฑด ์•„๋‹™๋‹ˆ๋‹ค. ์œ„์˜ ์‚ฌ์‹ค๋“ค๋กœ ์šฐ๋ฆฌ๊ฐ€ ChatGPT๊ฐ€ ๊ต์ˆ˜๋‹˜์ด ๋‚ด ์ค€ ๊ณผ์ œ๋ฅผ ๋” ํ’€์–ด์ฃผ๋Š” ๋ฐ์—๋Š” ๋„์›€์ด ์•ˆ๋  ๊ฒƒ ๊ฐ™๊ฑฐ๋“ ์š”. ๋‹ค๋ฅธ ํ™œ์šฉ ๋ฐฉ์•ˆ์ด ์žˆ์„๊นŒ์š”?

๊ทธ๋ž˜์„œ ์–ด๋””์— ์“ฐ์ผ๊นŒ

ํŠน์ • ์ฃผ์ œ์— ๋”ฐ๋ผ ํ™œ์„ฑํ™”๋˜๋Š” ๋‰ด๋Ÿฐ์ด ์žˆ๋‹ค๋ฉด, ํŠน์ • ๋‰ด๋Ÿฐ์„ ํ™œ์„ฑํ™”์‹œ์ผœ์„œ ํ•ด๋‹น ์ฃผ์ œ์— ๋Œ€ํ•œ ์ƒ์„ฑ์„ ๊ฐ•์ œํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์•ž์„œ ๋งํ–ˆ๋˜ AutoEncoder ๊ตฌ์กฐ๋ฅผ ๋‹ค์‹œ ์ƒ๊ธฐํ•ด๋ด…์‹œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ํ›ˆ๋ จ ์ดํ›„์—๋Š” ํ™œ์„ฑํ™” ์ •๋„(activation)๋ฅผ ์‚ฌ์ „ (dictionary vector)๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜์ฃ . ์—ฌ๊ธฐ์„œ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ๋””์ฝ”๋”๋ฅผ ์ด์šฉํ•ด ์‚ฌ์ „ ๋ฒกํ„ฐ๋ฅผ ํ™œ์„ฑํ™” ๋ฒกํ„ฐ(activation vector)๋กœ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ์„๊นŒ์š”? ๋‹ค์‹œ๋งํ•ด ์šฐ๋ฆฌ๊ฐ€ ์˜๋„ํ•œ ๋Œ€๋กœ ๋‰ด๋Ÿฐ์„ ์กฐ์ข…ํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”. ๋‹ต๋ณ€์€ Anthropic์˜ ํ•œ๋ฌธ์žฅ์œผ๋กœ ๋Œ€์ฒดํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

Sparse autoencoder features can be used to intervene on and steer transformer generation.

๋ฌด์„œ์šด ๋ง์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ ์ƒ์„ฑํ˜• AI๋กœ ๋งŒ๋“ค์–ด์ง€๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์Ÿ์•„์ง€๋Š” ํŒ๊ตญ์— ์ด๋ฅผ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ปจํŠธ๋กคํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฑด ์„ค๋ ˆ๋ฉด์„œ๋„ ๊ฑฑ์ •๋˜๋Š” ์ผ์ž…๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ์„ธํŒ…์€ ๊ณ ์ •๋œ ์ƒํƒœ์—์„œ ๋‰ด๋Ÿฐ์กฐ์ž‘๋งŒ์œผ๋กœ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค

๋ช‡๋ช‡ ๋ถ„๋“ค์€ ์ด๊ฑธ ๋ณด๊ณ  AI algnment์— ์“ธ ์ˆ˜ ์žˆ๊ฒ ๋Š”๋ฐ? ํ•˜์‹ค ๊ฒ๋‹ˆ๋‹ค. ๋งž์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” AI safey๋ถ„์•ผ ์ค‘์—์„œ๋„ AI algnment๋ฅผ ์œ„ํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. AI alignment๋ž€ ์ธ๊ณต์ง€๋Šฅ์˜ ์˜๋„์™€ ์šฐ๋ฆฌ์˜ ์˜๋„๋ฅผ align ์ฆ‰ ์ผ์น˜์‹œํ‚ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. AI Alignment๋Š” ๋งค์šฐ ์ค‘์š”ํ•˜๊ณ  ๋ชจ๋‘๊ฐ€ ์ง‘์ค‘ํ•˜๊ณ  ์žˆ๋Š” ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค. ์ง€๊ธˆ์˜ ์•ˆ์ „์„ ์œ„ํ•ด์„œ๋„, AGI์™€ ์ธ๋ฅ˜์˜ ๊ณต์กด์„ ์œ„ํ•ด์„œ๋„์š”. ๋˜ ์ฃผ๊ฐ€ ๋ฐฉ์–ด๋ฅผ ์œ„ํ•ด์„œ๋„ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ๊ตฌ๊ธ€ Gemini์—์„œ ์ƒ์„ฑํ•œ ์•„๋ž˜ ์ด๋ฏธ์ง€๋Š” ์ผ๋ก  ๋จธ์Šคํฌ์˜ ํŠธ์œ—์— ์–ธ๊ธ‰๋˜๋ฉฐ ๋…ผ๋ž€์ด ๋˜๊ธฐ๋„ ํ–ˆ์ฃ . (์ œ ์•ŒํŒŒ๋ฒณ ์ฃผ์‹ ํญ๋ฝ์€ ๋ค์ž…๋‹ˆ๋‹ค)

๋‹ค์–‘์„ฑ๊ณผ ์‚ฌ์‹ค ์‚ฌ์ด์˜ ์ค„๋‹ค๋ฆฌ๊ธฐ๋Š” ์•ž์œผ๋กœ๋„ ์ง€์†๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค

Anthropic์˜ ์—ฐ๊ตฌ์˜ ์ค‘์š”์„ฑ์€ ๊ธฐ์กด์˜ AI alignmen์— ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. AI alignment๋Š” RLHF๊ฐ™์€ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ์„ ํ˜ธ๋ฅผ ์ตœ์ ํ™”(preference optimization)ํ•˜๋Š” ํ›ˆ๋ จ์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐฉ์‹, ๋˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋”ฉ ์ „๋žต(decoding strategy)์—์„œ ํ† ํฐ ๋ ˆ๋ฒจ๋กœ ์ƒ์„ฑ์„ ์กฐ์ž‘ํ•˜๋Š” ๋ฐฉ์‹์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ AI alignment๋ฅผ ์œ„ํ•ด ์ด์ œ ๋‰ด๋Ÿฐ์— ์ง์ ‘์ ์œผ๋กœ ์˜๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ AI์˜ ์‚ฌ๊ณ ์— ๊ฐœ์ž…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋‰ด๋Ÿฐ์„ ์ปจํŠธ๋กคํ•˜๋Š” ๊ฑด ์ƒ๊ฐ๋ณด๋‹ค ๋ณต์žกํ•œ ์ผ์ž…๋‹ˆ๋‹ค. Circuit์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ๋‰ด๋Ÿฐ์˜ ๋‹ค์–‘ํ•œ ์กฐํ•ฉ์ด residual stream์ด๋ผ๋Š” ๋…ผ๋ฆฌ ํ๋ฆ„์— ๊ฐ ์‹ ๊ฒฝ๋ง์˜ ๋ ˆ์ด์–ด๋“ค์ด ๊ธฐ์—ฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ AI๋Š” ์‚ฌ๊ณ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ ์ด๋Ÿฐ ๋‰ด๋Ÿฐ ํšŒ๋กœ(neural circuit)๋ฅผ ์กฐ์‹ฌํžˆ ๋‹ค๋ค„์•ผ๊ฒ ์ฃ . ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ด๋ณด์ฃ . ๋‰ด๋Ÿฐ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜๋Š” ๊ฑด ์ง€์‹์˜ ์ €์ฃผ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ธ๊ฐ„์€ ์ž„์˜๋กœ ๋ง๊ฐํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ AI๋Š” ๋‰ด๋Ÿฐ์„ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ ์•Œ๊ณ  ์žˆ๋˜ ์‚ฌ์‹ค์„ ๋ชจ๋ฅด๊ฒŒ ํ•  ์ˆ˜ ์žˆ์ฃ .

์ดˆ๊ธฐ LLM์€ ์‰ฝ๊ฒŒ ํญํƒ„ ์ œ์กฐ ๋ฐฉ๋ฒ•์„ ์•Œ๋ ค์คฌ์Šต๋‹ˆ๋‹ค. (AI Jailbreak)

์˜ˆ๋ฅผ ๋“ค์–ด ChatGPT์— ๋ˆ„๊ฐ€ ํญํƒ„ ์ œ์กฐ ๋ฐฉ๋ฒ•์„ ๋ฌผ์–ด๋ดค์„ ๋•Œ, ์ด๋Š” ๋‚˜์œ ์˜๋„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์–ด์„œ ๊ทธ ๋ฐฉ๋ฒ•์„ ๋Œ€๋‹ตํ•ด์ฃผ๋ฉด ์•ˆ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ์ƒํ™ฉ์—์„œ ์šฐ๋ฆฌ๊ทธ๊ฑธ ๋ง‰๊ธฐ ์œ„ํ•ด โ€˜ํญํƒ„โ€™ ๋‰ด๋Ÿฐ๊ณผ โ€˜์ œ์กฐโ€™ ๋‰ด๋Ÿฐ์ด ๋™์‹œ์— ํ™œ์„ฑํ™”๋˜๋Š” ํšŒ๋กœ(circuit)๊ฐ€ ๊ฐ์ง€๋˜๋ฉด ํ•ด๋‹น ํšŒ๋กœ๋ฅผ ๋น„ํ™œ์„ฑํ™”์‹œ์ผœ์•ผ๊ฒ ์ฃ . LLM์€ ๋งŽ์€ ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ๋Š” ๋งŒํผ ์œ„ํ—˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, AI safety๋Š” ์ค‘์š”ํ•˜๊ณ  ์œ ๋งํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‹ˆ ๋ฏธ๋ž˜์—๋Š” ๋ฐฉ์ง€ํ•ด์•ผํ•  ํ˜น์€ ์ผœ๋‘์–ด์•ผํ•  ๋‰ด๋Ÿฐ ํšŒ๋กœ(circuit)๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ์ง์—…์ด ์ƒ๊ธธ์ง€๋„ ๋ชจ๋ฅด๊ฒ ๋„ค์š”. (ํ˜น์€ ๊ทธ๋งˆ์ €๋„ AI๋กœ ์ž๋™ํ™” ํ•˜๊ฑฐ๋‚˜์š”)

๊ฒฐ๋ก 

AI์˜ ์ƒ๊ฐ์„ ์ปจํŠธ๋กคํ•  ์ˆ˜ ์žˆ๋Š” ํž˜์ด ์ถ•๋ณต์ด๊ธฐ๋งŒ ํ•œ ๊ฑด ์•„๋‹™๋‹ˆ๋‹ค.

์ŠคํŒŒ์ด๋” ๋งจ์˜ ์‚ผ์ดŒ โ€˜๋ฒค ํŒŒ์ปคโ€™๋Š” โ€˜ํ”ผํ„ฐ ํŒŒ์ปคโ€™์—๊ฒŒ ์•„์ฃผ ์œ ๋ช…ํ•œ ๋ง์„ ํ•ด์ค๋‹ˆ๋‹ค.

ํฐ ํž˜์—๋Š” ํฐ ์ฑ…์ž„์ด ๋”ฐ๋ฅธ๋‹ค.

๋งˆ์น˜ AI๋ฅผ ์กฐ์ข…ํ•  ๊ฐ•๋ ฅํ•œ ํž˜์œผ๋กœ ์ธ๊ณต์ง€๋Šฅ์˜ ์˜๋„๋ฅผ ์ข‹์€ ๋ฐฉํ–ฅ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋งŒํผ, ์•…ํ•œ ๋ฐฉํ–ฅ์„ ํ–ฅํ•  ์ˆ˜๋„ ์žˆ๋Š” ๊ฒƒ ์ฒ˜๋Ÿผ์š”. ์ฑ…์ž„๊ณผ ์„ ํƒ๊ถŒ์ด ๊ธฐ์—…๋“ค์—๊ฒŒ ์ฃผ์–ด์ง„ ๋งŒํผ, ๊ทธ๋“ค์ด ์˜ฌ๋ฐ”๋ฅธ ์„ ํƒ์„ ํ•˜๋„๋ก, ๊ทธ๋ฆฌ๊ณ  ๊ทธ ์„ ํƒ์˜ ๊ธฐ์—ฌํ•˜๊ธฐ ์œ„ํ•ด ์ €๋„ ์•ž์œผ๋กœ ๋…ธ๋ ฅํ•ด์•ผ๊ฒ ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ Sparse AutoEncoder๋ฅผ ์ด์šฉํ•œ ๋ฐฉ์‹์˜ ๋ถ„์„์ด LLM์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ๋‰ด๋Ÿฐ์„ ๊ฐ€์ง„ GPT4๋‚˜ Claude3 ๋ชจ๋ธ์—์„œ๋„ ์ž˜ ๋ถ„์„์„ ํ•ด๋‚ผ์ง€๋Š” ๋ชจ๋ฆ…๋‹ˆ๋‹ค. Anthropic์˜ ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ ๋ ˆ์ด์–ด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ 512์˜ MLP ๋‰ด๋Ÿฐ์„ 4096๊ฐœ์˜ feature๋กœ ๋ถ„๋ฆฌํ•œ ๋ถ„์„์ด๊ธฐ ๋•Œ๋ฌธ์ด์ฃ . Anthropic์˜ Report์—์„œ ๋งํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ์ฐจ์›์ด ๋Š˜์–ด๋‚ ์ˆ˜๋ก ๋ถ€ํ”ผ๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๊ธฐ์—, LLM์—์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ธฐ๋Œ€ํ–ˆ๋˜ ๊ธฐ๋Šฅ์œผ๋กœ ํ•˜๋‚˜ํ•˜๋‚˜ ๋‰ด๋Ÿฐ์ด ๋ถ„๋ฆฌ๋  ์ง€๋Š” ๋ฏธ์ง€์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜๋„ OpenAI์™€ Anthropic์ด๋ผ๋Š” ํ‚น์ฝฉ๊ณผ ๊ณ ์งˆ๋ผ๊ฐ€ ์—ด์‹ฌํžˆ ๋ถ„์„ํ•˜๊ณ  ์žˆ์œผ๋‹ˆ ๋จธ์ง€์•Š์•„ LLM๋“ค์˜ ๋‰ด๋Ÿฐ ๋ถ„์„๋„ ๋น ๋ฅด๊ฒŒ ์™„์„ฑ๋˜์ง€ ์•Š์„๊นŒ์š”? ๊ทธ ๋ง์€ ๊ณง ChatGPT ๋‰ด๋Ÿฐ์ด ์กฐ์ž‘๋œ ์ฑ„๋กœ ์šฐ๋ฆฌ์™€ ๋Œ€ํ™”ํ•  ์ง€๋„ ๋ชจ๋ฆ…๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด๋Ÿฐ ์ž„์˜ ์กฐ์ž‘์ด ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์ผ์œผํ‚ค์ง€ ์•Š๋Š”๋‹ค๋Š” ์ „์ œ ํ•˜์— ๋ง์ด์ฃ .

์‹คํ—˜์— ์‚ฌ์šฉ๋œ ๋ชจ๋ธ์€ 1000์–ต ํ† ํฐ์„ ํ•™์Šตํ–ˆ์ง€๋งŒ ์š”์ฆ˜ ์‹œ๋Œ€์—๋Š” ์ž‘์€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

์ด๋ฒˆ ํฌ์ŠคํŒ…์€ Explainable AI ์‹œ๋ฆฌ์ฆˆ์˜ ์ฒซ ํ™”์˜€์Šต๋‹ˆ๋‹ค! ์ด๋ฒˆ ํ™”๋Š” ๊ผญ AI ์—”์ง€๋‹ˆ์–ด๊ฐ€ ์•„๋‹ˆ๋”๋ผ๋„ ์ฝ์„ ์ˆ˜ ์žˆ๋„๋ก ๋…ธ๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ํ™”์—์„œ๋Š” ๋” ๋”ฅํ•˜๊ฒŒ Circuit, Feature splitting & Universality๋“ฑ ๊ฐœ๋…์ ์œผ๋กœ ์˜ค๋Š˜ ์„ค๋ช…์ด ๋ถ€์กฑํ–ˆ๋˜ ๋ถ€๋ถ„๊ณผ, ์ด๊ฒƒ๋“ค์„ ์ด์šฉํ•ด ์–ด๋–ป๊ฒŒ Anthropic์ด ์‹ ๊ฒฝ๋ง์ด FSM(finite state machine)์ฒ˜๋Ÿผ ์ถ”๋ก ํ•˜๋Š” ์ง€์— ๋Œ€ํ•˜์—ฌ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋˜ ์ด Anthropic์˜ ๋ฐœํ‘œ ์ดํ›„, ์ตœ๊ทผ OpenAI๋Š” TDB๋ผ๋Š” ๋‰ด๋Ÿฐ ๋ถ„์„ ํˆด๊นŒ์ง€ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๊ทธ ๋ถ„์„ ๋„๊ตฌ์ธ TDB๋ฅผ ํ™œ์šฉํ•ด, ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‰ด๋Ÿฐ์„ ์ง์ ‘ ๋ถ„์„ํ•ด๋ณด๋Š” ๊ณผ์ •์„ ๊ณต์œ ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ํ™˜๊ฒฝ ์„ธํŒ…๋ถ€ํ„ฐ GPT2๊ฐ™์€ ๋ชจ๋ธ ๋ถ„์„์„ ๋”ฐ๋ผํ•  ์ˆ˜ ์žˆ๋„๋ก ์ค€๋น„ํ•ด์„œ ์˜ฌ๋ ค๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๋˜ ๋ˆ„๊ตฐ๊ฐ€ ์—„์ฒญ๋‚œ ๋Œ€๋ฐ• ๋‰ด๋Ÿฐ์„ ๋ฐœ๊ฒฌํ•  ์ง€๋„ ๋ชจ๋ฅด์ฃ .

๊ทธ๋Ÿผ ๋‹ค์Œ ํ™”์— ๊ณ„์†!

์ฐธ๊ณ  ๋งํฌ

--

--