๐ง ChatGPT์ ๋ต๋ณ ์กฐ์ข ์ ์ํ Superposition Hypothesis
10์ต๋ช ์ ์ฌ์ฉ์๋ฅผ ๊ฐ์ง ChatGPT์ ๋ต๋ณ์ ์กฐ์ข ํ ์ ์๋ค๋ฉด ์ด๋จ๊น์? ๊ฐ๋ น ๋ํ์ ์๊ทผ์ฌ์ฉ ๊ด๊ณ ๋ฅผ ๋ผ์ ๋ฃ๋๋ค๊ฑฐ๋, ์ ๊ฑฐ์ ์ํฅ์ ์ค ์๋ ์๊ฒ ์ฃ . ์ด๋ ๊ฒ AI์ ๋ํ ์ธ๊ฐ์ ๊ฐ์ ๋ฅ๋ ฅ์ด ์๊ธด๋ค๋ฉด, ์ด๋ ๋ถ๋ช ์์ฒญ๋ ๊ถ๋ ฅ์ ๋๋ค.
ChatGPT๊ฐ์ ์ธ๊ณต์ง๋ฅ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํตํด ๊ตฌํ๋๊ณ , ์ฃผ๋ก ์ด์ฉ๋๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ๋ํ MLP (Multi-Layer Perceptron) ๋ด๋ฐ ์ธต์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ฐ๋ฆฌ๋ ์ด๋ฐ ๋ด๋ฐ ์กฐํฉ์ผ๋ก ์ธ๊ณต์ง๋ฅ์ด ์ด๋ป๊ฒ โ์๊ฐโํ ์ ์๋์ง๋ ์ ๋ชจ๋ฆ ๋๋ค. ๊ทธ๋์ ์ธ๊ณต์ง๋ฅ์ ์ฌ๊ณ ๋ฅผ ์ปจํธ๋กคํ ์๋ ์์ฃ . ๋ด๋ฐ์ ์ญํ ๊ณผ ์๋์๋ฆฌ๋ฅผ ์ ์๋ค๋ฉด, ๋ด๋ฐ์ ์กฐ์ํ์ฌ ์ธ๊ณต์ง๋ฅ์ ์ปจํธ๋กคํ ์ ์์ํ ๋ฐ ๋ง์ด์ฃ .
๊ทธ๋ฐ๋ฐ Anthropic์ด๋ผ๋ ํ์ฌ๊ฐ ํธ๋์คํฌ๋จธ AI ์ธ์ด๋ชจ๋ธ์์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋ด๋ฐ ์กฐ์์ ํตํด ๋ต๋ณ์ ์ปจํธ๋กคํ ์ ์์์ ๋ณด์ ๋๋ค. ๋ฐ๋ก ์ค๋ ์๊ฐํ Superposition Hypothesis์ Sparse AutoEncoder๋ก ๋ง์ด์ฃ . ์ฐ์ ๋ฐ๊ฒฌํ ๋ด๋ฐ๋ถํฐ ๊ฐ๋จํ ์ดํด๋ด ์๋ค. ์๋๋ Anthropic์์ ๋ถ์ํ ๋ด๋ฐ๋ค ์ค ํ๋์ธ ์ํธํํ ๋ด๋ฐ์ ๋๋ค.
์ด ๋ด๋ฐ์ ์ธ๊ณต์ง๋ฅ์ด ์ํธํํ์ ๊ด๋ จ๋ ํ ์คํธ๋ฅผ ์์ฑํ ๋ ํ์ฑํ๋ฉ๋๋ค. ์ฌ์ง ์ฐ์ธก์ ๋ณด๋ฉด ํด๋น ๋ด๋ฐ์ด ๋นํธ์ฝ์ธ๊ณผ ๊ด๋ จ๋ ๋ฐํ์ ๊ฐํ๊ฒ ํ์ฑํ(activation)๋๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค(์งํ ๋ฐฐ๊ฒฝ์ผ๋ก ํ์). ์ด๋ฐ ๋ฐ๊ฒฌ์ ์ฌ๋ฌ๋ถ์ด ChatGPT์ ๋ํํ ๋ ํน์ ์ฃผ์ ์ ๋ฐ๋ผ ํ์ฑํ๋๋ ๋ด๋ฐ์ด ์๋ค๋ ๊ฒ์ ์๋ ค์ค๋๋ค.
Anthropic์ ์ํธํํ ๋ด๋ฐ ๋ฟ ์๋๋ผ ์ ์ฌ์ง ๊ฐ์ ํ๊ตญ์ด ๋ด๋ฐ, ์ ์น์ฌ ๋ด๋ฐ ๊ทธ๋ฆฌ๊ณ ์ ๋จธ ๋ด๋ฐ ๋ฑ ๋ค์ํ ๋ด๋ฐ๋ค์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฐ ์ ๊ฒฝ๋ง ๋ด๋ถ์ ๋ด๋ฐ ํ์ฑํ๋ฅผ ์ฐ๊ตฌํ๋ ๋ถ์ผ๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์๊ณ , ๊ฐ์ฌํ๊ฒ๋ AI๊ณ์ ๊ฑฐ๋ฌผ์ธ ๋ ํ์ฌ, OpenAI์ Anthropic๋ ์๋คํฌ์ด ์ฐ๊ตฌ๋ฅผ ๊ณต๊ฐํ๊ณ ์์ต๋๋ค.
Explainable AI
XAI(Explainable AI)๋ผ๋ ๋ถ์ผ์๋ ์ธ๊ณต์ง๋ฅ์ ์ธ๊ณต์ ๊ฒฝ๋ง ์ ๋ด๋ฐ๋ค์ด โ์ง๋ฅโ์ ์ด๋ค ๊ธฐ์ฌ๋ฅผ ํ๋ ์ง๋ฅผ ์์๋ด๊ธฐ ์ํ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. ๋ง ๊ทธ๋๋ก ๋ธ๋๋ฐ์ค์ธ AI ์๋์ ์ค๋ช ํ๊ธฐ ์ํ ์๋์ธ๋ฐ์. ํด๋น ๋ถ์ผ๋ AI๋ฐ์ ์๋ ์ค์ํ ์ญํ ์ ํด์์ต๋๋ค. ๋ํ์ ์ผ๋ก OpenAI๋ฅผ ์ด๋ ์ฐ๊ตฌ์ ์ค ํ๋ช ์ธ ์ผ๋ฆฌ์ผ ์์ธ ์ผ๋ฒ์ ๋ฐ๋ฅด๋ฉด 2017๋ OpenAI์์ ๋ฐ๊ฒฌํ ๊ฐ์ฑ๋ด๋ฐ(sentiment neuron)์ด ChatGPT์ ๊ฐ๋ฐ์ ์ด๋ ์ค์ํ ๋ฐ๊ฒฌ์ด์๋ค๊ณ ํ์ฃ . ์ด์ฒ๋ผ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ดํดํ๋ ๊ฑด ์ธ๊ณต์ง๋ฅ ์์ฒด์ ๋ฐ์ ๊ณผ ๋ง๋ฌผ๋ ค ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ถ๊ณผ ๋ช ๊ฐ์ ์ Anthropic์ด LLM์ ๋ํ๊ฒฉ ๋ชจ๋ธ์ธ ํธ๋์คํฌ๋จธ์์ ์ฝ 4000๊ฐ์ ๋ด๋ฐ์ ๋๋ ๋ฐ๊ฒฌํด๋ฒ๋ฆฝ๋๋ค.
์ ํํ ํํํ๋ฉด ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋ด๋ฐ 4000๊ฐ๋ฅผ ๋ฐ๊ฒฌํ ๊ฒ ์๋๋ผ ๋ด๋ฐ๋ค์ ๋ถ์ฐ๋์ด ์๋ 4000๊ฐ์ ๊ธฐ๋ฅ์ ๋ถ๋ฆฌํด ๋์ต๋๋ค. ์ฌ๊ธฐ์ โ๋ถ๋ฆฌโ๋ผ๊ณ ํํํ ์ด์ ๋, ์ ๊ฒฝ๋ง์์ ํ๋์ ๊ธฐ๋ฅ์ด ์ฌ๋ฌ ๋ด๋ฐ์ ๋๋์ด ์กด์ฌํ๊ณ ๋, ํ๋์ ๋ด๋ฐ์ด ์ฌ๋ฌ ๊ฐ์ ๊ธฐ๋ฅ์ ๋ด๋นํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฐ๊ตฌ๋ฅผ ํตํด ๋ฐํ์ง ์ฌ๋ฐ๋ ํ์์ด์ฃ . ๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ๊ฐ๋ ์ superposition hypothesis ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ด๋ ๊ฒ ๋ด๋ฐ๊ณผ ๊ธฐ๋ฅ์ด ์ค์ฒฉ๋์ด ๋ ๋ฆฝ์ ์ธ ๊ฒ์ฒ๋ผ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ค๋ช ํ๋ ค๋ ์ฐ๊ตฌ๋ค์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ์ง ๋ชปํ๋ ๊ฒ๋๋ค.
์ดํด์ ํธ์์ ์ด ๊ธ์์๋ ๋ถ๋ฆฌ๋ ๊ธฐ๋ฅ ๋ ธ๋๋ ๋ด๋ฐ์ด๋ผ ํํํ๊ฒ ์ต๋๋ค
์ด๋ ๊ฒ โํ๋์ ๋ด๋ฐ์ด ํ๋ ์ด์์ ๊ธฐ๋ฅ์ ํ๋คโ๋ผ๋ ๋ฌธ์ ์์ ์ถ๋ฐํด ์ด๋ป๊ฒ ํผ์ฌ๋ ๊ธฐ๋ฅ์ ๋ถ๋ฆฌํด๋ผ ์ ์์์๊น์? Anthropic์ ๊ฐ๋จํ ๋ฐฉ์์ผ๋ก ํ์ด๋๊ฐ๋๋ค. โํ๋์ ๋ด๋ฐ์ด ์ฌ๋ฌ ๊ฐ์ ๊ธฐ๋ฅ์ ๋ด๋นํ๋ค๋ฉด, ๊ธฐ๋ฅ ๋ณ๋ก ๋๋ ๋๊น์ง ๋ถ๋ฆฌํด๋ณด์!โ ์ ๋๋ค. ์ ํํ๋ ๋ด๋ฐ ์ธต ์ ์ฒด์ ํ์ฑํ(activation)๊ฐ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฒกํฐ์์, ๊ฐ๊ฐ์ ์ฐจ์์ด ํ๋์ ๊ธฐ๋ฅ์ ํ ๋๊น์ง ๋ฒกํฐ๋ฅผ ํ์ฅํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด Sparse AutoEncoder๋ผ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฉํด ๋ด๋ฐ์ ํ์ฑํ ๋ฒกํฐ์์ ๊ธฐ๋ฅ์ ๋ถ๋ฆฌํด๋ ๋๋ค.
์ฐ์ , ์ฒ์์ 512 ์ฐจ์ ๊ธธ์ด์ ๋นฝ๋นฝํ ํ์ฑํ ๋ฒกํฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค. ์ด๋ฅผ ์์ํ ํ์ฅํ๋ฉด์ 4096์ฐจ์์ ๋ฒกํฐ๊ฐ ๋๋ฉด 8๋ฐฐ๋ ์ฐจ์์ด ๋์ด๋ ๋ฒกํฐ๋ ์์ฃผ ๋์จํด์ง ๊ฒ๋๋ค. ๋ฒกํฐ ๊ณต๊ฐ์ ๋ถํผ๋ ์ฐจ์์ ๋ฐ๋ผ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๊ธฐ ๋๋ฌธ์ด์ฃ . ์ด๋ ๊ฒ ๋์จํด์ง ๋ฒกํฐ๋ฅผ sparseํ๋ค๊ณ ํฉ๋๋ค. ์ ํํ๋ ๋์ ์ฐจ์์ ์ฌ์ฉํ๋ฉฐ ๋ฒกํฐ ์์๋ค์ 0๊ฐ์ด ๋ง์์ง๊ฒ ๋ฉ๋๋ค.
์ด ๋, ์ฐ๋ฆฌ์ ๋ชฉ์ ์ ๋นฝ๋นฝํ๋ ํ์ฑํ ๋ฒกํฐ(dense activation vector)๋ฅผ ๊ธฐ๋ฅ ๋ณ๋ก ๋ถํดํ ๋์จํ ๊ธฐ๋ฅ ๋ฒกํฐ(sparse feature vector)๋ก ๋ถ๋ฆฌํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฐ ์ ๊ทผ ๋ฐฉ์์ Dictionary learning์ด๋ผ๊ณ ๋ถ๋ฅด๋๋ฐ, ์ค์ฒฉ๋์ด ์๋ ๊ธฐ๋ฅ์ ๋ถํดํ์ฌ 4096๊ฐ์ ๋ฒกํฐ ์์ ์์์ ๊ธฐ๋ฅ์ ์ฌ์ ์ฒ๋ผ ๋ถ๋ฆฌํ์ฌ ์ ๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ ๊ฒ ๋ด๋ฐ์ ํ์ฑํ๋ฅผ ์ฌ์ ๋ฒกํฐ๋ก ๋ณํํ๋ ๋ชจ๋ธ์ ์ํด Sparse AutoEncoder๋ผ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋๋ฐ, ์ด ์์ด๋์ด๋ ์์ฃผ ์ค์ํ๋ ์ข ๋ ์์ธํ ๋ค์ฌ๋ค ๋ด ์๋ค.
Sparse AutoEncoer
AutoEncoder๋ ๋ํ์ ์ธ Encoder-Decoder ๊ตฌ์กฐ์ ์ ๊ฒฝ๋ง์ ๋๋ค. AutoEncoder๋ฅผ ์์ ํ ์ดํดํ ํ์๋ ์์ต๋๋ค. ์ฌ๊ธฐ์ ํต์ฌ์ ์ด ๊ตฌ์กฐ๊ฐ ์ธ์ฝ๋ ํํธ์ ๋์ฝ๋ ํํธ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค๋ ์ ์ด์ฃ . ์ธ์ฝ๋์ ๋์ฝ๋๋ ๊ฐ๊ฐ ๋ฒกํฐ๋ฅผ ๋ค๋ฅธ ํฌ๊ธฐ์ ์ฐจ์์ผ๋ก ๋งคํํด์ค๋๋ค. ์ธ์ฝ๋๋ ๋ด๋ฐ ํ์ฑํ ์ธต ๋ฒกํฐ๋ฅผ ์ฌ์ ๋ฒกํฐ(dictionary vector)๋ก ๋ณํํ๊ณ , ๋์ฝ๋๋ ์ด ๋ฒกํฐ๋ก ์๋ณธ ๋ด๋ฐ ํ์ฑํ ์ธต์ ๋ณต์ํฉ๋๋ค. ๊ทธ ๊ณผ์ ์์ Sparse AutoEncoder๋ ์ค๊ฐ์ ์ฌ์ ๋ฒกํฐ์ ํฌ์์ฑ(sparsity)๋ฅผ ๊ฐ์ ํ์ฌ ๊ฐ๊ฐ์ ์ฐจ์์ ํ๋์ ๊ธฐ๋ฅ๋ง ๋ค์ด๊ฐ๋๋ก ๊ฐ์ ํฉ๋๋ค. Sparseํด์ง ๋ฒกํฐ๋ก ๋ถ์์ด ์ฌ์์ง๋ ๊ฑด ๋ค์ด๊ณ ์. ์ ๊ทธ๋ฌ๋ฉด ์ฐ๋ฆฌ๋ ๋ด๋ฐ ํ์ฑํ๋ฅผ ์ฌ์ ๋ฒกํฐ ์ฆ ๋จ์ผ ์๋ฏธ(Mono-semanticity)๋ก์ ๋ถ๋ฆฌ์ ์ฑ๊ณตํ์ต๋๋ค.
Sparse AutoEncoder๋ฅผ ํ์ฉํ ๋ด๋ฐ ๋ถ์์ LessWrong forum์์ Lee Sharkey์์ ๋จผ์ ์ฐ๊ตฌ๋์์ผ๋, ๋ ๋ฆฝ์ ์ธ ์ฐ๊ตฌ์ด๊ณ Anthropic์ Toy Models of Superposition์ ์ผ๋ถ ์ํฅ์ ๋ฐ์๋ค๊ณ ํฉ๋๋ค.
์ด๋ก ์ ๋ถ์
Anthropic์ด ๋ณด์ฌ์ค ๋จ์ผ ์๋ฏธ(Mono-semanticity) ๋ฒกํฐ๋ฅผ ์๋ฏธํ๊ธฐ ์ ์ superposition hypothesis๋ฅผ ๋ ๊น๊ฒ ์ดํดํด ๋ด ์๋ค. ์ฆ ์ฌ๋ฌ ๋ด๋ฐ์ ์ฌ๋ฌ ๊ธฐ๋ฅ์ด ์ฐ์ฌํด ์๋ ์ด์ ๋ฅผ ์ดํดํด์ผ ํฉ๋๋ค. ์ด๋ ๋ณ๋ค๋ฅธ ๋ฌธ์ ๊ฐ ์๋ ๊ฒ ๊ฐ์ง๋ง ์ด์ํ ์ ์ด ์์ต๋๋ค. ๋ฐ๋ก ๋ด๋ฐ ๊ฐ์๋ณด๋ค ๊ธฐ๋ฅ์ ๊ฐ์๊ฐ ๋ง๋ค๋ ์ ์ ๋๋ค. ์ ํ ๋์๋ฅผ ๊ณต๋ถํ ์ฌ๋๋ค์ ๋ ์ฉํ ๊ฒ๋๋ค. ์ฐจ์ ๊ฐ์๋ณด๋ค ๋ง์ ๊ธฐ๋ฅ์ด ์กด์ฌํ๋ค๋ ๊ฒ ๋ง์ด ๋ฉ๋๊น? (์๊ทผ์ง) ํ์ง๋ง ์ด๋ฅผ ์ ์ค๋ช ํ๋ ์์ฃผ ํต์ฐฐ๋ ฅ ์๋ ์๊ฒฌ๋ค์ด ์์ต๋๋ค. ๋ฐ๋ก ์ฐจ์๋ผ๋ฆฌ ์ฐจ์์ ๊ณต์ ํ์ฌ ๋ ๋ค๋ฅธ ์ง๊ต์ฑ(orthogonality)๊ฐ ์ผ์ด๋๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋์ superposition์ด ์๊ธฐ๊ณ ์ด๋ฅผ ๋ ๋์ ์ฐจ์์ผ๋ก ๋ฒกํฐ๋ฅผ ๋ณํํด์ ๋ถํดํ ์๋ ์๊ฒ ๋ฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ฐจ์ ๋ด์ ํํํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ ํ๋์ด ์๋ค๋ ๊ฒ์ ์๊ณ ์์ต๋๋ค. xy๊ทธ๋ํ์๋ x์ y ๊ฐ๋ง ํํํ ์ ์์ง z๋ฅผ ํํํ ์๋ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ด์ด๊ฐ ์์ต๋๋ค. โ์ ๊ฒ ๋๋ค๊ณ ? ๊ธฐ์ (basis)๋งํผ ์ฐจ์์ ์จ์ผ์ง!โ ํ์ง๋ง ์ ํฌ๊ฐ ๋ค๋ฃจ๋ ๊ฒ์ 2์ฐจ์์ด๋ 3์ฐจ์์ด ์๋๋ผ ์๋ฐฑ ์ฐจ์์ ๋๋ค. ์ฐจ์์ ์ ์ฃผ๋ก ์ธํด ๋ถํผ๊ฐ ์ด๋ง์ด๋งํ๊ฒ ๋์ด๋๋ ๋งํผ, ์๋ก ๊ฐ์ญํ ์ผ๋ ๊ฑฐ์ ์๋ค๋ ๊ฑฐ์ฃ .
๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ Compressed sensing์ด๋ผ๋ ์ด๋ก ์ ์ค๋ช ์ด ๋ท๋ฐ์นจ๋ฉ๋๋ค. Compressed sensing์ ์ ํธ ์ฒ๋ฆฌ์์ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ sparseํ๋ค๋ฉด ๊ธฐ์ (basis)๊ฐ ๋ถ์กฑํด๋ ์์ ํ ์ ํธ๋ฅผ ๋ณต์ํ ์ ์๋ค๋ ์ด๋ก ์ธ๋ฐ์. ์ด์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ํธ๋์คํฌ๋จธ์ ๊ธฐ๋ฅ์ sparseํ๊ฒ ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์, Compressed sensing์ ์กฐ๊ฑด์ ๋ถํฉํฉ๋๋ค. ์ด๊ฒ ๋ ์ ์ ์ฐจ์์์ ๋ง์ ๊ธฐ๋ฅ์ ์ฌ์ฉํด๋ ๋ฌธ์ ๊ฐ ์๋ ์ด์ ์ด๊ณ , superposition hypothesis์์ ์ฐจ์์ ๊ณต์ ํด์ ์ฌ์ฉํ๋ค๋ ์ค์ํ ๊ทผ๊ฑฐ์ ๋๋ค.
๊ฐ์ธ์ ์ผ๋ก ๋๋ผ์ด ์ ์ ์ด๋ฐ ํต์ฐฐ์ด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ positional embedding์ด ์๋ํ๋ ์ธ์ฌ์ดํธ์ ๋น์ทํ๋ค๋ ์ ์ ๋๋ค. ์ ๋ ์์ ํธ๋์คํฌ๋จธ๋ฅผ ์ฒ์ ๊ณต๋ถํ ๋ positional embedding์ด token embedding๊ณผ ๋์ผํ ์ฐจ์์ ์ด์ฉํด๋ ๋ฌธ์ ์๋ ๊ฒ ๋๋ฌด ์ดํด๊ฐ ์๋์ต๋๋ค. ๋น์ฐํ ๋์ ๋ค๋ฅธ ์ ๋ณด๋ฅผ ์ ๋ฌํ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ์ฐจ์์ ์ด์ฉํด์ผ ํ ๊ฒ ๊ฐ์๊ฑฐ๋ ์. ๊ทธ๋ฐ๋ฐ๋ ๋ถ๊ตฌํ๊ณ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ token embedding๊ณผ positional embedding์ ์ฐจ์์ ์ฐ๊ฒฐ(concat)ํ๋ ๊ฒ ์๋๋ผ ๋จ์ํ ๋ํ๊ธฐ๋ง ํฉ๋๋ค. ํ์ง๋ง ์ด๋ ์ ์๋ํ๋๋ฐ ๋ฐ๋ก ์์ ๋์ผํ ์ ํ์ ํต์ฐฐ์ ๊ธฐ๋ฐํฉ๋๋ค. ๋์ ์ฐจ์์์ ์ถ๊ฐ์ ์ธ ์ง๊ต์ฑ(approximate orthogonality)์ด ์๋ํ๋ค๋ ์ ์ด์ฃ .
์ ๋ง ํฅ๋ฏธ๋ก์ด ๋ถ์์ ๋๋ค. ๋ง์น ๊ธฐ๊ณ ๋ฟ ์๋๋ผ ์ธ๊ฐ์ ๋ด๋ฐ๋ ์ด๋ ๊ฒ superposition hypothesis์ ๊ธฐ๋ฐํด ํ์ฑํ๋ ๊ฒ ๊ฐ์ฃ . ๋ง์ฝ ๊ทธ๋ ๋ค๋ฉด ์ด๋ค ๊ฐ๋ ์ ๋ํด ์๊ฐํ ๋ superposition์ผ๋ก ์ธํด ์ฌ๋ฌ ๊ฐ๋ ์ด ์ค์ฒฉ๋ ๋ด๋ฐ์ ๊ด๋ จ๋ ๊ฐ๋ ๋ค์ ๊ฐ์ ๋ก ํ์ฑํ๋๋ ๊ฒ์ด ํจ์จ์ ์ด๋ผ ์ด๋ ๊ฒ ํ์ต๋ ๊ฒ์ ์๋๊น ํ๋ ์ถ์ธก๋ ๋ญ๋๋ค.
์ ์ฐ๋ฆฌ๋ ๊ธฐ๋งํ ์ด๋ก ์ ๋ถ์์ ๊ฐ์ง๊ณ AI ๋ด๋ฐ์ ๋น๋ฐ์ ํํค์ณค์ต๋๋ค. ํ์ง๋ง ๋ฉ๋ค์ด์ง ์์๊ณผ ๋ถ์์ด ์ธ์ ๋ ์ธ๋ชจ๊ฐ ์๋ ๊ฑด ์๋๋๋ค. ์์ ์ฌ์ค๋ค๋ก ์ฐ๋ฆฌ๊ฐ ChatGPT๊ฐ ๊ต์๋์ด ๋ด ์ค ๊ณผ์ ๋ฅผ ๋ ํ์ด์ฃผ๋ ๋ฐ์๋ ๋์์ด ์๋ ๊ฒ ๊ฐ๊ฑฐ๋ ์. ๋ค๋ฅธ ํ์ฉ ๋ฐฉ์์ด ์์๊น์?
๊ทธ๋์ ์ด๋์ ์ฐ์ผ๊น
ํน์ ์ฃผ์ ์ ๋ฐ๋ผ ํ์ฑํ๋๋ ๋ด๋ฐ์ด ์๋ค๋ฉด, ํน์ ๋ด๋ฐ์ ํ์ฑํ์์ผ์ ํด๋น ์ฃผ์ ์ ๋ํ ์์ฑ์ ๊ฐ์ ํ ์ ์์๊น์? ์์ ๋งํ๋ AutoEncoder ๊ตฌ์กฐ๋ฅผ ๋ค์ ์๊ธฐํด๋ด ์๋ค. ์ฐ๋ฆฌ๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ํ๋ จ ์ดํ์๋ ํ์ฑํ ์ ๋(activation)๋ฅผ ์ฌ์ (dictionary vector)๋ก ๋ณํํ๊ธฐ ์ํด ์ธ์ฝ๋๋ง ์ฌ์ฉํ๊ฒ ๋์ฃ . ์ฌ๊ธฐ์ ํ์ต์ ์ฌ์ฉ๋ ๋์ฝ๋๋ฅผ ์ด์ฉํด ์ฌ์ ๋ฒกํฐ๋ฅผ ํ์ฑํ ๋ฒกํฐ(activation vector)๋ก ๋ฐ๊ฟ ์ ์์๊น์? ๋ค์๋งํด ์ฐ๋ฆฌ๊ฐ ์๋ํ ๋๋ก ๋ด๋ฐ์ ์กฐ์ข ํ ์ ์์๊น์. ๋ต๋ณ์ Anthropic์ ํ๋ฌธ์ฅ์ผ๋ก ๋์ฒดํด ๋ณด๊ฒ ์ต๋๋ค.
Sparse autoencoder features can be used to intervene on and steer transformer generation.
๋ฌด์์ด ๋ง์ ๋๋ค. ์ต๊ทผ ์์ฑํ AI๋ก ๋ง๋ค์ด์ง๋ ๋ฐ์ดํฐ๊ฐ ์์์ง๋ ํ๊ตญ์ ์ด๋ฅผ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ปจํธ๋กคํ ์ ์๋ค๋ ๊ฑด ์ค๋ ๋ฉด์๋ ๊ฑฑ์ ๋๋ ์ผ์ ๋๋ค.
๋ช๋ช ๋ถ๋ค์ ์ด๊ฑธ ๋ณด๊ณ AI algnment์ ์ธ ์ ์๊ฒ ๋๋ฐ? ํ์ค ๊ฒ๋๋ค. ๋ง์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ AI safey๋ถ์ผ ์ค์์๋ AI algnment๋ฅผ ์ํ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋๋ค. AI alignment๋ ์ธ๊ณต์ง๋ฅ์ ์๋์ ์ฐ๋ฆฌ์ ์๋๋ฅผ align ์ฆ ์ผ์น์ํค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. AI Alignment๋ ๋งค์ฐ ์ค์ํ๊ณ ๋ชจ๋๊ฐ ์ง์คํ๊ณ ์๋ ๋ถ์ผ์ ๋๋ค. ์ง๊ธ์ ์์ ์ ์ํด์๋, AGI์ ์ธ๋ฅ์ ๊ณต์กด์ ์ํด์๋์. ๋ ์ฃผ๊ฐ ๋ฐฉ์ด๋ฅผ ์ํด์๋ ์ค์ํฉ๋๋ค. ์ต๊ทผ ๊ตฌ๊ธ Gemini์์ ์์ฑํ ์๋ ์ด๋ฏธ์ง๋ ์ผ๋ก ๋จธ์คํฌ์ ํธ์์ ์ธ๊ธ๋๋ฉฐ ๋ ผ๋์ด ๋๊ธฐ๋ ํ์ฃ . (์ ์ํ๋ฒณ ์ฃผ์ ํญ๋ฝ์ ๋ค์ ๋๋ค)
Anthropic์ ์ฐ๊ตฌ์ ์ค์์ฑ์ ๊ธฐ์กด์ AI alignmen์ ์๋ก์ด ๋ฐฉํฅ์ฑ์ ์ ์ํ๋ค๋ ์ ์ ๋๋ค. AI alignment๋ RLHF๊ฐ์ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต์ผ๋ก ์ ํธ๋ฅผ ์ต์ ํ(preference optimization)ํ๋ ํ๋ จ์ ๊ธฐ๋ฐํ ๋ฐฉ์, ๋๋ ํธ๋์คํฌ๋จธ์ ๋์ฝ๋ฉ ์ ๋ต(decoding strategy)์์ ํ ํฐ ๋ ๋ฒจ๋ก ์์ฑ์ ์กฐ์ํ๋ ๋ฐฉ์์ด ์์์ต๋๋ค. ํ์ง๋ง AI alignment๋ฅผ ์ํด ์ด์ ๋ด๋ฐ์ ์ง์ ์ ์ผ๋ก ์๋๋ฅผ ๊ฐ์ง๊ณ ์ํ๋ ๋ฐฉํฅ์ผ๋ก AI์ ์ฌ๊ณ ์ ๊ฐ์ ํ ์ ์๊ฒ ๋์์ต๋๋ค.
๋ด๋ฐ์ ์ปจํธ๋กคํ๋ ๊ฑด ์๊ฐ๋ณด๋ค ๋ณต์กํ ์ผ์ ๋๋ค. Circuit์ด๋ผ ๋ถ๋ฆฌ๋ ๋ด๋ฐ์ ๋ค์ํ ์กฐํฉ์ด residual stream์ด๋ผ๋ ๋ ผ๋ฆฌ ํ๋ฆ์ ๊ฐ ์ ๊ฒฝ๋ง์ ๋ ์ด์ด๋ค์ด ๊ธฐ์ฌํ๋ ๋ฐฉ์์ผ๋ก AI๋ ์ฌ๊ณ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฐ ๋ด๋ฐ ํ๋ก(neural circuit)๋ฅผ ์กฐ์ฌํ ๋ค๋ค์ผ๊ฒ ์ฃ . ์ด๋ฐ ๋ฐฉ์์ผ๋ก ์ ๊ทผํด๋ณด์ฃ . ๋ด๋ฐ์ ๋นํ์ฑํํ๋ ๊ฑด ์ง์์ ์ ์ฃผ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ฐฉ์งํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ธ๊ฐ์ ์์๋ก ๋ง๊ฐํ์ง ๋ชปํ์ง๋ง AI๋ ๋ด๋ฐ์ ๋นํ์ฑํํ์ฌ ์๊ณ ์๋ ์ฌ์ค์ ๋ชจ๋ฅด๊ฒ ํ ์ ์์ฃ .
์๋ฅผ ๋ค์ด ChatGPT์ ๋๊ฐ ํญํ ์ ์กฐ ๋ฐฉ๋ฒ์ ๋ฌผ์ด๋ดค์ ๋, ์ด๋ ๋์ ์๋๊ฐ ์์ ์ ์์ด์ ๊ทธ ๋ฐฉ๋ฒ์ ๋๋ตํด์ฃผ๋ฉด ์๋ฉ๋๋ค. ๊ทธ๋ฐ ์ํฉ์์ ์ฐ๋ฆฌ๊ทธ๊ฑธ ๋ง๊ธฐ ์ํด โํญํโ ๋ด๋ฐ๊ณผ โ์ ์กฐโ ๋ด๋ฐ์ด ๋์์ ํ์ฑํ๋๋ ํ๋ก(circuit)๊ฐ ๊ฐ์ง๋๋ฉด ํด๋น ํ๋ก๋ฅผ ๋นํ์ฑํ์์ผ์ผ๊ฒ ์ฃ . LLM์ ๋ง์ ๊ฒ์ ์๊ณ ์๋ ๋งํผ ์ํํ๊ธฐ ๋๋ฌธ์, AI safety๋ ์ค์ํ๊ณ ์ ๋งํ ๋ถ์ผ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ฏธ๋์๋ ๋ฐฉ์งํด์ผํ ํน์ ์ผ๋์ด์ผํ ๋ด๋ฐ ํ๋ก(circuit)๋ฅผ ์ฐ๊ตฌํ๋ ์ง์ ์ด ์๊ธธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค์. (ํน์ ๊ทธ๋ง์ ๋ AI๋ก ์๋ํ ํ๊ฑฐ๋์)
๊ฒฐ๋ก
AI์ ์๊ฐ์ ์ปจํธ๋กคํ ์ ์๋ ํ์ด ์ถ๋ณต์ด๊ธฐ๋ง ํ ๊ฑด ์๋๋๋ค.
ํฐ ํ์๋ ํฐ ์ฑ ์์ด ๋ฐ๋ฅธ๋ค.
๋ง์น AI๋ฅผ ์กฐ์ข ํ ๊ฐ๋ ฅํ ํ์ผ๋ก ์ธ๊ณต์ง๋ฅ์ ์๋๋ฅผ ์ข์ ๋ฐฉํฅ์ ๋ง๋ค ์ ์๋ ๋งํผ, ์ ํ ๋ฐฉํฅ์ ํฅํ ์๋ ์๋ ๊ฒ ์ฒ๋ผ์. ์ฑ ์๊ณผ ์ ํ๊ถ์ด ๊ธฐ์ ๋ค์๊ฒ ์ฃผ์ด์ง ๋งํผ, ๊ทธ๋ค์ด ์ฌ๋ฐ๋ฅธ ์ ํ์ ํ๋๋ก, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ ํ์ ๊ธฐ์ฌํ๊ธฐ ์ํด ์ ๋ ์์ผ๋ก ๋ ธ๋ ฅํด์ผ๊ฒ ์ต๋๋ค.
๋ํ Sparse AutoEncoder๋ฅผ ์ด์ฉํ ๋ฐฉ์์ ๋ถ์์ด LLM์ด๋ผ ๋ถ๋ฆฌ๋ ์์ฒญ๋๊ฒ ๋ง์ ๋ด๋ฐ์ ๊ฐ์ง GPT4๋ Claude3 ๋ชจ๋ธ์์๋ ์ ๋ถ์์ ํด๋ผ์ง๋ ๋ชจ๋ฆ ๋๋ค. Anthropic์ ์ฐ๊ตฌ๋ ๋จ์ผ ๋ ์ด์ด์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํ์ฉํ์ฌ 512์ MLP ๋ด๋ฐ์ 4096๊ฐ์ feature๋ก ๋ถ๋ฆฌํ ๋ถ์์ด๊ธฐ ๋๋ฌธ์ด์ฃ . Anthropic์ Report์์ ๋งํ ๊ฒ์ฒ๋ผ ์ฐจ์์ด ๋์ด๋ ์๋ก ๋ถํผ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๊ธฐ์, LLM์์ ์ฐ๋ฆฌ๊ฐ ๊ธฐ๋ํ๋ ๊ธฐ๋ฅ์ผ๋ก ํ๋ํ๋ ๋ด๋ฐ์ด ๋ถ๋ฆฌ๋ ์ง๋ ๋ฏธ์ง์์ ๋๋ค. ๊ทธ๋๋ OpenAI์ Anthropic์ด๋ผ๋ ํน์ฝฉ๊ณผ ๊ณ ์ง๋ผ๊ฐ ์ด์ฌํ ๋ถ์ํ๊ณ ์์ผ๋ ๋จธ์ง์์ LLM๋ค์ ๋ด๋ฐ ๋ถ์๋ ๋น ๋ฅด๊ฒ ์์ฑ๋์ง ์์๊น์? ๊ทธ ๋ง์ ๊ณง ChatGPT ๋ด๋ฐ์ด ์กฐ์๋ ์ฑ๋ก ์ฐ๋ฆฌ์ ๋ํํ ์ง๋ ๋ชจ๋ฆ ๋๋ค. ๋ฌผ๋ก ์ด๋ฐ ์์ ์กฐ์์ด ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ์ผํค์ง ์๋๋ค๋ ์ ์ ํ์ ๋ง์ด์ฃ .
์ด๋ฒ ํฌ์คํ ์ Explainable AI ์๋ฆฌ์ฆ์ ์ฒซ ํ์์ต๋๋ค! ์ด๋ฒ ํ๋ ๊ผญ AI ์์ง๋์ด๊ฐ ์๋๋๋ผ๋ ์ฝ์ ์ ์๋๋ก ๋ ธ๋ ฅํ์ต๋๋ค. ๋ค์ ํ์์๋ ๋ ๋ฅํ๊ฒ Circuit, Feature splitting & Universality๋ฑ ๊ฐ๋ ์ ์ผ๋ก ์ค๋ ์ค๋ช ์ด ๋ถ์กฑํ๋ ๋ถ๋ถ๊ณผ, ์ด๊ฒ๋ค์ ์ด์ฉํด ์ด๋ป๊ฒ Anthropic์ด ์ ๊ฒฝ๋ง์ด FSM(finite state machine)์ฒ๋ผ ์ถ๋ก ํ๋ ์ง์ ๋ํ์ฌ ์์๋ณด๊ฒ ์ต๋๋ค. ๋ ์ด Anthropic์ ๋ฐํ ์ดํ, ์ต๊ทผ OpenAI๋ TDB๋ผ๋ ๋ด๋ฐ ๋ถ์ ํด๊น์ง ์คํ์์ค๋ก ๊ณต๊ฐํ์ต๋๋ค. ๋ฐ๋ก ๊ทธ ๋ถ์ ๋๊ตฌ์ธ TDB๋ฅผ ํ์ฉํด, ์ธ์ด ๋ชจ๋ธ์ ๋ด๋ฐ์ ์ง์ ๋ถ์ํด๋ณด๋ ๊ณผ์ ์ ๊ณต์ ํด๋ณด๊ฒ ์ต๋๋ค. ํ๊ฒฝ ์ธํ ๋ถํฐ GPT2๊ฐ์ ๋ชจ๋ธ ๋ถ์์ ๋ฐ๋ผํ ์ ์๋๋ก ์ค๋นํด์ ์ฌ๋ ค๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ๋ ๋๊ตฐ๊ฐ ์์ฒญ๋ ๋๋ฐ ๋ด๋ฐ์ ๋ฐ๊ฒฌํ ์ง๋ ๋ชจ๋ฅด์ฃ .
๊ทธ๋ผ ๋ค์ ํ์ ๊ณ์!
์ฐธ๊ณ ๋งํฌ
- ์ค์ ์ฐ๊ตฌ https://transformer-circuits.pub/2023/monosemantic-features
- Anthropic thread https://transformer-circuits.pub/
- LessWrong thread https://www.lesswrong.com/tag/interpretability-ml-and-ai
- OpenAI thread https://distill.pub/2020/circuits/
- ๊ฐ๋ ์ ๋ฆฌ https://texonom.com/Explainable-AI-e1b35d4b9a6342dc863578350a7b4325