๐ ๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/pdf/1606.07792.pdf
Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, Hemal Shah
2016๋ ๊ตฌ๊ธ์์ ๋ฐํํ ๋ ผ๋ฌธ์ด๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ๋ Wide & Deep learning์ linear ๋ชจ๋ธ๊ณผ deep neural networks๋ฅผ jointlyํ๊ฒ ํ์ตํ๋ ๋ชจ๋ธ์ด๋ค. ๋ ผ๋ฌธ์์ ์ธ๊ธํ๋ฏ jointly trained ๋๋ค๋ ๊ฒ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ ํ์ตํ๋ ์์๋ธ๊ณผ๋ ๋ค๋ฅธ ๊ฐ๋ ์ด๋ค. Regression๊ณผ ๊ฐ์ ์ ํ ๋ชจ๋ธ์ wide ํํธ์ด๊ณ , ๊ณผ๊ฑฐ ๊ธฐ๋ก์ memorization ํ๊ธฐ ์ข๋ค๋ ์ฅ์ ์ด ์๋ค.
Deep neural networks๋ memorization์ ๋นํด featrue engineering์ด ๋ ํ์ํ๊ณ unseen feature combinations์ generalization ํ๊ธฐ ์ข๋ค๋ ์ฅ์ ์ด ์๋ค. Wide ์ ํํ์ต๊ณผ DNN ๋์ ํ์ต์ผ๋ก Memorization + Generatlization ์ฅ์ ์ ๊ฒฐํฉํด ์ฑ๋ฅ ๊ทน๋ํํ ๋ชจ๋ธ์ ์ ์ํ์ผ๋ฉฐ, Google์ ์ค์ ๋ฐ์ดํฐ๋ก ์คํ์ ํ๋ค๋ ๊ฒ์ contribution์ด ์๋ค.
1. INTRODUCTION
์ถ์ฒ์์คํ ์ user์ contextual information์ด๋ผ๋ query๊ฐ ๋ค์ด์์๋ ์์ดํ ์ถ์ฒ ๋ชฉ๋ก๋ฅผ ์ถ๋ ฅํ๋ search ranking system์ผ๋ก ๋ณผ ์ ์๋ค. ์ด๋ฌํ ์ ์ ๋ฅผ ๋ฐํ์ผ๋ก ์ดํ ์ ์ฒด ๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ๊ตฌํ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ generatlization๊ณผ memorization ๋ ์ฅ์ ์ ๊ฒฐํฉํ ๋ชจ๋ธ์ ์ ์ํ๋ค.
- Memorization: historical data๋ก ๋ถํฐ ํผ์ฒ๋ค ๊ฐ์ correlation์ ํ์ตํ์ฌ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์์ดํ ์ ์ถ์ฒํ๋ค. ๊ทธ๋ฌ๋ ๊ณผ๊ฑฐ ๊ธฐ๋ก๋ง์ linear ํ์ต์ ํ๊ธฐ ๋๋ฌธ์ ๊ณผ์ ํฉ ๋๋ ๋ฌธ์ ๊ฐ ์๊ณ , ์๋ก์ด ์ถ์ฒ์ ํ๊ธฐ ํ๋ค๋ค.
- Generalization: DNN๋ชจ๋ธ์ ์๋ฒ ๋ฉ์ ํตํด feature๋ค์ ๋์ผํ ์ฐจ์์ latent vector๋ก ๋งคํํ์ฌ denseํ ํ๋ ฌ์ ๋ด์ ์ผ๋ก ํ์ต์ ํ๋ค. ๋ฐ๋ผ์ feature engineering ๋ถ๋ด์ด ์๋ค๋ ์ฅ์ ์ด ์๋ค. ๋ํ unseen ๋ฐ์ดํฐ์ ๋ํ ์์ธก์ด ๊ฐ๋ฅํ๊ณ diversity๋ฅผ ํฅ์ ์ํจ๋ค. ๊ทธ๋ฌ๋ ๊ณผํ๊ฒ generalํ ์ถ์ฒ์ ํ ์๋ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
Memorization์ ๋ ํผ์ฒ pair์ co-occurence๋ฅผ binaryํ๊ฒ ํผ์ฒ์์ง๋์ด๋ง์ ํ์ฌ ํ์ตํ๋ค. ๋ ผ๋ฌธ์ ๋์จ ์์๋ ์๋์ ๊ฐ๋ค.
AND(user_installed_app='netflix', impression_app='pandora')
์ ์ ์ ๊ณผ๊ฑฐ ํ๋์ด ํ๊ฐ(Rating)์ ๋ผ์น ์ํฅ์ ๋ํด ์ค๋ช ๋ ฅ ์์ผ๋ฉฐ, ๋งค์ฐ Topicalํ๋ค. ๋ฐ๋ผ์ ์ํ์ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์ ๋ณด๋ค์ ์ถ์ฒํ๋๋ก ๋์์ค๋ค. ๊ทธ๋ฌ๋ diversity๊ฐ ๋จ์ด์ง๊ณ feature engineering์ ํ์๋ก ํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค.
2. RECOMMENDER SYSTEM OVERVIEW
๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ์ค์ ๋ก ์๋น์คํ๋ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์, ๊ฐ๋จํ๊ณ ์ค์ฉ์ ์ธ ์์คํ ์ ์ ์ํ๋ค. ๋จผ์ user์ contextual features๋ผ๋ query๊ฐ ๋ค์ด์ค๋ฉด Retrieval system์ ์งง์ ์์ดํ ๋ฆฌ์คํธ๋ฅผ ๋ฐํํ๋ค. ์ค์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์๋ ์๋ฐฑ๋ง๊ฐ์ ์ฑ์ด ์์ผ๋ฏ๋ก, ์ด๋ ๊ฒ machine-learned ๋ชจ๋ธ๊ณผ human-defined rules์ ํตํด ๋น ๋ฅธ ๋์์ด ํ์ํ๋ค. ์ดํ Ranking ์์คํ ์ ๋ชจ๋ ํญ๋ชฉ์ score๋ก ์์๋ฅผ ๋งค๊ธด๋ค. ๋์์ User actions์ Logs ๋ฐ์ดํฐ๋ก ๋ค์ด๊ฐ์ ๋ชจ๋ธ ํ์ต์ ๋ค์ด๊ฐ๊ฒ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ Ranking ๋ถ๋ถ์ ์ด์ ์ ๋ง์ถ๋ค.
3. WIDE & DEEP LEARNING
3.1 The Wide Component
Wide ๋ชจ๋ธ์ Memorization์ ํนํ๋ ์ผ๋ฐ์ ์ธ linear model์ด๋ค.
$$ y = w^Tx + b $$
$x = [x_1, x_2, ..., x_d]$ ๋ ์ธํ feature, $w = [w_1, w_2, ..., w_d]$๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ, $b$๋ bias์ด๋ค.
๊ฐ์ฅ ์ค์ํ feature transformations์ค ํ๋๋ cross-product transformation์ด๋ค. ์์ ์๋์ ๊ฐ๋ค.
$$ \phi_k(x)= \prod_{i=1}^d x_i^{c_{ki}},,,,,c_{ki} \in {0,1} $$
i๋ฒ์งธ feature์ k๋ฒ์งธ transformation $\phi_k$๋ ํผ์ฒ ๊ฐ์ co-occurence๋ฅผ binary๋ก ํํํ ๊ฒ์ด๋ค.
3.2 The Deep Component
Deep model์ generalization์ ์ฅ์ ์ ์ด๋ฆฐ Deep neural network์ด๋ค. Sparseํ ์นดํ ๊ณ ๋ฆฌ ํผ์ฒ๋ฅผ Denseํ low-dimensional ์๋ฒ ๋ฉ์ผ๋ก ๋งคํํ๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ์ด๋ ์ฐจ์์ ์ผ๋ฐ์ ์ผ๋ก 10์์ 100์ผ๋ก ํ๋ค. Hidden Layer์์๋ ์๋์ ๊ธฐ๋ณธ์ ์ธ ์ ๊ฒฝ๋ง ์ฐ์ฐ์ ํ๋ค.
$$a^{(l+1)} = f(W^{(l)}a^{(l)} + b^{(l)} )$$
$l$์ ๋ ์ด์ด ๋๋ฒ, $f$๋ ํ์ฑํ ํจ์์ด๊ณ ReLU์ด๋ค. $W^l, a^l, b^l$ ๋ ๊ฐ๊ฐ l๋ฒ์งธ ๊ฐ์ค์น, activation, ํธํฅ์ด๋ค.
3.3 Joint Training of Wide & Deep Model
Wide & Deep Model์ Wide ํํธ์ Deep ํํธ output์ ๊ฐ์คํฉ์ด๋ค. ๋ชจ๋ธ์ ๋์์ ํ์ต๋๋ฉฐ backpropagation ์ญ์ ๋์์ ์งํ๋๋ค. ์ด๋ ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ ํ์ตํ๋ ์์๋ธ ๊ฐ๋ ๊ณผ๋ ๋ค๋ฅด๋ค. ๋ชจ๋ธ์ ์ต์ข ์ ์ธ ์์ธก์ ์๋์ ๊ฐ๋ค.
$$ p(Y=1|x) = \sigma(w^{T}_{wide}[x,\phi(x)]+w^{T}_{deep}a^{(l_{f})}+b) $$
$p(Y=1|x)$์ ์ฑ์ ๋ค์ด๋ก๋ํ ํ๋ฅ ์ด๋ค. Cross product feature $\phi(x)$์ wide์ ๊ฐ์ค์น์ ๊ณฑํด์ง๋ค. ์ด๋ฅผ deepํํธ์ ๋ํ๋ค. $a^{l_f}$๋ deep ํํธ ๋คํธ์ํฌ์ ์ต์ข ํ์ฑํ ํจ์๋ฅผ ์ง๋ ๊ฐ์ด๊ณ ์ด๋ฅผ ๊ฐ์ค์น์ ๊ณฑํ๋ค. $\sigma$๋ sigmoid์ด๋ค.
4. SYSTEM IMPLEMENTATIONS
๋ ผ๋ฌธ ์ฐธ๊ณ
5. EXPERIMENT RESULTS
๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฒ์ฆ์ ์ํด ์ค์ ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค. ์ค์ ์จ๋ผ์ธ ๊ฑฐ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์คํ์ ํ๋ค๋ ์ ์ ์ ์๋ค์ contribution์ผ๋ก ์ธ๊ธํ๋ค. 3์ฃผ๊ฐ ์จ๋ผ์ธ A/B ํ ์คํธ๋ก ์คํ์ ์งํํ๋ค. ์คํ ๊ฒฐ๊ณผ Wide & deep ๋ชจ๋ธ์ด ๋จ์ผ ๋ชจ๋ธ์ ๋นํด ๋์ ๋ค์ด๋ก๋ ์ฆ๊ฐ์จ์ ๋ณด์ฌ์ฃผ์๋ค. ์คํ๋ผ์ธ ํ ์คํธ์์๋ ๋์ AUC ๋ฅผ ๋ณด์ฌ์ค๋ค.