๐ ๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/pdf/1903.09588.pdf
Sun, C., Huang, L., & Qiu, X. (2019). Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence. arXiv preprint arXiv:1903.09588.
๊ธฐ์กด ๊ฐ์ฑ๋ถ์ ๊ธฐ๋ฒ์ ๋ฆฌ๋ทฐ ํ ์คํธ์ ์ ๋ฐ์ ์ธ ๊ฐ์ฑ (overall sentiment)๋ง์ ์์ธกํ๋ค. ๋ฐ๋ผ์ ์๋น์๊ฐ ๊ฐ ์์ฑ, entity์ ๋ํด ๋ค์ํ๊ฒ ํํํ ๊ฐ์ฑ์ ํ๋ถํ๊ฒ ๋ฐ์ํ์ง ๋ชปํ๋ค. Aspect-based-sentiment anlaysis (ABSA)๋ ํ ์คํธ ๋ด ๋ฑ์ฅํ๋ ์ฌ๋ฌ ์์ฑ๋ค์ ๋ํ ๊ฐ์ฑ์ ์ง์ ์ ์ผ๋ก ํ์ตํ๊ณ ์์ธกํ๋ ๊ธฐ๋ฒ์ด๋ค. ABSA์ ๋ชฉํ๋ ๋ฆฌ๋ทฐ ๋ด์์ ๋ฑ์ฅํ๋ fine-grained polarity๋ฅผ ๊ฐ aspect๋ณ๋ก ๋งคํํ๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ์์ ์ ํตํด ์ฌ๋ฌ ๋ฆฌ๋ทฐ์ ๊ฑธ์ณ ์ ์ ๊ฐ ๊ฐ aspect์ ํํํ aggregated sentiments๋ฅผ ํ๊ฐํ ์ ์๋ค.
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Location aspect์ ๋ํด์๋ ๊ธ์ ์ ์ผ๋ก ํ๊ฐํ์ง๋ง, Food aspect์ ๋ํด์๋ ๋ถ์ ์ ์ผ๋ก ํ๊ฐํ ๋ฆฌ๋ทฐ๋ overall sentiment๋ง์ผ๋ก ํํ๋๊ธฐ ์ ํ๋๋ค. ๋ฐ๋ผ์ ABSA๋ฅผ ํตํด ๋ณด๋ค ํ๋ถํ ๊ฐ์ฑ์ ํ์ ํ ์ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์ auxiliary sentence๋ฅผ ๋ง๋ค์ด์ ABSA๋ฅผ BERT ๋ชจ๋ธ์ sentence-pair classification task์ ์์ฉํ๋ค. ์ด๋ ๋ง์น QA(question answering) ํ์คํฌ๋ NLI(natural language inference) ํ์คํฌ์ ๋น์ทํ๋ค๊ณ ๋ ผ๋ฌธ์ ์ธ๊ธํ๋ค.
1. Introduction
ABSA๋ ํน์ ํ aspect ๋ณ๋ก fine-grained polarity๋ฅผ ๋งคํํ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค. ์ด๋ ๊ฒ ๊ฐ ์ ์ ๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ๋ค์์ aspect๋ณ๋ก ์ ์๋ฅผ ์ข ํฉํ์ฌ aggregated sentiments ์ ์๋ฅผ ํ๊ฐ ํ ์ ์๋ค. ๋ฐ๋ผ์ ์ ํ, ์๋น์ค์ ๋ํ more granular understanding์ ์ป์ ์๊ฐ ์๋ค. ๊ธฐ์กด ABSA ๊ธฐ๋ฒ์ feature engineering์ ํฌ๊ฒ ์์กดํ์๋ค. ์ต๊ทผ์๋ ELMo, GPT, BERT ๋ชจ๋ธ๋ค์ ๋ฑ์ฅ๊ณผ ํจ๊ป, ์ด๋ฌํ feature engineering์ ์๊ณ ๊ฐ ํฌ๊ฒ ์ค์๋ค. ํนํ BERT ๋ชจ๋ธ์ QA์ NLI ํ์คํฌ์์ ํฐ ํจ๊ณผ๋ฅผ ๋ณด์๋ค. ๊ทธ๋ฌ๋ BERT model์ ์ฌ์ฉํ ABSA ํ์คํฌ๋ ํฐ ์ง์ ์ด ์๋ ์ํฉ์ด๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐ ํ ์คํธ๋ก๋ถํฐ auxiliary sentence๋ฅผ ๋ง๋ค์ด์ ABSA๋ฅผ sentence-pair classification task๋ก ์ ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก pre-trained BERT model์ fine-tuningํ์ฌ SOTA๋ฅผ ๋ฌ์ฑํ๋ค. ๋ ผ๋ฌธ์ contribution์ ์๋์ ๊ฐ๋ค.
- (T)ABSA๋ฅผ sentence-pair classification tast๋ก ์ ํํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค,
- pre-trained๋ BERT ๋ชจ๋ธ์ fine-tuningํ์ฌ SentiHood์ SemEval-2014 Task4 ๋ฐ์ดํฐ์ ์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
2. Methodology
2.1 Task descroption
TABSA์์ sentence๋ ๋ค์๊ณผ ๊ฐ์ด words์ ์๋ฆฌ์ฆ๋ก ์ด๋ฃจ์ด์ง๋ค.$ \begin{Bmatrix} w_1, ..., w_m
\end{Bmatrix} $
์ด ์ค ๋ช๊ฐ์ง ๋จ์ด๋ค์ $(w_{i1}, ... w_{ik})$ ๋ฏธ๋ฆฌ ์ ์๋ ํ๊ฒ ๋จ์ด์ด๋ค. $(t_1, ... t_k)$
๋ณธ ๋ ผ๋ฌธ์์๋ 3๊ฐ์ง ํด๋์ค์ ๋ํ ๋ถ๋ฅ ๋ฌธ์ ๋ก TABSA๋ฅผ ์ ์ํ๋ค. sentence $s$์ target entities $T$, ๊ณ ์ ๋ aspect set .$A = \begin{Bmatrix} general, price, transit-loacation, safety \end{Bmatrix} $ ์ด ์ฃผ์ด์ก์ ๋, ๋ชจ๋ target-aspect ํ์ด์ ๋ํด์ $ y \in \begin{Bmatrix} positive, negative, none \end{Bmatrix}$์ ์์ธกํ๋ค.
์ ์์์์ (LOCATION2, price) ํ์ด์ y ๊ฐ์ negative, (LOCATION1, price) ํ์ด๋ none์ด๋ค.
2.2 Construction of the auxiluary sentence
๋ณธ ๋ ผ๋ฌธ์์๋ ์๋ 4๊ฐ์ง TABSA ํ์คํฌ๋ฅผ sentence pair classification task๋ก ๋ณํํ๋ค.
Sentences for QA-M
QA-M๋ target-aspect ํ์ด์ ๋ํด์ question์ ๋ง๋๋ ์์ ์ด๋ค. ์๋ฅผ๋ค์ด (LOCATION1, safety) ํ์ด๊ฐ ์์๋ ์์ฑ๋๋ ์ง๋ฌธ์ "what do you think of the safety of location - 1 ?"๊ณผ ๊ฐ๋ค. ์ด๋ ์ง๋ฌธ์ ํฌ๋งท์ ๋ชจ๋ ๊ฐ๋ค.
Sentences for NLI-M
NLI-M๋ target-aspect ํ์ด์ ๋ํด์ strickํ ๋ฌธ์ฅ์ ๋ง๋ค์ง๋ ์๋๋ค. ์์ฑ๋๋ ๋ฌธ์ฅ์ ํ์คํ๋ ๋ฌธ์ฅ์ด ์๋๋ฉฐ, ๊ฐ๋จํ psudo-sentence์ด๋ค. ์์๋ก (LOCATION1, safety) ํ์ด์ ๋ํด์ "location - 1 - safety" ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ฅ์ด ์์ฑ๋๋ค.
Sentences for QA-B
QA-B์์๋ label ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ TABSA๋ฅผ binary classification ๋ฌธ์ ๋ก ์ ํํ๋ค. ์ด๋ $label \in (yes, no)$์ด๋ค.
์ด๋ target-aspect ํ์ด์ ๋ํด์ 3๊ฐ์ง ๋ฌธ์ฅ์ ์์ฑํ๋ค. ์์ฑ๋๋ ๋ฌธ์ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- “the polarity of the aspect safety of location - 1 is positive”
- “the polarity of the aspect safety of location - 1 is negative”
- “the polarity of the aspect safety of location - 1 is none”.
Sentences for NLI-B
NLI-B์ QA-B์ ์ฐจ์ด๋ peudo-sentence๋ก ๋ณํ๋ค๋ ๊ฒ์ด๋ค. ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- “location - 1 - safety - positive”
- “location - 1 - safety - negative”
- “location - 1 - safety - none”.
์ 4๊ฐ์ง ๋ฌธ์ฅ ์์ฑ ๊ณผ์ ์ ๊ฑฐ์ณ TABSA๋ฅผ single sentence classification์์ sentence pair classification ๋ฌธ์ ๋ก ์ ํํ๋ค. sentence pair classification์ ์์๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.
2.3 Fine-tuning pre-training BERT
TABSA task์ ์ ํฉํ๋๋ก pre-trained BERT ๋ชจ๋ธ์ fine-tuningํ๋ค. ์ด๋ BERT ๋ชจ๋ธ์ ์ฒซ๋ฒ์งธ ํ ํฐ์ final hidden state ํ ํฐ์ ์ธํ์ผ๋ก ๊ฐ๋จํ classification layer๋ง์ ์ถ๊ฐํ์ฌ softmax๋ฅผ ํตํด ๊ฐ ํด๋์ค๋ณ ํ๋ฅ ์ ๊ตฌํ๋ค.
3. Experiments
3.1 Datasets
๋ชจ๋ธ ํ๊ฐ์ ์ฌ์ฉ๋ SentiHood(Saeidi et al., 2016) ๋ฐ์ดํฐ์ ์ 5,215๊ฐ์ ๋ฌธ์ฅ๊ณผ 3,862๊ฐ์ ๊ฐ๋ณ ํ๊ฒ์ผ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ๋๋จธ์ง๋ ๋ค์ค ํ๊ฒ์ ๊ฐ์ง๊ณ ์๋ค. ๊ฐ ๋ฌธ์ฅ์ target-aspcet pair {t,a}์ ๋ฆฌ์คํธ์ sentiment polarity์ธ y๊ฐ์ ๊ฐ์ง๋ค. ๊ฒฐ๊ตญ sentence s์ target t๊ฐ ์ฃผ์ฌ์ก์ ๋, t์ ๋ํด ์ธ๊ธ๋ aspect a๋ฅผ ์ฐพ๊ณ , sentiment polarity์ธ y๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
๋ํ SemEval-2014 Task 4 (Pontiki et al., 2014)๋ ABSA์์ ์ ๋ช ํ ๋ฐ์ดํฐ ์ ์ด๋ค.
3.2 Hyperparameters
- Model: BERT-base
- The number of Transformer blocks: 12
- The hidden layer size: 768
- The number of self-attention heads: 12
- The total number of parameters for pre-trained model: 110M
- The dropout probability: 0.1
- The number of epochs: 4
- The initail learning rate: 2e-5
- The batch size: 24
3.3 Exp & Results
Semeval-2014 task4 Subtask3: Aspect Category Detection์ ๋ํด์ ๋ฒค์น๋งํฌ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ์ ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๋์ ๊ฐ์ด ํฅ์๋์๋ค.
Semeval-2014 task4 Subtask3: Aspect Category Polarity์ ๋ํด์ accuracy (%)๋ ์๋์ ๊ฐ์ด ํฅ์๋์๋ค.
4. Discussion
5. Conclusion
๋ ผ๋ฌธ ์ฐธ์กฐ