-
Notifications
You must be signed in to change notification settings - Fork 2
Peer_Session_Week_3
2021.05.10 (์)
- ๋ ผ์ ์ฌํญ ์์
- ์์ง : KoElectra ๋๋ฆฌ๋ Code ์์ฑํจ! ์์ํ๊ณ ์ฌ์ํ ๋ฌธ์ ๊ฐ ์๋๋ฐ, ํด๊ฒฐํ ์ ์์ ๋ฏ.
- ์์ง : ์ ๋ต์ผ๋ก Unknown Token์ด ์ถ๋ ฅ๋๋ ๊ฒฝ์ฐ๊ฐ ์์.
- ํ์ & ํ๊ท : Vocab์ ์ถ๊ฐํด์ผ ํ๋ค.
- ์ข ํ & ์ฌํฌ : Vocab์ ์๋ก์ด Token์ ์ถ๊ฐํ๋ ๊ฒ์ด ์ข์์ง ๋ชจ๋ฅด๊ฒ ๋ค
- inference.sh์ --do_predict ์ถ๊ฐํด์ผ ํจ.
- sh๋ฅผ ์คํ ์ํฌ ๋, ์ฃผ์์ฒ๋ฆฌ ํ์ง ์๊ฑฐ๋, ํ ๊ฑฐ๋ฉด ๋งจ ๋ค๋ก ๋นผ๊ธฐ.
- sh ์คํ ์ seed ์ค์ ํ๊ธฐ.
2021.05.11 (ํ)
- ๋ ผ์ ์ฌํญ ์์
- ์ตํจ : k๋ฅผ ์์ฒญ ๋๋ ธ๋ค. 20๊ฐ๋ก ๋๋ ธ๋๋ ๋ฐ๋ก ์ฌ๋๋ค. k๊ฐ ๋ง์์ง์๋ก ์ ํํ๊ธฐ ํ๋ค์ด ์ง๋ ๊ฒ์ด ๋ง์ ํ
๋ฐ ์ ๋ ์ฑ๋ฅ์ด ์ค๋ฅด๋ ๊ฑธ๊น?? test dataset์์ train dataset์ ํฌํจ๋ ๋ฐ์ดํฐ๋ค์ด ์ ์ ๋ง์ด ํฌํจ๋์ด ์ง๋ ๊ฒ์ด ์๋๊น? ๊ทธ๋์ ์ด ๋ฐฉ๋ฒ์ด ๋ง๋ ๋ฐฉ๋ฒ์ธ์ง ๊ณ ๋ฏผ์ด๋ค. k๊ฐ 9๊ฐ์ผ ๊ฒฝ์ฐ์ 20๊ฐ์ผ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํด๋ณด์๋๋ฐ retrieval์์ ์ค๋ฅธ ์ฝ 2% ์ ๋ ์ฌ๋๋๋ฐ reader์์ ์ค๋ฅธ ์ฑ๋ฅ๋ ์ฝ 2% ์ ๋๋ผ์ trade off ์์ด ๋์ผํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ง๋ ๊ฒ์ด ์ข ์๋ฌธ์ด๋ค.
- ํ ์ค ์์ฝ: 61.25 ์ฑ๋ฅ์ด ๋์๋ ๋ชจ๋ธ์์ k๋ฅผ ๋๋ ธ์ ๋ฟ
- ์ตํจ : wiki ์๋ฅด๋ ๊ฑฐ โ validation set ๊ธฐ์ค ์ฑ๋ฅ ํฅ์ (EM ๊ธฐ์ค 2%, F1 ์ค์ฝ์ด ๊ธฐ์ค 3%) โ ๊ทผ๋ฐ ํ
์คํธ ๋ฐ์ดํฐ์ ํํด์ ๋จ์ด์ง (56 ์ ๋...)
- ์์ธ์ง ๋ชจ๋ฅด๊ฒ ์
- KSS(korean sentence splitter) ์ฌ์ฉํด์ ๋ฌธ์ฅ์ ์๋ฆ
- context๋ฅผ ๋ฌธ์ฅ๋จ์๋ก ๋๋๊ณ ์ ์ฒด context์ ์ ๋ฐ ๊ธธ์ด์ ๊ฐ๊น๋๋ก ๋ฌธ์ฅ๋ค์ part 1, 2๋ก ๋๋๋ ๋ฐฉ๋ฒ
- ์ฌ๊ธฐ์ GT answer์ raw context์ answer index์ ๊ฐ์ฅ ๊ฐ๊น์ด answer๋ก
- overlap์ ํ์ฉํ์ง ์์
- ์ตํจ : Conv Layer Model ๊ตฌํ(Concat Version)
2021.04.28 (์)
- ๋ ผ์ ์ฌํญ ์์
- ์ตํจ : ์ํ ๋
ผ๋ฌธ ํด๋ณด๋ ค๊ณ ํ๋๋ฐ ํ๊น
ํ์ด์ค์ ์์ด์ ๊ฐ์ ธ์ค๋ ค๊ณ ๋ถ๋ ๋๋ฐ ์๋ถ๋ฌ์์ ธ์ ๋ฒ์ ์ ์
๋ฐ์ดํธํด์ผ๋๋ ํ๋๋ฐ ์ด๋ฏธ ์ต์ ๋ฒ์ ์ด๊ณ ํน์ XLN์ด roberta ๋ชจ๋ธ์ธ๊ฐ์??
https://arxiv.org/pdf/2010.01057v1.pdf
- ํ์ : ์ ํฌ๊ฐ ์ฌ์ฉํ๋ tokenizer๋ word piece tokenizer์ธ๋ฐ XLN์ sentence piece tokenizer๋ผ๊ณ ๋ ๋์์๋ค์.
- ํ๊ท : ์ฌ์ค ์ง๊ธ ์ฌ์ฉํ๋ XLM Roberta๋ ์ด๋ป๊ฒ ๋์ํ๋์ง ์ ๋ชจ๋ฅด๊ฒ ๋๋ผ๊ณ ์...
- ์์ง : HanBERT ์ฌ์ฉ ์์
- ์ตํจ : convolution ์ฌ์ฉํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์กฐ๊ธ ๋จ์ด์ก์ด์...
- ํ๊ท : max sequence length๋ฅผ 512๋ก ๋๋ ค์ ์คํํด๋ด. batch๋ฅผ 8๋ก ์ค์ฌ์ผ ํ๊ณ , ์ด๋ค ์ด์ ์ธ์ง๋ ์ ์ ์์ผ๋, ๊ฒฐ๋ก ์ ์ผ๋ก ์ฑ๋ฅ์ด ๋จ์ด์ง.
- ํ์ : validation set์ ์กฐ์ฌ๋ฒ๋ฆฌ๊ธฐ๋ฅผ ์ ์ฉํ๋๋ ๋ค๋ฅธ ๋ถ๋ค๋ณด๋ค ๋น๊ต์ score๊ฐ ๋๊ฒ ๋์จ๋ค.
- ํ์ : korquad ํ์ตํ ๋๋ learning rate๋ฅผ ํฌ๊ฒ ํด์ ๋น ๋ฅด๊ฒ ํ์ตํด์ฃผ๊ณ , ๋ํ dataset์ ์ฌ์ฉํ ๋๋ ์์ learning rate๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํด์ฃผ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
ํ์ฌ ํ์ด์ฟ ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ(1๋ฑ๐)์ ๊ตฌํ ๋ํ
์ผ์ ์๋์ ๊ฐ์ต๋๋ค. *ํน, ๋ฉํ ๋์ ์์ ์์ ์กฐ์ธํด์ฃผ์ค ๋งํ ๊ฐ์ ์ ์ด ์๋ค๋ฉด ์กฐ์ธ ๋ถํ๋๋ฆฝ๋๋ค*
- Train : ์ ๋ต(GT) context + Elastic search ์์ Top4 concat
- Inference : Elastic search ์์ Top20 concat
-
Elastic search settings
- Nori tokenizer(similarity measure: BM25) + ๋ถ์ฉ์ด ์ฌ์ (์กฐ์ฌ + ์ด๋ฏธ))
- ๋ถ์ฉ์ด ์ฌ์ ๋ง๋ค ๋ ํ๊ตญ์ด ์กฐ์ฌ ์ด๋ฏธ๋ฅผ ๊ฒ์ํด์ ๋ง๋ค์๋๋ฐ, ์ด๋๋ ๊ด์ฐฎ์์ง ์๋๋ฉด ์ํค ๋ฐ์ดํฐ์ ์ ๊ณ ๋ คํด์ ๋ง๋ค์ด์ผ ํ๋์ง
- ์ผ๋ฐ์ ์ธ ๋ถ์ฉ์ด ์ฌ์ ์ ๋ง๋ค์ด ๋ฃ์ด๋ ์ถฉ๋ถํ ๊ฒ (์ํค๊ฐ ํน๋ณํ ์ธ์ด๋ก ๊ตฌ์ฑ๋ ๊ธ์ ์๋๋๊น)
-
Elastic search ์ต์ ํ ์๋
- BM25 : ์ด๋ค ๊ฒ์ ๋ณด๊ณ (๊ธฐ์ค) ์ด๋ค ๊ฒ์ ์์ ํด์ผ ํ๋์ง ๋ชจ๋ฅด๊ฒ ์ต๋๋ค BM25๋ฅผ ํ์ฉํด์, ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ํด ์ด๋ค ํํ์ ์คํ์ด ๊ฐ๋ฅํ ๊น์?
- Elastic search๋ฅผ ๋ ์ ์ฐ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋ ์ด๋ค ๊ฒ์ด ์์๊น์?
- Nori tokenizer(similarity measure: BM25) + ๋ถ์ฉ์ด ์ฌ์ (์กฐ์ฌ + ์ด๋ฏธ))
- Elastic Search๋ ๊ธฐ๋ณธ๊ฐ์ด ๊ต์ฅํ ์ข์ ์ํ์ด๊ณ , ์ง๊ด์ ์ผ๋ก ๋ ์ข์์ง๋ ๋ฐฉ๋ฒ์ ์์ด์ ๋ค์ํ ๋ฐฉ๋ฒ์ ์๋ํด๋ณด๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- BM25์ ์ต์ ์ ๋ฐ๊พผ๋ค๊ณ ํ๋๋ผ๋ ๋๋ผ๋งํฑํ ํฅ์์ด ์์ง๋ ์์ ๊ฒ์ด๋ค.
- ๋ถ์ฉ์ด ์ฌ์ ์ ์ถ๊ฐํ ๊ฒ์ ๋งค์ฐ ์ข์ ์๋์๋ค๊ณ ์๊ฐํ๋ค. ์ผ๋ฐ์ ์ธ ๋ถ์ฉ์ด ์ฌ์ ์ ์ถ๊ฐํ ์ฌํญ๋ ์ถฉ๋ถํ ์ข์ ๊ฒ ๊ฐ๋ค.
- *KorQuAD pretrain* ํ KLUE data train*
( ๋ ํ๋ จ ๋ชจ๋ ๊ฐ์ ๋ชจ๋ธ์ ํ์ฉํ์ผ๋ฉฐ ๋ชจ๋ธ์ ๋ํ
์ผ์ ์๋์ ๊ฐ์ต๋๋ค)
- backbone network : xlm_roberta_large + conv1d + dense layer
- *conv1d + dense layer*
*conv1d(kernel size : 3, padding 1, output_dim : 256) + dense layer(256, 2)*
โ ํ์ฌ *multi_conv1d_layer + output concat* ํ์ฌ ์ฑ๋ฅ ๊ฒํ ์งํ ์ค์
๋๋ค.
โ *vanilla convolution layer* ์ธ์ *
residual
,efficientnet
,depthwise separable convolution
* ๋ฑ Vision์์ ํซํ ๊ฐ๋ ์ ํ์ฉํด ๋ณผ ์๋ ์์๊น์? ๊ด๋ จ ์ฌ๋ก๊ฐ ์๋์ง๋ ๊ถ๊ธํฉ๋๋ค.
-
Conv1D์ ์ด์ฉ๋ค๊ฐ ์ธ ์๊ฐ์ ํ๋๊ฐ? Fine Tuning ๋ฐฉ๋ฒ ์ค ๋ค์ํ ๋ฐฉ๋ฒ์ด ์๋๋ฐ, Conv๋ ์ค๋ฅด๊ธฐ ์ด๋ ค์ธ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. (๋ฌผ๋ก ์ํฉ๋ง๋ค ๋ค๋ฅด์ง๋ง) FC Layer๋ฅผ ์ฌ์ฉํ์๋๋ฐ, Drop out์ ์๊ฒ ๊ฑธ์์ ๋ ์ ๋๋ ๊ฒฝํ์ด ์๋ค.
- ๋ ์ด์ด๋ฅผ ์๋ ๊ฒ๋ ๋ฐฉ๋ฒ์ผ ์๋ ์์ผ๋, ๋ฐ์ดํฐ๊ฐ ์์ ๋งํผ ์ค๋ฒํผํ ์ ์กฐ์ฌํด์ผํ๋ค.๋๋์์์ ์ธ๊ฒ ๊ฑฐ๋ ๊ฒ์ด ์ข์ ์ ์์. (0.5, 0.7 ์ ๋์ ์์น) ์ค๋ฒํผํ ์ ๋ง๋ ๋ฐฉํฅ์ ๋งค์ฐ ๊ด์ฌ์ ๊ฐ์ง๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค. (Weigth Decay, Batch Size ํค์ฐ๊ธฐ ๋ฑ)
-
Post processing
- *์กฐ์ฌ* ๋ฒ๋ฆฌ๊ธฐ(์ ๋ต ๋ง์ง๋ง์ Macab ๊ธฐ์ค์ *์กฐ์ฌ* ํฌํจ ์ ์ ๊ฑฐ) + *ํ์ฒ๋ฆฌ*
-
ํ์ฒ๋ฆฌ ๋ํ
์ผ
(์ ์ฒ๋ฆฌ๋์ง ์๋ ์กฐ์ฌ ์ฌ์ฒ๋ฆฌ)
- answer ๋ง์ง๋ง ๊ธ์๊ฐ "์"์ธ์ง ํ์ธ ํ ์กฐ์ฌ์ผ ๊ฒฝ์ฐ ์ ๊ฑฐ
- answer์ ๋ง์ง๋ง token์ด "์์", "๋", "์", "์" ๋ฑ ์กฐ์ฌ์ผ ๊ฒฝ์ฐ ์ ๊ฑฐ
- fine-tuning layer์ ๊ตฌ์ฑ ์คํ์ ํด๋ณธ ์ ์ด ์๋๋ฐ, ๋ชจ๋ธ์ ๊น์ด ๋์ ๋๋น๋ฅผ ํค์ฐ๊ณ ๋๋์์์ ์ธ๊ฒ(0.5๋ณด๋ค ํฌ๊ฒ) ๊ฑฐ๋ ๊ฒ์ด ๋์์ด ๋๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค.
Retrieval model์ top K๋ฅผ ๋๋ฆฌ๋ฉด ๋๋ฆด ์๋ก ์ข์๋ฐ...(inference ๊ณผ์ ์์ Top K๋ฅผ 9โ20์ผ๋ก ๋๋ฆฌ๋ EM ๊ธฐ์ค 2% ์์น) ํน, train๊ณผ public leader board ๋ฐ์ดํฐ ์ ์ ๊ฒน์น๋ context๊ฐ ์๋ ๊ฒ์ด ์๋์ง ์์ฌ๋ฉ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ฒ์ ๋ณด๋ context์์์ ์ฑ๋ฅ์ด ๊ฑฑ์ ๋๋๋ฐ, private test data๋ฅผ ํ์ธํ ์ ์์ผ๋ ํ์ฌ์ ์ต๊ณ ์ฑ๋ฅ์ ์ ๋ขฐํด๋ ๋ ์ง ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๋ฉํ ๋ ์๊ฐ์ ์ด๋ ์ ์ง์?
์ ์ง๋ฌธ๊ณผ ๊ด๋ จํ์ฌ ๋ค์์ ๊ฐ์ค๊ณผ ๊ฐ๊ฐ์ ๋ ผ๋ฆฌ๊ฐ ๋ง๋์ง ๊ถ๊ธํฉ๋๋ค. ๊ฒํ ๋ถํ๋๋ฆฝ๋๋ค!
-
๊ฐ์ค : Passage๋ฅผ ๋ง์ด ๋ณผ ์๋ก ์ ๋ต์ ์ฐพ์ ํ๋ฅ ์ด ์ค๋ฅผ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค.
(์ ๋ต๊ณผ ๋ฌด๊ดํ Passage(Noise)์ ์ํ ์ฑ๋ฅ ๊ฐ์๋ณด๋ค, ๋ง์ passage๋ฅผ ์ฝ๊ณ ์ ๋ต์ ์ฐพ์ ๋์ ์ฑ๋ฅ ์ฆ๊ฐ์ ํญ์ด ํจ์ฌ ํด ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค.)
- ์ด์ฐจํผ ์๊ด ์๋ Passage๋ ๋ฌธ์ฅ์ ๋ํด์๋ ์ด์ฐจํผ output Logit ๊ฐ์ด ๋ฎ๊ฒ ๋์ฌ ๊ฒ์ด๋ค.
- Noise์ ํด๋นํ๋ ์ ๋ณด๋ค์ ์์ฒด์ ์ผ๋ก ๊ฑฐ๋ฅผ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํ๋ค.
- ๋ง์ Passage๋ฅผ ๋ค ๊ฒํ ํ๋ฉด, ์ ๋ต์ด ์๋ ์ ๋ต Passage๋ฅผ ์ฐพ์ ํ๋ฅ ์ด ๋์ ๊ฒ์ด๋ค. (Top k๋ฅผ ๋ณธ๋ค๊ณ ํ ๋ k๋ฅผ ๋๋ฆฐ๋ค๋ฉด ๊ทธ ์์ ์ ๋ต passage๊ฐ ๋ค์ด๊ฐ ํ๋ฅ ์ด ๋์ผ๋๊น)
- ์ฆ, ๋ง์ Passage์ ๋ํด Reading์ ํ๋ฉด, ๊ฒฐ๊ตญ answer์ ์ฐพ์ ํ๋ฅ ์ด ๋์์ง ๊ฒ์ด๋ค.
- Train๊ณผ Public์ Data๊ฐ ๊ฒน์น์ง๋ ์๋ ๊ฒ์ผ๋ก ์๊ณ ์๋ค. Top K๊ฐ ๋์์ก์ ๋ Retrival์ Error๊ฐ ์ ์ด์ ธ์๋ผ๊ณ ์๊ฐํจ.
- ์ตํจ : Retirval Error๊ฐ ์ค์ด๋๋ ๋งํผ, Reading Error๋ ๋์์ ์ค์ด๋ค์ด์, ๊ฑฑ์ ์ด ๋๋ค. (Public์ชฝ์ Train์ Data๊ฐ Licking ๋์๊น๋ด ๊ฑฑ์ ์ด๋ค.)
- ๊ฒน์น๋ค๊ณ ํ๋จ ๋๋ ๊ฒ๋ Data๋ฅผ Train์์ ์ ์ธํ๊ณ ํ์ต ์ํค๋ฉด, ์์ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฒํ ํด๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค. ๊ทธ๋ฆฌ๊ณ , ์ต์ข ์ผ๋ก ํ์ต ๋ฐ ์ ์ถ ํ ๋์๋, ์ด ๋ฐ์ดํฐ์ Val Data๋ฑ์ ์ถ๊ฐํด์ ํ๊บผ๋ฒ์ ํ์ต์ํค๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Retirval Error๊ฐ ์ค์ด๋๋ ๋งํผ, Reading Error๋ ๋์์ ์ค์ด๋ค์ด์, ๊ฑฑ์ ์ด ๋๋ค. (Public์ชฝ์ Train์ Data๊ฐ Licking ๋์๊น๋ด ๊ฑฑ์ ์ด๋ค.)
- (๊ฐ์ค์ ๋ํด์๋)๋ค ์ ์๊ฐ์๋ ์ด ๊ฐ์ค์ด ๋ง๋ ๊ฒ ๊ฐ์์. ๋ค๋ง ์ต์ ์ k๋ฅผ ์ฐพ์์ผ ํ ๊ฒ.
- ํ๊ท : Top K๋ฅผ ๋ฌด์กฐ๊ฑด ์ฌ๋ฆฌ๋ฉด ์ข์๊ฒ ๋ง์๊น?
- Retrieval์ด Reader์๊ฒ ๋ถ๋ด์ ์ ๊ฐํ๋ ๊ฒ์ด๋ค. Reader๊ฐ ์ํํ ์ ์๋ ์์ค์ K๋ฅผ ์ ๋ฌํ๋ฉด, ์ฑ๋ฅ์ด ๋จ์ด์ง ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋, ์ ์ ์ ์ ์ฐพ๋๊ฒ ์ค์ํ ๋ฏ ํ๋ค.
- Reader์ ์ฑ๋ฅ์ ํ์ธํด๋ณด๊ณ ์ถ์ผ๋ฉด, ์ถ๋ ฅํด์ ๋ณด๋ ๊ฒ๋ ์ข์ ๊ฒ ๊ฐ๋ค.
- ํ๊ท : Top K๋ฅผ ๋ฌด์กฐ๊ฑด ์ฌ๋ฆฌ๋ฉด ์ข์๊ฒ ๋ง์๊น?
wiki context๋ฅผ passage๋จ์๋ก ๋๋์ด Elastic search data ๊ตฌ์ฑํ์ฌ ์ ์ฉํ์ ๋ validation score๋ ๋ ์ข์๋๋ฐ(EM ๊ธฐ์ค 2%, F1 ์ค์ฝ์ด ๊ธฐ์ค 3%), public leader board์์๋ ๋๋ฌด ๋จ์ด์ก์ต๋๋ค(EM๊ธฐ์ค 50%๋, ์ต๊ณ ์ฑ๋ฅ ๋๋น 13% ํ๋ฝ).. ๋ฒ๋ฆฌ๊ธด ์๊น์ด๋ฐ.. ์ด๋ค ๋ฐฉ์์ผ๋ก ๊ฐ์ ํ๋ฉด ์ข์๊น์? ์๋๋ wiki context๋ฅผ passage๋จ์๋ก ์๋ฅธ ๋ฐฉ๋ฒ์ ๋ํ ๋ํ ์ผ(์ฐธ๊ณ ์ฉ)๊ณผ ์ ํฌ๊ฐ ์๊ฐํด๋ณธ ํด๋น ์ ๊ทผ์ ๊ฐ์ ๋ฐฉ๋ฒ์ ๋๋ค. ์ถ๊ฐ๋ก ์๊ฒฌ์ด ์์ผ์๋ค๋ฉด ์กฐ์ธ ๋ถํ๋๋ฆฝ๋๋ค.
retriever ์ฑ๋ฅ์ด 1% ๋จ์ด์ง๊ณ (top1 ๊ธฐ์ค), reader ์ฑ๋ฅ์ validation set ๊ธฐ์ค์ผ๋ก ๋ง์ด ์ค๋ฆ โ validation set โ public ๋ฆฌ๋๋ณด๋ dataset ๋ฌธ์ โ passage๋ก ๋๋๊ณ ๋์ train(top5) & inference(top12) ๋จ๊ณ์์ top-k ์ด๋ป๊ฒ ํ๋์ง? โ ๊ธฐ์กด๊ณผ ๋๊ฐ์ด ์ค (์งง์ ๋จ์๋ก ๋ดค์ ๋ reader์์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ์์๊น ํ๋ ์๊ฐ์ผ๋ก ์๋ฅธ ๊ฑฐ๋ผ) โ ํ์ ์ ์ ๊ฐ์ง๋ง ์คํ์ ํด๋ณด๊ธธ.. โ ์ต๋ 2๊ฐ๋ก ๋๋ (๋ณ๋ก ์ ๋๋ด๋ค์...) โ ์ง๊ธ๊น์ง ๊ณ์ promisingํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ผ๋ ๊ณ์ ํ๊ตฌํด๋ณด๋ ๊ฑธ ์ถ์ฒ (top k๋ฅผ ๋ฐ๊ฟ๋ณด๋ ๊ฒ ๋ฑ...) โ ์์ง๋ ํ๋ค๋ฉด ๊ทธ๋ง ์จ์! ๋์ค์ ์์์ผ๋ก ๋ณด๊ณ todo์ ์ ๋ฆฌํ๋ฉด ๋ ๊ฒ ๊ฐ์!(๊ทธ๋ฆฌ๊ณ ํ๊ท๋์ด ์จ์ฃผ๊ณ ์์)ใ
-
wiki context๋ฅผ passage๋จ์๋ก ๋๋์ด Elastic search data ๊ตฌ์ฑ
โป ์ ์ฉ ๊ทผ๊ฑฐ ๋ฐ ๋ฐฐ๊ฒฝ : ์ figure๋ Top N๊ฐ์ context๋ฅผ ๋ฝ์ ํ paragraph level์์ query์์ ์ ์ฌ๋๋ฅผ ๊ณ ๋ คํ์ฌ ์ ๋ณ์ ์ผ๋ก MRC๋ฅผ ์ํํ๋๋ฐ, ์ด๋ฅผ ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๋ ์ฝ๊ฒ ์ ์ฉํ๊ธฐ ์ํด์ Wiki data ์์ฒด๋ฅผ ๊ฐ paragraph(passage)๋ก ๋๋ ์ Elastic Search์ ์ ์ฌํ์ฌ ํ์ฉํ๊ธฐ๋ก ํจ
- passage๋ฅผ ์๋ฅด๋ ๊ธฐ์ค์ [Korean Sentence splitter(KSS)](https://github.com/likejazz/korean-sentence-splitter) ์ฌ์ฉ, overlap์ ํ์ฉํ์ง ์์
- context length๊ฐ 1,000์ด ๋๋ context์ ๋ํด ๋ฌธ์ฅ ๋จ์๋ก ๋๋๊ณ ์ ์ฒด ๊ธธ์ด์ ์ ๋ฐ์ ๊ฐ๊น๋๋ก ๋ฌธ์ฅ๋ค์ part 1, 2๋ก ๋๋
- ์ฌ๊ธฐ์ train ๋ฐ validation์ GT answer index๊ฐ ์ฝ๊ฐ ๋ณํ๋จ (KSS์ ํน์ฑ์ ์ํด ๋ฌธ์ฅ ์ฌ์ด ๊ณต๋ฐฑ์ด ์ฌ๋ผ์ง๊ฑฐ๋ ์๊น) โ raw context์ index์ ์์น์ ๊ฐ์ฅ ๊ฐ๊น์ด answer์ GT๋ก ์ฒ๋ฆฌ โ ์ฌ๊ธฐ์ GT index๊ฐ ์ค์ผ๋ ๊ฐ๋ฅ์ฑ์ด ์์ด์ ๋ ์ข์ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉด ๋ฐ๊ฟ์ฃผ๊ณ ์ถ์ โ ํน, offset mapping ๋ฑ์ ํ์ฉํ ์ ์์์ง ๊ณ ๋ ค ์ค
-
passage ๋จ์ ์ ๊ทผ ๊ฐ์ ๋ฐฉ์
- (epoch์ ์ค์ฌ์ ์คํํ๋๋ฐ) ์ด์ ์ต๊ณ ๊ธฐ๋ก๊ณผ ๋๊ฐ์ด ๋ง์ถฐ์ ๋น๊ตํด์ผ ํ ๊ฒ ๊ฐ๋ค
- context๋ฅผ passage ๋จ์๋ก ๋๋๊ณ , retrieval ๊ฒฐ๊ณผ๋ฅผ Top K ๊ธฐ์ค์ผ๋ก concatํ๊ฒ ๋๋ฉด raw context์ ๋ฌธ์ฅ ์์๊ฐ ๋ฌ๋ผ์ง ์ ์๋๋ฐ, ์ด ๋ถ๋ถ๋ ๊ณ ๋ คํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. raw context๋ฅผ ํ์ฉํ๋ inference์์๋ง ์๋ฅธ passage๋ฅผ ํ์ฉํ์ฌ MRC model์ ํ์ฐ๋ ๊ฒ์ ์ด๋จ์ง?
- ํ์ฌ retrieval์์ ๋ฝ์์ค๋ context ํน์ passage ๋ค์ concatํ์ฌ ์ฌ์ฉํจ์ผ๋ก์จ Elastic search์์์ similarity๋ฅผ ์ ํ ํ์ฉํ๊ณ ์์ง ์์๋ฐ, ์ด๋ฅผ ํ์ฉํ๋ฉด ๋ ์ข์ ๋ชจ๋ธ์ด ๋ ์ ์์ง ์์๊น?
- ํ์ฌ์ฒ๋ผ concatํ์ฌ ํ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฐ๋ก MRCํ๋, ์ figure์ Answer aggregation์ ์ ์ฉํด๋ณด๋ฉด ์ด๋จ์ง? ์๋ ํด๋น ๋ฌธํ *2.2 Answer Aggregation ๋ถ๋ถ* Ranking Paragraphs for Improving Answer Recall in Open-Domain Question Answering.pdf
- Retrieval ์ฑ๋ฅ or Reader์ ์ฑ๋ฅ ์ค ์ด๋์์ ํ๋ฝ์ด ์์๋์ง ํ์ธํด๋ณด์๋๊ฐ?
- ์ตํจ : Retireval์ ์ฑ๋ฅ์ Top1 ๊ธฐ์ค 1% ๋จ์ด์ง๊ณ (Top12 ๊ธฐ์ค์ ๊ฑฐ์ ๋์ผ), Reader์ ์ฑ๋ฅ์ Val ๊ธฐ์ค 3%์ฌ๋์๋ค. Public LB์์๋ ๊ฒฐ๊ตญ 3~4% ๋จ์ด์ก๋ค.
- ์ด๋ฌํ ํ์์ Val Dataset๊ณผ, Public Dataset์ ๊ตฌ์ฑ์ด ๋ค๋ฅด๋ค๋ ์๋ฏธ์ด๋ค.
- ์ฌํฌ : ํ์ต ํ ๋ K๋ฅผ ๋ ๋์ฌ์ ํ์ตํด๋ณด๋๊ฒ ์๋ฏธ๊ฐ ์์๊น?
- ์ฝ๊ฒ ๋ต๋ณํ๊ธฐ๋ ์ด๋ ต๋ค.
- ์ตํจ : Retireval์ ์ฑ๋ฅ์ Top1 ๊ธฐ์ค 1% ๋จ์ด์ง๊ณ (Top12 ๊ธฐ์ค์ ๊ฑฐ์ ๋์ผ), Reader์ ์ฑ๋ฅ์ Val ๊ธฐ์ค 3%์ฌ๋์๋ค. Public LB์์๋ ๊ฒฐ๊ตญ 3~4% ๋จ์ด์ก๋ค.
- ์ค๊ฐ ์ชฝ์ ์ ๋ต์ด ์๋ ๊ฒฝ์ฐ๋ ์ด๋ป๊ฒ ํ์๋๊ฐ?
- ์ตํจ : ๋ฌธ์ฅ ๋จ์๋ก ์๋ฅด๊ธฐ ๋๋ฌธ์, ์ ๋ต์ด ์๋ฆฌ๋ ์ผ์ ์์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : Concat๋ณด๋ค๋ Aggregation์ ํ๋๋ฐ, ์ด ๋ฐฉ๋ฒ์ด ๋ ๋ง์๊น์?
- ์ผ๋ฐ์ ์ผ๋ก๋ Aggregation์ ํ๋ ๋ฐฉ๋ฒ์ ๋ง์ด ์ฌ์ฉํ๋ค. ์ด ๊ฒฝ์ฐ Score๋ฅผ ์กฐํฉํ๋ ๊ฒฝ์ฐ๋ ์๊ณ , Reader๋ง ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ ์๋ค.
- ์ตํจ : Score๋ฅผ ์กฐํฉํ๋ ๊ฒฝ์ฐ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝํ์ด ์์๋ค. ํต์ ์ด๋ป๊ฒ Score๋ฅผ ์กฐํฉํ๋๊ฐ?
- ๋ณดํต์ ๊ฐ์ค์น๋ฅผ ๋ฃ๊ณ , ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ก ํด์ ์ต์ ์ ๊ฐ์ ์ฐพ์๋๊ฐ๋ ๊ฒ ๊ฐ๋ค. ํต์ Reader์ชฝ์ ์กฐ๊ธ ๋ ํ์ ์ฃผ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ๊ฒ์ผ๋ก ์๊ณ ์๋ค.
- ํ์ : ์ง๊ธ ์ฐ๋ฆฌ๊ฐ ํ๋ Concat์ ๋ฐฉ์์ ์ฌ๋ฌ Passage๋ฅผ ๋ฌถ์ด์ ํ๋์ Context์ฒ๋ผ ์๊ฐํ๊ณ ํ๋ฒ์ Reading์ ์ํํ๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๊ทธ๋ฐ์ง ์ ๋ต์ด ์๋ Token์์๋ Logit์ด ๋๊ฒ ๋์จ๋ค.
- Softmax๋ฅผ ํ๋ ๊ฒฝ์ฐ, ์ค๋ต์ด์ด๋ Logit์ด ๋๊ฒ ๋์ค๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ง์์ ์ผ๋ก ๊ฐ์ ์ถ๋ ฅํ๊ธฐ ๋๋ฌธ์, ๋งฅ์๋ฉ ๊ฐ์ด ๋ค๋ฅธ ๊ฐ์ ๋นํด ๋งค์ฐ ๋์์ง๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. (์ค๋ต์ด๋๋ผ๋) ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฑฐ์ ์ ๋ถ ํ๋ฅ ๊ฐ์ ๋๊ฒ ๋ด๋ ๊ฒฝํฅ์ด ์๋ค. (์ค๋ต์ด๋๋ผ๋)
- (Softmaxโ proba) out of distribution : ๋ฌธ์ด์ฒด๋ก ํ์ต ์ํค๊ณ , ๊ตฌ์ด์ฒด๋ฅผ ์ ์ฉํ๋ ๊ฒฝ์ฐ โ ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ข์ง ์๋ค๋ ๊ฒ์ ๋ฏธ๋ฆฌ ์์ํ๊ณ ์ด๋ฅผ detection (ํ๋ฆด ๊ฒ ๊ฐ์ ๊ฒ์ confidence๋ฅผ ๋ฎ๊ฒ ์ฃผ๋ ๊ฒ)
- Temperature๋ฅผ ๋์ด๋ฉด ํ๋ฅ ๊ฐ์ด ๋์ ๊ฒ๊ณผ ๋ฎ์ ๊ฒ์ ์ฐจ์ด๊ฐ ๋ ๋ฒ์ด์ง
- ์ด๋ ์ ๋ Temperature?
- ๋์ด๋ฉด ๋์ผ ์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒฝ์ฐ๊ฐ ์์
- ์ฑ๋ฅ = OOD๋ฅผ detectํ๋ ์ฑ๋ฅ
- ์ผ๋จ ๋ง์ด ๋์ฌ๋ณด๋ ๊ฒ ์ถ์ฒ!
- "๋ง์ด"์ ๊ธฐ์ค = 10, 20, 30... ๋ ผ๋ฌธ์์ ๋ฐฑ ๋จ์๊น์ง ๋์์ง๋ง ๊ทธ๊ฑด ์ข ๋นํ์ค์ ์ด๋ผ๊ณ ์๊ฐ
- ์๊ฐ ๊ด๊ณ ์ ๋ํ ๋ด์์ ํ๋ ๊ฑด ๋ฌด๋ฆฌ์ผ ๊ฑฐ ๊ฐ๊ณ ์์ ์ ๋๋ก ์ฐธ๊ณ ํ๊ธธ!
- ๋์ด๋ฉด ๋์ผ ์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒฝ์ฐ๊ฐ ์์
- ์ด๋ ์ ๋ Temperature?
sparse retrieval๋ก top 20์ context๋ฅผ ๊ณ ๋ฅธ ํ dense retrieval๋ฅผ ํตํด GT context๋ฅผ ์ฐพ๋ ๋ฐฉ์์ retrieval์ ๋ง๋ค๊ณ ์์ง๋ง ๋จ์ผ sparse retrieval ๋ณด๋ค ์ฑ๋ฅ ๊ฐ์ ์ด ์๋๊ณ ์๋ ์ํฉ์ ๋๋ค. ํ์ง๋ง retrieval ์์ฒด์ ์ฑ๋ฅ์ ์กฐ๊ธ์ฉ ๊ฐ์ ๋๊ณ ์์ด์ ๋ํ๋ฅผ ์ํด ๊ณ์ํด์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ ธ๋ ฅ์ ํ๋ ๊ฒ์ด ๋ง๋ ๊ฑด์ง ์๋ฌธ์ ๋๋ค. (์์ ์๊ฐ : ์ฝ 2์ฃผ) cf ) Top 1 accuracy โ elastic search : ์ฝ 70% / proposed retrieval : 56%
- ๋ง๋ถ์ฌ์, ๊ผญ ์ ์ฌ๋ก๊ฐ ์๋๋๋ผ๋, ์ด๋ค ์๋ก์ด ๋ชจ๋ธ์ ๊ตฌํํ๊ฑฐ๋ ์ ๊ทผ ๋ฐฉ์์ ์๋ํ ๋, (์ด์ฌํ ๋ญ๊ฐ ํ๋ค๊ณ ํญ์ ์ฑ๋ฅ์ด ์ ๋์ค๋๊ฑด ์๋์ง๋ผ) ์ด๋ ์ ๋ ํฌ์ํ๊ณ ํฌ๊ธฐํด์ผ ํ๋์ง '๋ํ'๋ผ๋ ์ํฉ ํน์ฑ ์ ๊ณ ๋ คํ๋ฉด ๋ ์ข์ ๋ถ๋ถ์ด ์์์ง ์ด๋ค ๊ธฐ์ค์ผ๋ก ์๋๋ค, ์๋๋ค๋ฅผ ํ๋จ ํด์ผํ๋์ง ๋น๋จ ์ฑ๋ฅ๋ฟ ์๋๋ผ ๋ค๋ฅธ ๊ธฐ์ค์ด ์์์ง โ ์ง๋ฌธ์ด ์ฐธ ์ถ์์ ์ธ๋ฐ ๋ฉํ ๋๊ป์ ๋ ์ค๋ฅด์๋ ๋๋ก ๋ต๋ณํด์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค! ใ ใ
- Deep Retrieval๊ณผ Elastic Search์ Score๋ฅผ ์กฐํฉํ ์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฒ ๋๊ฐ?
- Elastic Search๊ฐ ์์ฃผ ํ๋ฆฌ๋ ์ ํ์ ๋ฌธ์ ๊ฐ ์๋ค๊ณ ํ๋ค๋ฉด, Deep Retrieval์ด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์์ง๋ ๋ชจ๋ฅธ๋ค. ์ด๋ฐ ์์ผ๋ก ์์๋ธ์ ํด๋ณด๋ ๊ฒ์ ์ด๋จ๊น?
- ํ์ดํ๋ผ์ธ์ ํํ๋ก ๊ตฌ์ฑํ๋ ๊ฒ ๋ณด๋ค, Elastic Search์ ์กฐ๊ธ ๋ ๋ฌด๊ฒ๋ฅผ ๋๋, Deep Retrival์ ์น๋ ํํ๋ก ์ฌ์ฉํ๋๊ฒ ์ด๋จ๊น ํ๋ค.
- ์ฌํฌ : ์ด๋ป๊ฒ ์์๋ธํ๋ฉด ์ข์๊น์?
- ๋ง์ํ์
จ๋ ๊ฒ ์ฒ๋ผ, ์ ๋์จ์ ํ๋ ๊ฒ๋ ์ข์ ๊ฒ์ด๋ค. ๋ ๋ฐฉ๋ฒ์ Sparse์ Dense์ ํํ์ด๊ธฐ ๋๋ฌธ์, ๊ฐ๊ฐ์ ์ฅ์ ์ด ํ์คํ ์๋ค. Sparse๋ ๋จ์ด๊ฐ ๊ฒน์น๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ฐพ๊ณ , Dense๋ ์๋ฏธ๊ฐ ๊ฒน์น๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ฐพ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ๋์ ๊ฐ์ด ํ์ธํ๋ฉด ์๋ก์ ์ฅ์ ์ ์ป์ ์ ์์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ๊ทธ๋ฌ๋ฉด, ๊ฐ๊ฐ์ ์ ํ์ ๋ฐ๋ผ์ ์ฅ์ ๋ง ๋ฝ์์ฌ ์ ์๊ฒ ํ๋ฉด ์ด๋จ๊น์?
- ์ ๋ง ๋ฒ ์คํธ์ ๋ฐฉ๋ฒ์ด์ง๋ง, ์ ์ฉํ๊ธฐ๋ ์ด๋ ค์ธ ๊ฒ ๊ฐ์ผ๋, ์ ๋์จ์ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉํด๋ณด๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : ๊ฐ Retrieval์์ ์ถ๋ ฅ๋๋ Score๋ฅผ ํ์ฉํด์ Dense Layer์ ์ฐ๊ฒฐ์ํค๋ ๋ฐฉ๋ฒ์ ํด๋ณด๋ ๊ฑด ์ด๋จ๊น์?
- ์ด๊ฒ๋ ํ๋์ ๋ฐฉ๋ฒ์ด ๋ ์๋ ์์ ๊ฒ ๊ฐ๋ค. Score๋ฅผ ์กฐํฉํ๋ ๋ฐฉ๋ฒ์ด ์ด์ ๋น์ทํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ฐํ ์ ์์ ๊ฒ ๊ฐ๋ค. Elastic Search์ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ์ค๋ค๋ฉด, Elastic Search๊ฐ ์ด๋ ค์ํ๋ ๊ฒฝ์ฐ์ Dense์ ์๊ฒฌ๋๋ก ๊ฒฐ์ ๋ ์ ์์ ๊ฒ ๊ฐ๋ค. ๋จ, ์ด ๋ฐฉ๋ฒ์ด ๊ตฌํ์ด ์ด๋ ค์ธ ๊ฒ ๊ฐ์์, ๊ฐ๋จํ๊ฒ ์ ์ฉํ๋๊ฒ ์ข๋ค๊ณ ์๊ฐํ๋ค.
- ์ฌํฌ : ๊ทธ๋ฌ๋ฉด, ๊ฐ๊ฐ์ ์ ํ์ ๋ฐ๋ผ์ ์ฅ์ ๋ง ๋ฝ์์ฌ ์ ์๊ฒ ํ๋ฉด ์ด๋จ๊น์?
- ๋ง์ํ์
จ๋ ๊ฒ ์ฒ๋ผ, ์ ๋์จ์ ํ๋ ๊ฒ๋ ์ข์ ๊ฒ์ด๋ค. ๋ ๋ฐฉ๋ฒ์ Sparse์ Dense์ ํํ์ด๊ธฐ ๋๋ฌธ์, ๊ฐ๊ฐ์ ์ฅ์ ์ด ํ์คํ ์๋ค. Sparse๋ ๋จ์ด๊ฐ ๊ฒน์น๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ฐพ๊ณ , Dense๋ ์๋ฏธ๊ฐ ๊ฒน์น๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ฐพ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ๋์ ๊ฐ์ด ํ์ธํ๋ฉด ์๋ก์ ์ฅ์ ์ ์ป์ ์ ์์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ์ด๋ป๊ฒ ์์๋ธํ๋ฉด ์ข์๊น์?
์ฝ 4์ฃผ๊ฐ์ ๋ํ๊ฐ ์ด์ 3์ฃผ์ฐจ์ ์ ์ด๋ค๋ฉด์, ์ ํฌ ์กฐ์ ๊ฒฝ์ฐ ์ด๋ ์ ๋ ์ฑ๋ฅ์ด ์ฌ๋ผ์์ ์์ ํ ๋์๋ค๊ณ (๊ฐํ) ์๊ฐํ๊ณ ์์ต๋๋ค. ์ง๋๋ฒ ๋ฉํ ๋ง์์ ์ด๋ฏธ ์ด์ฟ๋์ ์ฑ์ ์ ๋ณด๊ณ upper bound๋ผ๊ณ ์ธ๊ธํ์
จ์ง๋ง ๊ทธ ๊ธฐ๋ก์ ๊ณ์ ๊นจ๊ณ ์๊ฑฐ๋ ์(๊นจ์ ์๋) ์ด๋ฐ ์ํฉ์์ ์๋์ ๊ฐ์ด ์์ผ๋ก์ ๋ํ ๊ธฐ๊ฐ ๋์์ ํ์ ๋ฐฉํฅ์ฑ์ ๋ํด ๊ณ ๋ฏผ์ด ๋ญ๋๋ค.
- ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๊ธฐ์ค์ผ๋ก ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฐ๊ฟ๊ฐ๋ฉฐ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ ๊ฒ ๋ง๋์ง
- ์๋ก์ด(์ ์ฉํด๋ณด์ง ์์) ๊ธฐ๋ฒ๋ค์ ๋ ๋ง์ด ์ฐพ์๋ด์ ์ ์ฉํ๋ ๊ฒ ๋ง์์ง
- ์ฌ์ค.. ์ ๋ต์ ๋ ๋ค๊ฒ ์ฃ ?ใ ใ ํ์์ด 6๋ช ์ด๋ผ ๋ค์ํ ์๋๊ฐ ๊ฐ๋ฅํ๊ธด ํ์ง๋ง, ๋ฉํ ๋๊ป์ ์ ํฌ์ ์ ์ฅ์ด๋ผ๋ฉด ์ง๊ธ์ ์ํฉ๊ณผ ์์ ์ ์ด๋ค ๋ถ๋ถ์ ์ฐ์ ์์๋ฅผ ๋๋ ๊ฒ์ด ์ข์์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์์ผ๋ก ์ญํ ์ ๋ถ๋ดํ๋ ๊ฒ์ด ์ข๋ค๊ณ ์๊ฐํ์๋์ง ์๊ฒฌ์ด ๊ถ๊ธํฉ๋๋ค.(competition์์์ ํจ์จ์ ์ธ ํ์ ๋ฐฉ์)
- ์ถ๊ฐ๋ก, AI ์ง๋ฌด์์ ํ์ ์์์ ํ์ ๊ณผ competition์์์ ํ์ ์ด ๋ค๋ฅผ ๊ฒ ๊ฐ์๋ฐ, ์ด๋ค ๋ถ๋ถ์ด ๋ค๋ฅด๊ณ , ํ์ฌ์ ์ ํฌ๊ฐ ์ด๋ค ๊ฑธ ๋ฐฐ์๋๋ฉด ์ข์ ์ง์ ๋ํ ์กฐ์ธ๋ ๊ถ๊ธํฉ๋๋ค. (git, ์ญํ ๋ถ๋ด, ์๊ฐ ๋ฐฐ๋ถ ๋ฑ)
- ๊ฐํํ์ต์์์ ๋ฌธ์ ์ ๋๋ฌด ์ ์ฌํ๋ค. ์๋ก์ด ๊ธธ or ์ฐพ๋ ๊ธธ ์ ํ
- ์ ๋ต์ ์์ผ๋, ๋ฉํ ๋ ๋ณธ์ธ์ด๋ผ๋ฉด, 1๋ฑ์ธ ๋งํผ ์๋ก์ด ์๋๋ฅผ ํด๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค. ๊ณผ๊ฐํ ์๋๋ ๊ต์ฅํ ์ฑ์ ์ด ๋๊ฑฐ๋ ๋ฎ์ ๋ ํ ์ ์๋ค๊ณ ์๊ฐํจ. 2~3๋ฑ์ด๋ผ๋ฉด ๊ทธ๋ด๋ฏํ ๊ฒ๋ง ์ฐพ์์ ์กฐ๊ธ ๋ ๋์ด๋ ค๊ณ ํ ๋ฏ ํ๋ฐ, ์ฐ๋ฆฌ๋ ๋์ ์ ํด๋ ์ข์ ๋ฏ. ๊ฐ๋ฅํ๋ฉด, ๋ช๋ฒ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๊ฟ์ ์ ์ถํด๋ณด๊ณ , ๋ช๋ฒ์ ์๋ํด๋ณด๊ณ ํ๋ ํํ๋ก ๊ฐ๋๊ฑด ์ด๋จ๊น?
2021.05.13 (๋ชฉ)
- TMI : ์ด ๋ ์ ํ์ด์ค ์กฐ์ ์ ์ํด ๋ํ ํ ํฌ๋ฅผ ํ์ง ์์์ต๋๋ค.
2021.04.30 (๊ธ)
-
- ํ์ : Dense Embedding์ PLM์ ์ฐ๋๊ฐ?
- ์ข ํ : ๊ทธ๋ ๋ค. bert-multil ingual ์ด๋ค. roberta๋ ์ฑ๋ฅ์ด ์ข๊ธดํ๋ฐ 2๊ฐ ์ฌ๋ฆด ์๊ฐ ์์ด์ ๋ชป์ฐ๊ณ ์์.
- ํ๊ท : Max Seq Length ์ฌ๋ฌ๊ฐ์ง ์ ์ฉํ์ผ๋, ๊ธฐ๋ณธ๊ฐ์ด ์ข๋ค
- ์์ง : HanBERT์ Tokenizer๊ฐ Fast Tokenizer๊ฐ์๋์ด์, ์ด์ ์ ์์ฑํ๋ ์ฝ๋๋ฅผ ํ์ฉํ ์ ์์์. ๊ทผ๋ฐ ๋ญ๊ฐ ์ด์ํ๊ฒ Score๊ฐ ๋งค์ฐ ๋ฎ๋ค.
- ๊ณตํต ์ง๋ฌธ : ์ง๊ธ ๋ถ๋ฌ์ค๋ Model์ด PLM์ธ๊ฐ?
- ํ์ : shuffle์ ์จ๋ดค๋๋ฐ, ์ฑ๋ฅ์ด ๋ง์ด ๋จ์ด์ง๋๋ผ ์ ๊ทธ๋ด๊น?
- ํ์ : KorQuAD๋ก Pre train์ ํ๋ ์ด์ ๊ฐ ๋ฌด์์ธ์ง ๊ณ ๋ฏผ์ด ๋๋ค.
- ์ข ํ : ์ถ๊ฐํ Layer๊ฐ ์ด๊ธฐํ๋์ด ์๊ธฐ ๋๋ฌธ์, ์ค๋ฒํผํ ๋์ง ์๋๋ก ์ฌ์ ํ์ต์ ํ๊ณ ๋์ ์ฐ๋ฆฌ ๋ฐ์ดํฐ๋ก Fine Tuning์ ํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํจ.
- ํ์ : Dense Embedding์ PLM์ ์ฐ๋๊ฐ?