ODQA 프로젝트를 진행하며...
이번 프로젝트에 있어서 우리는 MRC 모델에 2차 파인튜닝을 진행하여 성능을 올렸었다. 여기서 말하는 2차 파인튜닝이란 먼저 공개적으로 구축된 대형 MRC 데이터인 KorQuad 데이터에 대해 1차적으로 파인튜닝을 진행하고, 2차적으로 우리가 구축한 도메인 특화 QA 데이터를 이용하여 2차 파인튜닝을 진행하였다.
하지만, 이는 우리의 아이디어를 기반으로 진행된 방법이라, 검증되지 않은 방법을 시도하여 성능을 올린 것이나 마찬가지였다. 특히, F1, EM(Exact Match) 두 성능 중 하나만 올랐었기 때문에 이 방식이 우수하다고 증명할만한 충분한 관련 근거가 존재하지 않았다. 뒷받침할 논문을 찾다가, 아래와 같이 'Fine-tuning Strategies for Domain Specific Question Answering under Low Annotation Budget Constraints' 논문을 찾을 수 있었다. 여기에는 QA 데이터셋에 대하여 다양한 파인튜닝 방법을 시도하여 어떻게 하면 데이터를 적게 구축하면서도, 모델의 성능을 끌어올릴 수 있을까에 대한 답을 내려준다.
0. 논문의 배경
- 기존 QA Extractive 태스크의 경우, 데이터를 구축하는데 상당한 비용이 소모됨. 이에 대한 비용을 최대한 줄이면서도, 모델 성능을 향상시킬 수 있는 방법론을 찾고자함.
1. 논문에서의 분류한 모델 학습 방법론
- QA 태스크에 최적화된 모델 학습을 위해 사용할 수 있는 주요 3가지 학습 방법을 제시 하였음
- Knowledge-Alignment Fine-tuning : 기존 Pretrain과정에서 사용된 large corpus와는 다른 특정 도메인에 최적화된 Unlabeled 데이터를 활용하여 학습을 진행하는 것. 일반적으로 MLM(Masked Language Modeling) 학습 방법이 사용됨.
ex) 바이오 도메인 특화 모델을 생성하기 위해 바이오 분야의 Unlabeled 데이터를 학습 - Task-Alignment Fine-tuning : 특정 태스크용으로 구축된 공개된 대형 Labeled 데이터를 활용하여 모델에 대한 학습을 진행
ex) QA Extractive Task의 경우, 먼저 Squad 데이터를 이용하여 파인튜닝을 진행하여 사용 - Target Data Fine Tuning : 특정 태스크와 특정 도메인에 최적화된 데이터를 사용하여 학습을 진행. 일반적으로 우리가 생각하는 모델 파인튜닝 과정에 해당 (데이터가 너무 적은 경우, 2번에서 사용한 데이터를 일정 비율이나 방식으로 혼합하여 사용하는 방법도 함께 제안)
2. 논문에서 제안한 접근 방법론
- 다양한 도메인 특화 QA 데이터에 대해 9가지 학습 조합을 제안하여 실험을 진행. 기본적으로 모든 방법은 1번 방법(MLM 학습)은 모두 진행한 상태에서 다양한 조합을 실험하였음. 참고로, MP, MPO, MW, MWO는 기존 데이터에 대해 공개 데이터셋(Ex. Squad)를 다양한 방식으로 혼합하여 학습을 진행한 방식에 해당하니, 관련 내용은 원문 논문을 참고바람.
3. 실험 결과
- 기존 Target Data Finetuning만 한 것에 비해 SQuAD 데이터를 섞어서 진행한 것이 더 높은 성능 향상을 가져왔음.
총평
흥미롭게 읽었을 뿐만 아니라, 단순히 2차 파인튜닝 뿐만 아니라, 다양한 방식을 통해 성능을 더 끌어올릴 수 있다는 점이 굉장히 흥미로웠다. 이 논문을 좀 더 일찍 접할 수 있었다면 좋았을텐데, 끝나서야 접한 것이 너무 아쉬움이 남는다. 현재 내용은 꼭 QA(MRC) 데이터에만 국한된 것은 아닌 것으로 보아, 추후 다른 태스크에 시도해볼 예정이다.
'Machine Learning' 카테고리의 다른 글
(작성중) 멀티모달 연구의 필요성 (0) | 2022.06.27 |
---|---|
[NLP] Naver Search ColBERT 관련 발표 정리 (0) | 2022.06.22 |
[NLP] ColBERT 논문 살펴보기 (0) | 2022.06.04 |
[NLP] Siamense Network를 이용한 Sentence Bert (S-BERT) (0) | 2022.05.10 |
[NLP] 트랜스포머 모델에 커스텀 데이터에 대한 MLM 학습 진행하기 (0) | 2022.05.07 |