본문 바로가기

카테고리 없음

[Multimodal] 구글 Show and Tell 논문 훑어보기

논문 개요

  • 2015년 구글에서 발표한 이미지 캡셔닝 분야 논문
  • 트랜스포머 구조를 사용하기 전에 나온 뉴럴 모델 분야에서의 선구적인 이미지 캡셔닝 모델

  • end to end 형태를 가진 Neural Image Caption(NIC) 모델을 제안하였음

모델 구조

  • 이미지 임베딩의 경우 CNN을 활용하였으며, 텍스트 생성 부분의 경우 LSTM 모델을 활용하였음. 인풋 이미지가 CNN 모델을 통과하여 Context 벡터를 생성하여, 이를 Seq2Seq 형태로 LSTM기반 텍스트 생성모델의 초기 입력으로 사용하였음.

  • (이미지를 설명하는) 텍스트 문장 생성의 경우, 위 식과 같이 각 파라미터(θ*)는 이미지(I)에 대하여 텍스트 문장(S)의 확률을 maxmize하는 방향으로 학습할 수 있도록 구조화되어 있음

  • stochastic gradient descent을 활용해 각 이미지와 텍스트 쌍에 대해 로그가능도를 최대화하는 방향으로 학습을 진행함
  • 텍스트 문장(S) 길이가 고정되어 있지 않기 때문에, t-1은 고정된 값이 아님. 언제든 이미지와 텍스트 쌍에 따라 최적의 값은 달라질 수 있음

데이터셋

  • 데이터의 경우, 위와 같은 5종류를 사용하며, SBU를 제외하곤, 각 이미지에 대해 여러명의 Annotators를 통해 제작된 문장으로 편향이 존재하지 않음

모델 실험 결과

  • 실제로 기존 모델에 비해서 확실히 좋지만, 사람의 성능에 비해선 떨어짐. 일부 좋은 점수를 보이고 있으나, 실질적으로 자세히 들여다보면 사람이 생성한 것에 비해 품질이 좋지 않음
  • 단순히 성능을 평가하는 데에 그치지 않고, 현재 지표들(BLEU)의 문제점을 지적과 더불어 추가직인 지표의 개발의 필요성을 언급하였음

  • 일부 (점수가 높은) 상위 문장들의 경우, 기존 데이터셋에 존재하지 않는 형태로써 새로운 Description 형태의 고품질의 문장을 생성한 것을 확인할 수 있었음

  • 사람이 직접 문장을 평가한 지표에서의 모델별 비교 결과. GT에 비해선 낮은 성적을 보임. 이로써, 기존에 사람 작성 문장에 비해 BLEU 스코어상에서 높았지만, 실질적으로 성능 자체는 더 좋지 않음을 확인할 수 있었음 (BLEU 스코어의 한계도 함께확인할 수 있었음)

참고문헌

https://arxiv.org/abs/1411.4555