상세 컨텐츠

본문 제목

[논문 리뷰 스터디] (Squad: 100,000+ questions for machine comprehension of text.2016) + (Know what you don't know: Unanswerable questions for SQuAD.2018)

심화 스터디/논문 리뷰

by 남르미누 2022. 9. 29. 20:29

본문

🔑Machine Reading Comprehension(기계 독해)에 사용되는 데이터셋인 SQuAD(2016)와 SQuAD2.0(2018)에 대한 전반적인 내용을 살펴본다.

 

What’s NLP?

자연어처리의 전통적인 정의

인공지능(AI)의 한가지 : the branch of AI

인간이 자연적으로 사용하는 언어를 분석, 이해 및 생성하여 문제를 해결!

다양한 관점에서의 NLP 연구들

  • Phonetics and Phonology - 음운학적 (linguistics sounds)
  • Morphology - 말뭉치의 구성 (형태론적)
  • Syntax - 언어의 문법에 대한 (통사론적)
  • Semantics - 말의 맥락의 의미 (의미론적)
  • Discourse - 담화론적 의미

자연어처리(NLP)의 실질적인(pragmatic) 의미

다량의 텍스트를 처리하여 정보에서 지식으로 이어지도록 하는 프로세스

  • Text classification
  • Information retrieval and extraction
  • Machine reading comprehension and question answering

컴퓨터와의 인간의 상호작용(interaction)을 가능하도록하는 프로세스

  • Dialogue and conversational agents(chatbot)
  • Machine translation

 

  • Text mining 은 패턴 인식을 통해 텍스트 데이터로부터 단순히 잠재된 숨겨진 정보를 추출하는 프로세스
  • NLP는 주어진 텍스트 데이터의 의미와 구조를 해석하고 이해하는 프로세스

 

NLP to Neural Method

  • 신경망 기반으로 ! : from symbolic to neural computation !
  • End-to-end 학습으로 인한 featrue engineering 이나 localization 에 대한 effort가 줄어듬
  • 결과적으로 신경망 기반의 좋은 모델의 모델의 성능이 이를 입증
  • 대용량의 연산처리(GPU)로 인한 딥러닝이 대세 !

 

What is the MRC?

Machine Reading Comprehension (2017년부터 관심을 받고있음)

  • Summarize the key points
  • Answer questions & Ask questions
  • Reply and comment

Metric of Q&A task (Q&A에서 대표적으로 사용되는 성능 지표)

  • Rouge (Recall Oriented Understudy for Gisting Evaluation)
    • 자연어처리 분야의 문서요약(summarization) 및 기계번역(translation)의 성능지표
  • Bleu (bilingual evaluation understudy)
    • 자연어처리 분야의 문서요약(summarization) 및 기계번역(translation)의 성능지표

SQuAD (2016) Dataset

Squad: 100,000+ questions for machine comprehension of text (2016)

 

  • 스탠포드에서 공개한 데이터셋
  • 엄선된 위키피디아 게시물로부터 다양한 분야에 걸쳐 다양한 주제와 개념들을 대상
  • 다양한 길이의 Passage(article)로부터 수집된 질의 응답 데이터셋
  • 한 Passage에 복수의 정답 데이터가 존재
  • 실제 문맥에서 정답에 기반한 구절(span)이 존재
  • 정답은 한 단어 혹은 두 단어 이상의 정답이 가능하며, entity에 대한 제약이 없음
  • 다수의 연구에서 성능 기준 데이터로 활용
    • Best Resource Paper in EMNLP 2016
    • Google Scholar 기준, 615회 인용

Metric of MRC task (MRC에서의 성능지표)

  • EM (Exact Match)
    • The percentage of predictions that match any one of the ground truth answers exactly
  • F1-score(조화평균 of Precision and Recall)
    • Measures the average overlap between the prediction and ground truth
    • Prediction : 시스템이 추정한 answer
    • Ground truth : 실제 정답
    • precision = (Number of overlapping words) / (Total words in system answer)
    • recall = (Number of overlapping words) / (Total words in ground truth answer)

Data Setting

  • 기사 내 구간에서 생성되는 다양한 조건하의 질의응답셋 구축을 목표
  • 많은 인력과 비용을 통해서!
  • 응답은 실제로 타당한가?
  • 좀더 Challenge한 데이터셋을 만들기 위한 노력

 

실제로 해당 논문에서 데이터셋을 만드는 interface를 보면 다음과 같음

주어진 문장이 있고, 그에 대해서 질문자가 해당하는 문맥을 통해서 생성할 수 있는 질문을 제작함

다양한 질의응답 데이터셋

실제로 글을 읽다보면 대명사나 지시어를 통해서 의미가 중복되거나 거리가 먼 단어들을 가져오는 경우도 있는데, 이러한 경우에도 이 시스템이 과연 얼마나 잘 작동하고 있는지를 문장의 parse tree를 통해서 실제 거리를 측정하고 그 거리가 큰 경우에도 얼마나 잘 작동하는지를 해당 데이터셋에서는 주목하고 있음

문장의 parse tree와 실제 문장을 고려할 경우, 실제 passage와 질의문의 구조가 다른 것을 거리 계산을 통해서 검증 ⇒ 거리가 멀 수록 정답에 가까운 단어를 유추하기가 어려움

  • 대부분의 질의응답 데이터는 기대되는 답변들(날짜, 장소와 같은 entities) 위주의 정답
  • Wide ranging, and often include non-entities and long phrases
  • 대체로 Common Noun Phrase 즉, 명사형의 답변들이 많았음

⇒ BUT, 위의 경우 paragraph에 정답이 직접적으로 드러나면서 존재하는 질문에 대해 답변을 잘하는 것이 아닌가,,,? 정답을 못하는 경우도 구분할 수 있게 제작 ⇒ SQuAD 2.0

 

SQuAD 2.0 (2018) Dataset

Know what you don't know: Unanswerable questions for SQuAD (2018)

 

기존 SQuAD 데이터셋과의 차이점

  • 데이터 사이즈 및 규모 커짐
  • 정답이 존재하지 않는다는 것도 판단할 수 있는가에 초점을 맞춘 데이터셋

( Contribution )

  • Unanswerable Question in MRC (답변 불가능한 질문 판단 능력)
  • 기존의 SQuAD 데이터는 exclusively 정답가능한 데이터에 초점이 맞추어져 있지는 않은가?
    • With negative examples and Article with negatives
  • Question & Answer 에서의 Extraction
    • Relation query : educated_at( AlbertEinstein, ? )
    • Qustion
      • Albert Einstein was a student at what school?

ex1)

  • Passage
    • … Albert Einstein was awarded a PhD by the University of Zurich(취리히대학), with his dissertation titled …
  • Answer
    • University of Zurich

취리히대학에서 박사과정을 했다는 것에서 유추가 가능함

ex2)

  • Passage
    • … Einstein became a full professor at the German Charles-Ferdinand University in Prague …
  • Answer
    • <No answer>

위 문맥만으로는 학교라는 entity로는 적합하지만 의미론적으로 답변이 불가함

⇒ 이와 같이 기계가 오해 및 오역할 수 있는 질의응답셋을 구축했다는 것에 의미가 있음

 

 

  • Total Size : SQuAD 1.1 (108K), SQuAD 2.0 (151K) ⇒ 데이터 규모 1.5배 확장
  • Unanserable questions at test : SQuAD 1.1 (0%), SQuAD 2.0 (48.9%) ⇒ 막연히 정답을 잘 생성한다고 해서 좋은 모델이 아니라 답변 불가능한 질문을 잘 거를 수 있는지를 최종 목적으로 함

⇒ 현재 NLP에서의 MRC 방법론들이 Unanswerable questions에 대해서도 잘 대응하고 있다는 것을 알 수 있음

 

 

관련글 더보기

댓글 영역