[논문 리뷰 스터디] SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
💡 2018년, Google에서 공개한 SentencePiece에 관한 논문으로, BERT에 대표적으로 활용되는 Subword Segmentation인 SentencePiece를 소개하는 논문이다. (지금까지 1972회 인용됨) 본 논문은 신경망 기반의 언어 처리를 위해 고안된 언어에 의존하지 않는(language-independent) subword tokenizer와 detokenizer인 SentencePiece를 소개한다. 기존에 있던 subword segmentation tool들은 input을 단어들로 pre-tokenized하는 것을 가정하고 있지만, SentencePiece는 raw 문장에서 subword 모델을 직접 학습할 수 있다. 영어-일본어 기계번역 실험을 통해 검증 과정을 거쳤으며..
심화 스터디/논문 리뷰
2022. 11. 10. 20:04