KUBIG 2022-2 활동 블로그

고정 헤더 영역

글 제목

메뉴 레이어

KUBIG 2022-2 활동 블로그

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 목록
  • 분류 전체보기 (133)
    • 소개 (4)
    • 방학 세션 (14)
      • 방학 스터디 (5)
      • KUBIG CONTEST (9)
    • 심화 스터디 (113)
      • Advanced ML & DL paper revi.. (34)
      • Dive into Deep Learning (11)
      • 논문 리뷰 (19)
      • CV 논문 리뷰 (19)
      • 시계열 (12)
      • Graph Study (7)
      • 태블로 (10)
    • 장기 프로젝트 (0)
      • 추천 시스템 1팀 (0)
      • 추천 시스템 2팀 (0)
      • 텍스트 (0)
      • CV 1팀 (0)
      • CV 2팀 (0)
      • CV 3팀 (0)
      • 분류 예측 1팀 (0)
      • 분류 예측 2팀 (0)
    • 알쓸쿠잡 (1)

검색 레이어

KUBIG 2022-2 활동 블로그

검색 영역

컨텐츠 검색

SentencePiece

  • [논문 리뷰 스터디] SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

    2022.11.10 by 남르미누

[논문 리뷰 스터디] SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

💡 2018년, Google에서 공개한 SentencePiece에 관한 논문으로, BERT에 대표적으로 활용되는 Subword Segmentation인 SentencePiece를 소개하는 논문이다. (지금까지 1972회 인용됨) 본 논문은 신경망 기반의 언어 처리를 위해 고안된 언어에 의존하지 않는(language-independent) subword tokenizer와 detokenizer인 SentencePiece를 소개한다. 기존에 있던 subword segmentation tool들은 input을 단어들로 pre-tokenized하는 것을 가정하고 있지만, SentencePiece는 raw 문장에서 subword 모델을 직접 학습할 수 있다. 영어-일본어 기계번역 실험을 통해 검증 과정을 거쳤으며..

심화 스터디/논문 리뷰 2022. 11. 10. 20:04

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
KUBIG 2022-2 활동 블로그 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바