[CV 논문 리뷰 스터디 / 5주차 / 장수혁 ] Attention is All You Need, Transformer (2017)
개요 2021년 기준으로 최신 고성능 모델들은 Transformer 아키텍처를 기반으로 하고 있다.(우리가 Transformer를 알아야 하는 이유) GPT: Transformer의 Decoder 아키텍쳐 활용 BERT: Transformer의 Encoder 아키텍쳐 활용 기존의 Seq2Seq 모델들의 한계점 context vector v에 소스 문장의 정보를 압축해야만 했음 >> bottleneck이 발생하여 성능 하락의 원인이 됨 디코더가 context vector를 매번 참고할수는 있으나, 여전히 소스 문장을 하나의 벡터에 압축해야 함 즉, 하나의 문맥 벡터가 소스 문장의 모든 정보를 가지고 있어야 하므로 성능이 저하됨. Q: 매번 소스 문장에서의 출력 전부를 입력받게 할수는 없을까?? A: 어텐션..
심화 스터디/CV 논문 리뷰
2022. 11. 8. 02:21