상세 컨텐츠

본문 제목

[Advanced ML & DL Week 6] Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

심화 스터디/Advanced ML & DL paper review

by 진은파 2022. 11. 24. 16:42

본문

https://s3.us-west-2.amazonaws.com/secure.notion-static.com/4b3f512e-3c36-4135-927c-38d13ecbfef2/1412.3555.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20221124%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20221124T073907Z&X-Amz-Expires=86400&X-Amz-Signature=7217510ef7422677b8f9907a2359a8c14aaf2bf436261f5a788c21fd41c091f6&X-Amz-SignedHeaders=host&response-content-disposition=filename%3D%221412.3555.pdf%22&x-id=GetObject 

 

제목 : Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

저자 : Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio

 


Abstract

이 논문에서는 여러 타입의 RNN(Recurrent Neural Networks) 성능을 비교한다. (특히 (당시) 제일 발전했던 LSTM, GRU를 중심으로) 다성 음악 모델링, 음성 인식을 주요 task로 지정했으며 실험 결과 전통적인 tanh 유닛보다 현대적인 RNN 기반 모델들이 높은 성능을 달성했고 GRU가 LSTM과 비교할만한 성능 수준을 달성했다는 것을 알아냈다.

 

2 Background: Recurrent Neural Network

LSTM과 GRU의 unit을 시각화한 그래프이다.

i, f, o는 각각 input, forget, output gate이고 c, c_는 각각 메모리(memory cell)과 새로운 메모리(new memory cell cotent),
r, z는 reset, update gates, h, h_는 activation, candidate activation이다.

 

4 Experiments Settings

시퀀스 모델링은 시퀀스의 확률 분포를 정확하게 학습하는 것이 목적이므로 학습 데이터의 log-likelihood를 최대화하는 것으로 본다.

위와 같은 데이터에 RMSProp optimizer를 사용한 세팅으로 실험을 진행하였다.

5 Results and Analysis

Y축은 negiative log likelihood이며 이 수치가 낮을수록 좋은 모델임을 의미한다.

Music modeling에서 LSTM과 GRU 모두 비슷한 성능을 보였다. 

음성 인식 task에서도 LSTM과 GRU가 기존 tanh보다 높은 성능을 달성했으며 LSTM과 GRU 사이에서는 특별한 성능 차이가 없었음을 알 수 있다.

 

6 Conclusion

 전통적으로 쓰이는 방법인 tanh방법과 RNN 종류인 LSTM과 GRU의 성능을 비교하는 실험을 진행하였다. Task는 다성 음악 모델링, 음성 인식이었다. 이 task들은 모델링에 큰 어려움이 있어왔기 때문에 대상 task로 선정하였다.

 실험 결과 LSTM과 GRU가 기존 tanh에 비해 높은 성능을 기록했다. 다만, LSTM과 GRU 사이의 유의미한 성능 차이는 없었다.

 


비슷한 성능을 달성할 수 있다면 적은 계산을 사용하는 GRU가 시퀀스 모델링에 적합할 것이라는 생각이 들었다. 다만, 이미 너무 시간이 지난 논문이기 때문에 Transformer 계열의 성능이 이미 SOTA를 달성하고 있어 기존 RNN 모델들을 복습하는 느낌으로 리뷰해보았다.

 

작성자 : 16기 이은찬

관련글 더보기

댓글 영역