Transformer와 RNN의 차이
Transformer에는 Encoder-Decoder, Multi-headed attention, Positional Encoding이 있다.
Transformer에는 recurrent architecture가 안 쓰인다.
-> recurrent architecture란 무엇이냐: 아래 RNN Equations의 $h_t$에서 밑첨자가 $t$인 것들이 있는데, 이는 시간이 지나면서 변하는 부분이다. 하지만 밑첨자가 $h$인것은 시간이 지나도 변하지 않는 부분. 즉, t(시간)이 지나도 같은 파라미터를 쓴다는 뜻이다.
Softmax와 Sigmoid 차이
Softmax:
- 이진 분류 모델의 마지막 활성화 함수에 주로 사용한다.
- 출력값 범위: 0~1 사이의 확률값
e.g) 특정 threshol이거나 0.5(default)이상이면 양성, 아니면 음성
Sigmoid:
- 다중 분류 모델의 마지막 활성화 함수에 주로 사용한다.
- 출력 값 범위: 0~1 사이의 확률값. (단, 결과의 총합은 1)
출처: