TIL

03.14 D+4

썬2 2024. 3. 15. 20:29

Transformer와 RNN의 차이

Transformer에는 Encoder-Decoder, Multi-headed attention, Positional Encoding이 있다.

Transformer에는 recurrent architecture가 안 쓰인다.
-> recurrent architecture란 무엇이냐: 아래 RNN Equations의 $h_t$에서 밑첨자가 $t$인 것들이 있는데, 이는 시간이 지나면서 변하는 부분이다. 하지만 밑첨자가 $h$인것은 시간이 지나도 변하지 않는 부분. 즉, t(시간)이 지나도 같은 파라미터를 쓴다는 뜻이다.

 

Softmax와 Sigmoid 차이

Softmax:

  • 이진 분류 모델의 마지막 활성화 함수에 주로 사용한다.
  • 출력값 범위: 0~1 사이의 확률값
    e.g) 특정 threshol이거나 0.5(default)이상이면 양성, 아니면 음성

Sigmoid:

  • 다중 분류 모델의 마지막 활성화  함수에 주로 사용한다.
  • 출력 값 범위: 0~1 사이의 확률값. (단, 결과의 총합은 1)

 

 

출처:

https://insomnia.tistory.com/12

https://blog.naver.com/th9231/221989350922

'TIL' 카테고리의 다른 글

3.17 D+7  (0) 2024.03.17
3.16 D+6  (0) 2024.03.16
03.15 D+5  (0) 2024.03.15
03.13 D+3  (1) 2024.03.14
03.12 D+2  (2) 2024.03.12