cs231n 3강 - Loss Function & Optimization

cs231n 정리

cs231n 3강 - Loss Function & Optimization

Hyeon Lee 2023. 3. 23. 23:59

728x90

※ Loss Function

- Loss Function tells how good our current classifier is!!!

- 모델의 확률 분포와 데이터의 실제 확률 분포 사이의 차이를 나타내는 함수

- loss function 값이 클수록 오차가 크고, loss function 값이 작을수록 오차가 작다.

- loss function 값을 최소화 하는 W, b를 찾아나가자.

loss function은 x를 이미지, y를 정답 label로 사용하여 비교한다.

■ SVM에서의 loss

SVM loss에서는 Sj를 잘못된 label score, Syi를 올바른 label score로 표기하고 계산한다.

첫번째 loss값 = max(0, 5.1 - 3.2 + 1) + max(0, -1.7 - 3.2 + 1) = 2.9

두번째 loss값 = max(0, 1.3 - 4.9 + 1) + max(0, 2.0 - 4.9 + 1) = 0

세번째 loss값 = max(0, 2.2 - (-3.1) + 1) + max(0, 2.5 - (-3.1) + 1) = 12.9

최종 L 값 = (2.9 + 0 + 12.9) / 3 = 5.27

Q1) What happens to loss if car scores change a bit?

A1) 값이 미세하게 바뀐다고 해서 loss 값이 변하지는 않습니다.

Q2) What is the min/max possible loss?

A2) min : 0, max : 무한대

Q3) At initialization W is small so all s ≒ 0. What is the loss?

A2) max(0 - 0 + 1) + max(0 + 0 + 1) = 2

-> Loss 값 = class 개수 - 1

Q4) What if the sum was over all classes?(including j = y_i)

A4) j = y_i의 경우 포함 시 모두 1씩 증가

Q5) What if we used mean instead of sum?

A5) 큰 의미 없음

Q6) What if we used square?

A6) Square를 하게 되었을 때 non-linear 하기 때문에 결과 자체에 차이가 있다.

Q) Loss가 0이라면 Unique 한 Weight 값이 있을까?

A) No. Loss가 0이라도 unique한 Weight 값은 없다. W에 2배를 해도 Loss는 변하지 않는다.

모든 margin이 1보다 크다면 2배, 3배, 4배를 하더라도 Loss는 0으로 고정이다.

지금의 loss는 오직 data의 loss에만 신경을 쓴다. training data에만 신경을 쓰는 Weight를 선택한다면 overfitting을 피할 수 없다.

이 상황을 피하기 위해서 R(W) - Regularization을 더해준다.

이렇게 training data에 집중하는 data loss와 test data에 집중하는 Regularization이 서로 경쟁하면서 최적의 Loss 값을 도출하게 된다.(A way of trading off training loss and generalization loss on test set.)

■ L2 Regularization

더욱 선호되는 방식이다. Weight를 최대한 spread out 해서 Input feature들을 골고루 고려하길 원한다.(diffuse over everything)

■ Softmax Classifier

- scores = unnormalized log probabilities of the classes.

- exp과정과 정규화 과정을 거쳐 최종적인 log스케일의 loss 값을 얻어내는 방식

Softmax Function과 scores 값을 가지고 Log 스케일의 loss 식을 도출해낼 수 있다. 아래의 summary 식을 cross entropy loss라고 부른다. cross entropy loss를 통해서 제대로 된 class에 대한 log 확률을 최대화 하고자 하는 방식 => 정확한 class의 -log 확률을 최소화하고자 하는 방식이다.