728x90 딥러닝6 [paper review] Attention Is All You Need (2017) 학과 스터디에서 주 1회 논문 리뷰를 돌아가며 하기로 했다. 첫 논문은 현재 생성형AI 발전의 근본이라고 볼 수 있는 transformer 소개 논문 "Attention is all you need". 이름부터 "어탠션이면 충분해"인 만큼 여타 아키텍처는 버리고 어탠션만 채택해 학습시간을 줄이고 정확도를 끌어올린 혁신적인 알고리즘이라고 할 수 있다. 사실 어탠션 매커니즘이 이때 등장한 게 아니라, self attention을 적극 활용했다는 점이 주의사항이기는 하지만, DNN --> RNN --> CNN 순으로 공부해 온 사람이라면 이쯤 해서 최신 모델에 적극 사용되는 transformer와 self multi-head attention에 대해서 숙지할 필요가 있다고 본다. Abstract:The do.. 2025. 5. 18. [딥러닝] 경사하강법의 응용 🔹 Momentum설명:Momentum은 말 그대로 "관성" 개념을 딥러닝에 적용한 기법입니다. 단순한 경사하강법은 현재 기울기만 보고 움직이지만, Momentum은 이전 방향의 움직임을 기억하여 관성을 유지하려고 합니다.이는 경사가 급한 방향으로는 빠르게, 흔들림이 많은 방향은 완화시켜줍니다.즉, 마치 공이 언덕 아래 굴러가듯 더 빠르게 최적점을 향해 이동하게 합니다. 🔹 Adagrad설명:Adagrad는 각 파라미터마다 학습률을 다르게 조정하는 방법입니다.많이 변화하는 가중치는 점점 학습률을 줄이고, 적게 변화하는 가중치는 학습률을 크게 유지합니다.덕분에 희귀한 특징(feature)을 잘 학습할 수 있지만, 학습률이 너무 작아져서 학습이 일찍 멈출 수 있습니다. 🔹 RMSprop설명:RMSpro.. 2025. 5. 8. [딥러닝] 역전파 1. 역전파란 무엇인가?역전파(Backpropagation)는 인공신경망이 학습할 수 있도록 도와주는 알고리즘입니다. 신경망이 입력을 받아서 예측을 하고, 그 예측이 실제 정답과 얼마나 다른지를 계산한 뒤, 그 오차를 기준으로 각 가중치(weight)를 얼마나 조정해야 할지를 계산하는 과정이에요.핵심 아이디어는 간단합니다:"출력층에서 계산된 오차를 입력층 방향으로 거꾸로 전파해서, 각 층의 가중치를 조금씩 바꿔나가는 것"2. 왜 필요한가?신경망이 잘 작동하려면, 각 층의 가중치들이 좋은 값을 가져야 합니다. 그런데 문제는…어떤 가중치가 얼마나 잘못된 결과에 영향을 줬는지를 우리가 알 수 없다는 점이에요.예를 들어, 이미지 분류 모델이 고양이를 개로 잘못 분류했다면:1층에 있는 뉴런들이 잘못한 걸까?중간층.. 2025. 5. 8. [딥러닝] 경사하강법 딥러닝에서의 학습은 순전파와 역전파를 통해 connection weight을 업데이트하는 과정으로 나타난다. 이 과정에서 connection weight을 어떻게 하면 '잘' 업데이트 할 수 있을 것인가에 대한 다양한 기법이 제안되었다. 그 중 가장 기본이 되는 원시적인 학습 기법이 경사하강법$(Gradient\,Decent\,Method)$이다. 경사하강법이란, Error함수$(loss\,funtion)$을 구성하는 weight들이 이루는 공간에서, loss function을 최소화하는 w 값을 찾기 위해 한번의 epoch에 각 weight를 얼마나 업데이트할 것인가를 해당 시점의 기울기를 통해 찾는 알고리즘이다. 예를 들어 아래와 같은 공간이 NN의 loss function이라고 해보자.첫 지점으로 .. 2025. 4. 9. [딥러닝] 활성화함수$(2)$ 활성화함수$(1)$에서는 분류문제 해결을 위한 NN에서 기본적으로 사용되는 활성화함수 중 시그모이드 함수의 필요성과 단점에 대해서 알아보았다. 계속해서 시그모이드 함수의 단점을 해결하기 위해 제안된 다양한 활성화함수에 대해서 알아보자. [다양한 활성화함수]1) ReLu 시그모이드 함수의 기울기 소실 문제를 야기하는 가장 큰 원인은 gradient의 미분계수가 추가됨에 따라 곱의 꼴이 늘어나는 것이었다. 그런데 이 문제에 집중하여 곱의 꼴을 잘 살펴보았더니, combination term 중 절반 이상이 시그모이드의 미분값 $(y)$$(1-y)$로 인해 발생하는 term인 것이 확인되었다. 이런 배경 하에 시그모이드와 비슷한 성질을 가지면서 미분 시 곱의 꼴이 나오지 않는 아래와 같은 ReL.. 2025. 4. 5. [딥러닝] 활성화함수$(1)$ 활성화 함수 : hidden layer의 출력값에 비선형성을 부여하기 위해서 태우는 비선형함수Ex. sigmoid, softmax, Relu, ... 비선형 활성화함수가 왜 필요한가?1. 쓰지 않는 경우 또는 선형 활성화함수를 쓰는 경우 XOR문제 해결 불가--> 여러 복잡한 문제 해결을 위해 비선형 활성화함수를 쓰게 됨 [시그모이드$(sigmoid)$함수]1. 시그모이드 : 은닉층의 결과값을 0~1 사이값으로 압축시켜 기준점 이상과 미만의 값으로 분류 문제를 해결 2차원 좌표평면 상 아래와 같이 생겼고, 미분 시 $(y)$$(1-y)$ 꼴이 도출됨. 2. 시그모이드의 문제점 1) 기울기 소실 $(gradient\,vanishing)$ : 합성함수의 미분을 통해 connection.. 2025. 4. 5. 이전 1 다음 728x90