![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dY4F8y/btrtrrwecsa/4XKakjdZtRewkgZTqSlydk/img.jpg)
활성화값 분포가 적당히 퍼지면서 원활한 학습 - 각 층이 활성화를 적당히 퍼뜨리도록 '강제' 6.3.1 배치 정규화 알고리즘 - 학습을 빨리 진행할 수 있다 - 초기값에 크게 의존하지 않는다 - 오버피팅을 억제한다 *배치 정규화: 학습 시 미니배치 단위로 정규화. 데이터 분포가 평균이 0, 분산이 1. 위 식은 단순히 미니배치 입력 데이터 {x1, x2, ..., xm}을 평균0, 분산1인 데이터로 변환. 이를 활성화 함수 앞(또는 뒤)에 삽입 --> 데이터 분포가 덜 치우치게 만들 수 있다. *배치 정규화 계층마다 이 정규화된 데이터에 고유한 확대와 이동변환을 수행 *신경망의 순전파에서 적용되는 계산 그래프(그림 6-17) 6.3.2 배치 정규화의 효과 - MNIST 데이터셋을 이용해 배치 정규화 계층..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bedBZe/btrtyeoH7fP/uxHEHRRyhrnnNfapWsGhBK/img.png)
안녕하세요 프로그래밍을 배우는 빛나는 샤트입니다. 경사 하강법을 배우다 보면 나오는 SGD! 기울기를 따라 손실함수의 값이 최소가 되는 곳을 찾는 과정인데 과연 SGD가 무엇인지 그리고 BGD는 무엇인지 알아봅시다. 여기서는 배치 크기 = 전체 데이터셋 크기 미니배치 = 학습을 진행할 때 전체 데이터셋을 얼마나 나눠서 진행할 것인지 단위(변수명은 batch_size) 아래 내용은 해당 출처에 나온 내용을 재구성했습니다. - www.kakaobrain.com/blog/113 ⭐SGD(stochastic gradient descent) & BGD(batch gradient descent) - 미니배치 크기에 따른 학습 시간 미니배치 크기가 커질수록 학습 시간 줄어든다. - 미니배치 크기에 따른 최적화 탐색 ..
- Total
- Today
- Yesterday
- AIFFEL
- 아이펠
- 실내자율주행
- ros
- 모두의 연구소
- 인공지능 교육
- 도전
- Python
- 인공지능
- 모두의연구소
- 대전 인공지능
- SLAM강의
- 서빙로봇
- AIFFEL인공지능과정
- 광주
- AIFFEL후기
- 자율주행기술
- IT
- 배달로봇
- 양정연SLAM
- SLAM공부
- 자율주행로봇
- 멘탈관리
- 멋쟁이사자처럼
- 광주인공지능사관학교
- 인공지능교육
- 해커톤
- AIFFEL교육
- Slam
- 광주AI
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |