반응형
1장. 개발자가 처음 만난 머신러닝의 세계
skip.
2장. 개발 환경 구성
- 아나콘다로 패키지 관리를 한다.
https://anaconda.com에서 individual edition으로 다운로드(무료) - 환경구성
- 자동환경 : yaml에 설치할 패키지 리스트 입력해서 실행
해당 repository에서 아래 명령어 실행
conda env create -f wikiml_win.yml (난 conflicts로 실행되지 않음 - 기존에 libs가 설치된 애들이 있어서 그럴거다.) - 수동환경(추천)
- conda create -n wikiml (가상환경 생성)
- conda activate wikiml (가상환경 실행)
- libs 설치(예제를따라가기위해서)
- conda install panda=0.22.0
- conda install numpy=1.14.1
- conda install keras=2.1.6
- pip install tensorflow==1.8
- conda install scikit-learn=0.19.1
- conda install seaborn=0.8.1
- conda install jupyter notebook
- 실행(jupyter 사용해서 브라우저에서 실습, 예제 소스가 있는 repo에서)
- activate wikiml
- jupyter notebook
- 자동환경 : yaml에 설치할 패키지 리스트 입력해서 실행
3장. 머신러닝 필수 개념
- 지도학습과 비지도학습
- 지도학습 (supervised learning)
- 정답(레이블)을 알려주면서 진행되는 학습
- 정답, 실제값, 레이블, 타깃, 클래스, y값은 같은 말
- 대표적으로 분류와 회귀가 있다.
- 정답 데이터마다 레이블을 붙여줘야 해서 시간을 많이 걸린다.
- 정답(레이블)을 알려주면서 진행되는 학습
- 비지도학습 (unsupervised learning)
- 정답 없이 진행되는 학습
- 데이터 자체에서 패턴을 찾아내야 할 때 사용
- 대표적으로 군집화, 차원축소가 있다.
- 지도학습 (supervised learning)
- 분류와 회귀
- 분류 (classification)
- 데이터가 입력됐을 때 분리된 값으로 예측
- 회귀 (regression)
- 데이터가 입력됐을 때 연속된 값으로 예측
- 종류
- 이진분류
- 예/아니오, 남자/여자와 같이 둘 중 하나의 값을 분류
- 다중분류
- 빨강/노랑/파랑 과 같이 여러 개의 분류값 중에서 하나의 값 예측
- 다중 레이블 분류
- 데이터가 입력됐을 때 두 개 이상의 레이블로 분류하는 경우
- 이진분류
- 분류 (classification)
- 과대적합과 과소적합
- 과소적합 (underfitting)
- 데이터가 충분한 특징을 찾아내지 못하는 경우
- 과대적합
- 데이터가 필요 이상의 특징으로 학습한 경우
- 과소적합 (underfitting)
- 혼동 행렬 (confusion matrix)
- 모델의 성능을 평가할 때 사용하는 지표,
- 머신러닝 모델의 성능 평가
- TP (true positive) - 맞는 것을 올바르게 예측한 것
- TN (true negative) - 틀린 것을 올바르게 예측한 것
- FP( false positive) - 틀린 것을 맞다고 잘못 예측한 것
- FN (false negative) - 맞는 것을 틀렸다고 잘못 예측한 것
- 정확도 (accuracy) - 모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지.
- 정밀도 (precision) - 모델의 예측값이 얼마나 정확하게 예측됐는가.
- 재현율 (recall) - 실제값 중에서 모델이 검출한 실제값의 비율
- F1 점수 (f1 score) - 정밀도, 재현율 두 값을 조화평균내서 하나의 수치로 나타낸 지표
반응형
'IT개발 > 머신러닝' 카테고리의 다른 글
머신러닝 관련 강좌 링크 (0) | 2017.08.21 |
---|---|
칸아카데미 선형대수 강의 (0) | 2017.08.21 |
댓글