본문 바로가기
IT개발/머신러닝

[책리뷰]나의 첫 머신러닝/딥러닝

by xground 2021. 2. 15.
반응형

1장. 개발자가 처음 만난 머신러닝의 세계

skip.

 

2장. 개발 환경 구성

  • 아나콘다로 패키지 관리를 한다.
    https://anaconda.com에서 individual edition으로 다운로드(무료)
  • 환경구성
    • 자동환경 : yaml에 설치할 패키지 리스트 입력해서 실행
      해당 repository에서 아래 명령어 실행
      conda env create -f wikiml_win.yml (난 conflicts로 실행되지 않음 - 기존에 libs가 설치된 애들이 있어서 그럴거다.)
    • 수동환경(추천)
      • conda create -n wikiml (가상환경 생성)
      • conda activate wikiml (가상환경 실행)
      • libs 설치(예제를따라가기위해서)
        • conda install panda=0.22.0
        • conda install numpy=1.14.1
        • conda install keras=2.1.6
        • pip install tensorflow==1.8
        • conda install scikit-learn=0.19.1
        • conda install seaborn=0.8.1
        • conda install jupyter notebook
    • 실행(jupyter 사용해서 브라우저에서 실습, 예제 소스가 있는 repo에서)
      • activate wikiml
      • jupyter notebook

 

3장. 머신러닝 필수 개념

  • 지도학습과 비지도학습
    • 지도학습 (supervised learning)
      • 정답(레이블)을 알려주면서 진행되는 학습
        • 정답, 실제값, 레이블, 타깃, 클래스, y값은 같은 말
      • 대표적으로 분류와 회귀가 있다.
      • 정답 데이터마다 레이블을 붙여줘야 해서 시간을 많이 걸린다.
    • 비지도학습 (unsupervised learning)
      • 정답 없이 진행되는 학습
      • 데이터 자체에서 패턴을 찾아내야 할 때 사용
      • 대표적으로 군집화, 차원축소가 있다.
  • 분류와 회귀
    • 분류 (classification)
      • 데이터가 입력됐을 때 분리된 값으로 예측
    • 회귀 (regression)
      • 데이터가 입력됐을 때 연속된 값으로 예측
      • 종류
        • 이진분류
          • 예/아니오, 남자/여자와 같이 둘 중 하나의 값을 분류
        • 다중분류
          • 빨강/노랑/파랑 과 같이 여러 개의 분류값 중에서 하나의 값 예측
        • 다중 레이블 분류
          • 데이터가 입력됐을 때 두 개 이상의 레이블로 분류하는 경우
  • 과대적합과 과소적합
    • 과소적합 (underfitting)
      • 데이터가 충분한 특징을 찾아내지 못하는 경우
    • 과대적합
      • 데이터가 필요 이상의 특징으로 학습한 경우
  • 혼동 행렬 (confusion matrix)
    • 모델의 성능을 평가할 때 사용하는 지표,
  • 머신러닝 모델의 성능 평가
    • TP (true positive) - 맞는 것을 올바르게 예측한 것
    • TN (true negative) - 틀린 것을 올바르게 예측한 것
    • FP( false positive) - 틀린 것을 맞다고 잘못 예측한 것
    • FN (false negative) - 맞는 것을 틀렸다고 잘못 예측한 것
    • 정확도 (accuracy) - 모델이 입력된 데이터에 대해 얼마나 정확하게 예측하는지.
    • 정밀도 (precision) - 모델의 예측값이 얼마나 정확하게 예측됐는가.
    • 재현율 (recall) - 실제값 중에서 모델이 검출한 실제값의 비율
    • F1 점수 (f1 score) - 정밀도, 재현율 두 값을 조화평균내서 하나의 수치로 나타낸 지표

 

반응형

'IT개발 > 머신러닝' 카테고리의 다른 글

머신러닝 관련 강좌 링크  (0) 2017.08.21
칸아카데미 선형대수 강의  (0) 2017.08.21

댓글