OPS

Azure ML 실습

찻잔속청개구리 2024. 10. 21. 23:55
반응형

https://github.com/jaehwachung/cloud_computing/blob/main/data_analysis/Titanic_dataset.csv
- 깃험 타이타닉 탑승자 데이터 이용해 데이터 전처리 과정을 진행함

- 사전에 컴퓨팅 인스턴스 만들어둠

 

  • Select Columns in Dataset:
    • 데이터셋에서 필요한 열만 골라서 작업할 수 있게 해줌. 예를 들어, 생존 예측에 필요한 열들만 고를 수 있음
  • Clean Missing Data:
    • 데이터에서 누락된 값들을 처리하는 기능. 결측값을 삭제하거나 다른 값으로 채워넣는 걸 도와줌
    • 실습에서는 embarked 컬럼에서 누락이 2명 있는데, 이 승선자 삭제함으로써 데이터 누락 제거함
  • Edit Metadata:
    • 데이터의 속성을 수정할 수 있음. 예를 들어, pclass 같은 건 범주형 데이터로 바꿔야 할 때 유용함.
    • pclass, gender, embarked 컬럼은 Categorical부분을 Categorical로 지정해주고,
    • survived 컬럼은 살아있거나 죽은거라 Data type을 Boolean으로 해줌
  • Split Data:
  • Two-Class Boosted Decision Tree:
    • 이건 부스팅 기법을 이용한 의사결정 트리 모델. 생존 여부 같은 이진 분류 문제에 사용됨.
  • Cross Validate Model:
    • 교차 검증은 모델 성능을 평가하는 방법. 데이터를 여러 번 나눠서 테스트해보고 모델이 얼마나 잘 작동하는지 확인해줌.
  • Train Model:
    • 이건 모델을 학습시키는 단계. 선택한 알고리즘과 학습 데이터를 사용해서 모델을 훈련시키는 것임. 예를 들어, 타이타닉 데이터에서 생존 여부를 예측하도록 학습시킴
  • Score Model:
    • 학습된 모델을 가지고 테스트 데이터를 넣어보는 단계. 여기서 모델이 새로운 데이터에 대해 예측한 결과(점수)를 확인할 수 있음. 즉, 모델이 각 승객이 살아남았는지 아닌지를 예측할 수 있음.
  • Evaluate Model:
    • 모델의 성능을 평가하는 단계. 실제 값과 예측된 값을 비교해서 모델이 얼마나 잘 맞췄는지 정확도, 정밀도 같은 지표를 보여줌. 이걸로 모델이 얼마나 좋은지 판단할 수 있음.

 

 

 

반응형