반응형
https://github.com/jaehwachung/cloud_computing/blob/main/data_analysis/Titanic_dataset.csv
- 깃험 타이타닉 탑승자 데이터 이용해 데이터 전처리 과정을 진행함
- 사전에 컴퓨팅 인스턴스 만들어둠
- Select Columns in Dataset:
- 데이터셋에서 필요한 열만 골라서 작업할 수 있게 해줌. 예를 들어, 생존 예측에 필요한 열들만 고를 수 있음
- Clean Missing Data:
- 데이터에서 누락된 값들을 처리하는 기능. 결측값을 삭제하거나 다른 값으로 채워넣는 걸 도와줌
- 실습에서는 embarked 컬럼에서 누락이 2명 있는데, 이 승선자 삭제함으로써 데이터 누락 제거함
- Edit Metadata:
- 데이터의 속성을 수정할 수 있음. 예를 들어, pclass 같은 건 범주형 데이터로 바꿔야 할 때 유용함.
- pclass, gender, embarked 컬럼은 Categorical부분을 Categorical로 지정해주고,
- survived 컬럼은 살아있거나 죽은거라 Data type을 Boolean으로 해줌
- Split Data:
- 데이터를 학습용과 테스트용으로 나눌 때 쓰는 기능. 보통 70%는 학습용, 30%는 테스트용으로 나눠서 모델을 평가함.
- Radom seed : row를 랜덤하게 추릴수있게 해주는데 원래 무작위로 해야하는데, 실습이라서 2로 설정.
- 알고리즘 치트시트 : https://learn.microsoft.com/ko-kr/azure/machine-learning/algorithm-cheat-sheet?view=azureml-api-1
- Two-Class Boosted Decision Tree:
- 이건 부스팅 기법을 이용한 의사결정 트리 모델. 생존 여부 같은 이진 분류 문제에 사용됨.
- Cross Validate Model:
- 교차 검증은 모델 성능을 평가하는 방법. 데이터를 여러 번 나눠서 테스트해보고 모델이 얼마나 잘 작동하는지 확인해줌.
- Train Model:
- 이건 모델을 학습시키는 단계. 선택한 알고리즘과 학습 데이터를 사용해서 모델을 훈련시키는 것임. 예를 들어, 타이타닉 데이터에서 생존 여부를 예측하도록 학습시킴
- Score Model:
- 학습된 모델을 가지고 테스트 데이터를 넣어보는 단계. 여기서 모델이 새로운 데이터에 대해 예측한 결과(점수)를 확인할 수 있음. 즉, 모델이 각 승객이 살아남았는지 아닌지를 예측할 수 있음.
- Evaluate Model:
- 모델의 성능을 평가하는 단계. 실제 값과 예측된 값을 비교해서 모델이 얼마나 잘 맞췄는지 정확도, 정밀도 같은 지표를 보여줌. 이걸로 모델이 얼마나 좋은지 판단할 수 있음.
반응형
'OPS' 카테고리의 다른 글
EKS 1.32 업그레이드시 사전 고려사항 정리 (1) | 2025.04.02 |
---|---|
Amazon Linux 2 EOL 연장 (2025년6월30일->2026년 6월 30일) (0) | 2025.01.12 |
Teams Athenticator 안 될 때 (0) | 2024.09.06 |
서버 가상화에 대해 알아보자. (0) | 2024.09.03 |
가상화 기술이란 v.2 (3) | 2024.09.03 |