이 날은 본가에서 미니프로젝트를 진행했는데 ..
환경이 바뀌니까 더 집중이 잘되는 것 같다는 느낌이 많이 들었다.
드디어 경쟁하는 미니프로젝트 시작....
주제는
악성사이트인지 아닌지를 데이터를 얻어와 학습시켜서 구분하는것인데!
악성사이트면 모델이
악성사이트 여부를 정상 : benign, 악성 : malicious 로 표기해야한다.
캐글을 이용해서 예측한 모델이 다른사람에 비해 얼마나 정확도가 높은지 경쟁했었는데..
나는 죽어라 해도 0.91이상 나오지 않았는데 다른사람들은 0.96~0.97 나오는 것 보고 많이 좌절했었다..
사실 스터디원 없었으면 0.91도 무리였는데... 참 대단한 사람들이 많다....
이번 미니프로젝트는 데이터 전처리 과정이 알파이자 오메가였는데
특히 결측치를 처리하는데 있어서 정확도가 많이 갈렸던 것 같다..
KNN은 간단하게 설명하면 NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘이다.
순위권에 랭크된 조들은 KNN Inputer를 사용했다고 하던데
구글링 결과
분명 KNN Inputer의 성능이 좋다는 것을 알고 있었고..
사용 또한 해봤었는데 점수가 낮게 나와서 포기했었는데....
어느 전처리 과정이 잘못된걸까?
모델은
여러개를 돌려봤었는데 랜덤 포레스트가 가장 높게 나왔던 것 같다.
아직 한계를 많이 느끼는 미니프로젝트였다..!
'KT Aivle 스쿨' 카테고리의 다른 글
코딩마스터스 종료 (2.13 ~ 3.10) (0) | 2023.03.26 |
---|---|
KT AIVLE SCHOOL 6주차 AI모델 해석/평가 (3.9 ~ 3.10) (0) | 2023.03.26 |
KT AIVLE SCHOOL 5주차 딥러닝 (2.27 ~ 3.3) (0) | 2023.03.26 |
KT AIVLE SCHOOL 4주차 머신러닝 (2.20 ~ 2.24) (0) | 2023.03.26 |
KT AIVLE SCHOOL 3주차 웹크롤링 (2.16 ~ 2.17) (0) | 2023.02.25 |