2022. 4. 3. 16:20ㆍ데이터 분석
데이콘 영화 관객 수 예측 모델 공부하며 다음에 다시 보기위해 작성.
데이터는 데이콘 사이트에 들어가면 있음.
lightgbm 모델은 이번에 처음 사용해봄.
lightgbm은 간단하게 속도가 빠른 것이 장점, 메모리를 적게 차지, 결과의 정확도도 높다, GPU도 활용 가능하다는 장점이 있다.
하지만, overfitting에 민감, 데이터의 크기가 작을 경우 기존의 머신러닝 알고리즘이 더 좋을 수 있음.
출처: https://greatjoy.tistory.com/72 -> 자세한 lightgbm은 여기서
train 데이터 확인 및 describe() 와 shape 확인.
test에 한개가 적은 이유는 저 부분을 예측 해야되서 빔.(관객수 부분)
장르별 관객 수를 보아 느와르, 액션 부분이 관객 수가 높음.
feature들의 상관 관계를 알아보기 위해 작성.
좀 더 보기 편하게 seaborn - heatmap사용
위에 보다 더 편하게 보기 위해 작성.
위 표를 보니 관객 수는 스태프 수, 런닝 타임에 영향을 받는 듯함.
train, test 데이터의 결측치를 확인.
둘다 dir_prev_bfnum feature부분에 결측치가 있음.
feature설명을 간단하게 하면 결측치가 있는 feature는 그 영화를 만든 감독의 전 영화 관객 수이고,
그 밑에 feature는 전 영화 수이다.
간단하게 생각하면 전 영화 수가 없으므로 관객 수도 없다라고 생각할 수 있다. 그래서
위 코드를 돌려보면 전 영화 수가 0으로 나오므로 관객 수도 없다라고 생각할 수 있음.
그래서 train, test 모두 결측치를 0으로 채움.
마지막 모델링은 다음 장에...
'데이터 분석' 카테고리의 다른 글
DACON 손동작 분류 (0) | 2022.03.18 |
---|