"XGBoost는 결측치가 있는 데이터셋도 학습이 가능하다"
이를 가능하게 하는 것이 Sparsity-aware Split Finding이다.
Sparsity-aware Split Finding (희소성 인식 분할 찾기...)
- 결측치가 있는 데이터들을 분류할 Default 방향을 결정하는 알고리즘
- 모든 결측치를 한 번은 전부 오른쪽에, 한 번은 전부 왼쪽에 배치하고 Split Point를 찾는 것
- 위의 그림을 예로 들면, 모든 결측치를 왼쪽에 배치했을 때 더좋은 Split Point를 찾을 수있으므로, 해당 가지(branck)에서 결측치 데이터를 분류할 Default 방향을 왼쪽 leaf로 설정하게 된다.
How XGBoost Handles Sparsities Arising From of Missing Data? (With an Example)
To deal with sparsity arising from missing data, it is crucial to handle it in the data preprocessing step. In a business setting, for…
medium.com
https://kicarussays.tistory.com/25
[논문리뷰/설명] XGBoost: A Scalable Tree Boosting System (1)
아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데
kicarussays.tistory.com
'기초지식' 카테고리의 다른 글
Average (Macro/Micro) (0) | 2024.05.12 |
---|---|
XAI (eXplainable AI) (0) | 2024.05.12 |
회귀 성능 평가 지표 (0) | 2024.05.12 |
LSTM (0) | 2024.05.12 |
Random Forest의 Hyperparmeter (0) | 2024.05.11 |