본문 바로가기

머신러닝

머신러닝 랜덤 포레스트 알고리즘 간단 정리

반응형

머신러닝 랜덤 포레스트 알고리즘 간단 정리

 

안녕하세요.

 

로스윗의 코딩캠프입니다.

 

오늘은 머신러닝(Machine learning)모델중

 

대표적인 앙상블 모델인 랜덤 포레스트(Random Forest)에 대한 내용을 공유드리겠습니다.

 

현업에서도 많이 쓰이는 모델이니 열심히 공부해봅시다~!

 

반응형

 

 

 

- 머신 러닝 앙상블 모델 랜덤 포레스트(Random Forest)란?

--> Decision Tree가 모여서 더 좋은 결과를 내는 모델.

Random Forest는 CART 모델이 가지는 단점을 극복하기 위해서 제시된 모델입니다.


즉, Random Forest는 DT(decision tree, 결정트리)하나가

 

training data에 너무 쉽게 overfit(과적합)되고,

 

training data의 변화에 민감한 단점을 보완하기 위해

 

 

DT를 여러개 사용해서 다수결을 하는 방식으로 보완하자는 아이디어를 제시합니다.


이게 별거 아닌 것 같았는데, practical하게 굉장히 좋은 성능을 보여줍니다.


이렇게 단일 모델을 여러개 모아서 더 좋은 판단을 하는 방법론을 Model Ensemble이라고 합니다.

 

 

 

여러개의 트리가 모여서 랜덤 포레스트를 만듭니다
여러개의 트리가 모여서 랜덤 포레스트를 만듭니다

 

 

- Not Decision Forest but Random Forest!

 

1. Decision Tree를 그냥 모으기만 하면 더 좋은 결과를 낼 수가 없습니다.

ㄱ. 같은 데이터에 대해서 만들어진 Decision Tree는 같은 결과를 출력합니다.
ㄴ. 왜냐하면, 다 같은 best split point가 매번 뽑히기 때문에 그렇습니다.
ㄷ. 그래서 매 트리마다 조금 더 다양성이 필요합니다!

 

2. 다양성 확보를 위한 전략으로 2가지를 채택했습니다.

ㄱ. Bagging(Bootstrap Aggregating) -> data sampling (모집단 자체를 바꾼다)
ㄴ. Random Subspace Method -> feature sampling (DT가 뽑는 feature를 바꾼다)

 

(*Begging과 Random Subspace method에 대해서는 다음 포스팅에서 심도있게 다루도록 하겠습니다.)

 


3. 이렇게 각 DT를 학습할 때마다, Bootstraping과 Random Subspace Method를 적용합니다.

그렇게 만들어진 DT의 결론을 다수결로 평가하는 것으로 ‘집단 지성’을 구현할 수 있습니다.
몇개의 DT를 모을 지는 hyper-parameter입니다.



4. Random Forest는 그냥 DT(Decision Tree)들을 모으는게 아닌

randomness를 적당히 포함하는 것으로 DT의 약점을 잘 보완한 모델입니다.

 

- 정형 데이터를 머신러닝으로 수행할 때 굉장히 좋은 baseline model이 됩니다.(만만하게 잘 되는 모델)
- Random Forest는 DT들의 모임이기 때문에 어느정도 explainability를 가지고 있습니다.

즉 어느정도 설명이 가능한 white box 모델이라는 뜻입니다.

 

 머신러닝 엔지니어가 되고 싶은 분들에게..

 

머신러닝 엔지니어가 되고 싶은 분들에게..

머신러닝 엔지니어가 되고 싶은 분들에게.. 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 엔지니어가 되고 싶은 여러분들이 입사 하게 되면 일하는 현실적인 부분과 주니어로 시작해

rosweet-ai.tistory.com

Decision Tree(결정 트리)가 왜 머신러닝 대표 알고리즘일까?

 

Decision Tree(결정 트리)가 왜 머신러닝 대표 알고리즘일까?

Decision Tree(결정 트리)가 왜 머신러닝 대표 알고리즘일까? 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 모델 중 Decision Tree에 대한 내용을 공유드리고자 합니다. 이후 모델인 Random Fores

rosweet-ai.tistory.com

 

반응형