본문 바로가기

반응형

딥러닝

[머신러닝] 의료분야 기계학습 시 꼭 알아야 할 데이터 3법!! (ft. 의료 데이터 분석가) 의료분야 기계학습 시 꼭 알아야 할 데이터 3법!! (ft. 의료 데이터 분석가) 안녕하세요 코딩 캠프의 로스윗입니다. 오늘은 머신러닝 모델을 훈련할 때 가장 중요한 train data에 대한 데이터 3법에 대해서 간략히 알아보겠습니다. -데이터 3법이란? 먼저 백과사전에 등록된 데이터 3법이란 데이터 이용을 활성화하는 「개인정보 보호법」, 「정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭 : 정보통신망법)」, 「신용정보의 이용 및 보호에 관한 법률(약칭 : 신용정보법)」 등 3가지 법률을 통칭한다. 라고 나와있다. 부가 설명으로는 4차 산업혁명 시대를 맞아 핵심 자원인 데이터의 이용 활성화를 통한 신산업 육성이 국가적 과제로 대두되고 있다. 특히, 신산업 육성을 위해서는 인공지능(AI), 인터넷기.. 더보기
머신러닝 성능 평가 지표 완벽 이해(ft. Accuracy, Precision, Recall) 머신러닝 성능 평가 지표 완벽 이해(ft. Accuracy, Precision, Recall) 안녕하세요 코딩캠프의 코캠입니다. 오늘은 머신러닝의 성능 평가 지표인 Confusion Metrics에 대해서 간단히만 집고 넘어가겠습니다. 성능 평가 지표(confusion metrics)는 아래 표를 보면 한 번에 이해가 되실 수 있습니다 -성능 평가 지표(Confusion Metrics) True False Positive TP FR Negative FN TN Accuracy(정확도) : TP + TN/ TP + FP + FN + TN (전체 중 예측이 맞은 개수) Precision(정밀도) : TP / TP + FP (Positive라고 예측한 것 중 맞은 개수) Recall(재현율) : TP / TP .. 더보기
머신러닝 LightGBM이 XGBoost보다 좋은 이유 머신러닝 LightGBM이 XGBoost보다 좋은 이유 안녕하세요. 로스윗의 코딩 캠프입니다. 오늘은 XGBoost와 그 후속작인 LightGBM과의 차이점에 대해서 간략하게 포스팅 하는 시간을 가져보겠습니다. - LightGBM이 왜 XGBoost보다 빠른가? 그 이유는 GOSS라는 핵심기법에 차이가 있습니다. LightGBM이 XGBoost 보다 빠른이유는 바로 XGBoost는 level-wise tree를 사용하고 LightGBM은 leaf-wise tree를 사용하기 때문입니다. 쉽게 설명드려보겠습니다. 처음에 데이터가 전부 root에 있고, 2분할을 계속합니다. LightGBM 이전의 모델은 데이터를 왼쪽으로 나눈 다음에 바로 오른쪽을 나누었습니다. 그렇게 밸런스 트리라는 것을 만들면서 스플릿을.. 더보기
한 눈에 이해하는 머신러닝 전과정 한 눈에 이해하는 머신러닝을 전과정 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 워크플로우에 대해 간략히 알아보는 포스팅을 진행하도록 하겠스빈다. 거두절미 하고 바로 시작하겠습니다. - 머신러닝 워크 플로우 머신러닝 워크플로우는 아래 사진으로 한번에 이해하실 수 있을 것 같습니다. 먼저 같이 한번 보시죠. 순서를 보자면, 1. 데이터 분석 문제 정의 2. 데이터 수집 및 정제 3. 탐색적 데이터 분석(EDA) 4. 피처 엔지니어링 5. 예측 모델 개발 및 평가 입니다. 하나하나 간략히 설명 드리겠습니다. 1. 데이터 분석 문제 정의 어떤 머신러닝 문제를 풀어야 하는지에 대한 정의를 내리는 부분입니다. 머신러닝 전체 워크플로우중 가장 중요한 단계입니다. 어떤 문제를 풀어야 하는지에 따라 어떤 모델.. 더보기
머신러닝이란 도대체 무엇일까? 머신러닝이란 도대체 무엇일까? 안녕하세요! 로스윗의 코딩캠프입니다. 오늘은 요즘 가장 핫한 키워드인 머신러닝 machine learning에 대해서 같이 한 번 깊~~이 알아보는 시간가져 보겠습니다~! - 머신러닝이란? -> 컴퓨터가 주어진 입력값(X)과 찾고자 하는 값(y)사이의 관계를 모델링 하는 방법. 위키피디아에 정의된 머신러닝을 해석해보면 머신러닝이란 경험 E를 통해서 주어진 T에 대해 P로 측정한 값이 향상되는 프로그램을 말합니다. 우리가 공부하는 것을 생각했을 때도 비슷합니다. 특정 과목 기말고사에서 주어진 족보를 풀어서 기말고사 점수가 향상되는 과정을 학습이라고 합니다. 이 과정을 수학적으로 보면 주어진 입력(X)와 찾으려는 값(y) 사이의 관계 f를 찾는 문제로 정의합니다. 이 때 f는 .. 더보기
머신러닝 차원의 저주, 발생 원인과 해결 방안 머신러닝 차원의 저주.. 발생 원인과 해결 방안 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 학습시 번번히 발생하는 차원의 저주에 대한 포스팅을 진행하겠습니다. 짧고 간단하게 핵심만 딱 요약해 말씀 드리겠습니다. - 차원의 저주 발생 원인 머신러닝은 feature와의 싸움과 같습니다. 즉 피쳐가 몇개냐에 따라서 차원의 저주가 일어나느냐 마느냐가 결정되는데요 제 경험상 학습할 데이터의 차원이(컬럼의 개수) 100차원이 넘어가면 차원의 저주가 잘 일어 납니다. 특히 decision tree나 random forest같은 트리 모델들은 컬럼개수가 많아지게 되면 학습이 엄~청 느려집니다. - 차원의 저주 해결방안 해결 방안은 단순합니다. 학습할 데이터의 컬럼이 왠만하면 100개를 넘지 않게 하는 것이 .. 더보기
머신러닝 부트스트랩핑, 베깅, 데이터 샘플링에 대한 쉬운 이해 머신러닝 부트스트랩핑, 베깅, 데이터 샘플링에 대한 쉬운 이해 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 부트스트랩핑(bootstraping), 배깅(begging)과 데이터 샘플링(data sampling)에 대해 쉽고 재밌고 똑똑하게~ 열심히 배워보는 시간을 가져보겠습니다. -부트 스트랩핑(Bootstraping)이란? -> 부트 스트랩핑(bootstraping)이란 복원 추출을 허용한 표본 재추출 방법을 뜻한다. 쉽게 말해서 뽑은 데이터를 다시 집어넣는다는 말입니다. 예를 들어 주머니에 10개의 공이 있는데 3개가 빨간공이면 빨간공이 뽑힐 확률은 3/10입니다. 그런데 처음에 빨간공을 뽑고 나서 주머니에 넣지 않으면 다음번에 빨간공이 뽑힐 확률은 2/9로 줄지만 다시 주머니에 넣으면 여전.. 더보기
Decision Tree(결정 트리)가 왜 머신러닝 대표 알고리즘일까? Decision Tree(결정 트리)가 왜 머신러닝 대표 알고리즘일까? 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 모델 중 Decision Tree에 대한 내용을 공유드리고자 합니다. 이후 모델인 Random Forest의 기본이 되는 모델이니열심히 배워봅시다~! - Decision Tree란? --> 조건에 따라 데이터를 분류하는 모델 Decision Tree는 대표적인 non-parametric모델입니다. 파라미터 w와 b가 존재하지 않지 때문이죠. 또한 Decision Tree는 대표적인 white-box 모델입니다. 모델이 훈련되는 과정을 명확하게 알 수 있기 때문입니다. 우리가 공부하는 Decision Tree모델은 CART입니다 (Classification And Regression.. 더보기

반응형