머신러닝 썸네일형 리스트형 머신러닝 대표적인 라이브러리가 Scikit-Learn(사이킷-런)인 이유 머신러닝 대표적인 라이브러리가 Scikit-Learn(사이킷-런)인 이유 안녕하세요 달콤친절한 코딩캠프의 로스윗입니다. 오늘은 머신러닝 대표적인 라이브러리인 scikit-learn(사이킷런)애 대해서 알아보겠습니다 바로 레고~!! - 머신러닝 사이킷-런(Scikit-Learn)이란? Scikit-Learn이란 대표적인 머신러닝 라이브러리 입니다. 파이썬에 있는 오픈소스 라이브러리이고 머신러닝 한다면 다 사이킷-런으로 구현할 정도로 유명합니다. 사실상 사이킷-런(scikit-learn)이 머신러닝의 표준입니다. 내부 최적화도 잘 되어 있어서 성능도 괜찮은 편입니다. 가장 오래되고 유서 깊은 라이브러리이고 사실 사이킷-런(scikit-learn)만 잘 익혀도 머신러닝을 구현하는데에는 전혀 어려움이 없습니다... 더보기 [머신러닝] 의료분야 기계학습 시 꼭 알아야 할 데이터 3법!! (ft. 의료 데이터 분석가) 의료분야 기계학습 시 꼭 알아야 할 데이터 3법!! (ft. 의료 데이터 분석가) 안녕하세요 코딩 캠프의 로스윗입니다. 오늘은 머신러닝 모델을 훈련할 때 가장 중요한 train data에 대한 데이터 3법에 대해서 간략히 알아보겠습니다. -데이터 3법이란? 먼저 백과사전에 등록된 데이터 3법이란 데이터 이용을 활성화하는 「개인정보 보호법」, 「정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭 : 정보통신망법)」, 「신용정보의 이용 및 보호에 관한 법률(약칭 : 신용정보법)」 등 3가지 법률을 통칭한다. 라고 나와있다. 부가 설명으로는 4차 산업혁명 시대를 맞아 핵심 자원인 데이터의 이용 활성화를 통한 신산업 육성이 국가적 과제로 대두되고 있다. 특히, 신산업 육성을 위해서는 인공지능(AI), 인터넷기.. 더보기 머신러닝 성능 평가 지표 완벽 이해(ft. Accuracy, Precision, Recall) 머신러닝 성능 평가 지표 완벽 이해(ft. Accuracy, Precision, Recall) 안녕하세요 코딩캠프의 코캠입니다. 오늘은 머신러닝의 성능 평가 지표인 Confusion Metrics에 대해서 간단히만 집고 넘어가겠습니다. 성능 평가 지표(confusion metrics)는 아래 표를 보면 한 번에 이해가 되실 수 있습니다 -성능 평가 지표(Confusion Metrics) True False Positive TP FR Negative FN TN Accuracy(정확도) : TP + TN/ TP + FP + FN + TN (전체 중 예측이 맞은 개수) Precision(정밀도) : TP / TP + FP (Positive라고 예측한 것 중 맞은 개수) Recall(재현율) : TP / TP .. 더보기 로스윗의 스윗~한 머신러닝 로지스틱 회귀(Logistic Regression) 로스윗의 스윗~한 머신러닝 로지스틱 회귀(Logistic Regression) 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝의 분류 모델 중 하나인 Logistic Regression에 대해서 한 번 같이 알아볼까요~? -로지스틱 회귀(Logistic Regression)란? --> 주어진 데이터(X)를 통해서 사건의 발생 확률(y)를 예측하는 통계 모델. 로지스틱 회귀(Logistic regression)은 대표적인 이진분류 모델입니다. 비교적 데이터가 간단할 때 빠른속도로 모델을 만들어주는 특징이 있습니다. 로지스틱 회귀(Logistic regression)은 선형회귀(Linear Regression)을 분류 모델로써 확장한 모델입니다. *Linear Regression이란? 전체 데이터의 경.. 더보기 머신러닝 LightGBM이 XGBoost보다 좋은 이유 머신러닝 LightGBM이 XGBoost보다 좋은 이유 안녕하세요. 로스윗의 코딩 캠프입니다. 오늘은 XGBoost와 그 후속작인 LightGBM과의 차이점에 대해서 간략하게 포스팅 하는 시간을 가져보겠습니다. - LightGBM이 왜 XGBoost보다 빠른가? 그 이유는 GOSS라는 핵심기법에 차이가 있습니다. LightGBM이 XGBoost 보다 빠른이유는 바로 XGBoost는 level-wise tree를 사용하고 LightGBM은 leaf-wise tree를 사용하기 때문입니다. 쉽게 설명드려보겠습니다. 처음에 데이터가 전부 root에 있고, 2분할을 계속합니다. LightGBM 이전의 모델은 데이터를 왼쪽으로 나눈 다음에 바로 오른쪽을 나누었습니다. 그렇게 밸런스 트리라는 것을 만들면서 스플릿을.. 더보기 한 눈에 이해하는 머신러닝 전과정 한 눈에 이해하는 머신러닝을 전과정 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 워크플로우에 대해 간략히 알아보는 포스팅을 진행하도록 하겠스빈다. 거두절미 하고 바로 시작하겠습니다. - 머신러닝 워크 플로우 머신러닝 워크플로우는 아래 사진으로 한번에 이해하실 수 있을 것 같습니다. 먼저 같이 한번 보시죠. 순서를 보자면, 1. 데이터 분석 문제 정의 2. 데이터 수집 및 정제 3. 탐색적 데이터 분석(EDA) 4. 피처 엔지니어링 5. 예측 모델 개발 및 평가 입니다. 하나하나 간략히 설명 드리겠습니다. 1. 데이터 분석 문제 정의 어떤 머신러닝 문제를 풀어야 하는지에 대한 정의를 내리는 부분입니다. 머신러닝 전체 워크플로우중 가장 중요한 단계입니다. 어떤 문제를 풀어야 하는지에 따라 어떤 모델.. 더보기 머신러닝이란 도대체 무엇일까? 머신러닝이란 도대체 무엇일까? 안녕하세요! 로스윗의 코딩캠프입니다. 오늘은 요즘 가장 핫한 키워드인 머신러닝 machine learning에 대해서 같이 한 번 깊~~이 알아보는 시간가져 보겠습니다~! - 머신러닝이란? -> 컴퓨터가 주어진 입력값(X)과 찾고자 하는 값(y)사이의 관계를 모델링 하는 방법. 위키피디아에 정의된 머신러닝을 해석해보면 머신러닝이란 경험 E를 통해서 주어진 T에 대해 P로 측정한 값이 향상되는 프로그램을 말합니다. 우리가 공부하는 것을 생각했을 때도 비슷합니다. 특정 과목 기말고사에서 주어진 족보를 풀어서 기말고사 점수가 향상되는 과정을 학습이라고 합니다. 이 과정을 수학적으로 보면 주어진 입력(X)와 찾으려는 값(y) 사이의 관계 f를 찾는 문제로 정의합니다. 이 때 f는 .. 더보기 머신러닝 차원의 저주, 발생 원인과 해결 방안 머신러닝 차원의 저주.. 발생 원인과 해결 방안 안녕하세요. 로스윗의 코딩캠프입니다. 오늘은 머신러닝 학습시 번번히 발생하는 차원의 저주에 대한 포스팅을 진행하겠습니다. 짧고 간단하게 핵심만 딱 요약해 말씀 드리겠습니다. - 차원의 저주 발생 원인 머신러닝은 feature와의 싸움과 같습니다. 즉 피쳐가 몇개냐에 따라서 차원의 저주가 일어나느냐 마느냐가 결정되는데요 제 경험상 학습할 데이터의 차원이(컬럼의 개수) 100차원이 넘어가면 차원의 저주가 잘 일어 납니다. 특히 decision tree나 random forest같은 트리 모델들은 컬럼개수가 많아지게 되면 학습이 엄~청 느려집니다. - 차원의 저주 해결방안 해결 방안은 단순합니다. 학습할 데이터의 컬럼이 왠만하면 100개를 넘지 않게 하는 것이 .. 더보기 이전 1 2 다음