데이터 사이언티스트, 애널리스트, 엔지니어의 차이 (ft. 직군별 필요 역량)
안녕하세요.
로스윗의 코딩캠프입니다.
오늘은 많은 사람들이 궁금해하시고 또 많이 헷갈려하시는 내용을 바탕으로
데이터 사이언티스트, 애널리스트, 엔지니어의 차이 (ft. 직군별 필요 역량)에 대해서 알아보겠습니다.
거두절미하고 바로 시작하겠습니다.
- 데이터 관련 직군
오늘은 데이터 관련 직군별로 꼭 필요한 역량에 대해 설명드리도록 하겠습니다.
먼저는 데이터 관련 직군으로는 데이터 사이언티스트, 데이터 엔지니어, 데이터 애널리스트 이렇게 크게 3가지가 있습니다. 항상 이렇게 3가지로 나누는 것은 아니고 보통은 규모가 있는 기업에서 이렇게 3가지 직군으로 나눈다고 보시면 되겠습니다. 그럼 하나하나 차근차근 알아보겠습니다.
- 데이터 사이언티스트 (Data Scientist)
가장 먼저 데이터 사이언티스트같은 경우는 이전 포스팅에서 설명드린 4가지 스킬셋을 모두 다 잘해야 하는게 맞습니다.
↓↓[데이터 사이언티스트 스킬셋 포스팅 보러가기]↓↓
그런데 그 중에서 특히 수학(math)을 잘해야 합니다. 실제로 데이터 사이언티스트 하시는 분들 보면 해외에서 박사 학위를 받아 오신 분들이 많습니다. 데이터 사이언티스트 직군이 주로 하는 일이 뭐냐면 논문 같은 것을 읽고 그 내용을 가지고 회사에 가지고 있는 데이터를 그 논문 알고리즘에 적용을 해보고 또 자기가 알고리즘을 개발해서 회사 것에 적용을 해보고 그것이 성능이 우수하다 하면 논문으로 써서 발표합니다. 그래서 데이터 사이언티스트는 논문을 많이 봐야 합니다. 그런데 논문엔 수학기호가 많이 써있죠. 그래서 수학을 잘해야 하는겁니다. 논문을 많이 보고 기술적으로 분석을 하고 알고리즘을 개발해야 하고 적용해야 하기 때문에 아무래도 수학을 잘해야 하고, 보통은 박사 과정을 밟은 사람들입니다. 그만큼 연봉도 높겠죠.
- 데이터 엔지니어(Data Engineer)
그 다음에 데이터 엔지니어가 있습니다. 데이터 엔지니어 같은 경우는 프로그래밍 스킬이 뛰어나야 합니다. 데이터 엔지니어가 주로 하는 역할은 데이터를 수집하고, 저장하고, 데이터를 수집하고 저장하는 시스템을 만들고, 그것을 서비스화해서 서비스까지 만들어 내고, 사람들이 필요한 데이터를 제공해주고, 그 제공해주는 인터페이스를 만들어주는 그런 기술적인 부분을 총 망라하여 데이터 사이언티스트와 데이터 애널리스트를 지원해주는 직군이라고 생각해주시면 되겠습니다.
그래서 데이터 엔지니어 같은 경우에는 당연히 프로그래밍, 클라우드 서비스 같은것들을 굉장히 잘 다뤄야합니다. 그리고 컴퓨터 관련된 지식들을 많이 가지고 있어야 하구요. 아마도 여러분들이 프로그래밍이 재미있고 자신이 있다 하시면 데이터 엔지니어쪽 직군을 생각해보셔도 좋을 것 같습니다.
-데이터 애널리스트(Data Analysit)
마지막으로 데이터 애널리스트가 있는데요, 데이터 분석가입니다. 데이터 분석가는 Domain Knowledge와 커뮤니케이션 스킬이 많이 필요한 직군입니다. 데이터 애널리스트가 가장 많이 사용하는 툴 1위가 엑셀입니다. 파이썬이 아닙니다. 엑셀을 가장 많이 사용하고 두번째가 SQL입니다. SQL은 Datebase에서 data를 가져오는 문법이라고 보시면 됩니다. 그리고 세번째가 파이썬입니다. 그래서 데이터 애널리스트는 굉장히 프로그래밍적인 지식이 있으면은 좀 더 뛰어나고 많은 것들을 할 수 있겠지만 아직까지도 엑셀을 이용해서 데이터를 분석하는 경우가 많다고 생각하시면 되겠습니다.
그러면 이런 질문을 하실 수도 있을 것 같습니다.
이미 엑셀이 너무 뛰어나고 엑셀로 할 수 있는 것 다 할 수 있는데,
"굳이 왜 파이썬을 배워야 하나? 굳이 내가 왜 데이터베이스를 배워야하나?"
이런 질문 하실 수도 있을 것 같아요.
- 엑셀과 파이썬의 차이점
그런데 엑셀은 다룰 수 있는 데이터의 양이 한계가 있어요. 제가 알기로는 한 17만개? 17만 몇천개 정도 받을 수 있는 데이터의 한계가 있습니다. 그리고 엑셀의 기능을 쓸 때 데이터의 양이 많으면 속도가 굉장히 느려집니다. 그래서 엑셀로 작업을 하시던 분한테 파이썬 판다스 패키지 이런걸 이용하면 엑셀로 몇 분 걸리던 것을 1~2초만에 해결할 수 있습니다. 그리고 17만개의 데이터가 아니라 수천만개 수십억개의 데이터도 분석을 할 수가 있습니다. 그래서 속도와 규모면에서 엑셀은 파이썬과 비교가 안됩니다. 그래서 더 큰 규모의 더 빠른 속도로 분석을 하려면 파이썬을 해야 되는 것입니다. 이것이 엑셀과 파이썬의 차이점입니다.
- 정리 및 요약
그래서 보통의 경우는 프로그래밍 배우는 코딩 교육 과정을 거치면 ---> 데이터 엔지니어 쪽으로 갈 수 있고,
내가 원래 관심있는 분야가 금융, 의료 등 뛰어난 도메인 분야가 있다면 ---> 데이터 분석가 쪽으로 갈 수 있습니다.
그런데 나는 정말 끝짱을 보고싶다 하셔서 박사과정까지 나오면 ---> 데이터 사이언티스트 쪽으로 가서 알고리즘도 개발하고 새로운 알고리즘 어떤게 나왔다 하면 논문도 찾아서 적용해보고 그런 일들을 하실 수 있습니다.
지금까지 데이터 사이언스 관련된 스킬셋에 따른 직군이 어떻게 구분이 되는지에 대해 알아봤습니다. 아무쪼록 여러분이 데이터 관련 직군으로 취업을 희망하신다면 각 직군별 필요한 역량을 잘 파악하신 뒤에 잘 준비하시길 바라겠습니다. 궁금하신 사항은 댓글 남겨주시면 답 달아드릴게요. 그럼 다음 포스팅에서 다시 뵙겠습니다.
감사합니다.
'데이터 사이언스' 카테고리의 다른 글
데이터 사이언스 경영에 의존하는 요즘 기업 경영 (0) | 2022.08.09 |
---|---|
데이터 엔지니어가 되려면? (시스템엔지니어 + 백엔드개발자 + DBA = 데이터 엔지니어!) (0) | 2022.08.06 |
데이터 사이언티스트가 되기 위해 꼭 필요한 Skill Set (이정도는 되야..) (0) | 2022.07.23 |
인공 지능 - 딥러닝과 머신러닝은 도대체 뭐가 어떻게 다른걸까? (0) | 2022.07.22 |
빅데이터 vs 데이터 사이언스 vs 데이터 분석 차이점 (0) | 2022.07.21 |