본문 바로가기

Academy I/Tech Journalism

R에서 파이썬까지..데이터과학 학습 사이트 8곳

데이터과학자, 데이터 엔지니어에 대한 수요가 늘고 있다는 뉴스가 갈수록 많이 나온다. ‘나도 데이터과학을 공부해볼까?’ 고민하지만 정작 어디서부터 공부를 시작해야할지 감이 잡히질 않는다.

데이터과학자는 어떤 일을 하는 사람일까?

데이터과학자는 데이터에서 의미를 뽑아내고 해석하는 방법을 아는 사람이다. 그러기 위해서는 인본주의적이어야 하고, 통계학과 기계학습의 도구와 방법 모두를 알아야 한다. 데이터과학자는 데이터를 수집하고 정제하고 변환하는 과정에 많은 시간을 보낸다. 데이터는 항상 깔끔하지 않기 때문이다. 이 과정은 집념, 통계학, 소프트웨어 공학 스킬을 요구한다. 이 스킬들은 또한 데이터에 내재된 편의를 이해하고 코드에서 생성된 결과를 디버깅하는 데 필수적이다. – ‘Doing Data Science’, 레이철 슈트, 캐시 오닐

어디서 뭘 배울까?

데이터사이언스는 아직 논의가 진행 중인 학문이다. 마땅히 대학에 ‘데이터과학’과가 있는 것도 아니다. 특히 국내에서는 오프라인으로 배울 수 있는 곳이 많지 않다. 하지만 온라인이라면 배울 수 있는 곳이 많다. 데이터과학 강좌 가운데 오픈소스 커리큘럼이 있다. 여기서 무료로 데이터과학의 이론과 기술 기초를 다져나갈 수 있다. ‘입문’에 초점을 두고 총 5개의 카테고리의 강좌를 모았다. 슬프게도 모두 영어 강좌다.

  1. 데이터 과학 입문
  2. R, 파이썬 프로그래밍
  3. 기계학습(머신러닝)
  4. 통계학
  5. 시각화

1. 데이터과학 입문

코세라 / 워싱턴대 데이터과학 입문




워싱턴대학교에서 데이터과학 입문(Introduction to Data Science) 강의를 코세라에 제공한다. 코세라에 가입만 하면 무료로 수강할 수 있다. 이 강좌에서는 데이터과학의 기초적인 기술들을 배운다. SQL과 NoSQL을 활용한 데이터 관리, 데이터 마이닝을 위한 알고리즘, 기초 통계 모델링을 가르친다. 총 8주 과정으로 주당 10~12시간의 공부 시간이 필요하다. 영어 자막 제공을 제공한다.



하버드대 데이터과학 강의


하버드대 데이터과학 강의에서는 데이터과학에서 사용되는 5가지 기술을 배운다.

  • 데이터 랭글링, 정제, 샘플링
  • 데이터 관리
  • 탐색적 데이터 분석
  • 통계 모델을 활용한 예측
  • 시각화와 스토리를 활용한 데이터 커뮤니케이션

이 강좌에서는 프로그래밍 과제나 프로젝트 모두 파이썬으로 진행된다. 강좌 전반에 대한 링크는 여기서, 강의 비디오 자료는 여기(링크)서 볼 수 있다.


2. R, Python 프로그래밍

데이터를 다루기 위한 도구로 주로 R와 파이썬이 사용된다. 각각 패키지와 라이브러리로 기능을 확장할 수 있어, 데이터 수집과 정제 등 데이터를 다루는 일 전반에 사용된다.


데이터캠프 / R 입문



R는 전세계 200만명이 넘는 사람이 사용하고 있고, 해마다 이용자가 40% 성장하는 오픈소스 언어다. 데이터캠프는 R로 데이터과학를 가르치는 사이트다. 수강생은 직접 R 코드를 작성해나가며 R의 문법을 학습한다. 문제를 해결해야만 다음 진도로 넘어가기 때문에 차근차근 배워나갈 수 있다. 문제를 푸는 게 재밌어서 시간 가는 줄 모르고 하게 될 수 있으니 주의하자. 입문 강좌는 무료로 수강할 수 있지만 나머지 강좌는 일정 금액을 내야 한다. 일반 수강생은 한 달에 25달러, 학생은 9달러로 모든 강좌를 수강할 수 있다. R 공부를 쉽게 시작할 수 있는 교육 사이트다. 나도 여기서 처음 R 공부를 시작했다.


코드카데미 파이썬



코드카데미 강의는 코딩을 처음 접하는 사람도 차근차근 따라할 수 있다. 강좌 구성이 세밀하게 짜여 있고, 실습 위주로 프로그래밍을 가르쳐주기 때문이다. 파이썬 강좌는 총 13시간 정도 소요된다. 코딩을 아예 처음 접하는 사람은 더 오래 걸릴 수 있다. 하지만 겁먹지 마시길. 파이썬은 초보자가 익히기 쉬운 프로그래밍 언어 중 하나다.


구글 파이썬 클래스



구글에서도 파이썬 강좌를 제공한다. 컴퓨터에 파이썬을 설치하는 것부터, 코드 작성까지 알려준다. 이 강좌는 문서 자료와 비디오 강의로 구성됐다. 문서 자료 끝마다 코딩 실습과제 링크가 담겨 있다. 이 강좌는 사실 구글에서 현장 강의로 진행됐다. 그래서 비디오 강의가 1일, 2일로 나뉘어 있다. 처음 파이썬을 접해 어려운 사람은 2일안에 하려고 하지 말고 차근차근 공부해보자.


3. 기계 학습

코세라 / 스탠포드 머신 러닝 / 앤드류 응



머신러닝은 컴퓨터가 스스로 지속적한 학습을 통해 패턴을 찾아내고 문제에 대한 답을 얻어내는 방법이다. 머신러닝을 통해 구현된 기술들에는 자동주행 자동차, 음성인식, 검색 알고리즘 등이 있다. 이 강좌에서는 효과적인 머신러닝 기술들을 배운다. 이 강좌의 교수 앤드류 응은 바이두의 데이터과학자로서 머신러닝에 관한 실질적인 노하우를 알려준다. 인공신경망, 클러스터링, 딥러닝 등 다양한 머신러닝에 대해 강의한다. 모든 기술을 케이스 스터디를 통해 가르쳐줘 로봇, 텍스트 인식, 컴퓨터 비전, 오디오, 데이터베이스 등 다양한 분야에 머신러닝을 활용하는 데 도움이 될 수 있다. 총 11주 기간의 강좌다.


4. 통계학

유튜브 / 프린스턴대 통계 1



통계 입문자를 위한 기본 강의이다. ‘통계를 배우지 못할 것 같아’라고 생각하는 당신을 위한 강의라고 적혀 있다. R 프로그래밍도 같이 강의하고, R로 예제를 보여주고 실습과제도 진행한다. 강좌에서 R를 가르쳐주며 진행하기 때문에 R를 접해보지 않은 사람도 수강할 수 있다. 현재는 코세라에서 강의가 열리지 않았지만, 유튜브에서 볼 수 있다.


5. 데이터 시각화

D3 튜토리얼 / 스콧 머레이 블로그


 


‘D3.js : 쉽고 빠른 인터랙티브 데이터 시각화’를 집필한 스콧 머레이의 블로그에서 제공하는 튜토리얼이다. D3는 자바스크립트 기반 라이브러리로 웹페이지에서 인터랙티브 데이터 시각화를 만드는 데 사용된다. D3는 <뉴욕타임스>, <복스미디어> 등 데이터 시각화를 활용하는 미디어에서 많이 활용된다. 스콧 머레이의 튜토리얼에서 웬만한 D3의 문법을 익힐 수 있다. 이후에 D3를 더 공부하고 싶으면 d3js.org의 라이브러리를 공부해보자.


보다 심도 있는 강좌들 및 기타 데이터 과학 오픈소스 강좌가 알고 싶다면, 다음의 웹페이지를 참고하자.


깃허브 : 데이터 사이언스 마스터즈




[출처 : http://www.bloter.net/archives/237013]