제 1강: 과목 소개
데이터과학 입문
데이터과학이란 무엇인가?
데이터로부터 의미 있는 정보를 추출하는 학문
핵심 개념
- 데이터과학은 통계학과 컴퓨터과학의 요소를 결합한 엄밀한 학문으로, 수학적 기초를 기반에 둔다.
- 데이터과학은 데이터가 유래한 도메인에 대한 전문 지식의 맥락에서 가장 효과적으로 적용되는 학문으로서, 이러한 도메인들은 천문학에서 동물학에 이르기까지 다양다.
- 데이터와 정보 간의 구별은 데이터과학의 존재 이유이다. 데이터과학자들은 현재 풍부한 데이터를 실행 가능한 정보로 변환하려고 한다.
전통적인 통계학
- 데이터과학자와 통계학자의 목표는 동일 — 데이터에서 의미 있는 정보를 추출
- 통계학 기법의 대부분은 데이터가 부족하고 수집이 어렵거나 비싼 환경에서 개발됨
- 통계학자들은 주어진 데이터 양에 따라 할 수 있는 추론의 강도를 최대화하는 방법을 만들기에 중점을 두었음
- 이러한 방법론들은 대부분 엄밀한 수리적 접근을 요구하며, 100여 년 동안 경험적 학문에 매우 효과적이었음.
현대의 데이터분석
- 오늘날 데이터에서 의미를 추출하는 방식은 주로 컴퓨팅 기술의 발전으로 두 가지 측면에서 이전과는 다름.
- 훨씬 더 많은 양의 계산
- 훨씬 더 많은 양의 데이터
- 첫번째 변화의 의미
- t검정이나 분산분석 등 통계학 교실에서 항상 등장하는 기법이 부트스트랩이나 순열검정 등 개념적으로 더 단순하나 계산적 한계로 사용되지 못하던 기법으로 대체되고 있는 중
- 두번째 변화의 의미
- 다수의 데이터가 계획자료가 아닌 관측자료임을 의미. 임의추출된 자료가 아니다!
- 자료생성과정의 확률적 모형을 만들기 어려워짐 – 통계적 추론도 어려움
- 예측모형이나 대화형 시각화 및 웹을 이용한 탐색적 자료분석의 응용분야가 팽창
- 현대 데이터의 갈수록 증가하는 복잡도와 이형성(heterogeneity)으로 인해 거의 모든 자료 분석이 자료 맞춤형이 되어야 함.
- 데이터과학자는 분석을 수행하는 컴퓨터 코드를 읽고 쓸 수 있어야 함
이 수업의 앞 절반은 현대 데이터과학자에게 필수적인 두 가지 핵심 기술인 데이터 시각화와 데이터 랭글링에 대한 기본 능력을 함양한다.
뒷 절반은 코드를 이용한 통계적 모형과 추론에 대해 깊게 다룬다.
교재
- 전반부: Baumer, B.S., Kaplan, D.T., & Horton, N.J. (2021). Modern Data Science with R (2nd ed.). CRC Press.
- 웹버전은 https://mdsr-book.github.io/mdsr2e/에서 볼 수 있음
- 후반부: Venables, W.N., & Ripley, B.D. (2002). Modern Applied Statistics with S (4th ed.). Springer.
- 서울대에서는 Springer Link https://link.springer.com/book/10.1007/978-0-387-21706-2를 통해 전자책 버전을 볼 수 있음.
- 인쇄본으로 소장하는 것을 강력히 권장함.
강의 계획
- Data visualization [MDSR Chs.2–3]
- Data wrangling [MDSR Chs.4–5]
- Tidy data and iteration [MDSR Chs.6–7]
- Professional ethics [MDSR Ch.8]
- Statistical foundations [MDSR Ch.9]
- Linear statistical models [MASS Ch.6]
- Generalized linear models [MASS Ch.7]
- Non-linear and smooth regression [MASS Ch.8]
- Tree-based methods [MASS Ch.9]
- Random and mixed effects [MASS Ch.10]
- Exploratory multivariate analysis [MASS Ch.11]
- Classification [MASS Ch.12]
(사정에 따라 변경 가능)
평가
- 출석 및 태도 (20%)
- 3–4회의 프로그래밍 숙제 혹은 프로젝트 (80%)
어떤 경우에도 학점을 올려달라는 요구는 받아들이지 않음 (청탁금지법 위반. 출석 및 태도 점수 0점 처리)