제 1강: 과목 소개

데이터과학 입문

Author
Affiliation

원중호

서울대학교 통계학과

Published

March 2024

데이터과학이란 무엇인가?

  • 데이터로부터 의미 있는 정보를 추출하는 학문

  • 핵심 개념

    1. 데이터과학은 통계학과 컴퓨터과학의 요소를 결합한 엄밀한 학문으로, 수학적 기초를 기반에 둔다.
    2. 데이터과학은 데이터가 유래한 도메인에 대한 전문 지식의 맥락에서 가장 효과적으로 적용되는 학문으로서, 이러한 도메인들은 천문학에서 동물학에 이르기까지 다양다.
    3. 데이터와 정보 간의 구별은 데이터과학의 존재 이유이다. 데이터과학자들은 현재 풍부한 데이터를 실행 가능한 정보로 변환하려고 한다.

전통적인 통계학

  • 데이터과학자와 통계학자의 목표는 동일 — 데이터에서 의미 있는 정보를 추출
  • 통계학 기법의 대부분은 데이터가 부족하고 수집이 어렵거나 비싼 환경에서 개발됨
  • 통계학자들은 주어진 데이터 양에 따라 할 수 있는 추론의 강도를 최대화하는 방법을 만들기에 중점을 두었음
  • 이러한 방법론들은 대부분 엄밀한 수리적 접근을 요구하며, 100여 년 동안 경험적 학문에 매우 효과적이었음.

현대의 데이터분석

  • 오늘날 데이터에서 의미를 추출하는 방식은 주로 컴퓨팅 기술의 발전으로 두 가지 측면에서 이전과는 다름.
    1. 훨씬 더 많은 양의 계산
    2. 훨씬 더 많은 양의 데이터
  • 첫번째 변화의 의미
    • t검정이나 분산분석 등 통계학 교실에서 항상 등장하는 기법이 부트스트랩이나 순열검정 등 개념적으로 더 단순하나 계산적 한계로 사용되지 못하던 기법으로 대체되고 있는 중

  • 두번째 변화의 의미
    • 다수의 데이터가 계획자료가 아닌 관측자료임을 의미. 임의추출된 자료가 아니다!
    • 자료생성과정의 확률적 모형을 만들기 어려워짐 – 통계적 추론도 어려움
    • 예측모형이나 대화형 시각화 및 웹을 이용한 탐색적 자료분석의 응용분야가 팽창
  • 현대 데이터의 갈수록 증가하는 복잡도와 이형성(heterogeneity)으로 인해 거의 모든 자료 분석이 자료 맞춤형이 되어야 함.
    • 데이터과학자는 분석을 수행하는 컴퓨터 코드를 읽고 쓸 수 있어야 함

  • 이 수업의 앞 절반은 현대 데이터과학자에게 필수적인 두 가지 핵심 기술인 데이터 시각화와 데이터 랭글링에 대한 기본 능력을 함양한다.

  • 뒷 절반은 코드를 이용한 통계적 모형과 추론에 대해 깊게 다룬다.

교재

  1. 전반부: Baumer, B.S., Kaplan, D.T., & Horton, N.J. (2021). Modern Data Science with R (2nd ed.). CRC Press.
  2. 후반부: Venables, W.N., & Ripley, B.D. (2002). Modern Applied Statistics with S (4th ed.). Springer.

MSDR

MASS

강의 계획

  1. Data visualization [MDSR Chs.2–3]
  2. Data wrangling [MDSR Chs.4–5]
  3. Tidy data and iteration [MDSR Chs.6–7]
  4. Professional ethics [MDSR Ch.8]
  5. Statistical foundations [MDSR Ch.9]

  1. Linear statistical models [MASS Ch.6]
  2. Generalized linear models [MASS Ch.7]
  3. Non-linear and smooth regression [MASS Ch.8]
  4. Tree-based methods [MASS Ch.9]
  5. Random and mixed effects [MASS Ch.10]
  6. Exploratory multivariate analysis [MASS Ch.11]
  7. Classification [MASS Ch.12]

(사정에 따라 변경 가능)

평가

  • 출석 및 태도 (20%)
  • 3–4회의 프로그래밍 숙제 혹은 프로젝트 (80%)

어떤 경우에도 학점을 올려달라는 요구는 받아들이지 않음 (청탁금지법 위반. 출석 및 태도 점수 0점 처리)