데이터과학 입문
서울대학교 통계학과
April 2024
다음의 패키지가 설치되어 있지 않으면 설치한다.
데이터 분석 업무에는 전문 지식이 필요 — 고객이 보내는 신뢰와 믿음에 의존
직업 윤리 — 이러한 신뢰를 부당하게 이용하지 않아야 할 특별한 책임
사려 깊게 생각하고 상식을 사용하는 것 이상
데이터과학자는 자신의 작업이 대규모로 배포될 가능성이 있기 때문에 자신의 작업이 다른 사람에게 어떻게 사용될 수 있는지 예측하고 윤리적 영향에 대해 고민해야 함.
데이터과학의 직업 윤리 원칙과 법적 의무, 전문 단체의 윤리 지침을 소개
“Stand Your Ground” 법 — 2005년 플로리다 주의회가 입법한, 시민이 위협으로부터 자신을 보호하기 위해 치명적인 무력을 사용할 수 있는 상황을 확대하는 법
지지: 이 법이 궁극적으로 범죄를 감소시킬 것
반대: 치명적인 무력 사용이 늘어날 것
앞 예제는 통계적 방법론과 무관
잘못은 통계적 방법론에 대한 무책임한 무시로 인해 데이터 그래픽이 저널리즘의 직업 윤리를 위반하고 이를 방조하고 있는 데에 있음
데이터과학자는 공공 담론을 형성하는 데 어떤 역할을 할 수 있고 어떤 책임이 있는가?
그래프는 이 사건에 대한 대중의 인식에 영향을 미쳤는가?
National Review는 기후 변화에 대한 과학적 합의를 무시하도록 의도했는가?
조지아 주지사실은 사람들이 코로나19의 위험을 도외시하도록 의도했는가?
통계 컨설턴트는 CEO의 요구에 어떻게 대응해야 할까?
미국 연방계약준수프로그램(OFCCP)는 미국 정부와 계약을 맺은 회사에 채용 및 급여 데이터를 요청
OFCCP는 직원 선발 절차에 관한 통일 지침(UGESP)에 명시된 “표준편차 2배” 검정을 통해 차별을 식별
차별을 하지 않는 회사도 OFCCP 방법에 따라 차별을 하는 것으로 분류될 위험이 있음
의심스러운 통계 방법을 사용함으로써 OFCCP가 비윤리적으로 행동하는 것은 아닌가?
“Additionally, given that companies and governments are increasingly using computer vision algorithms to detect people’s intimate traits, our findings expose a threat to the privacy and safety of gay men and women.”
이 연구는 윤리적인가? 이러한 예측모형을 만들고 배포하는 것이 윤리적으로 정당한가?
surname pred.whi pred.bla pred.his pred.asi pred.oth
4 Khanna 0.0676 0.0043 0.00820 0.8668 0.05310
2 Imai 0.0812 0.0024 0.06890 0.7375 0.11000
8 Velasco 0.0594 0.0026 0.82270 0.1051 0.01020
1 Fifield 0.9356 0.0022 0.02850 0.0078 0.02590
10 Zhou 0.0098 0.0018 0.00065 0.9820 0.00575
7 Ratkovic 0.9187 0.0108 0.01083 0.0108 0.04880
3 Johnson 0.5897 0.3463 0.02360 0.0054 0.03500
5 Lopez 0.0486 0.0057 0.92920 0.0102 0.00630
11 Wantchekon 0.6665 0.0853 0.13670 0.0797 0.03180
6 Morse 0.9054 0.0431 0.02060 0.0072 0.02370
이 모형을 공개하는 것이 윤리적인가? 코드의 오픈 소스 특성이 답변에 영향을 미치는가? 이 소프트웨어를 사용하는 것이 윤리적인가? 사용 목적에 따라 답변이 달라지는가?
2016년 5월, 심리학 논문 아카이브 OpenPsych에 “The OkCupid dataset: A very large public dataset of dating site users” (Kirkegaard & Bjerrekær, 2016) 논문이 공개됨
공개 데이터 세트에는 OkCupid 데이트 웹사이트에서 스크랩한 68,371명의 사용자 이름, 성별, 데이트 선호도 등 2,620개의 변수가 포함
데이터 스크랩에는 비밀번호 탈취와 같은 불법적인 기술이 사용되지 않았음에도 이 작업이 윤리 위반이며 개인 데이터를 공개하여 사람들을 해쳤다고 비난하는 많은 댓글이 OpenPsych 포럼에 달림
이 작업이 윤리적 문제를 제기하는가?
잘못된 분석의 발표는 윤리적으로 적절한가?, 잘못된 분석을 근거로 내린 결론이 타당한가?
3년간 Vioxx를 철회하지 않은 Merck사는 어떤 윤리적인 책임이 있는가?
통계 전문가는 이 상황에서 어떻게 행동해야 하는가?
National Academies of Science, Engineering, and Medicine. 2018. “Data Science for Undergraduates: Opportunities and Options.” National Academies.
wru
소프트웨어를 사용하여 역사적으로 소외된 집단에 대한 차별 (원칙 3, 7, 9 위반)이해관계자 문제 (원칙 1)
개인정보 문제 (원칙 11)
라인하트와 로고프는 소프트웨어와 데이터에 대한 합당한 접근 권한을 제공 (원칙 10 준수)
도구: 데이터과학의 관점에서 볼 때, 마이크로소프트 엑셀은 데이터와 분석을 혼합
Vioxx 연구자들은 연구 프로토콜에 따라 행동했으며, 이는 확고한 전문적 관행
Bombardier et al. (2000) 논문은 Vioxx의 높은 심근경색 발생률이 심장마비 위험을 줄이기 위해 아스피린 치료를 받고 있는 피험자를 제외한 연구 프로토콜의 한 측면 때문이라는 가설을 세움
법적 소송에서 데이터과학자는 고객에 대한 윤리적 의무가 있음
때로 부적절하다고 생각되는 방법을 사용하라는 지시를 받을 수도 있음
데이터과학자의 직업적 의무는 고객에게 제안된 방법의 결함이 무엇인지, 다른 방법이 더 낫다고 생각하는 방법과 그 이유를 알려주는 것 (원칙 8)
예: 미국 재범 예측 알고리즘
137개의 질문에 대한 설문조사를 바탕으로 범죄자가 또 다른 범죄를 저지를 가능성에 대한 예측을 반환
“흑인 피고인은 향후 폭력 범죄를 저지를 위험이 높은 것으로 분류될 가능성이 77% 더 높았고, 향후 모든 종류의 범죄를 저지를 것으로 예측될 가능성이 45% 더 높았다.” (Angwin et al., 2016)
설문조사 질문 예시:
“부모님 중 한 분이 감옥이나 교도소에 간 적이 있습니까?”
데이터 분석에서 아무리 사소해 보이는 단계라도 하나하나 기록
구성 요소
2013년 Brain, Behavior, and Immunity에 발표된 논문 (Kern et al., 2013a)에서 면역 반응과 우울증 사이의 연관성이 보고되었으나 나중에 이 결과가 실험실 결과와 다른 설문조사 데이터 간의 데이터 병합 오류로 인한 결과라는 사실이 알려짐.
더 엄격한 재현성 기준을 준수했다면 오류를 더 빨리 발견했을 것임.
Join (5장)
dplyr::inner_join()
함수는 이 과정을 간소화Andrew Gelman