제 8강: 데이터과학 윤리

데이터과학 입문

원중호

서울대학교 통계학과

April 2024

시작하기 전에

다음의 패키지가 설치되어 있지 않으면 설치한다.

# install.packages("tidyverse")
# install.packages("readxl")
# install.packages("wru")
library(tidyverse)
library(readxl)
library(wru)

데이터과학 직업 윤리

  • 데이터 분석 업무에는 전문 지식이 필요 — 고객이 보내는 신뢰와 믿음에 의존

  • 직업 윤리 — 이러한 신뢰를 부당하게 이용하지 않아야 할 특별한 책임

  • 사려 깊게 생각하고 상식을 사용하는 것 이상

  • 데이터과학자는 자신의 작업이 대규모로 배포될 가능성이 있기 때문에 자신의 작업이 다른 사람에게 어떻게 사용될 수 있는지 예측하고 윤리적 영향에 대해 고민해야 함.

  • 데이터과학의 직업 윤리 원칙과 법적 의무, 전문 단체의 윤리 지침을 소개

통계로 거짓말하기

총기 자유화

  • “Stand Your Ground” 법 — 2005년 플로리다 주의회가 입법한, 시민이 위협으로부터 자신을 보호하기 위해 치명적인 무력을 사용할 수 있는 상황을 확대하는 법

  • 지지: 이 법이 궁극적으로 범죄를 감소시킬 것

  • 반대: 치명적인 무력 사용이 늘어날 것

실제 결과

Figure 1: 시간 경과에 따른 플로리다의 총기 사망자 수. 로이터의 원본 재현

  • 그래프 상으로는 살인 건수가 현저히 감소한 것으로 보임.
  • 실은 2005년 후반부터 총기 살인 수가 급증하였으나 그래프는 \(y\)축이 반전되어 이를 반대로 보이도록 표현함.

기후 변화

Figure 2: 지구 연평균 기온 변화에 대한 2015년 12월 14일 National Review의 트윗. 나중에 삭제됨

  • \(x\)축은 합리적인 범위(1880년부터 2015년)로 설정되었지만, \(y\)축은 관련성 없는 온도 범위(화씨 -10 – 110도)까지 확장되어 기후 변화가 보이지 않음
    • 계절에 따른 기온 변화를 보여주는 데에나 적절한 척도
    • 기후 변화의 우려는 지구 평균 기온이 화씨 5도 정도 변화할 때 예상되는 결과 — 해수면 상승, 폭풍의 강화, 생태 및 농업의 혼란
  • 또한 \(y\)축의 숫자를 회색으로 표시해서 눈에 띄지 않게 했음

코로나 19

Figure 3: 미국 조지아 주의 코로나19 확진자 수 추이?

  • 왜곡된 시간 표기: 4월 17일의 결과가 4월 19일의 오른쪽에 표시, 날마다 내림차순으로 정렬된 행정구역 순서
  • 확진자 수가 시간에 따라 감소하는 듯한 인상을 줌
  • 그래프는 현실을 왜곡했으며 공개적인 비난으로 인해 주지사실은 향후 시간순으로 표시하기로 결정

데이터과학의 사회적 역할

통계로 거짓말하기?

  • 앞 예제는 통계적 방법론과 무관

  • 잘못은 통계적 방법론에 대한 무책임한 무시로 인해 데이터 그래픽이 저널리즘의 직업 윤리를 위반하고 이를 방조하고 있는 데에 있음

    • 데이터 그래픽이 정치적 논란의 사안과 관련된 한, 이는 정치 과정의 일부
  • 데이터과학자는 공공 담론을 형성하는 데 어떤 역할을 할 수 있고 어떤 책임이 있는가?

맥락이 중요

  • Figure 1 은 플로리다에서 길가던 흑인 소년을 발포 살해한 조지 짐머만이 무죄 판결을 받은 지 약 6개월 후에 발표됨

그래프는 이 사건에 대한 대중의 인식에 영향을 미쳤는가?

  • Figure 2 는 2016년 대통령 선거를 앞두고 예비선거가 한창이던 시기에 게시됨
    • 민주당 지지자들 사이에서 기후 변화에 대한 우려가 꾸준히 증가(2013년 58% -> 2020년 88%)
    • 공화당 지지자들 사이에서는 2010년부터 2019년 중반까지 25%로 안정적으로 유지

National Review는 기후 변화에 대한 과학적 합의를 무시하도록 의도했는가?

  • Figure 3 은 당시 조지아 주지사의 경제 재개 계획이 애틀랜타 시장, 주지사 선거 경쟁자, 심지어 도널드 트럼프 대통령으로부터 거센 비판에 직면하고 있던 시기에 게시됨

조지아 주지사실은 사람들이 코로나19의 위험을 도외시하도록 의도했는가?

  • 데이터과학 작업은 사회와 깊고도 항상 명확하지는 않은 방식으로 연결되어 있음

직업 윤리 시나리오

최고경영자

  • 통계상담: 상업적 결과를 예측하기 위한 독자적인 모형을 원하는 고객을 위해 문헌을 검토한 결과 시나리오와 잘 맞는 다중 선형 회귀 모형을 찾고, 공개 데이터를 사용하여 모델의 모수를 적합함
  • 고객사의 직원들은 결과에 만족했지만, CEO는 경쟁 우위를 확보할 수 있는 모형을 원함
    • “경쟁사들도 쉽게 동일한 프로세스를 따라 동일한 모형을 만들 수 있는데, 어떤 이점을 가질 수 있는가?”
  • CEO는 통계 컨설턴트에게 회사의 특정 가치를 반영하기 위해 모형의 계수를 “조정”하도록 요구

통계 컨설턴트는 CEO의 요구에 어떻게 대응해야 할까?

고용 차별

  • 미국 연방계약준수프로그램(OFCCP)는 미국 정부와 계약을 맺은 회사에 채용 및 급여 데이터를 요청

  • OFCCP는 직원 선발 절차에 관한 통일 지침(UGESP)에 명시된 “표준편차 2배” 검정을 통해 차별을 식별

  • 차별을 하지 않는 회사도 OFCCP 방법에 따라 차별을 하는 것으로 분류될 위험이 있음

의심스러운 통계 방법을 사용함으로써 OFCCP가 비윤리적으로 행동하는 것은 아닌가?

성적 지향

  • Y. Wang and Kosinski (2018)는 심층 신경망과 로지스틱 회귀를 사용해 사람의 얼굴 사진을 기반으로 성적 지향을 분류하는 분류기를 구축
    • 사람의 얼굴 이미지 다섯 장이 주어지면 이 모형이 남성의 91%, 여성의 83%의 성적 지향을 정확하게 예측할 수 있다고 주장

“Additionally, given that companies and governments are increasingly using computer vision algorithms to detect people’s intimate traits, our findings expose a threat to the privacy and safety of gay men and women.”

  • 뉴욕타임즈: “이 연구는 전적으로 백인 얼굴로만 구성되었다. 데이트 사이트에서 유색인종 얼굴이 너무 적어 의미 있는 분석을 제공할 수 없었기 때문이다.”

이 연구는 윤리적인가? 이러한 예측모형을 만들고 배포하는 것이 윤리적으로 정당한가?

인종 예측

  • Imai & Khanna (2016)는 플로리다의 유권자 등록 기록과 미국 인구조사국의 이름 목록으로 훈련된 베이즈 분류기를 사용하여 인종 예측 알고리즘을 개발 및 공개
wru::predict_race(voter.file = wru::voters, surname.only = TRUE) %>% 
  select(surname, pred.whi, pred.bla, pred.his, pred.asi, pred.oth)
      surname pred.whi pred.bla pred.his pred.asi pred.oth
4      Khanna   0.0676   0.0043  0.00820   0.8668  0.05310
2        Imai   0.0812   0.0024  0.06890   0.7375  0.11000
8     Velasco   0.0594   0.0026  0.82270   0.1051  0.01020
1     Fifield   0.9356   0.0022  0.02850   0.0078  0.02590
10       Zhou   0.0098   0.0018  0.00065   0.9820  0.00575
7    Ratkovic   0.9187   0.0108  0.01083   0.0108  0.04880
3     Johnson   0.5897   0.3463  0.02360   0.0054  0.03500
5       Lopez   0.0486   0.0057  0.92920   0.0102  0.00630
11 Wantchekon   0.6665   0.0853  0.13670   0.0797  0.03180
6       Morse   0.9054   0.0431  0.02060   0.0072  0.02370
  • 미국의 오랜 인종 차별의 역사를 고려할 때, 이 소프트웨어가 유색인종을 차별하는 데 어떻게 사용될 수 있는지는 분명함

이 모형을 공개하는 것이 윤리적인가? 코드의 오픈 소스 특성이 답변에 영향을 미치는가? 이 소프트웨어를 사용하는 것이 윤리적인가? 사용 목적에 따라 답변이 달라지는가?

데이터 스크랩

  • 2016년 5월, 심리학 논문 아카이브 OpenPsych“The OkCupid dataset: A very large public dataset of dating site users” (Kirkegaard & Bjerrekær, 2016) 논문이 공개됨

  • 공개 데이터 세트에는 OkCupid 데이트 웹사이트에서 스크랩한 68,371명의 사용자 이름, 성별, 데이트 선호도 등 2,620개의 변수가 포함

    • 표면적인 목적: 동료 연구자들에게 흥미로운 공개 데이터 세트를 제공 (“To further validate the dataset, we examined the relationship between Zodiac sign and every other variable.”)
  • 데이터 스크랩에는 비밀번호 탈취와 같은 불법적인 기술이 사용되지 않았음에도 이 작업이 윤리 위반이며 개인 데이터를 공개하여 사람들을 해쳤다고 비난하는 많은 댓글이 OpenPsych 포럼에 달림

이 작업이 윤리적 문제를 제기하는가?

재현가능 연구

  • 2010년 하버드 대학교의 경제학자 카르멘 라인하트와 케네스 로고프는 “부채 시대의 성장” (Rogoff and Reinhart 2010)이라는 제목의 보고서를 발표하여 긴축 정책을 추진한 국가가 반드시 경제 성장 둔화를 겪을 필요는 없다고 주장
    • 유럽 부채 위기 당시 정책 입안자들의 생각에 영향을 미침
  • 매사추세츠대 대학원생인 Thomas Herndon은 논문에 포함된 데이터와 분석에 대한 액세스를 요청 후 원본 스프레드시트에서 몇 가지 오류를 발견
    • “L51 셀을 클릭했더니 30–49행이 아니라 30–44행의 평균값만 계산돼 있었습니다.”
  • Rogoff and Reinhart (2010)에 대한 비평에서 Herndon, Ash, Pollin (2014)은 코딩 오류, 데이터의 선택적 포함, 논문의 결론을 형성한 요약 통계의 이상한 가중치 등을 지적

잘못된 분석의 발표는 윤리적으로 적절한가?, 잘못된 분석을 근거로 내린 결론이 타당한가?

약물 위험성

  • 2004년 9월, 제약회사 Merck는 관절염 치료제 Vioxx가 심근경색)의 위험을 높인다는 증거를 발견하고 시장에서 철수
    • 당시까지 약 2,000만 명의 미국인이 Vioxx를 복용
    • 이후 저명한 의학 저널인 Lancet은 Vioxx 복용으로 인해 88,000명의 미국인이 심장마비를 일으켰고 그 중 38,000명이 사망했다는 추산치를 발표
  • Vioxx는 1999년 5월에 미국 식약청(FDA)에서 승인되었으나, Bombardier et al. (2000)의 The New England Journal of Medicine 논문 초록에서 심근경색 발생률에 대한 같은 지적이 있었음.
    • “The incidence of myocardial infarction was lower among patients in the naproxen group than among those in the [Vioxx] group (0.1 percent vs. 0.4 percent; relative risk, 0.2; 95% confidence interval, 0.1 to 0.7); the overall mortality rate and the rate of death from cardiovascular causes were similar in the two groups.”
  • Vioxx는 3년 뒤에야 시장에서 회수됨.

3년간 Vioxx를 철회하지 않은 Merck사는 어떤 윤리적인 책임이 있는가?

법적 협상

  • 일반적인 민사 소송에서 피고인측 변호사는 원고측 변호사와 소송의 손해배상액을 협상
  • 원고측 변호인은 통계 전문가에게 원고의 이익을 반영해야 한다는 분명하지만 암묵적인 지시와 함께 손해배상액을 추정해 달라고 요청할 수 있음
  • 피고측 변호인은 자체 전문가에게 더 낮은 추정치를 산출하도록 요청할 것

통계 전문가는 이 상황에서 어떻게 행동해야 하는가?

윤리적 행동을 위한 원칙

데이터과학 선서

National Academies of Science, Engineering, and Medicine. 2018. “Data Science for Undergraduates: Opportunities and Options.” National Academies.

  1. 나는 문제 해결을 위해 다른 사람의 기술이 필요할 때 부끄러워하지 않고 “나는 모른다”고 말하거나 동료의 도움을 요청하겠습니다.
  2. 나는 정보 주체의 개인정보를 존중하겠습니다. 정보 주체의 개인정보는 전 세계가 알 수 있도록 내게 주어지지 않으므로 개인정보 보호 및 보안 문제를 신중하게 처리하겠습니다.
  3. 나는 내 데이터가 의미나 맥락이 없는 단순한 숫자가 아니라 실제 사람과 상황을 나타내며, 내 작업이 알고리즘 편향으로 인한 불평등, 빈곤, 격차 등 의도하지 않은 사회적 결과를 초래할 수 있음을 기억하겠습니다.

데이터 가치와 원칙 선언

DataPractices.org

  1. 데이터를 사용하여 사용자, 고객, 조직, 커뮤니티의 삶을 개선한다.
  2. 재현 가능하고 확장 가능한 작업을 만든다.
  3. 다양한 아이디어, 배경, 강점을 가진 팀을 구성한다.
  4. 토론과 메타데이터의 지속적인 수집과 가용성에 우선순위를 둔다.
  5. 각 프로젝트를 이끄는 질문과 목표를 명확히 파악하여 계획과 구체화를 위한 지침으로 활용한다.
  6. 새로운 지식에 대응하여 방법과 결론을 변경하는 데 열린 자세를 갖는다.
  1. 우리 자신과 우리가 사용하는 데이터의 편향을 인식하고 완화한다.
  2. 다른 사람들이 더 나은 정보에 입각한 결정을 내릴 수 있도록 작업을 제시한다.
  3. 데이터를 사용할 때 우리가 내리는 선택의 윤리적 함의와 우리의 업무가 개인과 사회에 미치는 영향을 신중하게 고려한다.
  4. 업무의 오류, 위험, 의도하지 않은 결과에 대한 식별과 공개적인 토론을 장려하면서 공정한 비판을 존중하고 장려한다.
  5. 데이터에 나타난 개인의 개인정보와 보안을 보호한다.
  6. 다른 사람들이 현실의 문제를 해결하는 데 가장 유용하고 적절한 데이터 활용법을 이해하도록 돕는다.

최고경영자

  • 이해당사자 = 회사
  • 작업에 전문가 커뮤니티에서 일반적으로 인정되지 않는 방법이 포함될 경우 회사에 이를 지적해야 할 의무가 있음
  • 결과를 제시할 때 다른 사람들이 더 나은 정보에 입각해 결정을 내릴 수 있도록 전달해야 함 (원칙 8)
  • 고객의 관심사 전체를 파악하는 것이 중요 (원칙 12)

고용 차별

  • OFCCP가 그들의 방법론에 대해 “공정한 비판을 유도”해야 함 (원칙 10)

성적 지향

  • 얼굴 인식에 기반한 성적 취향 예측이 공동체의 삶을 개선할 수 있는가? (원칙 1)
  • 연구의 윤리적 의미를 고려했는가? (원칙 9, 초록)
  • 데이터에 나타난 개인의 프라이버시와 보안을 보호했는가? (원칙 11)
  • 백인이 아닌 얼굴을 연구에서 제외 (원칙 7 위반?)

인종 예측

  • wru 소프트웨어를 사용하여 역사적으로 소외된 집단에 대한 차별 (원칙 3, 7, 9 위반)
  • 원칙 3, 7, 9를 위반하지 않으면 이 소프트웨어를 사용해 소외된 집단을 돕는 것이 윤리적인까?
    • 저자들은 원칙 2를 잘 준수했지만 원칙 9를 완전히 따르지 못했을 수도 있음.

데이터 스크랩

이해관계자 문제 (원칙 1)

  • 저자의 데이터 수집은 심리학 연구를 지원하기 위한 것임
  • 인간대상연구 윤리: 명시적으로 동의하지 않은 위험에 노출되지 않도록 해야 함.
    • OkCupid 회원들은 심리학 연구에 사용될 수 있다는 동의를 하지 않았음
    • OkCupid와 같은 정보제공업체는 데이터의 합법적 사용 방법을 제한하는 이용약관을 가지고 있음

개인정보 문제 (원칙 11)

  • 데이터에는 개인식별정보가 포함
  • 민감한 정보 또는 특정 사용자의 신체적 안전을 위협하는 정보가 공개될 현실적인 위험

재현가능 연구

  • 라인하트와 로고프는 소프트웨어와 데이터에 대한 합당한 접근 권한을 제공 (원칙 10 준수)

  • 도구: 데이터과학의 관점에서 볼 때, 마이크로소프트 엑셀은 데이터와 분석을 혼합

    • 낮은 추상화 수준에서 작동하기 때문에 간결하고 읽기 쉬운 방식으로 프로그래밍하기 어려움
    • 엑셀 프로그래밍 및 수정 작업은 많은 클릭과 드래그 복사를 수반 — 오류 발생 확률 높임
    • 신뢰성과 재현가능성에 대한 원칙 2 위반

약물 위험성

  • Vioxx 연구자들은 연구 프로토콜에 따라 행동했으며, 이는 확고한 전문적 관행

  • Bombardier et al. (2000) 논문은 Vioxx의 높은 심근경색 발생률이 심장마비 위험을 줄이기 위해 아스피린 치료를 받고 있는 피험자를 제외한 연구 프로토콜의 한 측면 때문이라는 가설을 세움

    • 비교군인 naproxen이 아스피린을 대체할 수 있는 약물이라고 어느 정도 근거를 가지고 믿음
    • 후속 연구에서 이는 잘못된 생각으로 밝혀짐
    • 원칙 6을 지키지 않고 오해의 소지가 있는 방식으로 결과를 발표

법적 협상

  • 법적 소송에서 데이터과학자는 고객에 대한 윤리적 의무가 있음

  • 때로 부적절하다고 생각되는 방법을 사용하라는 지시를 받을 수도 있음

    • 고객이 “더 나은” 결과를 얻기 위해 분석에 포함된 데이터의 기간을 어떤 식으로든 제한해 달라고 요청하는 경우
    • 데이터를 세분화하여 p값을 변경해 달라고 요청하는 경우 — 세분화에 대한 결정은 원하는 결과가 아니라 상황에 따라 이루어져야 함
    • 고객은 그러한 요청을 할 권리가 있음. 요청하는 방법이 올바른 방법이라고 생각하는지 여부는 포함되지 않음
  • 데이터과학자의 직업적 의무는 고객에게 제안된 방법의 결함이 무엇인지, 다른 방법이 더 낫다고 생각하는 방법과 그 이유를 알려주는 것 (원칙 8)

알고리즘 편향

  • 편향된 데이터는 알고리즘 편향으로 이어질 수 있음
    • 일부 그룹이 과소 대표되거나 데이터 수집 노력에서 체계적으로 배제될 수 있음

예: 미국 재범 예측 알고리즘

  • 137개의 질문에 대한 설문조사를 바탕으로 범죄자가 또 다른 범죄를 저지를 가능성에 대한 예측을 반환

  • “흑인 피고인은 향후 폭력 범죄를 저지를 위험이 높은 것으로 분류될 가능성이 77% 더 높았고, 향후 모든 종류의 범죄를 저지를 것으로 예측될 가능성이 45% 더 높았다.” (Angwin et al., 2016)

설문조사 질문 예시:

“부모님 중 한 분이 감옥이나 교도소에 간 적이 있습니까?”

  • 미국에서 인종과 범죄의 오랜 상관관계로 인해 흑인은 부모 중 감옥에 간 사람이 있을 가능성이 훨씬 더 높으므로 인종에 관한 질문을 대리
    • 따라서 재범률 알고리즘은 피고인의 인종을 직접 고려하지 않더라도 형사 사법 시스템의 수 세기에 걸친 불평등을 반영하는 데이터에서 인종에 대해 학습
  • 데이터과학자는 모형 평가, 테스트, 책임성 및 투명성을 분석에 통합하여 편향을 식별하고 대응하며 공정성을 극대화해야 함

데이터와 정보 공개

재식별 및 정보 공개 방지

  • 1996년 당시 매사추세츠 주지사 윌리엄 웰드가 벤틀리 대학 졸업식에 참석하던 중 쓰러진 사건
    • MIT 대학원생이 매사추세츠 그룹 보험위원회에서 공개한 공공 데이터의 정보를 이용해 웰드의 이후 입원 기록을 파악
    • 공개(의료 서비스를 개선하고 비용을 통제하기 위한)와 비공개(개인 정보가 공개되지 않도록 하기 위한) 사이에서 적절한 균형이 이루어지지 않은 사례
  • 의료정보 이동 및 책임에 관한 법률(HIPAA) — 연구자와 의료 서비스 제공자가 보호 대상 건강 정보(PHI)를 유지하는 데 있어서의 역할을 명확히 함
    • PHI에 접근하는 당사자는 개인정보 보호 정책과 절차를 마련해야 함
    • 개인정보 보호 담당자를 지정하고 직원에 대한 교육을 실시해야 함
    • 공개가 발생하는 경우 가능한 범위 내에서 그 영향을 완화해야 함
    • 의도적이거나 의도하지 않은 사용을 방지하기 위해 합리적인 데이터 보호 장치 마련
    • 대상 기업은 공개에 대한 조사에 협조한 사람을 보복해서는 안 됨
    • 기관은 데이터를 마지막으로 사용한 후 6년 동안 기록과 문서를 보관해야 함
  • 의료 정보에 한정되지만, 다른 데이터과학 분야에도 유용한 정보 공개 회피 모델

안전한 데이터 저장

  • 의도하지 않은 데이터 누출은 계획된 공개보다 많은 피해를 줄 수 있음
  • 잘못 설정된 데이터베이스, 악성 소프트웨어, 도난 등으로 인한 정보 유출이 있을 수 있음
  • 개인과 조직은 안전한 컴퓨팅을 실천하고 시스템을 정기적으로 감사하며, 컴퓨터 및 데이터 보안에 대한 계획을 시행해야 함
    • 장비를 양도하거나 폐기할 때에도 보호 기능이 유지되도록 보장

데이터 수집과 이용 약관

  • 웹 상의 자료에 대한 법적 지위 문제

Zillow.com

  • 공공 및 민간 출처의 데이터를 결합하여 미국 전역의 1억 개가 넘는 주택에 대한 주택 가격 및 임대 정보를 생성하는 온라인 부동산 데이터베이스 회사
  • 특정 제한 사항 하에 API를 통해 데이터베이스에 액세스
  • 이용 약관은 법률 문서로 제공
    • API 사용자는 데이터를 “있는 그대로” 사용해야 함
    • Zillow 데이터의 사본을 보관해서는 안 됨
    • 직접 마케팅에 데이터를 사용하지 않아야 함
  • 데이터 액세스 횟수나 양에 제한
    • Zillow API는 주택 평가 또는 부동산 세부 정보에 대한 호출을 하루에 1,000회로 제한
  • 텍스트도 데이터
    • Slate.com은 사용자가 텍스트 마이닝을 할 수 없다고 명시
  • OkCupid
    • 스미스 칼리지의 Albert Y. Kim은 OkCupid 대표의 허가를 받아 샌프란시스코 OkCupid 사용자 59,946명의 정보가 담긴 데이터를 공개 Kim & Escobedo-Land, 2015.
    • 피해를 최소화하기 위해 프로필을 쉽게 재식별할 수 있는 특정 변수(예: 사용자 이름) 제거
    • Kirkegaard & Bjerrekær (2016) 사례와 비교

재현성

재현성을 떨어뜨리는 관행

  • 원 연구자조차도 분석 결과를 재현하지 못하는 경우가 있음
    • 프로세스의 각 단계에 대한 감사 추적을 유지하지 않는 메뉴 중심 소프트웨어(예: 엑셀)를 사용할 때 발생하기 쉬움
  • 결과 보고시 일반적으로 출판물에 제시된 결과와 그 결과를 산출한 분석 사이에 명시적인 연관성이 없는 워드프로세서 등의 도구 사용 — 재현성 저해
    • 수작업으로 숫자를 문서에 복사하고 그래픽을 잘라내어 보고서에 붙여넣는 식의 작업 방식은 올바른 개체를 선택했음을 증명하기 어려움

재현가능 분석

  • 데이터 분석에서 아무리 사소해 보이는 단계라도 하나하나 기록

  • 구성 요소

    1. 데이터: 원본 형태의 모든 원본 데이터 파일
    2. 메타데이터: 데이터를 이해하는 데 필요한 코드북 및 기타 정보
    3. 명령: 데이터를 추출, 변환 및 로드한 다음 분석을 실행하고, 모델을 맞추고, 그래픽 디스플레이를 생성하는 데 필요한 컴퓨터 코드
    4. 맵: 보고서의 출력과 결과 사이의 대응을 기록한 파일
  • 미국 통계학회(ASA)는 커리큘럼 가이드라인에서 재현 가능한 분석의 중요성을 언급
    • R Markdown, knitr, Quarto 등의 도구 개발로 이러한 방법의 실제 사용성이 크게 향상
  • 데이터 분석 프로세스를 보다 투명하게 만들고 이를 실무자와 학생의 워크플로에 통합하기 위한 프로토콜
    • 하버드대 채닝 연구소: 저작물의 검증 과정에서 연구팀 외부의 분석가가 결과를 생성하는 데 사용된 모든 프로그램을 검토. 다른 한 명은 논문의 각 숫자가 결과에서 올바르게 기록되었는지 확인
    • 노스캐롤라이나대 오덤 사회과학연구소: 몇몇 정치학 저널에 대해 제3자 코드 및 데이터 검증 실시

예시: 잘못된 데이터 병합

  • 2013년 Brain, Behavior, and Immunity에 발표된 논문 (Kern et al., 2013a)에서 면역 반응과 우울증 사이의 연관성이 보고되었으나 나중에 이 결과가 실험실 결과와 다른 설문조사 데이터 간의 데이터 병합 오류로 인한 결과라는 사실이 알려짐.

  • 더 엄격한 재현성 기준을 준수했다면 오류를 더 빨리 발견했을 것임.

  • Join (5장)

    • 두 데이터 테이블을 병합할 때 병합의 정확한 세부 사항을 기록하지 않으면 잘못된 병합을 해결이 어려울 수 있음
    • dplyr::inner_join() 함수는 이 과정을 간소화

연구 윤리

과학계 전체가 이해당사자

  • 컬럼비아 대학교의 연구 그룹에서 전직 박사후 연구원이 다른 연구자들도 모르게 CellNature에 게재된 논문을 조작하고 위조한 사실을 발견
    • 다른 팀원들도 과학계에 대한 윤리적 의무를 지게 됨
    • 학술지에 사실을 알리고 많이 인용된 논문을 철회
    • 윤리적 의무가 자신의 평판을 보호하려는 욕구보다 중요
  • 출판 편향: 통계적으로 유의한 결과가 그렇지 않은 결과보다 더 쉽게 출판되는 상황
    • 같은 주제에 대해 여러 개의 연구 프로젝트가 동시에 진행될 때 통계적 의미를 혼란스럽게 만들 수 있음
    • 실제로는 전혀 효과가 없는 약물의 효과를 조사하기 위해 100개의 연구가 병행된다고 하자. 유의수준 5%에서 출판 편향을 고려하면 5편의 “유의한” 결과만이 출판될 것.
  • 미국 통계학회 윤리 지침: 다중 검정에서 하나의 “유의한” 결과를 선택하는 경우 검ㅈ정의 전체 범위와 결과를 공개하지 않으면 잘못된 결론을 내릴 수 있는 심각한 위험을 초래할 수 있음
    • 5가지 식품이 5가지 건강 측정에 미치는 영향을 조사하는 경우, 25개의 가능한 검정 중에서 하나가 유의한 결과가 나왔다면 나머지 24가지 테스트에 대한 귀무 검정 결과를 포함하거나 다중 검정에 대한 보정을 실시해야 함

윤리적 행동에 대한 전문가 지침

학술단체별 강령

참고자료

참고자료