본 강의에서는 R의 기본 내장 plot이 아닌 강력한 전처리 도구인 tidyverse와 시각화 툴인 ggplot2를 사용할 것이다.
데이터 시각화 예시
2012년 미국 연방 선거 (대통령 선거 포함)
미국 연방 선거에서는 위원회 시스템 (특히 political action committees, PACs)에 의해 무제한 기부금을 받아들이고 특정 후보자 또는 후보자 세트에 대해 지출할 수 있다.
복잡한 선거비용의 지출 네트워크를 풀어내는 것은 훌룡한 데이터과학 연습이 된다.
미 연방 선거관리위원회(Federal Election Commission, FEC)는 개인이 후보자와 위원회에 기부한 $200 이상의 모든 기부금과 각 위원회가 선거 운동에 지출한 금액의 기록을 제공하는 웹사이트를 운영하고 있다.
FEC는 또한 어느 후보자가 선거에서 얼마만큼 승리했는지에 대한 별도의 자료도 제공한다.
이들 데이터셋을 하나로 묶기 위해서는 수고가 필요하며, 수업의 전반부 동안 이러한 기술을 공부할 것이다.
이 강의에서는 데이터로부터 얻을 수 있는 정보의 시각적인 표현에 집중한다.
이 단계에서의 주안점은 특정 데이터의 메시지를 명확하고도 정확하게 전달하도록 어떻게 표시할 것인가에 있다.
사용 데이터(fec12): 2012년 미국 연방 선거에서 각 후보에 대해 지출된 비용에 대한 자료
가장 기본적인 질문: 각 후보가 얼마나 많은 돈을 모금했나?
복잡한 선거 자금 방정식은 이 간단한 질문조차도 대답하기 어렵게 만듦.
이 질문은 생각보다 의미가 없음.
더 좋은 질문: 어느 후보에게 가장 많은 비용이 지출되었나?
먼저 후보별 지출(4백만불 이상)부터 간단하게 그려 보자.
Figure 1: Amount of money spent on individual candidates in the general election phase of the 2012 federal election cycle, in millions of dollars. Candidacies with at least $4 million in spending are depicted.
오바마 당시 대통령에 대해 상대 후보인 공화당 미트 롬니보다 2배 이상 지출된 것으로 보인다.
그러나 위원회는 특정 후보를 지지하는 데만 돈을 쓸 수 있는 것이 아니라 특정 후보를 반대하는 데도 돈을 쓸 수 있다(공격 광고). 다음 그림에서는 앞 장의 막대그래프에 표시된 동일한 지출을 후보자를 위한 지출인지 반대하는 지출인지에 따라 구분해 본다.
지출항목별 구분
Figure 2: Amount of money spent on individual candidates in the general election phase of the 2012 federal election cycle, in millions of dollars, broken down by type of spending. Candidacies with at least $4 million in spending are depicted.
이로부터 오바마에 대한 공격에 훨씬 많은 비용이 지출된 것이 확인 가능
롬니에 대해 지출된 대부분의 자금이 그를 공격하는 것이었지만, 롬니에 대한 부정적 지출의 비율(70%)은 오바마(92%)보다 낮음.
Figure 1 와 Figure 2 의 차이는 후자에서는 색상을 사용하여 세 번째 변수(지출 유형)를 그래프에 포함시켰다는 점
이를 통해 이전 그래프에서 도출할 수 있는 결론을 중요하게 바꾸는 명확한 비교를 할 수 있음
특히 먼저의 그래프에서는 오바마 대통령의 선거 자금이 롬니를 압도하는 것처럼 보였지만 실제로는 그 반대
롬니보다 오바마를 공격하는 데 훨씬 더 많은 비용이 지출되었으므로 Figure 2 에서 공화당이 이번 선거 기간 동안 자금 모금에 더 성공적이었다고 결론을 내릴 수 있다.
다음 Figure 3 에서 민주당보다 공화당 후보를 지지하는 데 더 많은 비용이 지출되었고, 공화당보다 민주당 후보를 공격하는 데 더 많은 돈이 지출되었으므로 실제로 그랬음을 확인할 수 있다. 또한 거의 모든 자금이 민주당 또는 공화당에 지출되었음을 알 수 있다.
Figure 3: Amount of money spent on individual candidacies by political party affiliation during the general election phase of the 2012 federal election cycle.
교락 (confounding)
그러나 후보자에게 지출된 돈이 실제로 정당에 따라 차이가 있었는지에 대한 질문은 조금 더 까다로움.
위에서 살펴본 바와 같이 2012년 연방 선거에서는 대선이 정치 기부금을 지배했고, 롬니 후보는 현직 대통령에 맞서는 심각히 불리한 입장에 놓임. 이 경우 대통령직이 교락 변수가 될 수 있음.
Figure 4: Amount of money spent on individual candidacies by political party affiliation during the general election phase of the 2012 federal election cycle, broken down by office being sought (House, President, or Senate).
모든 선출직 선거에 대해 공화당 후보를 지원하는 데 더 많은 돈이 지출된 반면, 대통령 선거에서만 민주당 후보를 공격하는 데 더 많은 돈이 지출됨.
롬니가 소수의 부유한 기부자들의 지지를 받은 반면, 오바마는 다양한 경제적 스펙트럼의 사람들로부터 지지를 받았다
이 주장이 사실이라면 두 후보의 기부금 액수 분포에 차이가 있을 것으로 예상 가능
Figure 5 의 히스토그램은 각 후보를 지지하는 두 개의 주요 위원회에 개인이 기부한 100만 달러 이상을 요약
Figure 5: Donations made by individuals to the PACs supporting the two major presidential candidates in the 2012 election.
오바마가 더 많은 소액 기부를 받은 것으로 보이지만 이 증거가 결정적인 것은 아님.
두 후보 모두 소액 기부는 많이 받았지만 고액 기부는 소수에 불과하며, 가로축의 척도 때문에 실제로 어떤 일이 벌어지고 있는지 확인하기 어려움
히스토그램을 나란히 배치하여 비교하기 어려움
대선 두 단계(예비선거와 본선거)의 모든 기부금을 한데 묶어 표시
해결 방안
히스토그램 대신 밀도 곡선을 사용하여 분포를 직접 비교할 수 있도록 함
중요한 데이터에 집중할 수 있도록 가로축(기부 금액)을 로그 척도로 변경
선거 단계별로 기부금을 분리
Figure 6: Donations made by individuals to the PACs supporting the two major presidential candidates in the 2012 election, separated by election phase.
Figure 6 의 오른쪽 패널은 오바마의 기부금이 예비선거 단계에서 더 광범위한 기반에서 나왔다는 주장을 뒷받침함.
이 단계에서 오바마의 기부금 중 더 많은 금액이 소액으로 기부된 것으로 보임.
본선 단계에서는 두 캠페인에 기부된 기부금 분포에 사실상 차이가 없음.
변수간의 관계 도시
캠페인 지출이 무제한인 경우, 가장 많은 지출을 한 후보가 가장 많은 표를 얻을까?
민주당 하원선거에서 각 후보별 지출금액과 받은 투표수의 산점도를 그리면 두 변수간의 상관관계를 파악할 수 있음
Figure 7: Scatterplot illustrating the relationship between number of dollars spent supporting and number of votes earned by Democrats in 2012 elections for the House of Representatives.
지출금액과 투표수가 꼭 비례하지는 않음
비율: 한쪽 후보에 지출된 금액의 비율 대 득표율
점의 크기는 해당 선거구에서의 총 지출을 반영
점의 투명도는 해당 지역의 총 투표 수에 비례하도록
Figure 8: Scatterplot illustrating the relationship between proportion of dollars spent supporting and proportion of votes earned by Democrats in the 2012 House of Representatives elections.
후보자를 지지하는 자금의 비율과 후보자의 득표율 사이에는 양의 상관관계가 있는 것으로 보인다.
상관관계 유무는 선거가 실제로 경합하는 산점도의 중앙에서 가장 중요.
이 지역을 벗어나면 한 후보자가 55% 이상의 득표율을 얻으며, 일반적으로 지출되는 비용이 거의 없음.
왼쪽 아래 모서리에 있는 점 중 하나는 당시 하원의장이었던 존 보너가 경쟁자 없이 출마하여 당선된 오하이오주 제8선거구
산점도 중앙의 점들이 더 크게 표시 — 경합 선거에 더 많은 자금이 지출
그러나 경합 선거에서 더 많은 재정 지원이 더 많은 득표와 상관관계가 있다는 증거는 상대적으로 약함
가장 많은 돈이 지출된 선거(1,100만 달러 이상)인 오하이오주 16지구에서는 선거구 재획정의 결과로 양당 현역 의원이 경합. 지출된 돈 중 51.2%가 서튼 후보를 지지하는 데 사용되었지만 서튼 후보는 48.0%의 득표율에 그침
네트워크
네트워크 도표 — 변수간 상관관계를 볼 수 있는 또 다른 방법
선거자금 모금은 개인이 위원회에 돈을 기부하고 위원회가 후보자를 대신하여 돈을 지출하는 네트워크(그래프) 구조를 가짐
정점(nodes, vertices): PAC 혹은 후보자
호(edges): PAC -> 후보자로의 지출 유무 (방향성 있음)
지출액이 많은 PAC나 지원을 많이 받은 후보는 크게 표시
후보자의 소속 정당에 따라 색으로 표시
Figure 9: Campaign funding network for candidates from Massachusetts, 2012 federal elections. Each edge represents a contribution from a PAC to a candidate.
데이터 그래픽 작성법
요리와 데이터 그래픽의 비교
요리
데이터 그래픽
아무나
전자렌지에 데워먹기
plot
셰프
도구 마스터, 구성요소에 대한 이해와 통찰, 창의성
좌동
데이터 그래픽 분류 (Yau, 2013)
시각적 단서 (visual cues)
좌표계 (coordinate systems)
척도 (scale)
맥락 (context)
시각적 단서
상대의 시선을 원하는 정보에 집중시키는 그래픽 요소
어떤 시각적 단서를 사용하여 어떤 종류의 양을 나타낼 것인가?
Visual cues and what they signify.
Visual Cue
Variable Type
Question
Position
numerical
where in relation to other things?
Length
numerical
how big (in one dimension)?
Angle
numerical
how wide? parallel to something else?
Direction
numerical
at what slope? in a time series, going up or down?
Shape
categorical
belonging to which group?
Area
numerical
how big (in two dimensions)?
Volume
numerical
how big (in three dimensions)?
Shade
either
to what extent? how severely?
Color
either
to what extent? how severely?
좌표계
데카르트(직교) 좌표계 \((x, y)\)
극좌표계 \((r, \theta)\)
직교 좌표계에 대한 대안으로, 특히 데이터를 원형 또는 방사형 문맥에서 표현할 때 유용하다.
지리적 좌표계 (경도, 위도)
지구 표면을 나타내는 곡면 상 위치를 2차원으로 표현한다.
예: 항공기 노선과 같은 지리 공간 데이터를 평면의 직교 좌표계에 표시하면 현실의 심각한 왜곡을 초래할 수 있음
구역별 인구 분포는 오른쪽으로 치우쳐 있으므로 각 음영은 동일한 폭의 인구 범위를 나타내지 않음
맥락 제공: 제목, 부제 및 범례
데이터 시각화의 중요성
우주왕복선 챌린저호 사고 (1986)
1986년 1월 27일, 미 항공우주국(NASA)의 우주왕복선에 고체 로켓 모터를 제공한 Morton Thiokol사의 엔지니어들은 다음날 발사 예정인 우주왕복선 챌린저호의 안전성을 위협할 수 있는 추운 날씨 예보에 근거해 발사 연기를 권고함.
엔지니어들은 13개의 차트를 제공했고, 엔지니어와 관리자, NASA가 참여한 2시간의 컨퍼런스 콜을 통해 이를 검토했으나 권고는 설득력 있는 증거 부족으로 인해 거부되었고 발사는 계획대로 진행됨.
발사 후 73초 만에 엔지니어들이 우려한 대로 O링이 고장나서 챌린저는 폭발하고 탑승한 7명의 우주비행사가 모두 사망.
사고 원인을 밝히기 위해 노벨물리학상 수상자인 리처드 파인먼을 포함한 대통령 직속 위원회가 구성되어 사고를 조사. 조사 결과 Morton Thiokol사 엔지니어들이 온도와 O링 손상 사이의 주요 인과 관계를 정확하게 파악했다는 사실이 분명해짐.
문제는 이들이 NASA 관리자들에게 설득력 있는 방식으로 증거를 제시하지 않았다는 점
회의에 제출된 증거는 수기로 작성된 데이터 표의 형태였지만, 그래픽은 없었음
Tufte의 데이터 그래픽 (1997)
Figure 12: A scatterplot with smoother demonstrating the relationship between temperature and O-ring damage on solid rocket motors. The dots are semi-transparent, so that darker dots indicate multiple observations with the same values.
Figure 12 은 주변 온도와 고체 로켓 모터의 O링 손상 사이의 명확한 관계를 보여준다.
1986년 1월 27일의 예측 온도에 대한 극적인 외삽을 보여주기 위해 Tufte는 산점도의 가로축을 확장하여 예측 온도를 포함시킴