Featured image of post 데이터 분석의 힘

데이터 분석의 힘

[!INFO] 책 정보

  • 저자: 저자/이토_고이치로
  • 번역: 번역/전선영
  • 출판사: 출판사/인플루엔셜(주)
  • 발행일: 2018-08-31
  • origin_title: -
  • 나의 평점: 7
  • 완독일: 2022-08-06 00:00:00

tags: #_독서록/2022년 #데이터 #분석 #통계

데이터 분석의 힘

Sub title: 그 많은 숫자들은 어떻게 전략이 되는가

  • 폭발하는 빅데이터 시대, 데이터 분석 이론을 수식 없이 배우다 Issue date: 2018년 08월 31일 출간 #저자/이토_고이치로 #번역/전선영 #출판사/인플루엔셜

2.질문 (책 읽전에 먼저 작성할 것)

_경험에 , 왜 읽었나 질문,궁금 등 __

Qustion 질문

  • (why) 이 책의 제목을 이렇게 지은 이유는?

  • (how) 어떻게 설명하고 있는가? 어떻게 하라고 하는가? 어떻게 해야하는가?

  • (where) 어느 곳에서 쓴 책인가? 어느 것을 위해 쓴건인가? 어디로 가야하는가? 어디에서 읽어야 하나? 그곳은 어떤 곳인가?

  • (when) 이책은 언제 쓰여졌는가? 시대적 배경은 무엇인가? 언제를 기준으로 쓰였는가? 언제 할것인가?

  • (who) 저자는 누구인가? 주인공은 누구이고 어떤 사람들이 나오나? 누구를 위해 저자는 말하는가?

  • (why) 이책을 통한 질문을 만들기

    • 질문 1.
    • 질문 2.
  • (what) 이 책에서 말하는 주제라는 무엇?

    • 알게된 것은 무엇인가?
    • 해야할건 먼가?
    • 다른 책과 다른 점은 먼가?
    • 이 책의 특징은 먼가?
  • 이책을 한두 문장으로 정리해보라.

    • 통계적 분석 기법에 대한 개념 설명 책이다.

    • 어떤 가설(정책,사건)이 영향이 있는지 확인할 때 두 집단을 비교하는것이 가장 쉽게 이해된다.

    • 개입된 집단과 개입되지 않은 집단을 비교하는 것이 가장 효과파악에 용이하지만, 현실적으로 불가능하다 RCT

    • 따라서 해당 문제점을 보완하기 위한 비교 기법을 몇가지 소개해 준다.

    • 당장 하는 업무나, 내 생활에 활용하기는 어려운 예제, 기법들이라 유익하지는 않았다

    • 간단하게 블로그 글정도로 봐도 될듯하지만, 비슷한 고민을 하는 사람들에게는 유익했을 수도 있겠다.

    • 어찌되었는지, 어떤 일(정책,이벤트)에 대한 성과를 분석하는 것은 연구개발에 중요한 과정이다.

    • 해당 정책,이벤트를 지속할 것인지 판단해야 비용율 올바로 효육적으로 사용할 수 있기 때문이다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
<오직읽기만하는바보>
1. 책정보
2. 내용
	- 주요내용/핵심 문장/핵심 표현
3. 책의 견해
	- 작가의 주장과 의견 
4. 나의 견해
	- 주제에 대해 - 책 읽기전 / 책 읽은 후
	- 만약 내가 저자였다면
5. 무엇을 생각했는가
	- 배운점 / 느낀 점/ 깨달은 점 / 기타
6. 한문장으로 요약

3.중요 문장 (책 밑줄에서 top 3 선별)

_주요 키 내용 2~3가지로 정리하기 또는 20자 정리 _

#1

#2

#3

4. 내생각

5.책 밑줄 정리 (책 밑줄 전체,page)

  • 인과관계 분석
    • 어떤일 x 가 결과 y에 어떤 영향을 미쳤는가?
  • RCT (Randomized Controlled Trial , 무작위비교시행)

1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다

어느 회사에서 광고를 집행했고, 매출이 올랐다. 매출이 상승한 원인은 광고 때문일까? 그럴 수도 있고 아닐 수도 있다. 광고와 매출 사이에 ‘상관관계’는 있다 해도 ‘인과관계’가 반드시 있는 것은 아니라는 말이다. 그동안 당신이 속아왔던 무수한 ‘잘못된 데이터 분석’은 모두 이 지점에서 시작된다.

  • 인과관계로의 착각은 ‘편향 bias’ 이라고 불린다. - 분석으로 얻은 추정치의 치우침 -

summery

  • 데이터 분석의 목적= 어떤 요인 x 가 결과 y에 영향을 미쳤는가? X -> Y 인과관계가 성립하는가 를 확인하는 것이다
  • 인과관계와 상관관계는 다르다
  • 인과관계는 데이터 관측수를 늘리는 것만으로는 파악되지 않는다.

2장 오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까

2008년 미국 오바마 대선 캠프는 구글 출신의 데이터 분석 전문가를 영입했다. 그는 후원금 모금 웹페이지를 무려 24개의 조합으로 설계했다. 그 결과 약 6000만 달러의 후원금을 ‘추가로’ 획득했다. 가장 투명하고 가장 확실한 데이터 분석법, RCT(무작위비교시행). 최적의 전략을 이끌어내는 방법이다. 단, 비용이 많이 든다!

  • 개입효과로 인과관계 정의

    • a가 개입을 받았을때의 결과와 a개입 없을 때의 결과 차이
    • a가 개입되었을 때는 a개입 없을때의 결과를 찾기 어려워 비교가 어렵다.
    • 잠재적 결과 - 실제로 일어나지 않은 잠재적인 결과 - 현식에선 측정 불가.
  • 무작위비교시행, 무작위대조시험 RCT

    • 비교집단을 반드시 무작위로 선정해야한다.

summery

  • 인과 관계를 측정하는 가장 최선의 데이터 분석법, RCT

  • 비교집단과 개입집단의 차이를 비교한다.

  • RCT 원칙

      1. 적절하게 집단을 나눈다.
      • 비교집단을 정의한다.
      • 개입집단을 만든다
      1. 집단은 반드시 무자위로 나눈다
      1. 집단별로 충분한 표본수를 채운다.
      • 실험 후 집단별로 평균값을 계산한다.
      • 평균값의 차이를 비교한다.
  • RCT 강점

    • 인과관계를 과학적으로 보여준다
    • 분석 기법과 결과가 투명하다.
  • 약점

    • 비용,시간,노력이 많이 들고, 각 기관의 협력도 필요하다.

3장 70세가 되자 병원을 많이 가기 시작했다

  • 대표적 자연실험 기법, 급격한 변화의 ‘경계선’을 찾는 RD디자인

장수하는 노인이 많은 일본에서는 70세를 전후로 의료서비스 이용이 급격히 점프한다. 69세와 70세 사이에 무슨 ‘경계’가 있는 것일까. 본인이 부담하는 의료비 비율이 70세부터 10%로 줄어드는 게 이유일까? 그게 이유라는 걸 어떻게 입증할 수 있을까? 급격한 변화의 ‘경계선’이 있는 데이터 분석법이 RD디자인(회귀불연속설계법)이다.

summery

  • 자연실험,유사실험,의사실험,준실험등의 용어로 사용된다.
  • RD 회귀불연속설계법 - 불연속과,경계선-
  • RCT를 실시할 수 없을때 자연실험을 활용할 수 있다.
  • 자연실험이란 - 실제 실험과 유사한 상황을 이용해 인과관계를 분석하는 기법
  • RD디자인은 온갖 경계선을 활용하여 인과관계에 다가서는 자연실험기법이다
    • 원칙
      • 경계선을 기준으로 1가지 요인만 비연속적으로 변화하는 상황을 찾아낸다
      • 경계선 부근에서 요인 이외의 요인이 비연속적으로 변화하지 않는지 검증한다.
    • 강점

4장 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석

각종 규제나 세금을 적용할 때는 일정 구간을 묶는 ‘계단식’ 정책이나 제도들이 많다. 이렇게 구간별로 나뉘는 데이터들은 어떻게 분석해야 할까. 특히 ‘인센티브 제도’가 이렇게 설계되어 있을 때는 어떤 현상이 벌어질까. 자동차 무게와 연비 규제의 사례를 통해, 집군분석을 알아보자.

summery

  • RCT를 실시할 수 없을때 집군분석을 활용할 수 있다.

5장 소득세를 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석

1991년 덴마크는 우수한 외국인 노동자를 유입시키기 위해 세제 개혁을 실시했다. 이로 인해 연소득 1억 이상의 외국인 노동자의 소득세가 대폭 줄어들게 되었다. 이민자수는 늘어났을까? 과연 세제 개혁 때문일까? 패널 데이터 분석은 바로 복수의 집단, 복수의 기간에 대한 데이터를 분석하기에 적합하다.

  • 패널 데이터 = 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터

summery

6장 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가

실리콘밸리는 그 어떤 곳보다 데이터 분석이 활발한 지역이다. 구글, 우버, 페이스북 등 많은 IT기업들이 엄청난 빅데이터를 확보하고 이를 비즈니스 모델에 활용하면서 무한한 시장과 만났다. 비단 기업만의 일이 아니다. 전 세계적으로 정부도 민간처럼 데이터를 활용해 효과적인 정책 입안을 하기 시작했다. 데이터가 막강한 전략으로 탈바꿈하고 있다.

summery

7장 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법

데이터를 분석하는 과정은 초밥 장인이 초밥을 만드는 과정과 닮았다. 솜씨 좋은 장인이 초밥을 만들더라도 재료가 형편없으면 먹을 수 없는 초밥이듯이, 데이터 자체에 문제가 있다면 분석 기법이 탁월해도 신뢰할 만한 결론을 도출해낼 수 없다. 이밖에 외적 타당성 확보 문제나 출판 편향 등의 한계 등 ‘잘못된 재료’를 선택하지 않을 수 있는 방법은 무엇일까.

summery

추천 도서

6.연관 문서

continue
Hugo로 만듦
JimmyStack 테마 사용 중