"데이터 과학의 구체적인 기술을 습득하는 데 초점을 맞추기 이전에, 데이터 기반으로 사고하는 방법을 익혀야 한다."  ■ 책을 읽고 나서 전체적으로 잊고 있던 통계적 지식을 다시 한 번 복습함과 동시에  부족하다고 느...

[책 리뷰] 헬로 데이터 과학



"데이터 과학의 구체적인 기술을 습득하는 데 초점을 맞추기 이전에, 데이터 기반으로 사고하는 방법을 익혀야 한다."

 ■ 책을 읽고 나서

전체적으로 잊고 있던 통계적 지식을 다시 한 번 복습함과 동시에  부족하다고 느꼈던 갈증을 어느정도 해소했다. 또한 마지막 챕터에 있는 예시는 오프라인에 치중되어 있는 산업을 잘 대변했다고 생각한다. 때로는 이해가 완벽히 되지 않는 부분도 있었지만

입문서의 개념으로 편하게 읽어나가니 전체적인 맥락이 잡히는 느낌이다. (일정에 쫓겨 틈나는 대로 읽어 연결이 안되는 걸 수도...) 나중에 DB를 구축하고 나서 다시 한 번 읽어 볼 생각이다.

현재 축적 중인 고객 데이터가 아직은 무의미하지만 데이터가 쌓이면서 같이 실행한 설문조사는 점점 공통적인 항목을 나타내고 있다. 구축된 DB에서 유의미한 데이터 분석을 실행하기 전까지 많은 사례를 공부하며 실력을 쌓는 것이 중요할 것 같다.


이하 갈무리

프롤로그
필자는 데이터 과학에 관심을 갖는 여러분에게 다음 사항을 제안하고 싶다.
- 문제 정의에서 시작하라: 문제 해결에 초점을 맞춘 데이터 과학의 방법론에 주목
- 스몰데이터로 시작하라: 문제 해결에 초점을 맞추다 보면 빅데이터는 크게 필요하지 않다.
- 주변에 있는 도구로 시작하라: 엑셀에서 부터 시작하여 향후 R, Python으로 발전
- 간단한 분석 기법으로 시작하라: 신뢰구간의 계산과 같은 간단한 통계 기법으로도 데이터 분석이 가능하다. (p29 ~ 30)

Chapter.1 데이터 과학 입문
- 빅데이터를 작게 만들 수 있다: 통상적인 방법은 테이블 관점에서 필요한 행과 열만 선택하거나, 집계를 통해 개별 데이터를 그룹화하는 것이다. (P47)

스몰데이터로 시작하라
다만, 데이터 크기를 줄이는 과정에서 문제 해결이라는 목표를 두고 타협하지 않아야 한다는 점을 명심하자. 이는 앞에서 설명한 데이터 품질 관점에서 데이터의 완전성과 정확성을 유지해야 한다는 의미다. (P47 ~ 48)

데이터 습관을 길러라
자신의 상사나 고객의 생각을 바꾸는 것이 쉽지 않기에 분석가들은 때로 분석 결과를 관계자들이 원하는 쪽으로 맞추고자 하는 유혹을 받기도 한다. 이런 유혹에서 벗어나 진실을 지키려는 노력이 필요하다 (P57)

Chapter.3 문제 정의와 데이터 수집 및 준비
데이터 분석 단계

1. 주어진 데이터를 탐색하며 다양한 패턴을 발견하고 가설을 세우는 단계 (탐색적 데이터 분석)-> 어떤 현상을 파악, 탐색한다
2. 현상에 대한 가설을 다양한 실험으로 검정해보는 단계 (통계적 추론)
-> 현상 X, Y에서 나온 요인의 상관관계를 분석
3. 우리가 관심을 갖는 현상을 예측하는 단계 (기기학습) (P113)
-> 가설과 분석 결과가 타당한지 검증 + 비판적 사고 탑재

데이터 문제 정의하기
- 문제의 목표는 무엇인가?
- 문제의 범위는 정확히 어디까지인가?
- 문제 해결의 성공 및 실패의 척도는 무엇인가?
- 문제 해결에 있어서의 제약조건 (시간과 비용 등)은 무엇인가? (P117)

관찰형 연구와 통제형 실험
들어가기에 앞서
주어진 현상을 구체적인 지표로 치환하다 보면 원래 생각했던 현상의 일부만을 측정하게 되는 경우가 생긴다
→ 보완적인 지표를 생각하여 데이터를 분석해야 함 (P130)

관찰형 연구(Obeservational Study):  인위적인 데이터 조작 없이 데이터를 수집 / 현실적으로 어려움 있음 ↔ 통제형 실험(Controlled Experiment): 변인의 변화에 따른 영향을 관찰 (A/B Test) (P132 ~ 133)
■  Ex. 경제 통계시간에 배운 루즈벨트 대통령 선거

Chapter.4 데이터 분석과 스토리텔링
- 난수 함수를 통한 Sample 만들기: Sample 행 생성 → =rand() 함수 삽입 → 오름차순 정렬 → N개 추출 (P167 ~ 172)
- 히스토그램 활용 (범위에 따른 값 설정 후 차트 생성): 임의의 열에 구간을 설정 (0, 10, 15 ...) → 히스토그램 → 입력 범위에 데이터 전체 값 + 계급 구간은 작성한 범위를 설정 주어진 속성값의 분포를 확인할 때 유용 (P177)
■ 분석이든 뭐든.. 핵심

데이터를 막상 받아든 분석가는 백지 상태에서 데이터를 보기 위해 노력해야 한다 (P182)
■ 난수 함수 + 피벗을 통한 분석은 지금 하고 있는 업무에 상당히 유용할 것이라고 생각한다.

- 신뢰구간의 정확한 개념: 신뢰구간의 신뢰도는 개별 신뢰구간에 대해 정의되는 것이 아니라 모집단의 평균을 포함하는 신뢰구간의 비율을 가리키며, 표본의 크기가 커짐에 따라 신뢰구간이 좁아지는 점을 알 수 있다. (P194)
■ '95%확률로 모집단의 평균을 포함합니다' 는 틀린 표현



0 Comments: