메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

파이썬으로 배우는 통계학 교과서

기초 이론부터, 모델, 머신러닝까지

한빛미디어

번역서

절판

  • 저자 : 바바 신야
  • 번역 : 윤웅식
  • 출간 : 2019-11-22
  • 페이지 : 380 쪽
  • ISBN : 9791162242452
  • eISBN : 9791162248225
  • 물류코드 :10245
  • 개정판정보 :개정판이 새로 출간되었습니다. 개정판 보기
  • 초급 초중급 중급 중고급 고급
4.7점 (11명)
좋아요 : 7

이론이나 수식을 몰라도 파이썬 함수로 이해하는 통계학 

데이터 분석에 관심이 높아지면서 통계학이 주목받고 있다. 이 책은 데이터 분석 관점에서 통계학을 설명한다. 어려운 통계학 개념을 이론, 수식, 파이썬 코드로 세 번 살펴본다. 한 번 보고 완전히 이해하지 못해도 여러 번 반복 설명하므로 읽는 동안 점점 이해도가 올라간다. 단순한 기술 설명뿐 아니라 예측에 사용하는 분석용 통계학과 머신러닝의 관계까지 알아본다.

 

데이터 분석에서 머신러닝까지 파이썬으로 배우는 통계

데이터 분석에 통계 지식은 필수지만 모든 개발자가 통계 전문가일 필요는 없다. 이 책은 통계를 모르는 개발자나, 파이썬과 통계 둘 다 모르는 독자가 데이터 분석에 필요한 통계를 배우는 데 적합하다. 1장에서 통계 기초를, 2장에서는 파이썬 기초를 다루며 이를 바탕으로 3장에서는 파이썬으로 데이터 분석에 필요한 통계 기법을 학습한다. 이후 데이터 분석에 필요한 기본 통계모델을 학습하고, 정규선형모델,  일반선형모델을 거쳐 머신러닝까지 확장한다. 통계에 관한 세세한 노하우와 팁보다는 통계 용어와 기본 수식, 간단한 파이썬 문법으로  구현하는 데 집중하여 통계학 기초를 다지는 데 최선을 다했다. 

 

주요 내용

  • 통계학 기초
  • 파이썬 기초와 주피터 노트북 설정
  • 파이썬을 이용한 통계 분석
  • 정규선형모델과 일반선형모델
  • 통계학과 머신러닝 연계

파이썬으로 배우는 통계학 교과서_상세이미지_700.jpg

 

바바 신야 저자

바바 신야

2014년 홋카이도 대학 수산과학원을 수료했다. 2020년 11월부터 도쿄의과치과 대학 비상근 강사, 2021년 2월부터 이와테대학 객원 부교수, 2022년 4월부터 테이쿄 대학 특임 강사를 맡고 있다. 통계학, 예측 분석, 파이썬, R 등을 다루는 Logics of Blue(https://logics-of-blue.com/)라는 웹사이트도 관리하고 있다.

저서로는 『平均・分散から始める一般化線形モデル入門』(プレアデス出版, 2015), 『時系列分析と状態空間モデルの基礎:RとStanで学ぶ理論と実装』(プレアデス出版, 2018), 『RとStanではじめるベイズ統計モデリングによるデータ分析入門』(講談社, 2019), 『R言語ではじめるプログラミングとデータ分析』(ソシム, 2019), 『意思決定分析と予測の活用基礎理論からPython実装まで』(講談社, 2021) 등이 있다.

 

윤웅식 역자

윤웅식

끊임없이 도전하고 배우는 개발자 또는 해결사. 키보드로 먹고산 지 꽤 오래된 것 같은데 아직도 배울 게 산더미라는 사실만 깨닫고 있다. 여러 스타트업을 전전하다 대기업으로 간 뒤 최신 기술의 최전선에서 구르는 중이다. 

좌우명은 “그럴 수도 있지!”

 

 

 

CHAPTER 1 통계학 기본

1.1 통계학 

1.2 표본을 얻는 과정 

1.3 표본을 얻는 과정의 추상화 

1.4 기술통계 기초 

1.5 모집단분포 추정 

1.6 확률질량함수와 확률밀도함수

1.7 통계량 계산

1.8 확률론 기본

1.9 확률변수와 확률분포

 

CHAPTER 2 파이썬과 주피터 노트북 기초

2.1 환경 구축

2.2 주피터 노트북 기본

2.3 파이썬 프로그래밍 기본

2.4 numpy와 pandas 기본

 

CHAPTER 3 파이썬을 이용한 데이터 분석

3.1 파이썬을 이용한 기술통계: 1변량 데이터

3.2 파이썬을 이용한 기술통계: 다변량 데이터

3.3 matplotlib과 seaborn을 이용한 데이터 시각화

3.4 모집단에서 표본 추출 시뮬레이션

3.5 표본 통계량 성질

3.6 정규분포와 응용

3.7 추정

3.8 통계적가설검정

3.9 평균값의 차이 검정

3.10 분할표 검정

3.11 검정 결과 해석

 

CHAPTER 4 통계모델 기본

4.1 통계모델

4.2 통계모델을 만드는 방법

4.3 데이터의 표현과 모델의 명칭

4.4 파라미터 추정: 우도의 최대화

4.5 파라미터 추정: 손실의 최소화

4.6 예측 정확도의 평가와 변수 선택

 

CHAPTER 5 정규선형모델

5.1 연속형 독립변수가 하나인 모델(단순회귀)

5.2 분산분석

5.3 독립변수가 여럿인 모델

 

CHAPTER 6 일반선형모델

6.1 여러 가지 확률분포

6.2 일반선형모델의 기본

6.3 로지스틱 회귀

6.4 일반선형모델의 평가

6.5 푸아송 회귀

 

CHAPTER 7 통계학과 머신러닝

7.1 머신러닝 기본

7.2 정규화와 리지 회귀, 라소 회귀

7.3 파이썬을 이용한 리지 회귀와 라소 회귀 

7.4 선형모델과 신경망

7.5 이 책 다음으로 배울 것

많은 인공지능 모델, 특히 초기의 머신러닝 모델의 대부분은 통계모형을 기반으로 하고 있다. 필자도 대략 통계 모델을 어떤 상황에 쓰면 좋은지, 어떤 특징을 갖는 지 정도는 인지하고 있지만 그 개념과 원리에 대해서는 자세히 알지 못한다. 이에 대한 궁금증과 갈증이 있는 인공지능 개발자에게는 무척 도움이 될 것이다. 다만 통계학의 수학적 내용을 깊이 파고들고 싶거나 딥러닝 등 통계기반 모델이 아닌 인공지능에 관심이 있다면 거리가 멀 수 있다.
굳이굳이 리뷰 제목에 '2판'을 추가한 이유는 초판에 비하여 많은 내용들이 개편되었기 때문이다. 이전보다 초보자가 이해하기 쉽도록 쓰여졌고 (독자가 여러 이유로 통계학을 이해하지 못하는 일이 없도록 구성하였다고 자신있게 기술하였다) 실습 코드도 새롭게 추가되고 자세해졌다. 실제로 챕터 2에서 환경 셋업과 함께 파이썬 기본 문법을 소개하고 있어, 코드 작성을 처음 해 보는 사람에게도 추천할 만하다. 이 책이 처음이든, 초판을 읽었든 두 케이스 모두 읽을만한 가치가 있는 통계 바이블이다.
챕터 5부터는 다소 어려워지는데, 개인적으로 최근에 준비했었던 빅데이터분석기사 시험에도 많은 도움을 줄 것이라고 생각되었다. 특히 실습 3유형은 광범위하면서도 통계적 수준이 어느정도 있었었어야 하는데, 당시 시험볼때는 용어-코드 달달 외우기만 했었다. 이렇게 개념과 함께 실습을 하니 다시금 이해가 되었다. 
"한빛미디어 <나는리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
출처: https://sysout.tistory.com/111 [Emily's Tistory:티스토리]

0. 데이터 분석? 통계학?

여러분은 데이터 분석을 하는데 제일 처음 배워야 하는 것이 무엇이라 생각하시나요? 사실 데이터 분석은 통계학 부터, 컴퓨터 프로그래밍, 데이터베이스 등 배워야 할 것이 너무나 많습니다. "선생님, 저는 데이터 분석 과학자가 되고 싶어요뭐 부터 공부할까요?" 이런 질문을 받으면, "음~" 하고 뜸을 드리게 됩니다.


그림1.png

 

1. 왜? 통계학을 공부해야하죠? 프로그래밍은요?

통계학은 데이터 분석에서 운동에 비유한다면 기초체력에 해당합니다. 모든 운동에서 기초체력 중요하듯 데이터 분석에서는 통계학이 매우 중요합니다. 최근에 데이터분석 알고리즘에 관해 각종 매체에서 접할 기회가 많다보니, 실무에서 간단하게 알고리즘을 학습하고, 활용하는 경우가 많습니다. 하지만, 왜 이렇게 되는지, 정말 이 결과가 바른지 검정하지 못한다면, 실무에 이를 활용하는 건 너무 위험하지 않을까요? 결국 기본으로 돌아가통계학을 다시금 살피게 됩니다.

그렇다면 프로그래밍?

여러분들은 프로그래밍이라고 하면 어떤 단어가 떠오르게 되나요? 저는 로봇, 자동, 오토메이션이라는 단어가 자주 유추됩니다. 실무에선 프로그래밍을 이런 분야에 사용하는 경유가 많습니다. 내가 해야하는일을 다른 누군가가 도와 주어야하는데, 기계 즉 컴퓨터가 도와준다면, 정말 멋진일이겠죠? 데이터분석도 마찬가지로, 데이터 분석의 전과정, 수집, 가공, 분석, 검정, 결과 도출 등의 일련의 과정을 프로그래밍으로 통해 자동화한다면, 정말빠른시간에 다양한 분석을 수행하 수 있을 것입니다.

2. 파이썬으로 배우는 통계학 교과서, 이 책이 특징

이 책을 소개하기 위해, 긴 도입을 가졌습니다. 이 책은 통계학을 공부함과 동시에 프로그램으로 이를 실제 구현하고, 활용할 수 있도록 여러분들을 인도합니다. 물론 통계학을 공부하는 것만으로도 벅찰 수 있지만, 조금의 인내심 가지고 그 과정을 프로그램으로 만들면, 언제든지 손쉽게 다시 쓸 자동화 도구를 가질 수 있습니다. 그러면 자신도 모르게 능력이 변한 것을 느낄 수 있습니다.

이 책의 특징은 통계학의 기본 개념으로 파이썬을 가지고 구현하는 것입니다. 기초 통계학을 시작으로 파이썬과 주피터 노트북, 파이썬을 이용한 데이터 분석, 통계모델 기본, 정규선형 모델, 일반선형 모델, 통계학과 머신러닝까지 폭 넓은 내용을 제공합니다.

3. 장별 내용 소개

파이썬과 주피터 노트북은 30page에 걸처 설명하고 있습니다. 이 책을 소화하는데 큰 문제는 없을 정도로 정보를 제공하지만, 아무래도 프로그래밍을 처음 해보시는 분들이라면 기본적인 프로그래밍에 대한 입문 공부는 병행하는 것이 학습에 도움이 되실 것 같습니다.

1장에서는 통계 기본을 3장에서는 다변량 분석에 대해서 학습이 진행됩니다. 데이터 분석에 대해서 데이터의 특성을 파악할 수 있도록 내용을 담고 있습니다. 특히 다양한 시각화와 예시를 통해서 좀더 쉽게 이해할 수 있도록 내용을 구성했는데, 이 책의 강점이기도 합니다. 프로그래밍에 대한 결과 및 분석사항을 간단한 시각화를 통해서 계속적으로 학습시켜, 보통 통계를 접하지 않은 일반인들?(아무리 그래도 조금은 관심이 있는 그리고, 파이썬으로 데이터 공부를 조금이라도 한~ 정도입니다.)이 쉽게 이해할 수 있도록 코드와 예시를 제공합니다.


그림2.png

 

이 부분은 책에서는 무려 총 110페이지를 할애하여 설명하고 있습니다. 매우 중점을 둔 부분이라고 할 수 있겠습니니다.

4장에서는 통계모델의 기본으로 다룹니다. 각종 모델의 소개(수리모델, 확률모델, 통계모델) 부터, 통계모델을 만드는 방법, 그리고, 데이터의 표현과 모델의 명칭등을 이야기 합니다. 이장은 데이터 분석에서 다루는 용어들의 이해도를 높이기 위한 장으로, 각 내용에서는 아 ~ 이런 내용을 가리키는 용어였구나~ 하도록 학생들에게는 매우 기본이지만 반드시 숙지가 되어야하는 내용을 정리하였습니다. 저의 경우엔 이 부분을 강의나, 혹은 책을 기술할 때 주석이나 보조내용으로 학생들에 보여주면 참 좋겠다는 생각이 들었습니다.

 

 

그림3.png

 

 

이 부분은 조금은 쉬어가는 부분으로 총 34페이지로 구성되어 있습니다.

5장에서는 정규선형모델을 다룹니다. 이 부분에서 초반에 참 인상깊었던 것은 요약함수에 대한 여러가지 파라미터 설명을 잘 눈에 들어오도록 설명한 것입니다. 이 부분들은 사실 중요하나, 언급을 간단하게 하고 넘어가는 것으로 상세하게 모든것으로 이해하고 있기 보단, 필요한 것만을 공부하고, 취하게 됩니다. 그렇지만, 이 책에서는 이 부분을 하나하나 짚으면서 설명해서, 공부를 하는 학생들이 좀더 기초가 튼튼하학습할 수 있도록 내용을 제공합니다. 일부 파라미터의 특성은 자세하게 기록하고 있어, 실제 분석에 많은 섬세한 테크닉을 익힐 수 있도록 제공합니다. 저도 이 책을 보고 많은 도움 받았네용~

 
 
 

 

그림4.png

 

 

 

이 부분은 총 49페이지를 통해 설명을 하였으며, 정규선형 모델을 설명하는 부분에서, 상당히 도움이 되었습니다.

6장 일반선형 모델의 경우 정규분포 이외의 확률분포를 사용하는 방법에 다루며, 이항분포, 푸아송분포, 지수형 분포등을 학습합니다. 이 부분에서도 정규선형모델과 동일하게 로지스틱, 푸아송 회귀 회귀분석에서 자세한 Summary 를 제공, 설명을 통해 이해를 돕습니다. 이 책은 사실 통계학을 시작하는 입문자들을 중심으로 다뤄지는 사항이라, 여기 부터는 개론 및 간단한 이해를 중심으로 합니다. 사실 6장의 경우는 실제 더 많은 내용의 지식과 경험 기반지식을 가지고 있어야 실제 활용을 할 수 있습니다. 이 장과 7장의 경우 이런 부분에서, 앞으로 이 책 이후에 학습할 내용에 대한 가이드를 중심으로 하고 있어서, 여기에 다루는 내용외에 고급과정에서 배우는 내용들을 좀더 다루는 것이 필요하다고 생각이 듭니다.

맺음말. 파이썬 파이썬 하는데 실제 라이브러리는 어떤걸 쓴다는거야?

마지막으로 이 부분을 지적하면서 끝내야 겠습니다. 사실 파이썬은 매우 다양한 라이브러리가 제공됩니다. 문제는 어떤것들이 검증되고, 데이터 분석을 실무로 하시는 분들이 이용하냐죠. 이 책은 통계학을 파이썬을 통해 하나하나 그 내용을 설명합니다. 하지만 여기서 하나 알아할 것은 이 책이 다루는 라이브러리는 검증된 것이고, 보편적으로 이용되는 것이라는 점입니다. 실무를 하다보면, 이런 부분을 미리 검토해야하는 점이 발생합니다. 여러분들은 이 책을 통해 통계학도 배우고 파이썬에서 다루는 검증된 통계라이브러리도 익히는 일석이조? 큰 특징이라고 할 수 있겠습니다.

"파이썬으로 배우는 통계학 교과서" 

 

 

파이썬으로 많은 것 (인공지능, 웹, 크롤링 등) 을 할수 있지만 데이터 분석 ,인공지능 공부에 어려움이 있어서 몇몇 기본서적 (입문서적)을 읽어 왔는데 이번에는 통계학 입문서인 "파이썬으로 배우는 통계학 교과서"를 읽게 되었다. 

 

 

 

책의 "이책에 대하여"와 같이 이책은 

1. 데이터는 어떻게 분석하는가?

2. 왜 그렇게 분석하는게 좋은가?

3. 파이썬을 사용해서 어떻게 분석하는가?

를 설명하고 있었다. 

보통 다른 책은 용어 , 수식 그리고 왜 쓰는지를 설명하지 않아서 통계 수학 공식만 보고 이해를 하다가 포기 또는 다음 내용으로 넘어 갔었는데 이책은 좀 지나치다 싶을 정도로 레퍼런스 같이 하나의 항목에 대해서 파이썬 코드, 이미지, 표, 공식 등을 자세하게 설명하고 있고 어떻게든 통계를 이해할수 있도록 상세하게 지도하는 책이었다. 그리고 책 내용이 연결이 잘되어 있어서 하나씩 하나씩 하다 보면 통계의 큰 그림을 볼 수 있는 책이었다. 상세한 내용은 다른책을 통해서 해야 하겠지만 기본적인 그리고 입문하는 내용에 맞게 책이 쓰여있었고 전체적인 통계의 항목 및 그림을 학습을 할 수 있었다. 

 

 

크게 이책은

1. 통계학 기본

2. 파이썬과 주피터 노트북 기초 

3. 파이썬을 이용한 데이터 분석

4. 통계모듈 기본

5. 정규선형모델

6. 일반선형모델

7. 통계학과 머신러닝

으로 구성되고 있고 각각의 chapter는 많은 소주제 및 목차로 각각에 대한 설명을 하고 있었다. 다른 책과 다르게 좀 지나치게 많은 목차 chapter로 구성되어 있는 책이었다. 전체 페이지는 380 정도인데 정말로 많은 내용을 담고 있는 입문서, 기본서라고 할수 있을것 같다. 

 

 

다른 데이터 분석, 인공지능 하기 전에 레퍼런스 또는 정리용으로 해당 책을 추천할수 있을것 같다. 

무난하고 좋은 책이고 통계나 수학에 대한 레퍼런스 용으로 딱 좋은 책이라고 생각된다. 

 

 

KakaoTalk_20200823_185912630.jpg

 

 

 

책은 전공 점추정과 구간추정, 그리고 최대우도와 분산분석까지, 머신러닝과 품질관리등 많은 산업군에서 기본적으로 필요한 통계 지식을 다루고 있습니다. 산업공학과 커리큘럼으로 보자면 기초통계와 응용통계학 1 수준의 범위가 되는 같습니다. 하지만 매우 상세한 설명과 이해하기 쉬운 도식으로 처음 통계를 접하거나 자신이 없는 분들이 접하기에 좋을 같습니다. 특히 처음에 많이 헷갈리는 부분인 평균과 분산에 따른 데이터 분포 차이와 공분산을 매트릭스로 설명하는 부분 등은 저에게도 직관적인 이해에 많은 도움이 되었습니다.

책은 통계적인 개념을 알려줄 아니라 요근래 머신러닝에 많이 사용되는 파이썬과 넘파이(numpy),판다스(pandas) 같은 라이브러리를 활용하여 통계량을 계산하고 분산분석과 선형 모델을 개발하는 이론과 실기를 동시에 나가는 전공 수업과 비슷한 커리큘럼을 가지고 있습니다.

아마 많은 분들이 전공 과목으로 통계학을 들을 ,  손으로 계산하거나 엑셀, 미니탭, R 같은 툴을 이용하여 계산했을 것입니다. 그리고 아직도 위와 같은 고전적인 툴을 이용하여 통계학을 설명하는 책들이 많습니다. 물론 위에서 언급된 툴들이 강력하고 활용도가 높은 것은 사실이지만, 지금 통계학을 공부하고자 하는 분들의 대부분은 머신러닝과 딥러닝에 관심을 가지고 있을 것이고, 그렇기 때문에 위에서 언급한 미니탭과 R보다는 많이 사용되는 파이썬으로 공부하기를 원할 것입니다. 그러한 점에서 책은 독자의 니즈를 꿰뚫어본 책이라고 생각됩니다.

 

책을 보기 전까지 파이썬으로 R처럼 분산분석이나 회귀모델, 통계적 검정을 유연하게 있을까라는 생각을 했었는데, statsmodels라는 라이브러리를 통해서 R 사용하는 처럼 활용할 있다는 것을 새로 알게되었습니다. R 비슷한 API 출력 형식을 사용하므로 기존에 R 통계를 배웠던 분들도 거부감 없이 활용할 있을 같습니다.

 

총평

저는 근래 입시를 준비하며 통계 개념들을 다시 살펴보기 위해서 여러 책들을 찾아보고 있었습니다. 그리고 참고하기 위해 찾아본 많은 책들은 빠르게 훑어보기에 너무 딱딱하거나 너무 얕은 범위를 다루고 있었습니다. 기존에 통계를 공부한 적이 있는 사람이라면 가볍게 리뷰할 있는 , 그리고 처음 공부하는 분들에게는 자주 사용되는 내용을 좌절감을 느끼지 않으며 공부할 있는 책입니다. 이러한 관점에서 책을 마디로 요약하자면 적당한 범위와 적당한 수준의 범위를 다루는 실용적인 이라고 있을 같습니다.

 

오늘 리뷰할 도서는 [파이썬으로 배우는 통계학 교과서]

 
 
 
통계와 수학은 학교 다닐때도 엄청 싫어하고 못해서 난감했던 내용이다.
 
그런데 일/자기 개발 때문에 데이터 분석/머신러닝을 하다 보니 자꾸 나오는게 통계와 수학이다.
 
피할수 없으면 결국 받아들여야 하는거고 이해가 안가더라도 자꾸 들여다보는수밖에 없으니...
 
이 책은 그나마 머리 아픈 통계를 학문적으로만 설명하는게 아니라 "파이썬"으로 설명하고 있으니 

그나마 좀 가까이 하기에 좋은편이라고 할까나.

원서는 일본 서적이지만 번역에 어색함은 없어보인다. 예전에 우리나라의 수학이랑 통계 같은 것들은 모두

일본에서 받아들인거라 일본식 용어 같은것들이 많다고 들었다. 그리고 학창 시절에 들어봤던 용어들이 그대로 등장한다.

여전히 잘 모르는 통계지만 중간에 파이썬으로 데이터 분석에 필요한 넘파이, 판다스 내용까지 살짝 다루고 있어서 

이런 부분은 좋았다. 시각화에서는 특히 matplotlib 만 사용한게 아니라 seaborn 까지 사용하고 있어서 보기에 아주 좋았다

아무래도 matplotlib 만 사용하면 좀 투박해보인다거나 촌스러운 느낌이 나니까.

책에서 챠트나 그림 부분은 파란색 계열로 인쇄가 되어 있었다. 


실제 예제를 실행해보니... 어라? 이거 많이 본 예제인데 왜 흑백? 자세히 보니 옵션으로 일부러 흑백으로 한것이다.

왼쪽이 원본 예제이고 오른쪽이 옵션 빼버려서 이쁜 컬러로 나오게 한것이다. 컬러로 했으면 이처럼 이쁘게 보일것을 

왜 흑백 옵션을 했는지는 잘 이해가 안가는 부분이다.

 
그리고 특히 맘에 드는 점은 !!! 책 뒷부분에 요즘 핫한 머신내용에 대해 자세히는 아니지만 전반적으로 쭉 둘러보고 있다.

프로그래밍이나 기술 서적이 아닌 이론/학문 서적들도 실용적인 부분과 접목해서 나오면 좋을거 같다는 느낌을 많이 주는 

이 책이 아주 맘에 든다. 마지막으로 잉크에 물에서 번지는 듯한 표지 디자인도 아주 멋지다는~

 

<파이썬으로 배우는 통계학 교과서>, 바바 신야 지음, 윤웅식 옮김, 한빛미디어, 2020

 

기업에서 보통 투자 의사결정을 위해 미래예측을 한다. 미래의 발생가능한 매출과 이익을 산출해 투자한 자금의 회수기간이 어느 정도인지 가늠하는것이다. 이때 미래 예측에 여러 경영 변수들을 적용하는데, 기본은과거의 연평균 성장률을 사용한다. 경영 변수가 적다면 최근 3개년또는 최근 5개년 연평균 성장률로 앞으로도 성장할 것이라 가정한다.

 

그런데 과거 연평균 성장률은 미래 실적을 담보하지 않는다. 예측력이높지 않다는 뜻이다. 이런 현실적 한계에도 불구하고 대안이 없어 연평균 성장률을 습관적(?)으로 사용한다.

 

그러한 가운데 빅데이터와 머신러닝으로 미래 예측이 가능하다는 말에 솔깃해 아무 것도 모르면서 무작정 뛰어들었다. 누구나 쉽게 배울 수 있다는 파이썬 입문서를 사서 열심히 따라했다. 실습을통해 기본 사용법과 명령어를 익혔지만, 통계 기반의 데이터 분석력이 없으면 활용에 제한이 있다는 것을깨닫게 되었다.

 

통계학에 대한 지식이 부족하고, 통계학과 파이썬을 어떻게 연결해 사용해야 하는지 잘 몰라 막막했다. <파이썬으로배우는 통계학 교과서>는 이 부족한 부분을 채워주는 책이었다. 통계학의기초부터 파이썬의 기본과 통계 분석 방법에 대해 설명하고 있다. 또한 이를 바탕으로 통계학을 이용한예측 개념에 대해서도 설명하고 있다.

 

여전히 통계학에 대한 지식이 부족하고, 파이썬 활용에는 제한적이지만, 파이썬 활용 중 사전처럼 빠르게 찾아서이해하고 활용할 수 있을 것으로 기대된다.

 

이 책을 읽기 전까지 통계와 관련된 여러 책들을 봤었다. 지금까지 봤던 책들은 대부분 너무 어렵거나 파이썬이 아닌 R로 설명이 되어 있어서 적당한 수준의 파이썬 통계책이 있었으면 좋겠다고 생각했을 시점에 이 책을 보게 되었다.

너무 어려운 수준의 통계용어와 수식은 읽고나서도 무슨 내용인지 어떻게 적용해야 될지 감이 잘 오지 않았는데 이 책은 파이썬의 고수준 라이브러리인 seaborn, scipy 등을 사용해서 설명하기 때문에 어려운 통계 지식을 추상화해서 익혀볼 수 있다는 장점이 있다.

추상화해서 익혀보고 더 궁금하면 여기에서 좀 더 깊게 들어가는 책을 보면 좋을거 같다.

분량도 너무 두껍지 않고 들고다니기 적당한 두께라 읽을때도 부담없이 읽을 수 있었다. 물론 이 책은 내가 주로 사용하는 시각화 도구가 seaborn 이라 더 쉽게 느껴졌을 수도 있을거 같다.

seaborn은 matplotlib을 고수준으로 추상화해서 복잡한 통계연산에 대한 이해가 없더라도 데이터를 넣어주면 짠! 하고 다양한 통계적 연산을 통한 그래프를 그려볼 수 있다.

여기에서는 물고기 낚시를 통해 설명을 하는데 적절한 비유를 통한 설명도 이 책의 장점이다.

이 책의 목차를 보게 되면 기본적인 기술통계값에 대한 이해를 도울 수 있는 설명부터 데이터분석, 머신러닝, 딥러닝에 필요한 확률과 회귀에 대한 개념을 적절하게 추상화해서 설명해 준다.

이렇게 추상화를 통해 설명할 수 있는건 matplotlib을 사용하기 쉽게 만들어 놓은 seaborn 덕도 클것이라는 생각이 든다. seaborn은 파이썬 시각화 도구 중에 가장 자주 사용하는 도구인데 기본적인 통계적인 지식을 이해하고 있다면 쉽게 활용해 볼 수 있다.

그리고 책 후반부에는 통계학과 머신러닝, 딥러닝까지 연결해서 설명을 해준다.

코드 예제는 파이썬, 주피터 노트북이 있다면 대부분 간단한 코드로 되어 있기 때문에 바로 따라해 볼 수 있을 정도다. 요즘 생활코딩의 머신러닝 야학을 듣고 있는데 '적게 배워서 최대한 많이 써먹을 수 있는 전략'이 나오는데 이 책이 그런 역할을 해주고 있지 않나 싶다.

[평균과 분산과 데이터의 범위에 대한 그림] 중학교 때 배웠던 평균, 분산, 표준편차도 막상 업무에 적용하려면 어려울 때도 있다. 그림으로 이해하기 쉽게 설명을 해주고 있다.

[구간추정 결과의 해석] 뉴스나 신문기사에서 신뢰구간에 대한 용어를 가끔씩 듣게 되는데 이 신뢰구간도 간략하게 잘 설명이 되어 있다.

[신뢰구간의 계산]

[다중공선성]

[선형모델과 비선형모델의 차이]

파이썬으로 된 "쉬운" 통계책이 있었으면 좋겠다고 생각해 왔었는데 이 책이 그 답이 아닐까 싶다. 또, 코드 몇 줄로 다양한 통계연산을 구현할 수 있는 파이썬의 여러 라이브러리 덕도 클것 같다. 이 책은 "나는 리뷰어다" 이벤트 전에도 도서관에서 빌려와서 읽었던 책인데 코로나19로 도서관이 휴관을 하게 되어 장기간 대출해서 읽어봤던 책이기도 하다. 이번 이벤트를 통해 자주 꺼내 읽고 싶다는 생각이 들어 다시 읽어보게 되었다.

20200819_152742.jpg

 

데이터 분석 업무를 하면서 데이터의 특성을 파악하기 위해 사용하는 알고리즘들을 이해하고 잘 표현하기 위해, 최근 통계학 학습의 필요성을 느끼고 있었습니다.

이 책은 기초 통계를 파이썬 코드를 통해 학습할 수 있다는 점이 큰 장점입니다. 책의 내용을 따라 학습하다 보면 빠르게 기초 통계를 습득하고 사용할 수 있을 것 입니다.

다만, 통계와 파이썬을 사용해 보지 않은 사람을 대상으로 쓰여진 것 같아 내용의 깊이가 아쉬웠습니다.

통계학을 전혀 공부해 보지 않았고 파이썬도 익숙하지 않지만 통계학 공부를 시작해 보려 하시는 분들에게 추천드립니다.

SAM_8757.JPG

 

저는 통계학 전공이 아닙니다. 그럼에도 가끔 한빛 리뷰어 신청할 때 통계학 서적이 올라오면 신청해서 읽어봅니다. 딥러닝에 관심 있는 저에게, 알아도 도움될지도 모를 그 책들을 읽으면서 통계학의 그 복잡한 개념 정의에 숨이 탁탁 막혀옵니다. 왜? 전 그 통계학 책들을 선택했을까요? 아무래도 전공이 아닌 입장에서 제 실력과 알아야 할 통계학 범위를 잘 몰라서, 아무책이나 눈에 보이는 대로 선택하는 것은 맞습니다. 그러다 보니 제 수준에 맞는 책을 고를때도 있고, 잘못 고를때도 있는 것 같습니다.

 

통계학이 국가학이고, 또 데이터 탐색을 할때 기술적 통계가 많이 사용되다 보니, 매번 사용하는 통계 지식을 넘어 좀 더 잘 이해하기 바라는 마음에서 읽기 시작하는 것 같습니다. ^^
 

SAM_8758.JPG

 

이번에 선택한 책도 목차를 보시면 아시겠지만, 통계 개념들이 엄청 많습니다. 요즘에는 시각화 툴(요즘 MS 파워 BI로 공부하고 있습니다)이 워낙 잘 나와서, 약간의 통계 지식과 시각화 객체를 다룰줄 알면 여러 어려운 개념들을 몰라도, 데이터 탐색을 할 수 있게 되었습니다.

 

SAM_8759.JPG

 

이번 책의 장점으로 이 많은 개념들을 강에서 고기를 잡는 이야기로 쉽게 풀어서 설명한다는 점입니다. 읽다가 보면 어~어~ 하면서 이해합니다. 그런데 암기력이 좀 떨어지는 저는 몇 장을 넘어가면 그 사이에 개념들을 잊어버려서 다시 앞으로 가서 읽고, 형광색도 칠하였습니다. 책 중반 이후 머신러닝 결과에서 자주 인용되는 개념들에 와서는 개념이 어려워서 살짝 안 와 닫기는 했는데, 다시 복습해야 할 것 같아요.

 

SAM_8760.JPG

 

그리고 전 처음 통계 이론은 R 로 공부시작하였습니다. 그런데 요즘 Python 만 보거든요(가끔). 이 책이 파이썬 라이브러리를 사용한다는 점도 좋았습니다. R 처럼 Python 도 간단하게 함수명만 알면 통계 처리할 수 있거든요. 함수명이나 구조도 어렵지 않아서, 개념만 알면 사용하는데 별 무리가 없어보였습니다. 그 함수가 나오기 위한 약간의 수식을 python 코드로 그 과정을 보여주는 것도 좋았습니다.

 

SAM_8761.JPG

 

다 읽고 난 다음 느낌은 이 책 읽는다고 대학에서 통계학을 전공하는 것처럼 알수는 없는 것이고, 그저 초보자 입장에서 일본에서 나온 그림으로 된 간단한 통계학 책 읽으신 분이, 파이썬으로 직접 통계 함수를 다루어보고, 여러 통계 개념들이 어떤 것인지 맛만 보려는 분들에게는 좋은 것 같습니다. 그리고 사이키런과 같은 머신러닝 정도에서 활용하시는 분들에게 더 이상 깊은 통계 지식이 필요할까 고민도 됩니다. 뭐든 알면 좋겠지만, 읽고 알아야 할 것도 많은 세상, 시간 대비 효율성을 따질때 이 책 넘어가는 것도 위험하지 않나 생각합니다. 전 이 책에서 배운 알맹이 정도에서 Power BI 가지고 시각화하면서 통계의 기술적 분석을 해 보려고 합니다. 

 

이 서평은 교재를 제공받아 작성되었으며, Yes24, 한빛 홈 사이트에도 같이 등록됩니다.

서두에 나와있는대로 통계학을 공부하기 위한 툴로서 파이썬이 사용된다. 따라서 파이썬 초보자도 쉽게 따라할 수 있다.

통계이론부터 파이썬 기본 문법, 그리고 파이썬으로 기술통계를 돌리는 법과 추정, 통계적가설검정, 결과 해석, 통계모델링, 정규선형모델, 일반선형모델, 머신러닝까지 꽤 많은 범위를 다루고 있다.

 

머신러닝과 파이썬에는 익숙하지만 통계 이론에는 자신이 없는 사람이라면 해당 부분을 참고할 용으로 봐도 좋다. 이 경우 4장의 파라미터 추정 이후부터 익숙한 내용이 중간중간 나오기 시작하기 때문에 아는 내용은 건너뛰면서 보면 된다. 머신러닝을 공부하다보면 통계쪽 이론을 부분적으로 습득하는 경우가 있는데 마찬가지로 1장부터 읽으면서 아는 내용을 건너뛰어도 된다. 

 

책 내용에서 좋았던 점은 다음과 같다.

 

중요한 단어나 문장의 경우 밝은 파란색 처리가 되어 있어 핵심을 파악하기 좋다. 

모집단, 기댓값 등 용어를 설명할 때 쉬운 예를 같이 들기 때문에 이해하기 좋다.

  • 이전에 파이썬으로 배우는 딥러닝 교과서라는 책을 리뷰했었다. 이번 '나는 리뷰어다' 활동으로 받은 통계학 교과서는 그 책의 시리즈인데, 아무래도 딥러닝 대비 사용하는 모듈이나 이론의 방대함의 정도에 차이가 있다고 봐도 될 것 같다. 그때 받은 책보다도 두께가 거의 절반 정도밖에 안되는 것으로 보이니 말이다. 파이썬을 응용해보고 싶다면, 그것이 처음 경험하는 일이라면 딥러닝 교과서보다 이 책이 더 접근하기 더 좋을 것이라고 생각된다.

  • 지난 번에 본 시리즈인 '파이썬으로 배우는 딥러닝 교과서'를 읽고, 내용 전개의 친절함이 꽤 마음에 들었었던 기억이 있다. 이번 책 역시 시리즈답게 그 장점을 유지하고 있다. 들어가는 기초 이론 - 환경 구성 - 모듈 채용 - 실제 이론을 적용한 실습으로 이론과 실제 코딩을 적절히 병용하는 구성은 여전히 만족스럽다고 할 수 있다.

  • 주로 Pandas/Matplotlib/Numpy/Scipy로 구성되는 파이썬에서 가장 잘 쓰이는 모듈을 실습하여 통계학 이론을 직접 해볼 수 있으며, 소제목을 짧게 끊어가는 구성 덕분에 학습 중간에 끊어가지 않는 점 역시 장점이라고 할 수 있겠다.

  • 확률 및 랜덤변수에서 배운 확률모델부터 시작하여, 실제 통게 모델에 이어 머신러닝까지 그 이론의 방대함 대비로는 빠르게 익힐 수 있다는 특징이 있다. 이는 읽는 이에 따라 장점일수도, 단점일수도 있을 것 같다.

  • 나같은 경우 이론을 빠르게 훑으며 더 깊게 알아볼 필요가 있을 경우 구글링으로 더 파고들 수 있어 오히려 이런 책이 도움이 될 듯 하다.

  •  

    결제하기
    • 문화비 소득공제 가능
    • 배송료 : 2,000원배송료란?

    배송료 안내

    • 20,000원 이상 구매시 도서 배송 무료
    • 브론즈, 실버, 골드회원 무료배송
    닫기

    리뷰쓰기

    닫기
    * 상품명 :
    파이썬으로 배우는 통계학 교과서
    * 제목 :
    * 별점평가
    * 내용 :

    * 리뷰 작성시 유의사항

    글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

    1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
    2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

    오탈자 등록

    닫기
    * 도서명 :
    파이썬으로 배우는 통계학 교과서
    * 구분 :
    * 상품 버전
    종이책 PDF ePub
    * 페이지 :
    * 위치정보 :
    * 내용 :

    도서 인증

    닫기
    도서명*
    파이썬으로 배우는 통계학 교과서
    구입처*
    구입일*
    부가기호*
    부가기호 안내

    * 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

    * 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

    * 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

    닫기

    해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
    장바구니로 이동하시겠습니까?

    자료실

    최근 본 상품1