나에게 있어서 통계학은 뭐랄까, 살짝 트라우마 같은 존재이다. 학창 시절 남보다 매우 일찍 취업한 이유도 있었지만, 통계학 점수가 참 우스울 정도로 엉망이었기 때문이다. 그래도 그때는 크게 신경 쓰이진 않았다. 학점을 포기할 정도로 솔직히 지루하고 너무 재미없었다. 많은 데이터를 반복적으로 계산하는 것이 내 취향이 아니었다.
통계의 중요성을 전혀 몰랐던 것이다. 그저 보험 수학 같은 것에 자주 쓰이고, 이걸 익히면, 보험이나 금융 쪽에 취업하기 좋다 정도였다. 당시 통계학을 가르쳐 주셨던 교수님께는 죄송하지만, 그때 통계의 비전, 컴퓨터에서의 활용을 보다 강조해서 알려줬다면, 나도 생각이 달라지지 않았을까 생각한다. 어쨌든 통계의 잠재적 가능성을 못 알아본 나의 창피한 핑계와 변명이다.
지금 통계학의 위상은 엄청나다. 경제, 경영, 각종 과학 분야, 공학 등 모든 학문에서 통계는 필수가 되었으며, 인공지능 AI에서는 꼭 익혀야 할 기본 수학 파트가 되었다. 그러다 보니, 과거엔 비록 포기했던 통계학이었지만, 지금은 새로운 마음으로 틈틈이 다시 공부하고 있다.
사람마다 다르겠지만, 통계는 난해함보다는 지루한 편이다. 공식도 비슷비슷해서 틀리기 쉽다. 무엇보다 통계학은 단순히 공식만 암기해서는 절대 안 되는 학문이다. 어떤 때 어떻게 활용하는지 제대로 알아야 하고, 흔히 발생할 수 있는 통계의 오류 같은 것들에 대한 지식도 필요하다. 빅데이터에서 사용하는 거처럼, 조사 범위, 데이터의 선별과 같이 자료를 제대로 다룰 수 있어야 한다. 이런 것들을 확실히 모르고 통계처리를 하게 되면, 전혀 다른 결과를 도출하게 될 수 있고, 실험 조작, 여론 조작, 잘못된 의사결정과 같은 심각한 문제를 만들 수 있다.
서론이 길어졌는데, 그만큼 통계는 제대로 배워야 한다는 소리다. 이번에 소개하는 바바 신야 저자의 '파이썬으로 배우는 통계학 교과서'는 책 제목 그대로 교과서와 같이 통계학의 가장 기초부터 머신러닝 응용까지 한 계단 한 계단 지식을 쌓게 도와주는 책이다.
더군다나, 통계가 현재 수많은 프로그램으로 다뤄지고 있는 만큼, 파이썬 언어 기초부터 익혀가며 바로 써먹을 수 있는 활용 방법도 함께 알려주고 있다. 뭐랄까 통계학과 파이썬, 두 마리 토끼를 한 번에 잡는 책이란 느낌이 강하다. 그래도 일단 파이썬을 전부터 쓰고 있는 내 입장에서는 통계를 얼마나 쉽고 잘 가르치고 있는지를 더 중요시하고 봤는데, 이 책이 그런 면에서 걸출하다. 설명이 장황하지 않으면서도 이해가 쏙쏙 되게 너무나 잘 설명하고 있다. 통계 예제마다 파이썬 코딩으로 확인하고 있어, 라이브러리 사용 연습에도 도움 된다.
보통 컴퓨터나 수학 관련 책에는 번역서가 아니더라도 주석이 많이 붙는 편인데, '파이썬으로 배우는 통계학 교과서'는 별다른 주석 없이도, 누구나 이해하기 쉽게 설명하고 있다. 이번 '파이썬으로 배우는 통계학 교과서'는 2판인데, 저자가 초보자가 쉽게 학습할 수 있도록 초판을 대폭 개정했다고 한다. 구성과 내용 보강을 했다고 한다. 그래서 더 이해가 쉬웠던 거 같다. 물론 윤웅식 옮긴이가 어색함 없이 자연스럽게 번역한 공도 클 것이다.
통계학을 처음 접한다면, 무조건 '파이썬으로 배우는 통계학 교과서' 챕터 1부터 보는 것이 올바른 학습 순서가 될 것이다. 챕터 1은 짧게 끝나지만, 통계학의 전반적인 의미와 주의할 점을 간결하게 잘 설명하고 있는 만큼 그냥 지나치지 말고 꼭 봐야 한다.
챕터 2는 파이썬 프로그래밍 언어를 다룬다. 설치와 중요한 문법을 다룬다. 파이썬 언어가 워낙 많은 곳에서 쓰이고 있는 만큼, 아직 익히지 않았다면, 이참에 통계학과 함께 공부하면 앞으로 무척 유용할 것이다. 물론 이 책에서는 기본적이고, 통계에 필요한 것만 학습하므로 파이썬을 보다 전문적으로 익히기 위해서는 나중에 다른 책도 참고해야 할 것이다.
'파이썬으로 배우는 통계학 교과서'를 보면서 왜 이 책이 쉽게 느껴졌나 다시 곱씹어 보면, 챕터 1부터 마지막 챕터 10까지 다양한 비유와 예시를 통해 이해를 도왔기 때문이라 생각한다. 추론통계를 위한 빨간 구두, 파란 구두부터 평균값이 지닌 문제점을 말하고 있는 저축금액 예, 기술통계 전반적인 설명에 사용된 물고기 분류, 통계에 빠지지 않고 등장하는 동전, 날씨, 프라모델, 맥주 판매 등등 참 많은 것들을 활용했다. 그만큼 내용을 다시 떠올리는 데 도 도움이 됐다.
'파이썬으로 배우는 통계학 교과서' 챕터 1에서 6까지는 통계학 입문 내용을 다룬다. 중고등학교 수학 시간에 배운 것도 나오지만, 전반적으로 전산적인 시각에서 보고 있는 면이 있어, 다소 새롭게 느껴질 수 있다. 그러나 읽다 보면, 별거 아니네 하는 생각이 바로 들게 될 것이다. 시그마, 파이, 표준분포, 변동계수, 공분산, 상관행렬, 각종 그래프, 확률분포, 이항분포, 정규분포, 추정, 추출, 가설검정 등 모두 어려움 없이 이해할 수 있다.
챕터 7부터 10까지는 분석 방법을 다룬다. 통계모델부터 회귀분석, 분산분석, 가능도 같은 것이 나오며, 인공지능에 다양하게 활용되고 있는 선형모델, 선형분석도 배운다. 이 책에서 머신러닝 파트의 비중은 작지만, 기초는 확실히 닦을 수 있다. 어차피 머신러닝, 딥러닝, 신경망 이런 것들 깊게 익히려면, 책 한두 권으로는 안된다. 어쨌든 기초만 탄탄하다면, 다른 책을 보고 이해하는데도 큰 도움이 된다.
인공지능을 공부하면서, 내 수학 지식이 터무니없이 모자란다는 것을 절실히 깨달았다. 그러다 보니 모자란 수학 실력을 어떻게 보충할까 고민해왔다. 통계학의 경우 대학 때 봤던 교재를 다시 볼까도 생각했다. 그러나 그건 그다지 합리적인 방법이 아니다. 어차피 IT에 써먹으려고 하는 만큼, IT, 전산이 융합된 책이 보다 실용적일 것이다. 이번 '파이썬으로 배우는 통계학 교과서'를 통해서 통계학을 체계적으로 공부하는데 많은 도움이 됐다. 무엇보다 쉽게 이해할 수 있어서 참 좋았다. 역시 공부의 기본은 교과서 중심이다. 현재 파이썬과 통계학에 자신이 없다면, 이 책을 추천하고 싶다.