본문 바로가기
IT리뷰

파이썬으로 배우는 통계학 교과서

by jb213 2020. 8. 21.

https://www.hanbit.co.kr/store/books/look.php?p_code=B7226175941

서두에 나와있는대로 통계학을 공부하기 위한 툴로서 파이썬이 사용된다. 따라서 파이썬 초보자도 쉽게 따라할 수 있다.

통계이론부터 파이썬 기본 문법, 그리고 파이썬으로 기술통계를 돌리는 법과 추정, 통계적가설검정, 결과 해석, 통계모델링, 정규선형모델, 일반선형모델, 머신러닝까지 꽤 많은 범위를 다루고 있다.

 

머신러닝과 파이썬에는 익숙하지만 통계 이론에는 자신이 없는 사람이라면 해당 부분을 참고할 용으로 봐도 좋다. 이 경우 4장의 파라미터 추정 이후부터 익숙한 내용이 중간중간 나오기 시작하기 때문에 아는 내용은 건너뛰면서 보면 된다. 머신러닝을 공부하다보면 통계쪽 이론을 부분적으로 습득하는 경우가 있는데 마찬가지로 1장부터 읽으면서 아는 내용을 건너뛰어도 된다. 

 

책 내용으로 들어가서 몇 가지를 짚자면,

중요한 단어나 문장의 경우 밝은 파란색 처리가 되어 있어 핵심을 파악하기 좋다. 

모집단, 기댓값 등 용어를 설명할 때 쉬운 예를 같이 들기 때문에 이해하기 좋다.

 

통계학은 모집단과 모집단을 추정하기 위한 표본집단 간의 관계를 기술적으로 증명하는 게 중요하다고 생각한다. 애초에 가정이 모집단 전체를 완전히 알 수가 없기 때문이다. 물론 내가 아는 어떤 사람은 이제 머신러닝으로 모집단 자체가 빅데이터가 아니냐며 통계로 모집단을 추정하는 것에 대해 조금 다른 입장을 취했다. 그 사람의 위치를 고려하면 그런 의견은 언뜻 맞는 얘기처럼 보일 수 있다. 하지만 어디까지나 데이터가 많다일 뿐, 그것이 모집단이 된다는 것은 일부 테크 회사에 한정되는 이야기인 것 같다. 그 모집단이 1초마다 엄청난 속도로 증가한다면 그 데이터 모두를 과연 갖고 있는 게 맞을까 아니면 다른 형태로 축약하는 게 맞을까? 데이터를 보유하는 것 자체가 유효거래 원천이라면 그 보유비 또한 엄청나기 때문에 아마 데이터 자체를 보유하는 회사나 기술들이 속속 나오지 않을까 싶다. 

글이 좀 옆길로 샜다. 앞장은 이 문단의 1~2줄을 염두하고 보면 된다. 중고등학교 때 배웠던 통계 이론이나 대학교 교양으로 수강하는 통계학 입문 정도로 생각하면 되겠다.

 

2장의 경우 파이썬 환경 구축부터 판다스, 함수 도움말까지 기본적으로 알아야 되는 사항이 다 적혀있다. 이것만 보고 따라해도 충분하다. 

 

3장의 경우 깔끔한 데이터와 지저분한 데이터 부분을 흥미롭게 읽었다. 이 책에서 지저분한 데이터로 보는 구조는 일반적인 입장에서는 정보가 압축된 좋은 데이터라고 생각할 수 있다. 하지만 데이터 '재사용'에 있어서는 확실히 지저분한 구조가 맞다. 지저분한 데이터는 행 하나가 여러 개 분류에 걸리는 경우다. 이 경우 요즘 데이터 시각화 툴에서도 다시 열로 일일이 해체하는 기능이 추가될 정도로 데이터 가공에 있어 필수적으로 고려하는 점이다. 집계나 group by가 된 상태 말고 raw data 형태가 분석하는 입장에서는 훨씬 편하다. 분석 후엔 상위 결정권자에게 보고하거나 혹은 집단으로 발표하는 입장이라면 아마 지저분한 데이터로 다시 변할 수 있다. 그리고 관계자가 아닌 이상 대부분 이 지저분한 데이터를 갖고 원본 형식을 만드는 것이 종종 일어날 수 있다.

또한 독립변수를 가공하고 서로 연관성 등을 판단할 때 통계 이론이 들어가는데 이때 사용할 검증방법도 확인할 수 있다. 복수의 독립변수들의 유의미함을 판정하는 방법에 대해서도 나오는데 나쁜 예도 포함되어 참고할 수 있다. 가끔 수많은 독립변수를 제거할 때 통계적인 부분을 고려하지 않고 단순히 공학적인 접근만 하는 경우를 본다. 완전히 틀렸다고 할 수 없지만 타입 2 ANOVA나 AIC 등을 함께 고려하는 것이 분석적 접근에 더 도움이 된다고 생각한다.

 

 

 

'IT리뷰' 카테고리의 다른 글

스파크 완벽 가이드  (0) 2020.11.22
파이썬을 활용한 머신러닝 쿡북  (0) 2020.10.25
TinyML  (0) 2020.09.20
이것이 MySQL이다  (0) 2020.07.05
Go 입문서(Head First Go)  (0) 2020.05.31

댓글