IT리뷰

스파크 완벽 가이드

jb213 2020. 11. 22. 21:50

https://www.hanbit.co.kr/store/books/look.php?p_code=B6709029941

학교에서 처리해보는 데이터 용량의 수준을 넘는 규모의 데이터 처리 및 엔지니어링을 실무에서 해야 할 경우 스파크를 이용할 수 있다. 지금의 데이터 분석 붐으로 인해 파이썬 등을 활용한 가벼운 분석 프로세스가 주목을 받기 전에 빅데이터 처리 분야에서 하둡을 필두로 하는 오픈소스 프레임워크가 인기를 끌었다. 그 인기를 제대로 실감하지 못했기 때문에 이 흐름에 대해 옮긴이의 말 코너에서 아파치 스파크가 갖는 위상에 대해 좀 더 잘 이해할 수 있었다. 빅데이터 저장, 처리 프레임워크, SQL엔진, 실시간 처리, 머신러닝 등은 이전까지 따로 존재하고 익혀야 하는 번거로운 프로세스 단계였다. 하지만 아파치 스파크로 단일 인터페이스로의 구현이 가능해졌다. 이전까지 학교 수준에서의 데이터 규모와는 비교도 안될 정도로 많은 데이터가 쌓이는 곳이 실무 현장이다. 그곳에서 실시간으로 아주 큰 데이터를 처리하려면 주피터 노트북 정도로는 부족하다. 옮긴이들이 실무자들이라 그런지 이런 자세한 배경에 대해 초반부터 알 수 있어서 매우 좋았다. ^^ 데이터 사이언스 분야에서도 엔지니어링 분야까지 넘나들 수 있는 내용이 많으므로 여러모로 도움이 많이 되는 구성이다. 사용할 수 있는 언어별로 각 연산을 표현하는 코드가 따로 적혀 있어서 편한 방법으로 익히기도 좋다. spark를 맨 처음 배웠을 때 실무에 참여하는 강사님이 다 다른 코드를 써서 똑같은 결과를 얻기 위한 다른 방법을 인지하는 것도 일이라고 스쳐가면서 말했던 게 기억이 난다. 책은 기본 연산 문법과 RDD, 운영용 애플리케이션, 스트리밍, 고급 분석과 머신러닝 등에 대해서도 왜 사용하고 어떻게 사용하는지 잘 짚어준다. 스파크에서 사용하는 딥러닝 방법은 기초적인 부분만 있는 것 같으므로 개별적으로 찾아봐야하는 부분이다.