파이썬 라이브러리를 활용한 텍스트분석(2022.10.10)
실무에 텍스트분석을 적용하고자 한다면 참고하기 적합한 책이다.
필요한 코드만 짚어준다.
Info, describe 등 데이터분석 전 메타 정보 등을 확인할 때 필요한 것들을 간략하게 확인한다.
간단한 텍스트 전처리 파이프라인
텍스트 데이터 -> 변환 -> 토큰화 -> 불용어 제거(stopwords) -> 준비된 토큰
한국어는 이 불용어 처리가 그렇게 쉽게 되진 않더라. 아무래도 영어에 비해서 조사 등이 많고 한자 기반의 동음이의어도 많다. 그래서 대부분 텍스트로 뭔가 응용하고자 할 때 워드클라우드로 끝나는 경우가 많았다.
기본적인 NLP 내용이 포함되므로 실제 코드와 함께 내용을 복습하고 싶은 사람이라면 잘 이용할 수 있겠다.
데이터를 추출하는 방법에 대해서도 안내하고 있다. API라던가 웹사이트 스크래핑이라던가. 실제 텍스트 자료로 뭔가 분석을 하고자 한다면 외부 데이터를 가져와야 되는데 그 부분에 대한 내용이다. 네이버의 경우 최근 API 정책을 바꾼 걸로 아는데 과금되는 호출 수준을 확인해보는 것도 좋겠다.
[웹사이트 스크래핑]
URL 생성 : 사이트맵, RSS, 아카이브, 크롤링
다운로드 : request, wget, scrapy
추출 : Regex, HTML parser, Header, 휴리스틱
영속적 저장
robots.txt 파일을 해석하는 부분도 포함하고 있으니 이쪽도 참고하면 좋겠다.
[머신러닝을 위한 데이터 전처리 파이프라인]
소스 텍스트 -> 노이즈 식별-> 노이즈 제거 -> 문자 정규화 -> 데이터 마스킹 -> 정리된 텍스트 : 데이터 정리
-> 토큰화 -> 품사태깅 -> 원형 복원 -> 개체명 인식(NER) -> 준비된 텍스트 : 언어학적 처리
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."