파이썬 라이브러리를 활용한 텍스트분석(2022.10.10)

IT리뷰

파이썬 라이브러리를 활용한 텍스트분석(2022.10.10)

jb213 2022. 11. 27. 17:52

실무에 텍스트분석을 적용하고자 한다면 참고하기 적합한 책이다.

필요한 코드만 짚어준다.

Info, describe 등 데이터분석 전 메타 정보 등을 확인할 때 필요한 것들을 간략하게 확인한다.

간단한 텍스트 전처리 파이프라인

텍스트 데이터 -> 변환 -> 토큰화 -> 불용어 제거(stopwords) -> 준비된 토큰

한국어는 이 불용어 처리가 그렇게 쉽게 되진 않더라. 아무래도 영어에 비해서 조사 등이 많고 한자 기반의 동음이의어도 많다. 그래서 대부분 텍스트로 뭔가 응용하고자 할 때 워드클라우드로 끝나는 경우가 많았다.

기본적인 NLP 내용이 포함되므로 실제 코드와 함께 내용을 복습하고 싶은 사람이라면 잘 이용할 수 있겠다.

데이터를 추출하는 방법에 대해서도 안내하고 있다. API라던가 웹사이트 스크래핑이라던가. 실제 텍스트 자료로 뭔가 분석을 하고자 한다면 외부 데이터를 가져와야 되는데 그 부분에 대한 내용이다. 네이버의 경우 최근 API 정책을 바꾼 걸로 아는데 과금되는 호출 수준을 확인해보는 것도 좋겠다.

[웹사이트 스크래핑]

URL 생성 : 사이트맵, RSS, 아카이브, 크롤링

다운로드 : request, wget, scrapy

추출 : Regex, HTML parser, Header, 휴리스틱

영속적 저장

robots.txt 파일을 해석하는 부분도 포함하고 있으니 이쪽도 참고하면 좋겠다.

[머신러닝을 위한 데이터 전처리 파이프라인]

소스 텍스트 -> 노이즈 식별-> 노이즈 제거 -> 문자 정규화 -> 데이터 마스킹 -> 정리된 텍스트 : 데이터 정리

-> 토큰화 -> 품사태깅 -> 원형 복원 -> 개체명 인식(NER) -> 준비된 텍스트 : 언어학적 처리

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

저작자표시 비영리 변경금지