IT리뷰

파이썬 라이브러리를 활용한 텍스트분석(2022.10.10)

jb213 2022. 11. 27. 17:52

실무에 텍스트분석을 적용하고자 한다면 참고하기 적합한 책이다.

 

필요한 코드만 짚어준다.

Info, describe 데이터분석 메타 정보 등을 확인할 필요한 것들을 간략하게 확인한다.

 

간단한 텍스트 전처리 파이프라인

텍스트 데이터 -> 변환 -> 토큰화 -> 불용어 제거(stopwords) -> 준비된 토큰

 

한국어는 불용어 처리가 그렇게 쉽게 되진 않더라. 아무래도 영어에 비해서 조사 등이 많고 한자 기반의 동음이의어도 많다. 그래서 대부분 텍스트로 뭔가 응용하고자 워드클라우드로 끝나는 경우가 많았다.

 

기본적인 NLP 내용이 포함되므로 실제 코드와 함께 내용을 복습하고 싶은 사람이라면 이용할 있겠다.

 

데이터를 추출하는 방법에 대해서도 안내하고 있다. API라던가 웹사이트 스크래핑이라던가. 실제 텍스트 자료로 뭔가 분석을 하고자 한다면 외부 데이터를 가져와야 되는데 그 부분에 대한 내용이다. 네이버의 경우 최근 API 정책을 바꾼 걸로 아는데 과금되는 호출 수준을 확인해보는 것도 좋겠다.

 

[웹사이트 스크래핑]

URL 생성 : 사이트맵, RSS, 아카이브, 크롤링

다운로드 : request, wget, scrapy

추출 : Regex, HTML parser, Header, 휴리스틱

영속적 저장

 

robots.txt 파일을 해석하는 부분도 포함하고 있으니 이쪽도 참고하면 좋겠다.

 

[머신러닝을 위한 데이터 전처리 파이프라인]

소스 텍스트 -> 노이즈 식별-> 노이즈 제거 -> 문자 정규화 -> 데이터 마스킹 -> 정리된 텍스트 : 데이터 정리

-> 토큰화 -> 품사태깅 -> 원형 복원 -> 개체명 인식(NER) -> 준비된 텍스트 : 언어학적 처리

 

 

 

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."