파이썬 텍스트 마이닝 예제

파이썬 텍스트 마이닝 예제

Uncategorized -

트윗에 `사라지다`라는 글이 포함되어 있다고 가정해 보겠습니다. 우리는 쉽게 위의 모델을 사용하여 단어 벡터를 얻을 수 있습니다 : NLTK는 다양한 자연어 알고리즘세트를 제공하는 강력한 파이썬 패키지입니다. 그것은 무료, 오픈 소스, 사용 하기 쉬운, 큰 지역 사회, 그리고 잘 문서화. NLTK는 토큰화, 음성 부분 태그 지정, 형태소 분석, 감정 분석, 주제 세분화 및 명명된 엔터티 인식과 같은 가장 일반적인 알고리즘으로 구성됩니다. NLTK는 컴퓨터가 작성된 텍스트를 분석, 사전 처리 및 이해하는 데 도움이 됩니다. 이 자습서를 진행하기 전에 파이썬 IDE 및 파이썬 프로그램 실행을 사용하여 파이썬 프로그래밍 언어로 코드를 작성하는 기본 지식을 가져야합니다. 파이썬을 완전히 새로 접하는 경우 파이썬 자습서를 참조하여 언어에 대한 올바른 이해를 얻으십시오. 단어 수를 계산한 것처럼 트윗에 있는 숫자 수도 계산할 수 있습니다. 이 예제에서는 많이 사용되지 않지만 유사한 연습을 수행하는 동안 실행해야 하는 유용한 기능입니다. 예를 들어 스팸 필터링을 위한 `Naive Bayes` 또는 `지원 벡터 머신`과 같은 클래식 ML 접근 방식이 널리 사용되고 있습니다.

딥 러닝 기술은 감정 분석 및 언어 번역과 같은 NLP 문제에 더 나은 결과를 제공합니다. 딥 러닝 모델은 훈련속도가 매우 느리며 간단한 텍스트 분류 문제의 경우 클래식 ML 접근 방식이 더 빠른 교육 시간으로 유사한 결과를 제공하는 것으로 나타났습니다. 노이즈 제거를 토큰화 전에 자주 발생하는 텍스트 별 정규화 작업으로 느슨하게 정의해 보겠습니다. 나는 전처리 프레임 워크 (토큰화 및 정규화)의 다른 2 가지 주요 단계는 기본적으로 작업 독립적이지만 소음 제거는 훨씬 더 많은 작업 별이라고 주장할 것입니다. 단어의 가방 (BOW) : 우리는 어휘라는 텍스트 모음에서 고유 한 단어의 목록을 합니다. 그런 다음 각 문장이나 문서를 벡터로 표현하고 각 단어는 현재의 경우 1로, 어휘에서 결석한 경우 는 0으로 표시됩니다. 다른 표현은 각 단어가 문서에 나타나는 횟수를 계산할 수 있습니다. 가장 널리 사용되는 방법은 TF-IDF(주파수-Inverse 문서 빈도) 기법을 사용하는 것입니다.

텍스트 마이닝은 텍스트 분석이라고도 합니다. 텍스트 마이닝은 상당한 크기의 텍스트 데이터를 탐색하고 패턴을 찾는 프로세스입니다. 텍스트 마이닝은 텍스트 자체를 처리하고 NLP는 기본 메타데이터를 처리합니다. 단어의 빈도 수, 문장의 길이, 특정 단어의 유무를 찾는 것을 텍스트 마이닝이라고 합니다. 자연어 처리는 텍스트 마이닝의 구성 요소 중 하나입니다. NLP는 감정을 식별하고, 문장에서 엔터티를 찾고, 블로그/기사 범주를 식별하는 데 도움이 됩니다. 텍스트 마이닝은 텍스트 분석을 위해 사전 처리된 데이터입니다. 텍스트 분석에서 정보를 분류하는 데 사용되는 통계 및 기계 학습 알고리즘입니다. 단어 의 부가 형 모델 (BoW)는 텍스트에서 피처를 추출하는 가장 간단한 방법입니다. BoW는 텍스트를 문서 내의 단어 발생 행렬로 변환합니다.

이 모델은 문서에서 주어진 단어가 발생했는지 여부에 대해 염려합니다. 앞서 설명했듯이 텍스트 데이터에서 중지 단어(또는 일반적으로 발생하는 단어)를 제거해야 합니다. 이를 위해 스스로 중지 단어 목록을 만들거나 미리 정의된 라이브러리를 사용할 수 있습니다. 샘플 텍스트가 필요합니다. 우리는 우리가 단계적으로 하고있는 일의 결과를 쉽게 볼 수 있도록 매우 작고 인공적인 것으로 시작하겠습니다. 텍스트 분류는 텍스트 마이닝의 중요한 작업 중 하나입니다. 그것은 감독 된 접근 방식입니다. 블로그, 책, 웹 페이지, 뉴스 기사 및 트윗과 같은 특정 텍스트의 범주 또는 클래스 식별. 스팸 탐지, CRM 서비스의 작업 분류, E-retailer 웹 사이트에서 제품 분류, 검색 엔진용 웹 사이트 콘텐츠 분류, 고객 피드백 감정 등 오늘날의 컴퓨터 세계에서 다양한 응용 프로그램을 보유하고 있습니다.