*텍스트 마이닝


텍스트 마이닝은 텍스트를 작성하는 사람이 정확한 단어와 용어 및 문법 등을 모르더라도 특정 단어와 문장을 작성하게 된 이유를 파악하고 작성자가 텍스트를 만들어내는 경향성을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스이다. 즉, 텍스트 정보에 포함된 품질 컨텐츠, 용어 및 관계의 추출과 관리를 하는 방법론을 뜻한다.

텍스트 마이닝 프로세스
1. 마이닝할 텍스트를 식별.
텍스트가 여러 파일에 존재하면 파일을 한 위치에 저장하여 관리하기 쉽게 만들어야 한다.
데이터베이스의 겨우 텍스트를 포함하는 필드를 판별해야 한다.
2. 텍스트를 마인이하고 구조화된 데이터를 추출.
텍스트 마이닝 알고리즘을 소스 텍스트에 적용한다.
3. 개념 및 범주 모델을 작성.
주요 개념을 식별하고 범주를 작성한다.
구조화되지 않은 데이터로부터 나온 자료의 정보는 일반적으로 매우 크기 때문에 개념과 범주를 확실히 잡고 유효한 모델을 적용시켜야 한다.
스코어링(유효한 데이터 획득)을 위해 최상의 개념과 범주를 식별해야 한다.

4. 구조화된 데이터를 분석.

군집, 분류 및 예측 모델링과 같은 일반적인 데이터 미이닝 기술을 사용하여 개념 간의 관계를 발견한다.
추출한 개념을 다른 구조화된 데이터와 병합하여 새로운 데이터를 만들어 낼 수도 있다.

텍스트 마이닝을 통해 할 수 있는 것
1. 리스크 관리
서로 관련 있는 정보들을 이어주고, 꼭 필요한 정보를 제 때 찾아주는 등 텍스트 마이닝을 기반으로 한 리스크 관리 소프트웨어를 사용했을 때 리스크 관리 능력이 향상되었다.
금융업과 같은 산업에서 리스크 관리를 위해 텍스트 마이닝을 사용한다.
2. 지식 경영
수많은 연구 자료들을 엮어 새로운 지식을 만들어 낼 수 있다.
의료 분야에서 수십 년 동안 연구한 자료들과 임상 실험 데이터를 마이닝하여 더 유효한 검증 방법 및 질병 예측법을 만들어 낼 수 있다.
3. 사이버 범죄 예방
텍스트 마이닝 기법을 통해 범죄 예방 어플리케이션 등 개인 및 기관을 대상으로 하는 인터넷 범죄 예방에 도움을 주고 있다.
4. 고객 관리 서비스
고객을 대상으로 설문조사나 전화 상담 등의 자료를 분석하여 서비스를 향상시킬 수 있다.
5. 고객 클레임 분석을 통한 부정행위 탐지
보험 회사에서 텍스트 분석과 정형 데이터를 결합해 사기를 방지하고 고객의 불편사항을 빠르게 처리 하고 있다.
6. 콘텐츠 강화
텍스트 마이닝 기술로 정보를 차곡차곡 쌓게 되면 보다 더 사용자 친화적인 컨텐츠를 생산하는데 도움을 줄 것이다.
7. 소셜 미디어 데이터 분석
소셜 미디어 시장에서 고객 정보를 파악하는데 텍스트 마이닝 기법이 활용되고 있다. 
비정형 데이터의 특성으로 인해 제품을 사용한 사람들의 감성을 알아 볼 수 있다는 점에서 각광받고 있다.
8. 스팸 필터링
데이터 마이닝이 가장 활발하게 응용되는 분야로 스팸 문자, 이메일 등을 걸러내는데 도움을 준다.

ref.
IBM Knowledge Center / 텍스트 마이닝 정보
골든 플래닛 / 텍스트 마이닝 무엇을 할 수 있을까?
EXPERT SYSTEM / 10 text mining examples








*웹 마이닝

웹 마이닝은 웹자원으로부터 의미있는 패턴, 프로파일, 추세 등을 발견하기 위하여 데이터마이닝 기술을 응용한 것이다. 기존 데이터마이닝 기술을 웹에 응용하여 웹에서 얻어지는 모든 데이터를 분석 대상으로 삼는다. 대상이 되는 데이터는 서버 접속 로그 데이터, 사용자 등록 정보, 사용자 세션, 트랜잭션, ERP(enterprise resource planning) 데이터 등이 있다. 

웹 마이닝의 분야
1. 웹 구조 마이닝
웹 구조 마이닝은 웹 사이트와 웹 페이지의 구조적 요약 정보를 얻는 것을 목표로 한다. 웹 사이트의 구조적 정보란, 웹 페이지 사이의 하이퍼링크를 통한 그래프 구조를 뜻한다.
2. 웹 내용 마이닝
웹 내용 마이닝은 실제 웹 사이트를 구성하고 있는 페이지로부터 의미 있는 내용을 추출하는 기법이다. 이는 일종의 정보 추출이라고도 할 수 잇고, 텍스트 마이닝 기술과도 밀접한 관련이 있다. 즉, 온라인에 있는 방대한 웹 데이터(텍스트, 그림, 사운드 등)에서 유용한 정보를 자동으로 찾는 기술이다.
3. 웹 사용 마이닝
웹 사용 마이닝은 웹 사용자의 사용 패턴을 분석하는 것이다. 이를 통해 웹 사용자의 행동을 접속 통계 정보 이상으로 이해할 수 있고, 또한 웹 페이지의 이용 패턴을 알 수 있게 된다. 이러한 정보를 통해 사용자에게 더욱 친숙하게 페이지를 재구성하거나, 웹 서버 로드 밸런스, 사용자별 맞춤형 웹 페이지 구성 등에 이용된다.

ref.
위키백과 / 웹 마이닝
넷스루 기술 연구소 데이터마이닝팀 / 웹 마이닝








*오피니언 마이닝

오피니언 마이닝이란 웹 문서에서 사용자들의 의견이나 평가를 분석해 해당 주제에 대한 평판을 도출해 내는 기술을 말한다. 다시 말해, 사람들의 주관적인 의견을 통계/수치화하여 객관적인 정보로 바꾸는 기술이다. 어떤 사안이나 인물에 대한 사람들의 의견뿐만 아니라 감정과 태도도 분석하기 때문에 감정 분석이라고도 불린다. 또한 오피니언 마이닝도 분석 대상이 텍스트이므로 텍스트 마이닝에서 활용하는 자연어 처리 방법을 사용하며, 주된 분석 대상은 포털 게시판, 블로그, 쇼핑몰과 같은 대규모의 웹 문서이다.

오피니언 마이닝의 프로세스
1. 텍스트에서 사실과 의견을 구분하여 어휘정보를 추출하는 특징 추출 단계
웹에 올라오는 상품 혹은 서비스 구매자의 문장에서 의미있는 형태소를 추출하는 전처리를 한다.
2. 추출된 어휘가 해당 텍스트에서 어떤 의미로 사용되었는가에 대한 판단 및 분류 단계
전처리한 데이터에서 사용자가 상품 혹은 서비스에 대해 가지는 감정에 대해 각각 점수를 부여하여 수치화 한다.
3. 분석한 정보들을 요약하여 효율적으로 사용자에게 전달하는 요약 및 표현 단계
2번에서 수치화한 데이터를 수집하여 최종적으로 구매자의 반응, 상품/서비스에 보여준 감정의 형태, 개선점 등을 추출하여 의미있는 데이터로 만든다.

ref.
고려대학교 빅데이터 연구회 페이스북 페이지 / 오피니언 마이닝
NAVER다이어리 / [네이버랩] '오피니언 마이닝' 데이터 쏜다





*리얼리티 마이닝
리얼리티 마이닝이란 사람들이 매일 사용하는 스마트폰 등의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법을 말한다. 리얼리티 마이닝에서 수집하고자 하는 데이터는 통화/메시징 등의 커뮤니케이션 데이터, gps/wifi 등의 위치 데이터이다. 이를 통해 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 한다.

리얼리티 마이닝의 규모
1. 개인(한 사람)
개인은 휴대 전화, 태블릿, 노트북, 카메라 및 인터넷에 연결된 모든 기기를 다양한 용도로 사용하므로 gps 위치에서 google의 자주하는 질문에 이르기까지 다양한 데이터를 생선한다. 
개인용 장치에서 많은 데이터를 수집 할 수 있지만 이는 개인의 삶의 일부분이므로 보다 더 많은 데이터를 수집하기 위해서 생체 인식 장치, Fitbit, Nike+, Polar 등의 장치를 이용해서데이터를 얻을 수 있다.

2. 커뮤니티(10~1000명)
회사 등의 집단 행동을 하는 그룹을 관찰하고자 RFID를 이용하여 그룹의 구성원들의 동선을 측정하거나 머무는 시간, 일의 효율 등을 측정하여 보다 더 나은 지식 관리 시스템을 구축하여 집단의 효율을 증가시키는데 사용된다.

3. 도시(1000~1000000명)
교통 신호 및 속도 카메라로 인구 이동에 대한 데이터를 수집하는 방법으로 도시 규모의 리얼리티 마이닝을 실시한다.
뿐만 아니라 도시 규모의 범죄 데이터를 수집하여 범죄가 일어나기 전에 경찰관을 자동으로 범죄율이 높은 장소에 배치하는 방법으로 치안효과를 증진시키는 방법으로도 이용되고 있다.

4. 국가(1000000~100000000명)
인구 조사 결과 등 공공데이터를 이용하여 더 나은 사회를 만들기위해 사용한다.

5. 전세계(100000000~7000000000명)
UN의 질병 통제에 관현 정책 수립, 저소득 국가의 통계 시스템 계획 및 국가 통계 개발 전략 수립, 개발 도상국의 완전한 참여 보장, 국제 가계 조사 네트워크 설립, 가계 기반 사회 경제적 데이터 수집을 통해 더 나은 사회를 만드는 데 이용된다.

ref.
wikipedia / reality mining


+ Recent posts