비정형 데이터를 살펴보면 대중들의 생각, 아니면 그 언어를 쓰고 있는 민족들의 가치관, 이데올로기를 알 수 있어서 비정형 데이터의 분석이 중요하게 되었다.


*비정형 빅데이터의 특징
1. 규모 - 페이스북 1달간 14.9억 명이 사용(14년 기준, 300억 개의 글이 공유), 트위터 1달간 3.1억 명이 사용(14년 기준, 1일 4억 트윗)
2. 다양성 - 정형 데이터의 경우 동질성이 특징, 비정형의 경우 이질성이 특징. 정형 데이터는 모든 데이터 중 5%~10% 차지. 즉, 비정형 데이터가 엄청나게 많아진다.
3. 변동성 - 시간에 민감한 혹은 그렇지 않은 데이터
4. 속도 - 데이터가 생성, 공유, 분석되는 속도가 빨라짐. 스마트 기기의 발전으로 데이터를 생성하는 속도가 매우 증가함.
5. 정확성 - 비정형 데이터의 문제일수도 있다. 확실한 정보인가 아닌가를 알 수 없음.
6. 의미 - 기존 데이터에서는 데이터의 의미와 데이터 간의 관계를 이해하기 힘들었다. 비정형 데이터는 사용자가 직접 쓴 글이기 때문에 의미있는 연관성을 찾을 수 있다.
7. 복잡성 - 데이터는 구조, 형식, 내용 등에 따라 다르게 나타난다. 서로 다른 데이터들은 연결하여 새로운 데이터를 생성할 수 있다.


text mining은 비정형 데이터를 분석하는 방법론이다.




2.1 Text Mining이란?


같은 생각일지라도 사람마다 다른 형태로 표현한다.


이것이 비정형 데이터의 비정형성이다.


2010년대 초반의 전 세계 비정형 데이터는 1.8 제타 바이트
2020년에는 40제타바이트로 증가할 것으로 예측


웹 - 스마트폰 - 센서로인해 비정형 데이터가 많아지고 있다.


신문, 잡지, 문서, 이메일, 블로그 포스트, 트위터 등등에서 비정형 text데이터가 생성된다.


텍스트 마이닝은 다양한 영역에서 사용되고 있으며, 그 중요도가 비정형 데이터의 증가와 맞물려 증대될 것으고 생각된다.








2.2 Text Mining을 구성하는 요소


수행 


기법 


표현 




텍스트 분석의 접근 방법
1) 요소 단위에 따른 접근
 - 텍스트 분석의 요소 단위(elememt)에 따르는 접근
 - 문자 수준(character level), 단어 수준, 구 수준, 문장 수준, 초록 수준, 전문 수준, 전체 문헌집단 수준까지 광범위함.
2) 기법적인 측면의 접근
 - 텍스트 분석에 어떤 기법이 적용되는지에 대한 접근
 - 수작업 태깅에서부터 추론학습까지 여러 가지 텍스트 분석 기법이 존재함
 - 비지도 학습: topic modeling, 클러스터링 등
 - 지도학습: 사전기반이 아닌 감성분석, 문헌자동분류 등
3) 임무 수행 측면의 접근
 - 어떤 임무를 수행하느냐에 따르는 접근
 - 정보검색에서부터 비지도 기반, 반지도 기반, 지도 기반의 기계학습, 시각화, 요약, 번역에 이르기까지 다양함
 - 자동번역이 여기에 들어감.




Text mining을 이해하는 방법
3가지 주요 접근 방법


1) 기술적(Descriptive) 분석
 - 데이터를 이해 - 대부분의 미가공 데이터는 사람들이 쓰기에 적합하지 않지만 데이터에서 끌어낸 정보는 적합함
 - 대량의 데이터를 더 작고 유용한 정보의 알맹이로 압축할 수 있음
 - 일어난 일을 요약함
 - 가장 이해하기 쉽고, 쉽게 결과를 낼 수 있다. ex) 포스트 수, 멘션 수, 팔로워 수, 페이지 뷰 수 등


2) 예측적(Predictive) 분석
 - 모든 예측 분석은 현실적으로 개연성이 있기 때문에 미래에 일어날만한 것을 예측
 - 과거와 최근의 데이터를 연구하기 위해 여러 통계, 모델링, 데이터 마이닝, 머신러닝 기법들을 이용
 - ex) 기업에 좋은 일, 나쁜 일이 일어났을 때 이후 주가가 어떻게 될 것인가, 학습데이터를 놓고 영화평은 부정적이다 혹은 긍정적이다를 가지고 학습 모델을 만들기


3) 지시적(Prescriptive) 분석
 - 기술적, 예측적 모델을 넘어 한가지, 혹은 그 이상의 행동들을 추천하며 각 결정의 예상 결과를 보여줌
 - 행동을 지시해야 하는 상황에 적합하며, 비즈니스 결정자가 지시된 정보를 채택하여 실행에 옮길 수 있음
 - ex) 브랙시트가 일어났는 데 6개월 후에 한국에 어떠한 경제적 영향을 미칠 것인가
 - 지시적 모델이 각각의 행동 선택에 따라 일어날 수 있는 결과를 예측할 수 있기 때문에 사전에 명시된 결과에 대한 가장 좋은 행동을 추천해줌
 - 경로를 경로분석을 통해서 지시적인 분석을 할 수 있다.
 - Big Data에서 더 나아간 Big knowledge로 경로분석을 한다.


* 기타
 - 정보 접근을 도와줌
 - 정보 조직을 도와줌
 - 시각화를 도와줌






2.3 Text Mining 기법 소개


*종류
자연 언어 이해(Natural Language Understanding)
토픽 모델링(Topic Modeling)
감성 분석(Sentiment Analysis)
문서 분류(Document Classification)
집단화(Clustering)


*단계
1. 데이터 수집(Collection Data)
2. 전처리(Preprocessing)
3. 텍스트 마이닝 기법 적용(Applying Text mining Techniques)


데이터 수집은 모든 적합한 텍스트들을 산출함
 - 수집, 선택, 필터는 유용성을 높여줌
전처리는 다양한 텍스트들을 분석 가능한 데이터로 정제함
 - 전처리를 안 해서 안 좋은 데이터가 들어오면 결과 또한 안 좋게 나온다


텍스트 마이닝 기법 적요은 이용자에게 흥미에 대한 사실과 사건을 알려줌
 - 적절한 개념과 그에 대한 사실을 찾아냄
 - 현재 찾고 있는 것을 찾아내줌
 - 새로운 지식을 발견하고 새로운 조합을 찾아냄






2.4 기존 연구들 소개


논문 목록


텍스트 마이닝 기법을 소셜미디어 텍스트에 적용


한국의 5개의 대기업을 대상으로 북핵이라는 키워드를 던지고 미국의 중요 신문사에서 북핵과 관련되어서 중요 한국 기업들이 어떻게 언급이 되는지 감성 분석.
1. Shock Waves of Political Risk on the Stock Market: The Case of Korean Companies in the US (Pak et al., 2015)


에볼라 바이러스와 관련된 트윗과 기사를 수집하여 에볼라에 대해 사람들이 정확하게 인식하고 있는지 확인.
2. Topic-based content and sentiment analysis of Ebola virus on Twitter and in the news (Kim et al., 2016)


2012년 대선 때 3명의 후보에 대해서 Social network를 Text mining을 적용해서 Social network 분석을 할 수 있도록 정제를 해서 Social network분석을 통한 세 후보들이 어떤 진보와 보수적인 차이가 어떤지를 분석.
3. Analyzing the political landscape of 2012 korean presidential election in twitter (Song, Kim, & Jeong, 2014)


KPOP 스타들의 비디오를 분석. 약 3천개 kpop스타들과 스타들의 비디오의 아류작을 분석하고 3천개의 비디오에 딸린 댓글 600만개를 분석해서 어떤 영상이 긍정적인지 혹은 부정적인지 분석
4. Identifying the topology of the K-pop video community on YouTube: A combined Co-comment analysis approach (Song, Jeong, & Kim, 2015)


트위터상 topic modeling과 감성분석을 연합한 기법을 소개. 서울시장 선거에서 보수와 진보의 차이를 감성분석을 한 것이다.
5. Opinion polarity detection in Twitter data combining shrinkage regression and topic modeling (Yoon et al., 2016)










2.5 yTextMiner 기초


한글 텍스트와 영어 텍스트를 처리할 수 있도록 고안됨
- 한글 형태소 분석: 오픈 소스 라이브러리인 Komoran(정형 텍스트(문어))과 Twitter Korean(비정형 텍스트(구어))이용
- 영어 형태소 분석 및 전처리: Stanford CoreNlp

+ Recent posts