기본 콘텐츠로 건너뛰기

라벨이 machine learning인 게시물 표시

NLP를 위한 LDA등을 사용한 문서 정리 및 검색을 위한 머신러닝 방법론

코드를 공부하는 글이 아니므로  샘플 코드등은 없으니  코드를 찾으시는 분들은 패스하셔도 됩니다.  개념 적인 접근, 그리고 사용법은 아는데  추가적인 돌파구를 위한  아이디어를 원하시는 분들을 위한 글입니다.  대부분 도큐먼트(글뭉치?)의 의미를  한 눈에 캐치하여  인덱싱하여  도큐먼트를 관리하기 위해  Topic Modeling을 사용하려 하고 있습니다.  하지만 단순히 LDA를 사용해봤자,  사용된 단어의 개수가 많은 글들끼리의 묶음 정도로 밖에 분류가 안됩니다.   https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation LDA : 잠재적 디리클렛 배분법 google스러운  정보의 정리를 위해서는 하나만 사용하는 것이 아니라  다양한 ML모듈을 활용해야 하는데요..  예를 들어 이렇게 합니다.  LDA모듈로 문장을 읽어내면 단어의 기본형과 Document에서 사용된 단어수가 나오고 이를 기반으로 이 document의 topic에 해당할 법한 상위 단어들이 표시됩니다.  여러 document를 던질 수록  각각의 document그룹에서  사용된 빈도가 높은 단어들이 나옵니다.  여기서 topic이 다른 문서가 많이 섞일 수록 topic을 유추하는 확률이 많이 떨어집니다.  그리고 언어가 여러 언어일 수록  서로 모르는 언어가 되버리고 마는 것이지요.  여기서 제가 많이 사용하는 방법은,  모든 언어를 영어로 번역합니다.  google translate API는 무료로 소량의 번역을 해주는데 만약 google sheet의 translate 함수를 사용하면  속도는 조금 느릴 수 있으나 많은 제약이 사라집니다.  뭐, 구글 어카운트를 여러개 만들어서 돌리는 것도 방법...

인공지능(AI)은 만능이 아닙니다!

머신러닝(ML)용 데이터를 수집하다보면 이런 질문을 받습니다. * 인공지능은 사람이 못하는걸 해주지 않나요? * 그동안 안쓸거 같아서 버렸는데 필요한 데이터였나요? 제 대답은 언제나 그렇지만, 인공지능(AI)은 사람이 못하는 것을 하지 못합니다. 단지, 사람이 그동안 해오면서 모든 데이터를 볼 시간이 부족하여 꼭 필요하다고 판단되는 데이터만 남기고 버려왔다면, 인공지능은 병렬로 고속으로 그 데이터를 읽고 무한 교차 대입으로 전혀 상관없는 곳에서 상관 관계를 찾아내는 것이 묘미 입니다. 이런 얘기가 있지 않나요? 트위터에 그냥 사람들이 흘린 정보를 가지고 감기가 언제 한국에 상륙하고 얼마만큼의 피해를 낼 것이니 약을 어느정도 준비하면 되겠다 라던가, 전혀 상관없는 미국의 특정 기업의 주식의 변동이 오스트레일리아의 콩의 생산량과 일치한 경우 등. 우리가 나비효과라 이름은 부르지만 그 추적이 불가능 한 것을 인공지능은 역산하여 꺼낼 수 있습니다. 지금도 아무 생각없이 버리고 있는 데이터가 있다면 아래 제 글을 다시 읽어 보시기 바랍니다. https://talklowykr.blogspot.com/2019/03/blog-post_12.html 데이터는 21세기의 원유 입니다. 정유업체가 되지 말고 석유왕이 되십시요! Do not login your server any more! Free server management tool! http://giipweb.littleworld.net Subscribe and publish your links as a book with friends My Favorite Link Share http://link.littleworld.net

코인뉴스 - 인공지능이 기사정보를 모아줍니다!

전 세계 핫한 최신 뉴스를 한국어로 보고 싶으신가요>? http://coinnews.littleworld.net 코인이나 블록체인 관련 기사들을 모아서 많이 언급되는 주제를 토픽 모델링으로 분석한 뒤에 보여주는 서비스 입니다~ 현재는 거의 영문 기사를 가지고 오고 있지만, 크롤러의 업데이트를 지속적으로 하면서 전 세계의 기사를 가져오려고 합니다. 사용된 기술은 다음과 같습니다. Google SERP Web Crawler NLP(Natural Language Processing) LDA(Topic Modeling, tf-idf) Google Translate 궁금한 기술이 있으면 물어보세요! Do not login your server any more! Free server management tool! http://giipweb.littleworld.net  Subscribe and publish your links as a book with friends  My Favorite Link Share http://link.littleworld.net