Talk Lowy(kr)

글

라벨이 머신러닝인 게시물 표시

새로운 AI엔진을 만들 수 있는 개념이 있지 않을까?

많은 곳에서 챗봇이니 머신러닝이니 하면서 기계학습 개념 자체의 접근 법은 신경쓰지 않은채 결과에 치중한 업무를 하는 사람들 뿐이다. 물론 이 외에는 돈이 안되기 때문에 하지 않고 있기 때문이지 않을까. Softbank 자회사인 Kokoro라는 곳에서는 감정맵에 의한 로봇의 행동의 배리에이션에 감정 요소를 넣어 보다 많은 행동패턴을 만드는 용도로 사용을 하고 있다. 이 방법도 감정맵에 의한 희노애락의 변형적인 대응으로 상당히 재미난 접근이나 돈이 되는 것은 아니다. 개인이 자비로 재밌는 개념을 구현하고자 하는 동영상이 있었다. 인간이 일반적으로 단어를 인지하는 방법 중에 3차원 공간에서 단어를 인지하는 방법론의 개입이다. 예를 들어, "숨는다" 라는 표현은 3차원 공간에서 주체의 시야에서 사라지는 것을 의미한다. 여기에 "늑대로부터 숨는다" 라는 문장화되면 더욱 복잡해지면서 단순히 시야에서 사라지는 방법 중에 "장애물 안으로 숨어서 몸을 지킨다" 라는 "두려움"을 줄이는 최적의 방법을 찾는 "심리적 안정도"의 sorting을 하여 행동을 하게 된다. 실제로 구현하는 과정을 봤을 때에는 너무 단일 사례만을 목적으로 만들었기 때문에 실제로 사용 가능한 패턴을 벡터화 하여 다차원 벡터 연산을 하는 방법에 대해서 생각하기에는 의문이 있지만, 많은 머신러닝 사례등과 비교한다면 굉장히 신선한 접근 방식이고, 3차원 공간에서의 좌표 및 지형지물에 대한 인식 체계 및 각각의 추가 벡터까지 가미시켜 보다 현실적인 답안을 만들어내는 방법 자체에는 흥미가 가는 접근법이다. 단지 이를 이용해서 재화를 만들 방법이 없어서 연구가 안되는 것 같지만, 내 생각에는 현재 너무 많아져 더이상 유저의 감정을 움직이지 않고 있는 MMORPG의 NPC의 AI엔진에 이를 적용하면 유저의 호감도나 자체 성격에 따른 다양한 유저 대응 패턴을 만들 수 있지 않을까? 새로운 가상 세계의 주민을 만들 수 ...

자세한 내용 보기

NLP를 위한 LDA등을 사용한 문서 정리 및 검색을 위한 머신러닝 방법론

코드를 공부하는 글이 아니므로 샘플 코드등은 없으니 코드를 찾으시는 분들은 패스하셔도 됩니다. 개념 적인 접근, 그리고 사용법은 아는데 추가적인 돌파구를 위한 아이디어를 원하시는 분들을 위한 글입니다. 대부분 도큐먼트(글뭉치?)의 의미를 한 눈에 캐치하여 인덱싱하여 도큐먼트를 관리하기 위해 Topic Modeling을 사용하려 하고 있습니다. 하지만 단순히 LDA를 사용해봤자, 사용된 단어의 개수가 많은 글들끼리의 묶음 정도로 밖에 분류가 안됩니다. https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation LDA : 잠재적 디리클렛 배분법 google스러운 정보의 정리를 위해서는 하나만 사용하는 것이 아니라 다양한 ML모듈을 활용해야 하는데요.. 예를 들어 이렇게 합니다. LDA모듈로 문장을 읽어내면 단어의 기본형과 Document에서 사용된 단어수가 나오고 이를 기반으로 이 document의 topic에 해당할 법한 상위 단어들이 표시됩니다. 여러 document를 던질 수록 각각의 document그룹에서 사용된 빈도가 높은 단어들이 나옵니다. 여기서 topic이 다른 문서가 많이 섞일 수록 topic을 유추하는 확률이 많이 떨어집니다. 그리고 언어가 여러 언어일 수록 서로 모르는 언어가 되버리고 마는 것이지요. 여기서 제가 많이 사용하는 방법은, 모든 언어를 영어로 번역합니다. google translate API는 무료로 소량의 번역을 해주는데 만약 google sheet의 translate 함수를 사용하면 속도는 조금 느릴 수 있으나 많은 제약이 사라집니다. 뭐, 구글 어카운트를 여러개 만들어서 돌리는 것도 방법...

자세한 내용 보기

인공지능(AI)은 만능이 아닙니다!

머신러닝(ML)용 데이터를 수집하다보면 이런 질문을 받습니다. * 인공지능은 사람이 못하는걸 해주지 않나요? * 그동안 안쓸거 같아서 버렸는데 필요한 데이터였나요? 제 대답은 언제나 그렇지만, 인공지능(AI)은 사람이 못하는 것을 하지 못합니다. 단지, 사람이 그동안 해오면서 모든 데이터를 볼 시간이 부족하여 꼭 필요하다고 판단되는 데이터만 남기고 버려왔다면, 인공지능은 병렬로 고속으로 그 데이터를 읽고 무한 교차 대입으로 전혀 상관없는 곳에서 상관 관계를 찾아내는 것이 묘미 입니다. 이런 얘기가 있지 않나요? 트위터에 그냥 사람들이 흘린 정보를 가지고 감기가 언제 한국에 상륙하고 얼마만큼의 피해를 낼 것이니 약을 어느정도 준비하면 되겠다 라던가, 전혀 상관없는 미국의 특정 기업의 주식의 변동이 오스트레일리아의 콩의 생산량과 일치한 경우 등. 우리가 나비효과라 이름은 부르지만 그 추적이 불가능 한 것을 인공지능은 역산하여 꺼낼 수 있습니다. 지금도 아무 생각없이 버리고 있는 데이터가 있다면 아래 제 글을 다시 읽어 보시기 바랍니다. https://talklowykr.blogspot.com/2019/03/blog-post_12.html 데이터는 21세기의 원유 입니다. 정유업체가 되지 말고 석유왕이 되십시요! Do not login your server any more! Free server management tool! http://giipweb.littleworld.net Subscribe and publish your links as a book with friends My Favorite Link Share http://link.littleworld.net

자세한 내용 보기

코인뉴스 - 인공지능이 기사정보를 모아줍니다!

전 세계 핫한 최신 뉴스를 한국어로 보고 싶으신가요>? http://coinnews.littleworld.net 코인이나 블록체인 관련 기사들을 모아서 많이 언급되는 주제를 토픽 모델링으로 분석한 뒤에 보여주는 서비스 입니다~ 현재는 거의 영문 기사를 가지고 오고 있지만, 크롤러의 업데이트를 지속적으로 하면서 전 세계의 기사를 가져오려고 합니다. 사용된 기술은 다음과 같습니다. Google SERP Web Crawler NLP(Natural Language Processing) LDA(Topic Modeling, tf-idf) Google Translate 궁금한 기술이 있으면 물어보세요! Do not login your server any more! Free server management tool! http://giipweb.littleworld.net Subscribe and publish your links as a book with friends My Favorite Link Share http://link.littleworld.net

자세한 내용 보기