Talk Lowy(kr)

NLP를 위한 LDA등을 사용한 문서 정리 및 검색을 위한 머신러닝 방법론

코드를 공부하는 글이 아니므로 샘플 코드등은 없으니 코드를 찾으시는 분들은 패스하셔도 됩니다. 개념 적인 접근, 그리고 사용법은 아는데 추가적인 돌파구를 위한 아이디어를 원하시는 분들을 위한 글입니다. 대부분 도큐먼트(글뭉치?)의 의미를 한 눈에 캐치하여 인덱싱하여 도큐먼트를 관리하기 위해 Topic Modeling을 사용하려 하고 있습니다. 하지만 단순히 LDA를 사용해봤자, 사용된 단어의 개수가 많은 글들끼리의 묶음 정도로 밖에 분류가 안됩니다. https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation LDA : 잠재적 디리클렛 배분법 google스러운 정보의 정리를 위해서는 하나만 사용하는 것이 아니라 다양한 ML모듈을 활용해야 하는데요.. 예를 들어 이렇게 합니다. LDA모듈로 문장을 읽어내면 단어의 기본형과 Document에서 사용된 단어수가 나오고 이를 기반으로 이 document의 topic에 해당할 법한 상위 단어들이 표시됩니다. 여러 document를 던질 수록 각각의 document그룹에서 사용된 빈도가 높은 단어들이 나옵니다. 여기서 topic이 다른 문서가 많이 섞일 수록 topic을 유추하는 확률이 많이 떨어집니다. 그리고 언어가 여러 언어일 수록 서로 모르는 언어가 되버리고 마는 것이지요. 여기서 제가 많이 사용하는 방법은, 모든 언어를 영어로 번역합니다. google translate API는 무료로 소량의 번역을 해주는데 만약 google sheet의 translate 함수를 사용하면 속도는 조금 느릴 수 있으나 많은 제약이 사라집니다. 뭐, 구글 어카운트를 여러개 만들어서 돌리는 것도 방법...

자세한 내용 보기