0. 개요0.1. 왜 사용하는가채팅 서버를 관리하다 보면유저들이 어떠한 질문을 채팅모델에 던지는지궁금해지기 마련이다.그렇지만 데이터가 수십만개가 넘어 가면유저들이 어떠한 질문을 하는지 파악하기가 어려워 진다. 이번 포스팅 에서는 군집분석(Clustering)을 통해유저의 질문 데이터를 비슷한 데이터끼리 묶어주고토픽을 찾아 볼 것이다. 관련 모델은BERTopic 이 있다.이 모델을 이용해질문 데이터에서 토픽을 추출해 보자. 0.2. 분석 순서BERTopic의 분석 순서는 다음과 같다. 1. 문장 벡터화 (Sentence Embedding)2. 클러스터링 (HDBSCAN)3. 토픽 추출 (TF-IDF & c-TF-IDF)4. 결과 시각화 및 분석 1. 문장 벡터화먼저, 문자열 형태의 데이터는 임베딩(Embe..