인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

Embedding 2

[langchain] 유저 채팅 토픽 분석 with BERTopic

0. 개요0.1. 왜 사용하는가채팅 서버를 관리하다 보면유저들이 어떠한 질문을 채팅모델에 던지는지궁금해지기 마련이다.그렇지만 데이터가 수십만개가 넘어 가면유저들이 어떠한 질문을 하는지 파악하기가 어려워 진다. 이번 포스팅 에서는 군집분석(Clustering)을 통해유저의 질문 데이터를 비슷한 데이터끼리 묶어주고토픽을 찾아 볼 것이다. 관련 모델은BERTopic 이 있다.이 모델을 이용해질문 데이터에서 토픽을 추출해 보자. 0.2. 분석 순서BERTopic의 분석 순서는 다음과 같다. 1. 문장 벡터화 (Sentence Embedding)2. 클러스터링 (HDBSCAN)3. 토픽 추출 (TF-IDF & c-TF-IDF)4. 결과 시각화 및 분석 1. 문장 벡터화먼저, 문자열 형태의 데이터는 임베딩(Embe..

[Langchain] 임베딩(Embedding)과 유사도 검색 방법 for Retriever

1. 임베딩(Embedding)정의 : 임베딩은 단어, 문장, 이미지 등과 같은 데이터를 숫자 벡터(연속된 실수 공간)로 표현하는 방식 (사진 출처: google 머신러닝 기초과정) 단어나 문장을 임베딩 모델(BERT, GPT 등)을 통해 고정된 차원의 실수 벡터로 바꾸면, 각각의 벡터가 해당 단어(또는 문장)의 의미 정보를 함축적으로 담게 된다. 이때, 데이터는 의미가 유사한 두 벡터는 사이가 가깝도록 만든다. 2. 임베딩 모델주된 학습 목적은 의미가 유사한 문장은 유사한 벡터로, 의미가 다른 문장은 다른 벡터로 매핑하도록 하는 것생성 모델과 달리, 토큰을 문장으로 생성하는 것이 아니라 문장을 하나의 벡터로 표현하는 데 집중 2.1. 고전적인 모델고전적인 모델에는 Word2vec이 유명하다.Word2v..

반응형