0. 개요RAG를 하기 위해 데이터를 모으는 과정에서데이터를 일정 크기로 잘라야 한다.오늘은 문자열을 자르는 다양한 기법에 대해 공부해 보자 Langchain version : 0.3.25 1. Fixed-size 기반 분할1.1. 개념Fixed-size 기반 분할은 텍스트를 일정한 길이 단위로 잘라내는 방식이다.길이 기준은 문자 수(character) 혹은 토큰 수(token) 로 설정할 수 있다.예를 들어, 한 텍스트를 500자 단위로 나누거나, OpenAI tokenizer 기준 300토큰 단위로 나누는 것이 이에 해당한다.보통은 chunk overlap을 함께 사용해 문맥 단절을 완화한다. 1.2. 장점과 단점장점단점✔ 구현이 간단하고 빠르다✘ 의미 단위가 끊길 수 있다 (문장 중간에서 분할)✔ ..