목차
나는 LLM관련 업계에 종사하는 개발자이다.
ChatGPT의 등장 이후, 연구는 포기하고 OpenAI의 거대 모델을 사용하는 삶을 살아가려고 했는데
최근 DeepSeek의 출범 이후 다시 개인 연구를 시작하기로 했다.
DeepSeek는 적은 비용으로
강력한 모델을 만들 수 있다는
확신을 안겨주었기 때문이다.
나의 연구 방향성은
6년전 부터 그래왔듯
미국 중국에서 새로운 연구 성과를 논문으로 발표할 때마다
한국에도 빠르게 적용해 상업적으로 적용하는 것이었다.
6년전 부터 내가 봐온 AI 분야는
컴퓨터 자원을 더 투자해 성과를 내고
효율화 시켜서 컴퓨터 자원을 아끼는 것을
반복해 왔다.
6년 전에는 NLP 모델은
감정 분석과 같은 분류문제 정도만 해결하는 수준이었다.
현재는 대화를 하고, 생각을 하는 수준까지 왔다.
단, 엄청난 컴퓨터 자원을 필요로 한다.
당분간을 상업적으로 사용하기 위해 이를 효율화 하려는 연구가 많이 등장할 것으로 보인다.
그리고 몇년 후에는
분명히 멀티모델을
상업적인 수준으로 발전시키기 위해
나아갈 것이라고 생각한다.
당연하겠지만 더 좋은 모델이 등장할 수록
그에 필요한 수많은 데이터도 필요할 것이다.
AI 연구 논문은
계속해서 공개되고,
모델도 공개되고 있다.
그렇지만
연구를 하기 위한 첫번째 벽이 있다.
먼저, 데이터 자체를 구하기 쉽지 않다는 것이다.
두번째로는
고성능의 GPU는 비싸다는 것이다.
그럼에도 불구하고
지금 연구를 시작하려고 하는 것은
위 문제를 어느정도 해결할 수 있는 때가 왔기 때문이다.
첫번째로는
시장에서는 sLLM을 필요로 한다는 점이며,
두번째로는
데이터는 내가 하드디스크를 구매해서
꾸준히 잘 모으면 된다는 것이다.
블로그는 오픈된 공간이므로
구체적인 데이터, 하이퍼파라미터, 핵심 내용은 비공개로 업로드 하고
논문 발표 이후에 공개하도록 하겠다.
sLLM은 LLM과 달리
대체적으로 전반적인 대화 수준은 떨어지지만
특정 분야에서는 사용될 수 있는 성능을 보이는 것으로 판단된다.
올해부터 내년 상반기까지 연구할 주제는
작은 모델로 높은 성능을 내는 것으로 정해 본다.
아인슈타인도 퇴근하고 짬짬히 했던 연구로
과학계의 한 획을 긋는 논문을 발표하지 않았던가!
내년에는 꼭
연구성과를 내서 학회에 올려보길 ㅠㅅㅠ 제발~