LLM & RAG 용어정리 (한국어 임베딩 실습)
·
용어정리/LLM & RAG
Sentence-Transformer, Word2Vec, Transformer 기반 임베딩에 대해 공부해보자!Word2Vec장점 : 단어 간의 의미적인 관계의 파악에 적합함.단점 : 문장 단위에서는 유연성이 부족함. 우선 긴 문장을 한문장 한문장 토큰화 시킴.Word2Vec 모델을 불러와 토큰화된 문장을 학습시킨다.학슴된 문장에서 특정 단어와 가장 유사한 단어 찾기 # Python 기본 split() 사용해 간단하게 토큰화tokenized_sentences = [sentence.split() for sentence in sentences]# Word2Vec 모델 학습word2vec_model = Word2Vec(sentences=tokenized_sentences, vector_size=100, win..