LLM & RAG 용어정리 (텍스트 처리 기법과 임베딩)
·
용어정리/LLM & RAG
텍스트 처리의 핵심 기법들과 임베딩 활용에 대해서 알아보자 텍스트 처리LLM을 효율적으로 사용하려면 텍스트 처리가 기본적으로 되어 있어야 한다.모델이 자연어를 이해하고 분석 하기 쉽게 돕는 첫 단계이다. 토큰화Tokenization 이라고 한다.텍스트를 단어 및 서브워드 단위로 분리를 하는 작업을 뜻한다.텍스트를 숫자로 변환을 하기전에 실행을 하는 단계이다. 단어 단위 토큰화나는 오늘 운동을 했다.>> [나는, 오늘, 운동을, 했다]서브워드 토큰화운동을>> [운동, 을] 정규화Normalization 이라고 한다.텍스트를 표준화된 형식으로 변환하는 작업을 뜻한다.텍스트의 대소문자 또는 특수문자등을 일관되게 변환시킨다. 소문자 변환OpenAI>> openai불필요한 기호 제거안녕하세요!>> 안녕하세요불용..