LLM & RAG 용어정리 (한국어 임베딩 실습)
·
용어정리/LLM & RAG
Sentence-Transformer, Word2Vec, Transformer 기반 임베딩에 대해 공부해보자!Word2Vec장점 : 단어 간의 의미적인 관계의 파악에 적합함.단점 : 문장 단위에서는 유연성이 부족함.  우선 긴 문장을 한문장 한문장 토큰화 시킴.Word2Vec 모델을 불러와 토큰화된 문장을 학습시킨다.학슴된 문장에서 특정 단어와 가장 유사한 단어 찾기 # Python 기본 split() 사용해 간단하게 토큰화tokenized_sentences = [sentence.split() for sentence in sentences]# Word2Vec 모델 학습word2vec_model = Word2Vec(sentences=tokenized_sentences, vector_size=100, win..
LLM & RAG 용어정리 (LangChain과 FAISS 실습)
·
용어정리/LLM & RAG
실습을 통한 LangChain과 FAISS에 대해서 알아보자.기본 설정패키지 설치기본적으로 FAISS와 LangChain을 사용하기 위해서 패키지의 설치를 진행한다.faiss 같은 경우는 cpu와 gpu둘중 선택한다. 기본적으로는pip install langchain langchain-openai faiss-cpu/gpu  현재 사용하고 있는 anaconda 가상환경에는 최대한 conda 패키지로 설치를 해주는 것이 좋다. 이때, conda패키지에 없을 수 있는데, 이는 conda-forge로 설치할 수 있다.  https://anaconda.org/설치를 원하는 패키지의 이름을 검색하면 된다.  conda install conda-forge::langchain conda install conda-for..
LLM & RAG 용어정리 (LangChain 개념과 활용)
·
용어정리/LLM & RAG
LangChain의 개념과 그의 활용법에 대해서 알아보자LangChain이란LangChain은 Python의 프레임워크로 LLM을 중심으로 하여 다양한 데이터 소스와 도구를연결을 시키는 체인 기반 어플리케이션을 구축 할 수 있도록 한다. LangChain을 사용하게되면, 하나의 LLM에서만 응답을 받는 대신에,체인 구조를 통하여 다양한 작업 즉 연산, 데이터처리, 분석 등을 가능하게 한다. 검색, 분석, 생성의 자동화를 할 수 있다.  장점유연한 구성다양한 컴포넌트들을 쉽게 연결 할 수 있다.체인과 에이전트체인을 사용하여 여러 과정을 순차적으로 실행하게 한다.에이전트로 복잡한 작업을 자동화 한다.강력한 통합 기능다양한 언어모델과 데이터베이스와의 연결 및 통합이 가능하여 확장과 빠른검색을 가능하게 한다. ..
LLM & RAG 용어정리 (텍스트 처리 기법과 임베딩)
·
용어정리/LLM & RAG
텍스트 처리의 핵심 기법들과 임베딩 활용에 대해서 알아보자 텍스트 처리LLM을 효율적으로 사용하려면 텍스트 처리가 기본적으로 되어 있어야 한다.모델이 자연어를 이해하고 분석 하기 쉽게 돕는 첫 단계이다.  토큰화Tokenization 이라고 한다.텍스트를 단어 및 서브워드 단위로 분리를 하는 작업을 뜻한다.텍스트를 숫자로 변환을 하기전에 실행을 하는 단계이다. 단어 단위 토큰화나는 오늘 운동을 했다.>> [나는, 오늘, 운동을, 했다]서브워드 토큰화운동을>> [운동, 을] 정규화Normalization 이라고 한다.텍스트를 표준화된 형식으로 변환하는 작업을 뜻한다.텍스트의 대소문자 또는 특수문자등을 일관되게 변환시킨다. 소문자 변환OpenAI>> openai불필요한 기호 제거안녕하세요!>> 안녕하세요불용..
LLM & RAG 용어정리 (Vector DB 와 RAG의 개념)
·
용어정리/LLM & RAG
LLM의 Vector DB와 RAG의 개념에 대해서 알아보자.Vertor DBVector DB는 벡터 형태로 저장된 데이터들이 모여있는 집합이다.일반적인 데이터베이스는 어떠한 입력에 대해서 정확하게 일치하는 데이터를 검색하지만,Vector DB는 임베딩을 통한 벡터화로 인하여 연관성을 가지고 있기 때문에,유사한 벡터 간의 검색을 지원 할 수 있다. Vector (벡터)텍스트 또는 이미지와 같은 비정형 데이터(구조가 없는 데이터)를 인베딩을 통해 벡터화 하여서 저장한다.이때의 벡터는 데이터의 의미나 특징을 포함하고 있기 때문에, 위에서 이야기한 유사한 벡터간의 검색이가능하도록 한다. Faiss벡터 검색 엔진이다. (Vector DB안의 기능이 아닌 Faiss또한 이 검색 엔진을 지원하는 Vector DB이..
LLM & RAG 용어정리 (LLM 사용 전 중요한 개념)
·
용어정리/LLM & RAG
LLM을 사용하기 전에 알아야 할 중요한 개념들에 대해서 알아보자. 보안 문제LLM을 사용할 때의 데이터 보안 문제가 생길 수 있다. 개인 정보 보호학습 데이터 또는 대화를 통하여 민감한 개인 정보가 포함이 될 수 있다.데이터 저장 및 전송LLM이 처리한 데이터가 어디에 저장되는지, 어디로 전송이 되는지를 알아야한다. 보안을 강화하는 방법민감한 정보 필터링입력된 데이터에서 민감한 정보를 자동으로 거르는 필터링 시스템을 구축 하는 방법.암호화SSL/TLS 와같은 데이터 암호화 프로토콜을 이용한다.SSL/TLS을 HTTP와 결합한 HTTPS를 사용한다.데이터 저장 최소화학습데이터가 아닌 유저의 데이터의 최소화를 뜻한다.데이터 보존 주기를 설정해 자동으로 삭제를 시키는등 유저의 정보를 지속적으로 정리해야한다...