본문 바로가기

LLM

Embedding, VectorDB, Chunking 개념

by 하응 2026. 2. 8.

Embed

어떤 것을 다른 것에 삽입하거나 통합하는 행위, 예를 들어 웹페이지에 외부 콘텐츠를 '임베드'

Embedding

AI 에서는 단어나 문장과 같은 텍스트 데이터를 벡터의 형태로 표현하는 과정을 의미
임베딩 벡터는 텍스트보다 낮은 차원을 가짐, 데이터의 의미적, 문맥적 특성을 수치화 (위치 표현)
embedding 된 벡터끼리 consine similarity를 계산하여 텍스트 간 유사도를 파악할 수 있음
정확한 문자열이 아닌 "의미"로 검색하는 semantic search 가 가능
다양한 embedding 모델이 있음

VectorDB

텍스트, 이미지 등을 임베딩한 고차원 벡터로 변환해 저장하고(key, value), 유사도 기반의 검색을 제공하는 특수 데이터 베이스
Pinecone, Weaviate, QDrant, Milvus, Chroma 등 전용 벡터 데이터베이스 등장
Elasticsearch, Redis, Postgres 등 다양한 데이터베이스가 벡터 인덱스 지원

Ranking, cutoff

쓸데 없는 내용이 검색되면 토큰 수가 늘어나고, 결과가 부정확함
가장 유용한 몇 개만 들고와서 프롬프트 템플릿 생성

Chunking

덩어리를 만드는 일
고정 크기 청킹 (보통 1024) : 구현 간단, 의미 손실 위험성
동적 크기 청킹 : 구현 복잡, 높은 효율성

'[재직자 내배카] LLM을 이용한 AI 서비스 개발부터 운영까지' 수업을 정리한 내용입니다.

'LLM' 카테고리의 다른 글

LLMOps Stack, LLM 속도 향상 전략 (0)	2026.02.15
Ollama (0)	2026.02.14
Fine Tuning 용어 정리 (0)	2026.02.14
distributed(분산형) IT 시스템 패턴 (0)	2026.02.10
RAG, Grounding 개념 (0)	2026.02.07

댓글

티스토리툴바