본문 바로가기
LLM

Embedding, VectorDB, Chunking 개념

by 하응 2026. 2. 8.

Embed

  • 어떤 것을 다른 것에 삽입하거나 통합하는 행위, 예를 들어 웹페이지에 외부 콘텐츠를 '임베드'

Embedding  

  • AI 에서는 단어나 문장과 같은 텍스트 데이터를 벡터의 형태로 표현하는 과정을 의미 
  • 임베딩 벡터는 텍스트보다 낮은 차원을 가짐, 데이터의 의미적, 문맥적 특성을 수치화 (위치 표현)
  • embedding 된 벡터끼리 consine similarity를 계산하여 텍스트 간 유사도를 파악할 수 있음
  • 정확한 문자열이 아닌 "의미"로 검색하는 semantic search 가 가능
  • 다양한 embedding 모델이 있음

VectorDB

  • 텍스트, 이미지 등을 임베딩한 고차원 벡터로 변환해 저장하고(key, value), 유사도 기반의 검색을 제공하는 특수 데이터 베이스 
  • Pinecone, Weaviate, QDrant, Milvus, Chroma 등 전용 벡터 데이터베이스 등장
  • Elasticsearch, Redis, Postgres 등 다양한 데이터베이스가 벡터 인덱스 지원

Ranking, cutoff

  • 쓸데 없는 내용이 검색되면 토큰 수가 늘어나고, 결과가 부정확함
  • 가장 유용한 몇 개만 들고와서 프롬프트 템플릿 생성

Chunking

  • 덩어리를 만드는 일
  • 고정 크기 청킹 (보통 1024) : 구현 간단, 의미 손실 위험성
  • 동적 크기 청킹 : 구현 복잡, 높은 효율성 

 

 

 

 

'[재직자 내배카] LLM을 이용한 AI 서비스 개발부터 운영까지' 수업을 정리한 내용입니다.

반응형

'LLM' 카테고리의 다른 글

LLMOps Stack, LLM 속도 향상 전략  (0) 2026.02.15
Ollama  (0) 2026.02.14
Fine Tuning 용어 정리  (0) 2026.02.14
distributed(분산형) IT 시스템 패턴  (0) 2026.02.10
RAG, Grounding 개념  (0) 2026.02.07

댓글