BigData

☀️양자화 모델 -노트북용 LLM 추천(26.04)

IT오이시이 2026. 4. 28. 08:22
728x90



노트북에 로컬 LLM을 구축 하려 합니다. Ollama를 설치해서 LLM을 설치했는데 너무 느리네요

모델의 성능을 유지하고 용량을 줄인 양자화 모델이 필요하여 정리 해 봅니다.


☀️로컬 LLM구축을 위한
    양자화 모델 -노트북용 LLM  추천(26.04)



📔 요약

▪︎일반 게이밍 노트북(RTX 4060, 16GB RAM, 8GB VRAM)이라면 양자화된 작은 모델을 추천 합니다.
▪︎Qwen 3.5 2B · Llama 7B · Mistral 7B가 8G이하에서 가장 안정적입니다.
▪︎12~16GB VRAM 노트북은 Qwen 3.5 4B · Phi-4 14B까지 활용 가능하며,
▪︎  24GB 이상 VRAM 환경에서는 Qwen 3.5 9B · Llama 13B · Mixtral 8x7B 같은 대형 모델도 실행할 수 있습니다.
▪︎양자화 된 모델은  FP32(32비트 부동소수점)로 저장된 모델 파라미터를 INT8, INT4 같이 정수형으로 처리하여 용량을 개선 합니다.



● VRAM 8GB

Qwen 3.5 2B (Q4): 경량, 한국어 지원 우수 → 기본 챗봇, 문서 요약: https://ollama.com/library/qwen3.5:2b

Llama 3.2 7B (Q4): 범용성, 영어/한국어 균형 → 일반 대화, 학습: https://ollama.com/library/llama3.2:7b

Mistral 7B (Q4): 추론·코딩 강점 → 개발 보조: https://ollama.com/library/mistral:7b


● VRAM 12~16GB

Qwen 3.5 4B (Q4): 30B급 성능에 준하는 효율 → 다국어, 에이전트: https://ollama.com/library/qwen3.5:4b

Phi-4 14B (Q4): 경량+정확, MS 최신 → 연구, 글쓰기: https://ollama.com/library/phi4:14b


● VRAM 24GB 이상

Qwen 3.5 9B (Q4): 강력한 다국어·에이전트 → 고급 챗봇, RAG: https://ollama.com/library/qwen3.5:9b

Llama 3.3 13B (Q4): GPT-3.5급 성능 → 범용 대화, 코딩: https://ollama.com/library/llama3.3:13b

Mixtral 8x7B (Q4): MoE 구조, 효율적 → 대형 프로젝트: https://ollama.com/library/mixtral:8x7b

. 한국어 성능은 Qwen·EXAONE 계열이 우수, Llama는 다국어 균형


🔎 양자화란 무엇인가?
- 정의: 원래 FP32(32비트 부동소수점)로 저장된 모델 파라미터를 INT8, INT4 같은 더 작은 정수 표현으로 변환하는 과정.  
- 효과:
  - 모델 크기 축소 (예: 13B 모델이 30GB → 8GB 수준으로 감소)  
  - VRAM 절약 (GPU 메모리)  
  - 추론 속도 향상 (더 작은 데이터로 연산)  
  - 전력 소비 감소  
- 단점: 정확도가 소폭 떨어질 수 있음.  대부분 실사용에 큰 문제 없음  


■ Qwen 3.5 양자화 버전 종류
- Qwen3.5-0.8B  
  - 크기: 약 1GB  
  - 용도: 초경량, 간단한 챗봇/자동완성  
  - VRAM 요구: 4~6GB  
- Qwen3.5-2B  
  - 크기: 약 2.7GB  
  - 용도: 경량 비서, 기본 코딩 지원  
  - VRAM 요구: 8GB 내외  
- Qwen3.5-4B  
  - 크기: 약 3.4GB  
  - 용도: 개발 도우미, 멀티모달 지원  
  - VRAM 요구: 12~14GB  
- Qwen3.5-9B  
  - 크기: 약 6.6GB  
  - 용도: 강력한 일반 비서, 다국어 지원  
  - VRAM 요구: 16~24GB  
- Qwen3.5-27B / 35B / 122B  
  - 크기: 17GB / 24GB / 81GB 이상  
  - 용도: 대형 모델, 연구/고성능 서버용  
  - VRAM 요구: 24GB~80GB 이상  



🚀 Ollama에서 설치 및 실행 방법

1. 모델 다운로드  
   `bash
   ollama pull qwen3.5:2b
   ollama pull qwen3.5:4b
   ollama pull qwen3.5:9b
   `
   → 원하는 크기 선택  

2. 실행  
   `bash
   ollama run qwen3.5:4b
   `
   → 터미널에서 바로 대화 시작  



⚠️ 주의사항

VRAM 부족 시 CPU 오프로딩 발생 → 속도 급락, 반드시 GPU VRAM에 맞는 모델 선택

장시간 추론 시 노트북 발열 심각 → 쿨링 필수

Docker 실행 시 --gpus all 옵션으로 GPU 패스스루 설정


728x90
반응형