
노트북에 로컬 LLM을 구축 하려 합니다. Ollama를 설치해서 LLM을 설치했는데 너무 느리네요
모델의 성능을 유지하고 용량을 줄인 양자화 모델이 필요하여 정리 해 봅니다.
☀️로컬 LLM구축을 위한
양자화 모델 -노트북용 LLM 추천(26.04)
📔 요약
▪︎일반 게이밍 노트북(RTX 4060, 16GB RAM, 8GB VRAM)이라면 양자화된 작은 모델을 추천 합니다.
▪︎Qwen 3.5 2B · Llama 7B · Mistral 7B가 8G이하에서 가장 안정적입니다.
▪︎12~16GB VRAM 노트북은 Qwen 3.5 4B · Phi-4 14B까지 활용 가능하며,
▪︎ 24GB 이상 VRAM 환경에서는 Qwen 3.5 9B · Llama 13B · Mixtral 8x7B 같은 대형 모델도 실행할 수 있습니다.
▪︎양자화 된 모델은 FP32(32비트 부동소수점)로 저장된 모델 파라미터를 INT8, INT4 같이 정수형으로 처리하여 용량을 개선 합니다.
● VRAM 8GB
Qwen 3.5 2B (Q4): 경량, 한국어 지원 우수 → 기본 챗봇, 문서 요약: https://ollama.com/library/qwen3.5:2b
Llama 3.2 7B (Q4): 범용성, 영어/한국어 균형 → 일반 대화, 학습: https://ollama.com/library/llama3.2:7b
Mistral 7B (Q4): 추론·코딩 강점 → 개발 보조: https://ollama.com/library/mistral:7b
● VRAM 12~16GB
Qwen 3.5 4B (Q4): 30B급 성능에 준하는 효율 → 다국어, 에이전트: https://ollama.com/library/qwen3.5:4b
Phi-4 14B (Q4): 경량+정확, MS 최신 → 연구, 글쓰기: https://ollama.com/library/phi4:14b
● VRAM 24GB 이상
Qwen 3.5 9B (Q4): 강력한 다국어·에이전트 → 고급 챗봇, RAG: https://ollama.com/library/qwen3.5:9b
Llama 3.3 13B (Q4): GPT-3.5급 성능 → 범용 대화, 코딩: https://ollama.com/library/llama3.3:13b
Mixtral 8x7B (Q4): MoE 구조, 효율적 → 대형 프로젝트: https://ollama.com/library/mixtral:8x7b
. 한국어 성능은 Qwen·EXAONE 계열이 우수, Llama는 다국어 균형
🔎 양자화란 무엇인가?
- 정의: 원래 FP32(32비트 부동소수점)로 저장된 모델 파라미터를 INT8, INT4 같은 더 작은 정수 표현으로 변환하는 과정.
- 효과:
- 모델 크기 축소 (예: 13B 모델이 30GB → 8GB 수준으로 감소)
- VRAM 절약 (GPU 메모리)
- 추론 속도 향상 (더 작은 데이터로 연산)
- 전력 소비 감소
- 단점: 정확도가 소폭 떨어질 수 있음. 대부분 실사용에 큰 문제 없음
■ Qwen 3.5 양자화 버전 종류
- Qwen3.5-0.8B
- 크기: 약 1GB
- 용도: 초경량, 간단한 챗봇/자동완성
- VRAM 요구: 4~6GB
- Qwen3.5-2B
- 크기: 약 2.7GB
- 용도: 경량 비서, 기본 코딩 지원
- VRAM 요구: 8GB 내외
- Qwen3.5-4B
- 크기: 약 3.4GB
- 용도: 개발 도우미, 멀티모달 지원
- VRAM 요구: 12~14GB
- Qwen3.5-9B
- 크기: 약 6.6GB
- 용도: 강력한 일반 비서, 다국어 지원
- VRAM 요구: 16~24GB
- Qwen3.5-27B / 35B / 122B
- 크기: 17GB / 24GB / 81GB 이상
- 용도: 대형 모델, 연구/고성능 서버용
- VRAM 요구: 24GB~80GB 이상
🚀 Ollama에서 설치 및 실행 방법
1. 모델 다운로드
`bash
ollama pull qwen3.5:2b
ollama pull qwen3.5:4b
ollama pull qwen3.5:9b
`
→ 원하는 크기 선택
2. 실행
`bash
ollama run qwen3.5:4b
`
→ 터미널에서 바로 대화 시작
⚠️ 주의사항
VRAM 부족 시 CPU 오프로딩 발생 → 속도 급락, 반드시 GPU VRAM에 맞는 모델 선택
장시간 추론 시 노트북 발열 심각 → 쿨링 필수
Docker 실행 시 --gpus all 옵션으로 GPU 패스스루 설정
'BigData' 카테고리의 다른 글
| (AI모델) 임베딩 전용 모델과 생성 모델 차이 (0) | 2026.04.15 |
|---|---|
| (AI의 성장 일기) 인공지능, 어디까지 왔을까? (0) | 2026.04.09 |
| 신사업의 성장법칙 - 앤스로픽(Anthropic) 중심으로 (0) | 2026.04.01 |
| 앤스로픽(Anthropic)의 AI전략 (1) | 2026.04.01 |
| AI플랫폼이 세상의 문명을 바꾸고 있다. (0) | 2026.04.01 |
| Local LLM구축 - Ollama에서 Llama3 수동 설치 및 맞춤형 모델 사용 (0) | 2026.02.14 |
| DBMS Join (0) | 2025.11.18 |