[Ollama] vs pytorch transformers

DeepLearning

jiheek 2025. 8. 11. 15:37

🔄 Ollama vs PyTorch/transformers

# ollama 설치
curl -fsSL https://ollama.com/install.sh | sh
# llama3.2 1B(가장 작은 모델) 설치
ollama pull llama3.2:1b

구분	🦙 Ollama	🐍 PyTorch/Transformers
아키텍처	클라이언트-서버 구조	직접 라이브러리 호출
통신 방식	HTTP API (REST)	Python 함수 호출
기본 포트	11434	없음 (직접 호출)
설치 방법	시스템 바이너리 설치	pip install
모델 관리	ollama pull <model>	HuggingFace Hub 자동 다운로드
모델 저장 위치	/usr/share/ollama/.ollama/models/	~/.cache/huggingface/hub/
모델 형식	GGUF (양자화된 형식)	PyTorch (.bin, .safetensors)
메모리 사용	서버 프로세스가 공유 관리	각 Python 프로세스마다 로드
초기화 시간	서버 시작 후 즉시 사용	매번 모델 로딩 필요
동시 사용	여러 클라이언트가 하나의 서버 공유	각각 독립적으로 모델 로드
성능	C++/Go 기반, 고도로 최적화	Python 오버헤드 존재
스트리밍	내장 지원 (stream=True)	복잡한 구현 필요
양자화	기본 지원 (Q8_0, Q4_0 등)	별도 라이브러리 필요
커스터마이징	API 파라미터로 제한	모든 내부 로직 접근 가능
디버깅	서버 로그만 확인 가능	Python 코드 직접 디버깅
의존성	requests 라이브러리만	torch, transformers 등
디스크 사용량	압축된 모델 (1.3GB)	원본 모델 (더 큰 용량)
GPU 지원	자동 감지 및 최적화	수동 설정 필요
CPU 최적화	llama.cpp 기반 최적화	기본 PyTorch CPU 실행

Ollama의 기본 서버 포트는 11434이다.

🗂️ 모델 파일 (디스크): 데이터만 저장
    ↓
🖥️ Ollama 서버: 파일을 읽어서 추론 엔진 구동
    ↓  
🌐 HTTP API: 외부에서 접근 가능한 인터페이스 제공
    ↓
🐍 ollama.py: API를 호출하는 클라이언트

[SLM] smollm 돌려보기 with copilot (1)	2025.08.11
[aws ec2] vscode 연결: config 설정, 인스턴스 용량 증설 (1)	2025.08.11
Class Imbalance (0)	2022.12.26
Diffusion Model - 개념 알기 (0)	2022.10.11
[논문리뷰] CutPaste: Self-Supervised Learning for Anomaly Detection and Localization (0)	2022.08.04