Tutorial Lengkap Ollama: Deploy LLM Secara Lokal
Ollama adalah tool open-source yang memudahkan Anda menjalankan Large Language Models (LLM) secara lokal di komputer Anda. Dengan Ollama, Anda dapat menggunakan model seperti Llama 3, Mistral, Gemma, dan banyak lagi tanpa memerlukan koneksi internet atau API berbayar.
Mengapa Ollama?
Keuntungan menggunakan Ollama:- Privacy: Data tidak keluar dari komputer Anda
- No API costs: Gratis setelah download model
- Offline capable: Bekerja tanpa internet
- Easy setup: Satu command untuk menjalankan model
- OpenAI-compatible API: Drop-in replacement untuk OpenAI
- Development dan testing aplikasi AI
- Private/sensitive data processing
- Offline AI applications
- Learning dan eksperimen dengan LLM
- Cost-effective inference
Instalasi
1. Install di Linux
# Install dengan script
curl -fsSL https://ollama.com/install.sh | sh
Verify installation
ollama --version
2. Install di macOS
# Download dari website atau gunakan Homebrew
brew install ollama
Atau download .dmg dari https://ollama.com/download
3. Install di Windows
Download installer dari ollama.com/download dan jalankan.
4. Install via Docker
# Pull image
docker pull ollama/ollama
Run container
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Dengan GPU (NVIDIA)
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Quick Start
1. Pull dan Run Model
# Download dan run Llama 3
ollama run llama3
Atau model lain
ollama run mistral
ollama run gemma:7b
ollama run phi3
ollama run codellama
Chat langsung di terminal
>> Halo, siapa kamu?
Saya adalah AI assistant...
>> /bye # Keluar dari chat
2. Model yang Tersedia
| Model | Size | Use Case |
|-------|------|----------|
| llama3:8b | 4.7GB | General purpose, balanced |
| llama3:70b | 40GB | High quality responses |
| mistral | 4.1GB | Fast, efficient |
| gemma:7b | 5GB | Google's open model |
| phi3 | 2.2GB | Small, efficient |
| codellama | 3.8GB | Code generation |
| llava | 4.5GB | Vision + Language |
| mixtral | 26GB | Mixture of experts |
# List available models
ollama list
Pull specific version
ollama pull llama3:8b
ollama pull llama3:70b
Remove model
ollama rm llama3:8b
3. Model Commands
# Show model info
ollama show llama3
Copy model (untuk custom)
ollama cp llama3 my-llama3
Push to registry (jika punya akun)
ollama push username/my-model
REST API
Ollama menyediakan REST API yang OpenAI-compatible.
1. Generate Completion
# Simple generation
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Jelaskan apa itu machine learning dalam 2 kalimat"
}'
Dengan streaming disabled
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Hello",
"stream": false
}'
2. Chat API
curl http://localhost:11434/api/chat -d '{
"model": "llama3",
"messages": [
{"role": "system", "content": "Kamu adalah asisten yang helpful"},
{"role": "user", "content": "Apa itu Python?"}
],
"stream": false
}'
3. Embeddings
curl http://localhost:11434/api/embeddings -d '{
"model": "llama3",
"prompt": "Teks untuk di-embed"
}'
Python Integration
1. Menggunakan requests
import requests
import json
def generate(prompt, model="llama3"):
response = requests.post(
"http://localhost:11434/api/generate",
json={