Tutorial Lengkap Ollama: Deploy LLMs Secara Lokal

# Tutorial Lengkap Ollama: Deploy LLM Secara Lokal Ollama adalah tool open-source yang memudahkan Anda menjalankan Large Language Models (LLM) secara lokal di komputer Anda. Dengan Ollama, Anda dapat...

By Ruby Abdullah · · tutorial
OllamaLLMAILocal AIPythonMachine Learning

Tutorial Lengkap Ollama: Deploy LLM Secara Lokal

Ollama adalah tool open-source yang memudahkan Anda menjalankan Large Language Models (LLM) secara lokal di komputer Anda. Dengan Ollama, Anda dapat menggunakan model seperti Llama 3, Mistral, Gemma, dan banyak lagi tanpa memerlukan koneksi internet atau API berbayar.

Mengapa Ollama?

Keuntungan menggunakan Ollama:
  • Privacy: Data tidak keluar dari komputer Anda
  • No API costs: Gratis setelah download model
  • Offline capable: Bekerja tanpa internet
  • Easy setup: Satu command untuk menjalankan model
  • OpenAI-compatible API: Drop-in replacement untuk OpenAI

Use Cases:
  • Development dan testing aplikasi AI
  • Private/sensitive data processing
  • Offline AI applications
  • Learning dan eksperimen dengan LLM
  • Cost-effective inference

Instalasi

1. Install di Linux

# Install dengan script

curl -fsSL https://ollama.com/install.sh | sh

Verify installation

ollama --version

2. Install di macOS

# Download dari website atau gunakan Homebrew

brew install ollama

Atau download .dmg dari https://ollama.com/download

3. Install di Windows

Download installer dari ollama.com/download dan jalankan.

4. Install via Docker

# Pull image

docker pull ollama/ollama

Run container

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Dengan GPU (NVIDIA)

docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Quick Start

1. Pull dan Run Model

# Download dan run Llama 3

ollama run llama3

Atau model lain

ollama run mistral

ollama run gemma:7b

ollama run phi3

ollama run codellama

Chat langsung di terminal

>> Halo, siapa kamu?

Saya adalah AI assistant...

>> /bye # Keluar dari chat

2. Model yang Tersedia

| Model | Size | Use Case |

|-------|------|----------|

| llama3:8b | 4.7GB | General purpose, balanced |

| llama3:70b | 40GB | High quality responses |

| mistral | 4.1GB | Fast, efficient |

| gemma:7b | 5GB | Google's open model |

| phi3 | 2.2GB | Small, efficient |

| codellama | 3.8GB | Code generation |

| llava | 4.5GB | Vision + Language |

| mixtral | 26GB | Mixture of experts |

# List available models

ollama list

Pull specific version

ollama pull llama3:8b

ollama pull llama3:70b

Remove model

ollama rm llama3:8b

3. Model Commands

# Show model info

ollama show llama3

Copy model (untuk custom)

ollama cp llama3 my-llama3

Push to registry (jika punya akun)

ollama push username/my-model

REST API

Ollama menyediakan REST API yang OpenAI-compatible.

1. Generate Completion

# Simple generation

curl http://localhost:11434/api/generate -d '{

"model": "llama3",

"prompt": "Jelaskan apa itu machine learning dalam 2 kalimat"

}'

Dengan streaming disabled

curl http://localhost:11434/api/generate -d '{

"model": "llama3",

"prompt": "Hello",

"stream": false

}'

2. Chat API

curl http://localhost:11434/api/chat -d '{

"model": "llama3",

"messages": [

{"role": "system", "content": "Kamu adalah asisten yang helpful"},

{"role": "user", "content": "Apa itu Python?"}

],

"stream": false

}'

3. Embeddings

curl http://localhost:11434/api/embeddings -d '{

"model": "llama3",

"prompt": "Teks untuk di-embed"

}'

Python Integration

1. Menggunakan requests

import requests

import json

def generate(prompt, model="llama3"):

response = requests.post(

"http://localhost:11434/api/generate",

json={

Artikel Terkait

DSPy: Framework untuk Optimasi LLM Secara Programatik

DSPy: Framework untuk Optimasi LLM Secara Programatik Prompt engineering secara manual adalah proses yang melelahkan dan...

Tutorial Lengkap LlamaIndex: Membangun Aplikasi RAG dengan LLM

Tutorial Lengkap LlamaIndex: Membangun Aplikasi RAG dengan LLM LlamaIndex adalah framework data yang powerful untuk memb...

Tutorial Lengkap vLLM: High-Performance LLM Serving

Tutorial Lengkap vLLM: High-Performance LLM Serving vLLM adalah library Python untuk inference dan serving LLM dengan pe...

Tutorial TRL: Post-Training LLM dengan SFT, DPO, dan Reward Modeling

Post-Training LLM dengan TRL: SFT, Reward Modeling, dan DPO Setelah sebuah base language model selesai dipretraining, mo...