SiamCafe · Blog
Local LLM 2026 รัน AI ที่เครื่องตัวเองด้วย Ollama คู่มือ Self-Hosted AI
ปัญญาประดิษฐ์ (AI)

Local LLM 2026 รัน AI ที่เครื่องตัวเองด้วย Ollama คู่มือ Self-Hosted AI

เผยแพร่ May 28, 2026

ในปี 2026 การใช้ AI ไม่จำเป็นต้องส่งข้อมูลไปที่ OpenAI, Google หรือ Anthropic อีกต่อไป Local LLM (Large Language Model) ที่รันที่เครื่องของเราเอง ทำให้ใช้ AI ได้ ฟรี, Privacy 100%, และ Offline ได้ Ollama เป็นเครื่องมือที่ช่วยให้การติดตั้งและใช้งาน LLM ง่ายที่สุด รองรับ Llama 3.1, Gemma 2, Mistral, Phi-3 และอีกมากมาย ด้วย GPU ราคา 10,000-30,000 บาทก็รัน LLM 70B parameters ได้ที่บ้าน

Ollama คืออะไร? ทำไมต้องใช้?

Local LLM 2026 รัน AI ที่เครื่องตัวเองด้วย Ollama คู่มือ Self-Hosted AI

Ollama:

  • เครื่องมือรัน LLM บน Local
  • รองรับ Windows, macOS, Linux
  • GPU acceleration (NVIDIA, AMD, Apple Silicon)
  • API เข้ากันได้กับ OpenAI
  • รองรับ 100+ Models
  • ฟรี Open Source

ข้อดีของ Local LLM:

  • Privacy 100% (ข้อมูลไม่ออกจากเครื่อง)
  • ไม่มีค่าใช้จ่าย API
  • ไม่จำกัดจำนวน Requests
  • Offline ใช้ได้
  • Custom Fine-tuning ได้
  • ไม่ต้องกลัว OpenAI Outage
  • ไม่มี Rate Limit

ข้อเสีย:

  • ต้องมี GPU (RTX 3060 ขึ้นไป)
  • ใช้ไฟฟ้า (200-400W)
  • Model ไม่เก่งเท่า GPT-5 / Claude Opus 4.7
  • Setup ต้องรู้เทคนิค
  • Model ใหญ่ = SSD 50GB+

Hardware ที่ต้องใช้

Model SizeParametersVRAM ต้องการGPU แนะนำ
Tiny1-3B2-4GBAny modern GPU
Small7-8B6-8GBRTX 3060, RTX 4060
Medium13-14B10-16GBRTX 3080, RTX 4070
Large30-34B20-24GBRTX 3090, RTX 4080
Huge70B40-48GBRTX 4090 (x2) / A100
Giant180B+96GB+Multi-GPU Server

Install Ollama

Linux (Ubuntu 24.04 LTS):

curl -fsSL https://ollama.com/install.sh | sh

# Start service

systemctl enable ollama

systemctl start ollama

# Verify

ollama --version

macOS:

Download: https://ollama.com/download

หรือ: brew install ollama

Windows:

Download: https://ollama.com/download/windows

Install (.exe)

Docker (Cross-platform):

docker pull ollama/ollama

docker run -d \

--gpus all \

-v ollama:/root/.ollama \

-p 11434:11434 \

--name ollama \

ollama/ollama

Verify GPU:

ollama ps # Check GPU usage

nvidia-smi # NVIDIA GPU stats

Top Models 2026

Llama 3.1 (Meta):

  • 8B, 70B, 405B parameters
  • ภาษาหลายๆ รวมไทย
  • Fine-tune ง่าย
  • เร็วที่สุดในกลุ่ม

ollama run llama3.1:8b # 4.7GB

ollama run llama3.1:70b # 40GB (ต้อง 48GB VRAM)

ollama run llama3.1:70b-q4 # 40GB (Quantized)

Gemma 2 (Google):

  • 2B, 9B, 27B parameters
  • Google's Open Source
  • ดีใน Code และ Reasoning
  • เร็ว + เบา

ollama run gemma2:2b # 1.6GB

ollama run gemma2:9b # 5.4GB

ollama run gemma2:27b # 16GB

Mistral (Mistral AI):

  • 7B, 8x7B (MoE)
  • เฉลียวฉลาดแม้ Size เล็ก
  • ภาษายุโรปเก่ง

ollama run mistral:7b # 4.1GB

ollama run mixtral:8x7b # 26GB

Phi-3 (Microsoft):

  • 3.8B, 14B parameters
  • เล็กแต่ฉลาด
  • ใช้บน edge device ได้

ollama run phi3:mini # 2.3GB

ollama run phi3:medium # 7.9GB

DeepSeek Coder:

  • เขียน Code เก่ง
  • 6.7B, 33B
  • รองรับ 100+ ภาษา

ollama run deepseek-coder:6.7b

ollama run deepseek-coder:33b

Thai-Specific Models:

  • SeaLion (Singapore, ไทยดี)
  • Typhoon (Thai NLP)
  • Pantip-LLM

ollama run typhoon:7b

Basic Usage

Run Model (Interactive):

ollama run llama3.1

>>> Hello! How are you?

>>> /bye (exit)

Pull Model (Download):

ollama pull llama3.1:8b

ollama pull gemma2:9b

List Models:

ollama list

NAME ID SIZE MODIFIED

llama3.1:8b 4f822... 4.7GB 2 hours ago

gemma2:9b a4c3b... 5.4GB 5 minutes ago

Delete Model:

ollama rm gemma2:9b

Model Info:

ollama show llama3.1:8b

Running Models (Status):

ollama ps

NAME SIZE PROCESSOR UNTIL

llama3.1:8b 4.7GB 100% GPU 4 min from now

REST API

# =============================================
# Ollama API (OpenAI Compatible):
# =============================================
#
# Endpoint: http://localhost:11434/api/generate
#
# =============================================
# Basic Request (curl):
# =============================================
# curl http://localhost:11434/api/generate -d '{
#   "model": "llama3.1:8b",
#   "prompt": "Why is the sky blue?",
#   "stream": false
# }'
#
# =============================================
# Python Example:
# =============================================
import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "llama3.1:8b",
        "prompt": "Explain quantum computing",
        "stream": False
    }
)
print(response.json()["response"])

# =============================================
# OpenAI SDK Compatible:
# =============================================
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # ไม่ใช้จริง
)

completion = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ]
)
print(completion.choices[0].message.content)

Quantization: ใช้ Model ใหญ่บน GPU เล็ก

Quantization คืออะไร?

  • ลดความละเอียดของ Model
  • จาก FP16 → INT4 (Q4)
  • ใช้ RAM/VRAM น้อยลง 75%
  • คุณภาพลดลง 5-10%

Quantization Levels:

FP16 (full): 100% quality, 100% size

Q8_0: 99% quality, 50% size

Q6_K: 98% quality, 37% size

Q5_K_M: 96% quality, 32% size

Q4_K_M: 92% quality, 28% size (แนะนำ)

Q4_0: 90% quality, 25% size

Q3_K_M: 85% quality, 22% size

Q2_K: 75% quality, 19% size (เสี่ยง)

ตัวอย่าง: Llama 3.1 70B

Original FP16: 140GB (VRAM มากๆ)

Q8_0: 70GB

Q5_K_M: 50GB

Q4_K_M: 42GB (RTX 4090 คู่)

Q3_K_M: 32GB (RTX 4090 เดี่ยว!)

Q2_K: 26GB (RTX 3090)

ใช้งาน:

ollama pull llama3.1:70b-q4_K_M

ollama run llama3.1:70b-q4_K_M

  • รัน Model 70B บน RTX 4090 ได้!

GPU Optimization

NVIDIA GPU Settings:

Set environment variables:

export CUDA_VISIBLE_DEVICES=0,1

export OLLAMA_NUM_GPU=99 # Use all GPUs

export OLLAMA_GPU_LAYERS=35 # Offload to GPU

Benchmark:

ollama run llama3.1:8b --verbose

> Response:

> eval count: 100 tokens

> eval duration: 2.5s

> eval rate: 40 tokens/second

Performance by GPU:

RTX 3060 (12GB): Llama 8B @ 25 t/s

RTX 3090 (24GB): Llama 8B @ 60 t/s

RTX 4070 (12GB): Llama 8B @ 35 t/s

RTX 4080 (16GB): Llama 8B @ 55 t/s

RTX 4090 (24GB): Llama 8B @ 85 t/s

RTX 4090 (24GB): Llama 70B Q4 @ 15 t/s

RTX 4090 x2: Llama 70B Q4 @ 30 t/s

AMD GPU (ROCm):

# Install ROCm

apt install rocm-dkms

# Ollama with AMD GPU

HSA_OVERRIDE_GFX_VERSION=10.3.0 ollama serve

Apple Silicon (M1/M2/M3/M4):

  • Unified Memory ใช้เป็น VRAM
  • M2 Max 96GB = รัน 70B ได้!
  • Performance ดีกว่าที่คิด
  • เหมาะกับ Ollama มาก

Custom Model & Fine-tuning

Modelfile (Custom Model):

# ไฟล์: Modelfile

FROM llama3.1:8b

# System Prompt

SYSTEM """You are a Thai financial advisor.

Answer in Thai language.

Be concise and professional."""

# Parameters

PARAMETER temperature 0.7

PARAMETER top_p 0.9

PARAMETER top_k 40

PARAMETER num_ctx 8192

PARAMETER repeat_penalty 1.1

# Template

TEMPLATE """<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>

"""

Build Custom Model:

ollama create thai-finance-advisor -f Modelfile

ollama run thai-finance-advisor

Fine-tune with LoRA:

# Use Axolotl or Unsloth

pip install unsloth

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(

"unsloth/llama-3-8b",

max_seq_length=2048,

load_in_4bit=True,

)

# Train on custom data

# Export as GGUF for Ollama

Web UI: Open WebUI

Open WebUI (ChatGPT-like UI):

  • Docker-based
  • Support Ollama natively
  • Multi-user, Authentication
  • Plugins, RAG, Tools

Install (Docker):

Local LLM 2026 รัน AI ที่เครื่องตัวเองด้วย Ollama คู่มือ Self-Hosted AI

docker run -d \

--network=host \

-v open-webui:/app/backend/data \

-e OLLAMA_BASE_URL=http://127.0.0.1:11434 \

--name open-webui \

--restart always \

ghcr.io/open-webui/open-webui:main

เข้า: http://localhost:8080

Features:

  • Chat Interface
  • Multi-conversation
  • Image Upload (with Vision Models)
  • Document RAG (PDF, TXT)
  • Web Search Integration
  • Code Execution
  • User Management
  • API Access

Alternative Web UIs:

  • LM Studio (Desktop app)
  • Jan.ai (Open Source)
  • Continue.dev (VSCode extension)
  • Ollama Web UI
  • Chatbox

Use Cases: Local LLM ทำอะไรได้

1. Code Assistant:

  • Copilot-like (offline, free)
  • DeepSeek Coder 33B
  • Continue.dev + Ollama
  • ใช้ใน VSCode

2. Chat / Assistant:

  • ChatGPT replacement
  • Llama 3.1 70B
  • Gemma 2 27B
  • Private conversations

3. Document Analysis:

  • RAG (Retrieval Augmented Generation)
  • LangChain + Ollama
  • Upload PDF, ask questions
  • สำหรับงานบริษัทที่ Privacy สำคัญ

4. Translation:

  • ไทย <-> อังกฤษ
  • Llama 3.1 8B
  • แม่นยำ 85-90%

5. Content Generation:

  • Blog post, Article
  • Social Media content
  • Product descriptions
  • ไม่ต้องพึ่ง OpenAI

6. Data Extraction:

  • Extract JSON from text
  • Parse resumes
  • Classify emails

7. Image Description (Vision Models):

  • LLaVA, Bakllava
  • อธิบายภาพ
  • OCR + Understanding

ollama pull llava

ollama run llava "Describe this image"

8. Voice Assistant:

  • Whisper (STT) + Ollama + TTS
  • สร้าง Jarvis ของตัวเอง
  • ทุกอย่าง Local 100%

Performance Tuning

Speed Optimization:

1. Use Quantized Model:

  • Q4 แทน FP16
  • 3-4x เร็วขึ้น

2. Flash Attention:

  • ollama serve --flash-attention
  • ประหยัด VRAM 30%

3. GPU Layer Offloading:

  • Set OLLAMA_NUM_GPU_LAYERS
  • Balance CPU/GPU

4. Context Length:

  • PARAMETER num_ctx 4096 (default 2048)
  • ใหญ่ขึ้น = ใช้ RAM เยอะ

5. Batch Processing:

  • Process ทีละหลาย requests
  • ใช้ /api/embed endpoint

Memory Management:

export OLLAMA_KEEP_ALIVE=1h

  • Model อยู่ใน Memory นาน
  • ไม่ต้อง Reload ทุกครั้ง

export OLLAMA_MAX_LOADED_MODELS=2

  • โหลดได้ 2 Models พร้อมกัน

Monitor:

watch -n 1 nvidia-smi

htop

docker stats (ถ้าใช้ Docker)

Local LLM for Trading

Trading Analysis with Local LLM:

Use Case: วิเคราะห์ข่าว Forex

import requests

def analyze_news(news_text):

response = requests.post(

"http://localhost:11434/api/generate",

json={

"model": "llama3.1:8b",

"prompt": f"""

Analyze this Forex news and predict USD impact:

{news_text}

Output JSON:

{"impact": "bullish/bearish",

"confidence": 0-100,

"affected_pairs": [...],

"reasoning": "..."

}""",

"stream": False

}

)

return response.json()["response"]

Combine with Trading Signals:

1. รับสัญญาณจาก iCafeFX

2. ใช้ LLM วิเคราะห์ข่าว

3. Confirm/Reject signal

4. ลดสัญญาณผิดพลาด

Privacy Benefits:

  • กลยุทธ์ไม่รั่วไป OpenAI
  • ข้อมูล portfolio ไม่ออกเน็ต
  • Trade history ปลอดภัย

Comparison: Local vs Cloud LLM

FeatureLocal (Ollama)Cloud (GPT-5/Claude)
Privacy100%Depends on policy
CostOne-time GPUPer-token pricing
Speed20-100 tok/s50-200 tok/s
Quality85-95%100% (best)
OfflineYesNo
CustomizationFull controlLimited
Rate LimitNoneYes
Setup1-2 hours5 minutes

Cost Analysis

Cost Comparison (1 year usage):

Heavy User (1M tokens/day):

Cloud (GPT-5):

  • Input: $5/M tokens
  • Output: $15/M tokens
  • Avg: $10/M × 365M = $3,650/ปี
  • ~130K บาท/ปี

Cloud (Claude Opus 4.7):

  • Input: $15/M
  • Output: $75/M
  • Avg: $45/M × 365M = $16,425/ปี!
  • 580K บาท/ปี

Local (Ollama):

  • GPU RTX 4090: 70K บาท (one-time)
  • Electricity: 400W × 24h × 365 × 4 บาท/kWh
  • = 14,000 บาท/ปี
  • Total Year 1: 84K บาท
  • Year 2+: แค่ 14K/ปี

Break-even:

Heavy user คืนทุน GPU ใน 6-8 เดือน!

Medium user คืนทุน 12-18 เดือน

Light user ใช้ Cloud ดีกว่า

สำหรับ Developer หรือ Tech Enthusiast ที่สนใจการเทรด Forex/Gold การใช้ Local LLM วิเคราะห์ข่าวร่วมกับสัญญาณจาก iCafeFX เป็นวิธีที่ล้ำสมัยและรักษา Privacy ได้ 100% ในปี 2026 Ollama ทำให้การรัน AI ที่บ้านง่ายขึ้นมาก และด้วย RTX 4090 ราคาประมาณ 70,000 บาท คืนทุนเร็วกว่าที่คิด

อ่านเพิ่ม: Elixir Ecto High Availability HA Setup — วิธีตั้งค่าและใช้งา · อ่านเพิ่ม: Airflow DAG Design Load Testing Strategy — วิธีตั้งค่าและใช้ · อ่านเพิ่ม: Elixir Ecto GitOps Workflow — วิธีตั้งค่าและใช้งานจริงพร้อมต

Checklist Self-Hosted AI 2026

LOCAL LLM CHECKLIST:

Hardware:

  • 1. GPU VRAM >= 8GB (แนะนำ 24GB)
  • 2. RAM >= 32GB
  • 3. SSD 100GB+ ว่างพื้นที่
  • 4. Ubuntu/Windows/macOS

Software:

  • 5. Install Ollama
  • 6. Pull Model (Llama 3.1, Gemma 2)
  • 7. Install Open WebUI
  • 8. Set GPU driver (NVIDIA/AMD)

Configuration:

  • 9. Adjust quantization
  • 10. Set context length
  • 11. Configure keep-alive
  • 12. Enable flash attention

Integration:

  • 13. Python SDK
  • 14. Open WebUI
  • 15. Continue.dev (VSCode)
  • 16. Custom Modelfile

Performance:

  • 17. Benchmark speed
  • 18. Monitor GPU utilization
  • 19. Memory management
  • 20. Security (firewall)

สรุป: Local LLM = Future of AI

Local LLM กับ Ollama เป็นทางเลือกที่น่าสนใจในปี 2026 สำหรับ Developer ที่ต้องการ Privacy, ไม่มี Rate Limit, และไม่เสียค่าใช้จ่ายต่อเนื่อง ด้วย Llama 3.1 70B, Gemma 2 27B, หรือ DeepSeek Coder 33B สามารถทดแทนงาน GPT-4 / Claude ได้ถึง 85-95% โดยใช้ GPU เพียงเครื่องเดียว เหมาะสำหรับองค์กรที่จริงจังเรื่อง Privacy, Developer ที่ต้องการ Build AI Features และผู้ที่ชอบทดลองเทคโนโลยีใหม่ๆ