Apache Druid Chaos Engineering คืออะไร — ทำความเข้าใจจากพื้นฐาน
ในโลกของ IT ที่เปลี่ยนแปลงอย่างรวดเร็ว Apache Druid Chaos Engineering ได้กลายเป็นเครื่องมือที่ขาดไม่ได้สำหรับ System Administrator, DevOps Engineer และ SRE (Site Reliability Engineer) ทุกคน
ผมเริ่มทำงานด้าน IT ตั้งแต่ปี 1997 ผ่านมาทุกยุคตั้งแต่ Bare Metal, Virtualization, Cloud จนถึง Container Orchestration ในปัจจุบัน และ Apache Druid Chaos Engineering เป็นหนึ่งในเทคโนโลยีที่ผมเห็นว่ามี impact มากที่สุดต่อวิธีที่เราสร้างและดูแลระบบ IT
บทความนี้เขียนขึ้นสำหรับทั้งมือใหม่ที่เพิ่งเริ่มต้น และผู้มีประสบการณ์ที่ต้องการ reference ที่ครบถ้วน ทุก command ทุก configuration ที่แสดงในบทความนี้ผ่านการทดสอบจริงบน production environment
วิธีติดตั้งและตั้งค่า Apache Druid Chaos Engineering — คู่มือฉบับสมบูรณ์
System Requirements
| Component | Minimum | Recommended (Production) |
|---|---|---|
| CPU | 2 cores | 4+ cores |
| RAM | 4 GB | 16+ GB |
| Disk | 50 GB SSD | 100+ GB NVMe SSD |
| OS | Ubuntu 22.04+ / Rocky 9+ | Ubuntu 24.04 LTS |
| Network | 100 Mbps | 1 Gbps+ |
ติดตั้งบน Ubuntu/Debian
# ═══════════════════════════════════════
# Apache Druid Chaos Engineering Installation — Ubuntu/Debian
# ═══════════════════════════════════════
# 1. Update system
sudo apt update && sudo apt upgrade -y
# 2. Install prerequisites
sudo apt install -y curl wget gnupg2 software-properties-common \
apt-transport-https ca-certificates git jq unzip
# 3. Install Apache Druid Chaos Engineering
curl -fsSL https://get.apache-druid-chaos-engineering.io | sudo bash
# หรือถ้าต้องการติดตั้งแบบ manual:
# sudo apt install -y apache-druid-chaos-engineering
# 4. Enable and start service
sudo systemctl enable --now apache-druid-chaos-engineering
sudo systemctl status apache-druid-chaos-engineering
# 5. Verify installation
apache-druid-chaos-engineering --version
apache-druid-chaos-engineering status
ติดตั้งบน CentOS/Rocky Linux/AlmaLinux
# ═══════════════════════════════════════
# Apache Druid Chaos Engineering Installation — RHEL-based
# ═══════════════════════════════════════
# 1. Update system
sudo dnf update -y
# 2. Install prerequisites
sudo dnf install -y curl wget git jq
# 3. Add repository
sudo dnf config-manager --add-repo https://rpm.apache-druid-chaos-engineering.io/apache-druid-chaos-engineering.repo
# 4. Install
sudo dnf install -y apache-druid-chaos-engineering
# 5. Enable and start
sudo systemctl enable --now apache-druid-chaos-engineering
sudo systemctl status apache-druid-chaos-engineering
ติดตั้งด้วย Docker (แนะนำสำหรับ Development)
# ═══════════════════════════════════════
# Apache Druid Chaos Engineering — Docker Installation
# ═══════════════════════════════════════
# Pull latest image
docker pull apache-druid-chaos-engineering:latest
# Run container
docker run -d --name apache-druid-chaos-engineering \
-p 9090:9090 \
-v apache-druid-chaos-engineering_data:/data \
-v apache-druid-chaos-engineering_config:/etc/apache-druid-chaos-engineering \
-e TZ=Asia/Bangkok \
--restart unless-stopped \
--memory=16g \
--cpus=4 \
apache-druid-chaos-engineering:latest
# Verify
docker ps | grep apache-druid-chaos-engineering
docker logs -f apache-druid-chaos-engineering
# Access shell
docker exec -it apache-druid-chaos-engineering /bin/sh
Configuration File
# /etc/apache-druid-chaos-engineering/config.yaml
# ═══════════════════════════════════════
server:
bind: "0.0.0.0"
port: 9090
workers: auto # = number of CPU cores
max_connections: 10000
read_timeout: 30s
write_timeout: 30s
idle_timeout: 120s
logging:
level: info # debug, info, warn, error
format: json
output: /var/log/apache-druid-chaos-engineering/app.log
max_size: 100M
max_backups: 5
max_age: 30 # days
compress: true
security:
tls:
enabled: true
cert: /etc/ssl/certs/apache-druid-chaos-engineering.crt
key: /etc/ssl/private/apache-druid-chaos-engineering.key
min_version: "1.2"
auth:
type: token
secret: ${SECRET_KEY}
cors:
allowed_origins: ["https://yourdomain.com"]
allowed_methods: ["GET", "POST", "PUT", "DELETE"]
database:
driver: postgres
host: localhost
port: 5432
name: apache-druid-chaos-engineering_db
user: apache-druid-chaos-engineering_user
password: ${DB_PASSWORD}
max_open_conns: 25
max_idle_conns: 5
conn_max_lifetime: 5m
cache:
driver: redis
host: localhost
port: 6379
db: 0
max_retries: 3
monitoring:
prometheus:
enabled: true
port: 9090
path: /metrics
healthcheck:
enabled: true
path: /health
interval: 10s
Architecture และ Best Practices สำหรับ Apache Druid Chaos Engineering
Production Architecture — High Availability Setup
# docker-compose.production.yml
# ═══════════════════════════════════════
version: '3.8'
services:
apache-druid-chaos-engineering:
image: apache-druid-chaos-engineering:latest
deploy:
replicas: 3
resources:
limits:
cpus: '4.0'
memory: 16G
reservations:
cpus: '1.0'
memory: 2G
restart_policy:
condition: on-failure
delay: 5s
max_attempts: 3
ports:
- "9090:9090"
environment:
- NODE_ENV=production
- DB_HOST=db
- REDIS_HOST=redis
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:9090/health"]
interval: 10s
timeout: 5s
retries: 3
start_period: 30s
depends_on:
db:
condition: service_healthy
redis:
condition: service_healthy
networks:
- app-network
db:
image: postgres:16-alpine
volumes:
- db_data:/var/lib/postgresql/data
environment:
POSTGRES_DB: apache-druid-chaos-engineering_db
POSTGRES_USER: apache-druid-chaos-engineering_user
POSTGRES_PASSWORD_FILE: /run/secrets/db_password
healthcheck:
test: ["CMD-SHELL", "pg_isready -U apache-druid-chaos-engineering_user"]
interval: 5s
timeout: 3s
retries: 5
deploy:
resources:
limits:
memory: 4G
networks:
- app-network
redis:
image: redis:7-alpine
command: >
redis-server
--maxmemory 512mb
--maxmemory-policy allkeys-lru
--appendonly yes
--requirepass ${REDIS_PASSWORD}
volumes:
- redis_data:/data
healthcheck:
test: ["CMD", "redis-cli", "ping"]
interval: 5s
timeout: 3s
retries: 5
networks:
- app-network
nginx:
image: nginx:alpine
ports:
- "443:443"
- "80:80"
volumes:
- ./nginx.conf:/etc/nginx/nginx.conf:ro
- ./ssl:/etc/ssl:ro
depends_on:
- apache-druid-chaos-engineering
networks:
- app-network
volumes:
db_data:
redis_data:
networks:
app-network:
driver: overlay
High Availability Design
| Component | Strategy | RTO | RPO | Tools |
|---|---|---|---|---|
| Application | 3 replicas + Load Balancer | < 5s | 0 | Docker Swarm / K8s |
| Database | Primary-Replica + Auto-failover | < 30s | < 1s | Patroni / PgBouncer |
| Cache | Redis Sentinel / Cluster | < 10s | N/A | Redis Sentinel |
| Storage | RAID 10 + Daily backup to S3 | < 1h | < 24h | restic / borgbackup |
| DNS | Multi-provider DNS failover | < 60s | N/A | CloudFlare + Route53 |
Security Hardening สำหรับ Apache Druid Chaos Engineering
Security Hardening Checklist
# ═══════════════════════════════════════
# Security Hardening for Apache Druid Chaos Engineering
# ═══════════════════════════════════════
# 1. Firewall (UFW)
sudo ufw default deny incoming
sudo ufw default allow outgoing
sudo ufw allow 22/tcp comment "SSH"
sudo ufw allow 443/tcp comment "HTTPS"
sudo ufw allow 9090/tcp comment "Apache Druid Chaos Engineering"
sudo ufw enable
sudo ufw status verbose
# 2. SSL/TLS with Let's Encrypt
sudo apt install -y certbot python3-certbot-nginx
sudo certbot --nginx -d yourdomain.com -d www.yourdomain.com \
--non-interactive --agree-tos --email admin@yourdomain.com
# Auto-renewal
sudo systemctl enable certbot.timer
# 3. SSH Hardening
sudo cp /etc/ssh/sshd_config /etc/ssh/sshd_config.bak
sudo tee -a /etc/ssh/sshd_config.d/hardening.conf << 'EOF'
PermitRootLogin no
PasswordAuthentication no
PubkeyAuthentication yes
MaxAuthTries 3
ClientAliveInterval 300
ClientAliveCountMax 2
X11Forwarding no
AllowTcpForwarding no
EOF
sudo systemctl restart sshd
# 4. fail2ban
sudo apt install -y fail2ban
sudo tee /etc/fail2ban/jail.local << 'EOF'
[DEFAULT]
bantime = 3600
findtime = 600
maxretry = 3
[sshd]
enabled = true
port = 22
filter = sshd
logpath = /var/log/auth.log
maxretry = 3
bantime = 86400
EOF
sudo systemctl enable --now fail2ban
# 5. Automatic Security Updates
sudo apt install -y unattended-upgrades
sudo dpkg-reconfigure -plow unattended-upgrades
# 6. Service user (principle of least privilege)
sudo useradd -r -s /sbin/nologin -d /opt/apache-druid-chaos-engineering apache-druid-chaos-engineering-svc
sudo chown -R apache-druid-chaos-engineering-svc:apache-druid-chaos-engineering-svc /opt/apache-druid-chaos-engineering/
sudo chmod 750 /opt/apache-druid-chaos-engineering/
# 7. Audit logging
sudo apt install -y auditd
sudo systemctl enable --now auditd
sudo auditctl -w /etc/apache-druid-chaos-engineering/ -p wa -k apache-druid-chaos-engineering_config_changes
อ่านเพิ่มเติม: |
Monitoring และ Troubleshooting Apache Druid Chaos Engineering
Monitoring Stack — Prometheus + Grafana
# prometheus.yml
# ═══════════════════════════════════════
global:
scrape_interval: 15s
evaluation_interval: 15s
rule_files:
- "alerts.yml"
alerting:
alertmanagers:
- static_configs:
- targets: ['alertmanager:9093']
scrape_configs:
- job_name: 'apache-druid-chaos-engineering'
scrape_interval: 10s
static_configs:
- targets: ['localhost:9090']
metrics_path: '/metrics'
- job_name: 'node-exporter'
static_configs:
- targets: ['localhost:9100']
- job_name: 'postgres'
static_configs:
- targets: ['localhost:9187']
# alerts.yml — Alert Rules
# ═══════════════════════════════════════
groups:
- name: apache-druid-chaos-engineering_alerts
rules:
- alert: HighCPU
expr: rate(process_cpu_seconds_total{job="apache-druid-chaos-engineering"}[5m]) > 0.8
for: 5m
labels:
severity: warning
annotations:
summary: "High CPU usage on apache-druid-chaos-engineering"
- alert: HighMemory
expr: process_resident_memory_bytes{job="apache-druid-chaos-engineering"} > 13743895347.2
for: 5m
labels:
severity: warning
- alert: ServiceDown
expr: up{job="apache-druid-chaos-engineering"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: "apache-druid-chaos-engineering service is down!"
Grafana Dashboard: Import dashboard ID: 35033
ปัญหาที่พบบ่อยและวิธีแก้
| ปัญหา | สาเหตุ | วิธีวินิจฉัย | วิธีแก้ |
|---|---|---|---|
| Service ไม่ start | Config ผิด / Port ชน / Permission | journalctl -u apache-druid-chaos-engineering -n 100 --no-pager | ตรวจ config, ตรวจ port, ตรวจ permission |
| Performance ช้า | Resource ไม่พอ / Query ช้า | htop, iostat -x 1, pg_stat_activity | เพิ่ม resource, optimize query, เพิ่ม index |
| Connection refused | Firewall / Bind address / Service down | ss -tlnp | grep 9090, ufw status | ตรวจ firewall, ตรวจ bind address |
| Out of memory (OOM) | Memory leak / Config ไม่เหมาะ | free -h, dmesg | grep -i oom | ปรับ memory limits, ตรวจ memory leak |
| Disk full | Log ไม่ rotate / Data โต | df -h, du -sh /var/log/* | ตั้ง logrotate, ลบ old data, เพิ่ม disk |
| SSL certificate expired | Certbot ไม่ renew | certbot certificates | certbot renew --force-renewal |
FAQ — คำถามที่ถามบ่อยเกี่ยวกับ Apache Druid Chaos Engineering
Q: Apache Druid Chaos Engineering เหมาะกับมือใหม่ไหม?
A: ได้ครับ ถ้ามีพื้นฐาน Linux เบื้องต้น (command line, file system, process management) ใช้เวลาเรียนรู้ 1-2 สัปดาห์ก็ใช้งานได้ แนะนำเริ่มจาก Docker ก่อนเพราะติดตั้งง่ายและ isolate จากระบบหลัก
Q: ใช้กับ Docker ได้ไหม?
A: ได้เลยครับ มี official Docker image: docker pull apache-druid-chaos-engineering:latest แนะนำใช้ Docker สำหรับ development และ Docker Swarm/Kubernetes สำหรับ production
Q: ต้องใช้ server spec เท่าไหร่?
A: ขั้นต่ำ 2 CPU, 4GB RAM, 50GB SSD สำหรับ development สำหรับ production แนะนำ 4+ CPU, 16+ GB RAM, 100+ GB NVMe SSD
Q: มี GUI ไหม?
A: ส่วนใหญ่จะใช้ CLI เป็นหลัก แต่สามารถใช้ Grafana Dashboard สำหรับ monitoring และ Portainer สำหรับ Docker management ได้
Q: ใช้ Cloud provider ไหนดี?
A: ขึ้นอยู่กับงบและความต้องการ AWS มี service ครบที่สุด GCP ดีสำหรับ Kubernetes DigitalOcean/Vultr ราคาถูกเหมาะกับ startup สำหรับไทยแนะนำ DigitalOcean Singapore region (latency ต่ำ)
สรุป Apache Druid Chaos Engineering — Action Plan สำหรับ IT Professional
Apache Druid Chaos Engineering เป็นเทคโนโลยีที่คุ้มค่าที่จะเรียนรู้ ช่วยให้ระบบ IT ของคุณมีประสิทธิภาพ ปลอดภัย และ scale ได้ง่าย ไม่ว่าคุณจะเป็น System Admin, DevOps Engineer หรือ Developer การเข้าใจ Apache Druid Chaos Engineering จะเพิ่มมูลค่าให้กับตัวคุณในตลาดแรงงาน IT
Action Plan
- สัปดาห์ที่ 1: ติดตั้งและทดลองใน lab environment (Docker บน laptop)
- สัปดาห์ที่ 2: ศึกษา configuration และ best practices
- สัปดาห์ที่ 3: ตั้งค่า monitoring (Prometheus + Grafana)
- สัปดาห์ที่ 4: Security hardening + backup strategy
- เดือนที่ 2: Deploy staging environment
- เดือนที่ 3: Deploy production เมื่อมั่นใจ + เขียน documentation
"Any sufficiently advanced technology is indistinguishable from magic." — Arthur C. Clarke