Data Science and Analytics
Data Science Analytics Python SQL Machine Learning Deep Learning Visualization Dashboard Big Data Cloud Career Data Scientist Analyst Engineer
| ตำแหน่ง | Focus | Tools | เงินเดือน (เริ่มต้น) |
|---|---|---|---|
| Data Analyst | Report Dashboard SQL | SQL Tableau Power BI Excel | 25,000-45,000 |
| Data Scientist | ML Model Prediction | Python scikit-learn TensorFlow | 40,000-80,000 |
| Data Engineer | Pipeline Infrastructure | Spark Airflow SQL Cloud | 35,000-70,000 |
| ML Engineer | Model Production Deploy | Python Docker K8s MLflow | 45,000-90,000 |
| BI Analyst | Business Intelligence | Tableau Power BI Looker SQL | 30,000-50,000 |
Data Science Process
# === Data Science Process (CRISP-DM) ===
from dataclasses import dataclass
@dataclass
class ProcessPhase:
phase: str
activities: str
tools: str
output: str
time_pct: str
phases = [
ProcessPhase("1. Business Understanding",
"กำหนดปัญหาธุรกิจ ตั้ง KPI กำหนด Success Criteria "
"ทำความเข้าใจ Domain",
"Meeting Whiteboard Documentation",
"Problem Statement, KPI, Success Criteria",
"5-10%"),
ProcessPhase("2. Data Understanding",
"สำรวจข้อมูล EDA ดู Distribution Missing Values "
"ความสัมพันธ์ระหว่าง Variables",
"pandas profiling, matplotlib, seaborn, SQL",
"EDA Report, Data Quality Assessment",
"10-15%"),
ProcessPhase("3. Data Preparation",
"Cleaning Missing Values Outliers Feature Engineering "
"Encoding Scaling Splitting",
"pandas, NumPy, scikit-learn preprocessing",
"Clean Dataset, Feature Set, Train/Test Split",
"40-50%"),
ProcessPhase("4. Modeling",
"เลือก Algorithm Train Model Tune Hyperparameters "
"Cross-validation Compare Models",
"scikit-learn, XGBoost, LightGBM, TensorFlow",
"Trained Model, Performance Metrics",
"15-20%"),
ProcessPhase("5. Evaluation",
"ประเมิน Model ด้วย Test Set เทียบกับ Baseline "
"ตรวจ Overfitting Business Impact",
"scikit-learn metrics, confusion_matrix, ROC",
"Model Evaluation Report, Business Impact",
"5-10%"),
ProcessPhase("6. Deployment",
"นำ Model ไป Production สร้าง API Monitor Performance "
"Retrain เมื่อ Performance ลด",
"FastAPI, Docker, MLflow, Kubernetes",
"Production Model, API, Monitoring Dashboard",
"10-15%"),
]
print("=== CRISP-DM Process ===")
for p in phases:
print(f"\n [{p.phase}] Time: {p.time_pct}")
print(f" Activities: {p.activities}")
print(f" Tools: {p.tools}")
print(f" Output: {p.output}")
Tools & Libraries
# === Essential Tools & Libraries ===
# Python Data Science Stack
# pip install pandas numpy scikit-learn matplotlib seaborn
# pip install jupyter notebook
# pip install xgboost lightgbm catboost
# pip install tensorflow keras pytorch
# pip install plotly dash streamlit
# Example: Quick EDA with pandas
# import pandas as pd
# import matplotlib.pyplot as plt
# import seaborn as sns
#
# df = pd.read_csv('sales_data.csv')
# print(df.info())
# print(df.describe())
# print(df.isnull().sum())
#
# # Correlation Heatmap
# sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
# plt.title('Correlation Matrix')
# plt.show()
#
# # Distribution of Target Variable
# df['revenue'].hist(bins=50)
# plt.title('Revenue Distribution')
# plt.show()
@dataclass
class ToolCategory:
category: str
tools: str
level: str
learn_time: str
categories = [
ToolCategory("Programming",
"Python (หลัก), R (สถิติ), SQL (ทุกตำแหน่ง)",
"จำเป็น",
"2-3 เดือน"),
ToolCategory("Data Manipulation",
"pandas, NumPy, polars (เร็วกว่า pandas)",
"จำเป็น",
"1-2 เดือน"),
ToolCategory("Visualization",
"matplotlib, seaborn, Plotly, Tableau, Power BI",
"จำเป็น",
"2-4 สัปดาห์"),
ToolCategory("Machine Learning",
"scikit-learn, XGBoost, LightGBM, CatBoost",
"จำเป็น (Data Scientist)",
"2-3 เดือน"),
ToolCategory("Deep Learning",
"TensorFlow, PyTorch, Keras, Hugging Face",
"Advanced",
"3-6 เดือน"),
ToolCategory("Big Data",
"Apache Spark, Hadoop, Kafka, Airflow",
"Data Engineer",
"2-3 เดือน"),
ToolCategory("Cloud",
"AWS (S3 SageMaker), GCP (BigQuery Vertex AI), Azure",
"ทุกตำแหน่ง",
"1-2 เดือน"),
ToolCategory("MLOps",
"MLflow, DVC, Kubeflow, BentoML, Docker",
"ML Engineer",
"2-3 เดือน"),
]
print("=== Tool Categories ===")
for c in categories:
print(f" [{c.category}] Level: {c.level}")
print(f" Tools: {c.tools}")
print(f" Learn: {c.learn_time}")
Learning Path
# === Learning Path for Data Science ===
@dataclass
class LearningStep:
step: int
topic: str
duration: str
resources: str
project: str
path = [
LearningStep(1, "Python Basics",
"1-2 เดือน",
"Codecademy Python, FreeCodeCamp, Automate the Boring Stuff",
"สร้าง Script อัตโนมัติ Web Scraping"),
LearningStep(2, "SQL Fundamentals",
"1 เดือน",
"SQLZoo, Mode Analytics SQL Tutorial, LeetCode SQL",
"วิเคราะห์ข้อมูลด้วย SQL จาก Public Dataset"),
LearningStep(3, "Statistics & Probability",
"1-2 เดือน",
"Khan Academy, StatQuest YouTube, Think Stats Book",
"Hypothesis Testing บน Real Data"),
LearningStep(4, "pandas & Visualization",
"1 เดือน",
"Kaggle Learn pandas, Python for Data Analysis Book",
"EDA Project บน Kaggle Dataset"),
LearningStep(5, "Machine Learning",
"2-3 เดือน",
"Andrew Ng Coursera, Hands-on ML Book, Kaggle Competitions",
"Kaggle Competition สร้าง Prediction Model"),
LearningStep(6, "Portfolio & Job",
"1-2 เดือน",
"สร้าง GitHub Portfolio, Blog, LinkedIn",
"3-5 Projects แสดงผลงาน สมัครงาน"),
]
print("=== Learning Path ===")
for s in path:
print(f"\n Step {s.step}: {s.topic} ({s.duration})")
print(f" Resources: {s.resources}")
print(f" Project: {s.project}")
เคล็ดลับ
- SQL: เรียน SQL ก่อน ทุกตำแหน่งต้องใช้ ได้งานเร็ว
- pandas: เรียน pandas ให้คล่อง ใช้ 80% ของเวลาทำ Data Science
- Kaggle: ฝึกทำ Kaggle Competition สร้าง Portfolio
- EDA: ใช้เวลา EDA ให้มาก เข้าใจข้อมูลก่อนสร้าง Model
- Domain: เรียนรู้ Domain ธุรกิจ Data Science ไม่ใช่แค่ Code
Data Science คืออะไร
ศาสตร์สกัดความรู้จากข้อมูล สถิติ Computer Science Domain Knowledge Data Scientist Analyst Engineer ML Engineer เงินเดือน 30,000-150,000
Analytics กับ Data Science ต่างกันอย่างไร
Analytics อธิบายอดีตปัจจุบัน SQL Dashboard BI Data Science ทำนายอนาคต Python ML Descriptive Diagnostic Predictive Prescriptive เสริมกัน
เครื่องมือที่ใช้มีอะไร
Python pandas NumPy scikit-learn TensorFlow SQL Tableau Power BI Spark Airflow AWS GCP MLflow Docker Jupyter Notebook Git Kaggle
เริ่มเรียนอย่างไร
Python 2 เดือน SQL 1 เดือน สถิติ 2 เดือน pandas Visualization 1 เดือน ML 3 เดือน Portfolio Kaggle GitHub LinkedIn สมัครงาน
สรุป
Data Science Analytics Python SQL Machine Learning pandas scikit-learn Tableau CRISP-DM EDA Feature Engineering Model Deploy Career Portfolio
