什麼是雲端 AI?(Cloud AI / AI-as-a-Service)
雲端 AI 是由第三方雲平台(AWS、Azure、Google Cloud 等)提供的 AI 服務。企業透過網路即可存取 GPU、機器學習平台(Amazon SageMaker、Vertex AI)或 SaaS 模型 API,無需自行維運硬體。
- 數據分析:以 BigQuery ML 進行銷售預測。
- 智慧客服:AWS Lex × Amazon Connect 多語聊天。
- 生成內容:Bedrock / Gemini 產生行銷文案。
雲端 AI 的需求
- 高速頻寬:1 Gbps↑,大量資料上傳可考慮 Direct Connect。
- GPU Quota:H100 / L40S 申請通常需 1 週以上。
- FinOps:AWS Cost Explorer、GCP Billing Report 監控。
- 資安合規:TLS 1.3、IAM 最小權限、GDPR / HIPAA。
雲端 AI 的實現邏輯
- 在 AWS EKS 建立 H100 節點池。
- 拉取
NVIDIA NGC · PyTorch 2
容器。 - 以
S3 Fuse
掛載資料。 Kubeflow TFJob
做分散訓練。NVIDIA Triton
+KEDA
推論自動擴縮。- CloudWatch + Grafana 監控 GPU 與費用。
什麼是本地 AI?(On-Premises / 地端 AI)
本地 AI 指企業在自有機房佈署 GPU 伺服器 (DGX H100、Supermicro GPU Server、AMD MI300)。 Flowring 指出其優勢為 資料主權、高可控性、低延遲。
本地 AI 的需求
- 電力散熱:DGX H100 10 kW,需液冷或 Rear-Door HEX。
- 高速網路:Mellanox Spectrum-4 400 GbE 或 IB 400 Gb/s。
- 採購交期:H100 SXM 約 8-12 週,要提前下單。
- MLOps 團隊:3-5 人維護 K8s、Slurm、韌體。
- 零信任安全:Secure Boot、TPM 2.0、SBOM 掃描。
本地 AI 的實現邏輯
- 安裝
Ubuntu 22.04
+ 最新NVIDIA Driver
。 - 虛擬化:
VMware vSphere 8 + NVIDIA vGPU
或裸機 OpenShift AI。 - 佈署
Kubernetes 1.30
,用FluxCD
做 GitOps。 - 資料湖:Kafka → Spark → Delta Lake;
Feast
特徵庫。 - 訓練:
Slurm
或Kubeflow MPIJob
。 - 推論:
NVIDIA Triton
+Istio
A/B Test。
雲端 vs 本地:差異比較
- 資本支出:雲端零 CAPEX;本地先購硬體。
- 擴充彈性:雲端 Auto Scale;本地受限機房。
- 資料隱私:本地完全掌握;雲端須評估合規。
- 延遲:本地毫秒級;雲端取決於網路。
- 維運:雲端由 CSP;本地自建 DC Ops。
主要支出項目
雲端 AI
- ⚡ 運算費:EC2 / VM GPU On-Demand、Reserved、Spot
- 💾 儲存費:S3 / Blob / GCS、Snapshot、Glacier
- 🛰️ 網路費:Outbound Data Transfer、Direct Connect
- 🔐 安全服務:WAF、Shield、GuardDuty、Cloud DLP
- 📊 監控費:CloudWatch Logs、Stackdriver、Datadog
本地 AI
- 🏗️ 硬體 CAPEX:DGX H100 / GPU Server、交換器
- 🔌 電力:10 kW/機 × 電價 & PUE
- ❄️ 冷卻:液冷 CDU / Rear-Door HEX 投資
- 👨💻 人力:SRE、MLOps 薪資、輪班成本
- 🛡️ 資安:防火牆、零信任、SBOM 掃描訂閱
一週成本試算(8×H100,連續 168 h)
- 雲端 On-Demand:
$31.46/h × 168h ≈ $5,286
- 雲端 Spot –90%:
≈ $529
(隨時回收風險) - 本地 DGX-H100 折舊:
$1.4/h × 168h ≈ $2,100
短期試驗 → 雲端;長期大量運算 → 本地或混合最划算。