雲端 AI 與本地 AI

依 Flowring 視角深入比較兩種部署模式

什麼是雲端 AI?(Cloud AI / AI-as-a-Service)

雲端 AI 是由第三方雲平台(AWS、Azure、Google Cloud 等)提供的 AI 服務。企業透過網路即可存取 GPU、機器學習平台(Amazon SageMaker、Vertex AI)或 SaaS 模型 API,無需自行維運硬體

  • 數據分析:以 BigQuery ML 進行銷售預測。
  • 智慧客服:AWS Lex × Amazon Connect 多語聊天。
  • 生成內容:Bedrock / Gemini 產生行銷文案。

雲端 AI 的需求

  • 高速頻寬:1 Gbps↑,大量資料上傳可考慮 Direct Connect。
  • GPU Quota:H100 / L40S 申請通常需 1 週以上。
  • FinOps:AWS Cost Explorer、GCP Billing Report 監控。
  • 資安合規:TLS 1.3、IAM 最小權限、GDPR / HIPAA。

雲端 AI 的實現邏輯

  1. AWS EKS 建立 H100 節點池。
  2. 拉取 NVIDIA NGC · PyTorch 2 容器。
  3. S3 Fuse 掛載資料。
  4. Kubeflow TFJob 做分散訓練。
  5. NVIDIA Triton + KEDA 推論自動擴縮。
  6. CloudWatch + Grafana 監控 GPU 與費用。

什麼是本地 AI?(On-Premises / 地端 AI)

本地 AI 指企業在自有機房佈署 GPU 伺服器 (DGX H100、Supermicro GPU Server、AMD MI300)。 Flowring 指出其優勢為 資料主權、高可控性、低延遲

本地 AI 的需求

  • 電力散熱:DGX H100 10 kW,需液冷或 Rear-Door HEX。
  • 高速網路:Mellanox Spectrum-4 400 GbE 或 IB 400 Gb/s。
  • 採購交期:H100 SXM 約 8-12 週,要提前下單。
  • MLOps 團隊:3-5 人維護 K8s、Slurm、韌體。
  • 零信任安全:Secure Boot、TPM 2.0、SBOM 掃描。

本地 AI 的實現邏輯

  1. 安裝 Ubuntu 22.04 + 最新 NVIDIA Driver
  2. 虛擬化:VMware vSphere 8 + NVIDIA vGPU 或裸機 OpenShift AI。
  3. 佈署 Kubernetes 1.30,用 FluxCD 做 GitOps。
  4. 資料湖:Kafka → Spark → Delta Lake;Feast 特徵庫。
  5. 訓練:SlurmKubeflow MPIJob
  6. 推論:NVIDIA Triton + Istio A/B Test。

雲端 vs 本地:差異比較

  • 資本支出:雲端零 CAPEX;本地先購硬體。
  • 擴充彈性:雲端 Auto Scale;本地受限機房。
  • 資料隱私:本地完全掌握;雲端須評估合規。
  • 延遲:本地毫秒級;雲端取決於網路。
  • 維運:雲端由 CSP;本地自建 DC Ops。

主要支出項目

雲端 AI

  • 運算費:EC2 / VM GPU On-Demand、Reserved、Spot
  • 💾 儲存費:S3 / Blob / GCS、Snapshot、Glacier
  • 🛰️ 網路費:Outbound Data Transfer、Direct Connect
  • 🔐 安全服務:WAF、Shield、GuardDuty、Cloud DLP
  • 📊 監控費:CloudWatch Logs、Stackdriver、Datadog

本地 AI

  • 🏗️ 硬體 CAPEX:DGX H100 / GPU Server、交換器
  • 🔌 電力:10 kW/機 × 電價 & PUE
  • ❄️ 冷卻:液冷 CDU / Rear-Door HEX 投資
  • 👨‍💻 人力:SRE、MLOps 薪資、輪班成本
  • 🛡️ 資安:防火牆、零信任、SBOM 掃描訂閱

一週成本試算(8×H100,連續 168 h)

  • 雲端 On-Demand:$31.46/h × 168h ≈ $5,286
  • 雲端 Spot –90%:≈ $529(隨時回收風險)
  • 本地 DGX-H100 折舊:$1.4/h × 168h ≈ $2,100

短期試驗 → 雲端;長期大量運算 → 本地或混合最划算。