SRE

製造業

資訊科技

location_on台北市, 臺北市 Taipei City
acute正職

複製連結link

【Client Description】

國際級 AI 與 GPU 雲端基礎建設服務商,專注於建置與營運資料中心等級的高效能運算平台,支援企業與研究單位的大規模 AI/ML 工作負載。公司長期投入基礎建設自動化與系統穩定性工程,並於全球市場持續擴展其雲端服務版圖,提供高可靠度且可擴展的運算環境。

【Candidate Profile】

  • 具備基礎建設或系統工程相關實務背景,能在高可用、高效能環境中進行日常維運與問題排查。
  • 必備經驗:熟悉 Kubernetes 叢集操作與管理,並具備 Infrastructure Automation 與 Linux 系統管理實務能力。
  • 曾參與自動化流程或工具導入,能透過腳本與設定管理方式提升部署效率與系統一致性。
  • 熟悉系統監控、日誌分析與事件處理流程,能快速定位並解決基礎建設相關問題。

ADESWP


【Responsibilities】

  • 規劃並維運大規模 AI/ML 與 GPU 運算基礎建設,確保系統穩定度、效能與可用性。
  • 持續監控 GPU 叢集運作狀態,主動分析效能指標並排除運算、加速器與儲存相關問題。
  • 建立與優化基礎建設自動化流程,提升部署、設定與日常維運效率。
  • 管理 GPU 節點完整生命週期,涵蓋佈署、擴充、維護、升級與汰除作業。



Ref: JN-122025-185012