CRI-RM 助力浪潮AIStation提升云原生工作負載性能

        首頁 > 熱點 > > 正文

        日期:2021-11-17 16:24:58    來源:晶報網    

        在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大會上, 英特爾®有多場技術分享,這里要給大家特別推薦的一場分享為:

        Friday, December 10 • 11:20 - 11:55

        深入研究:基于 CRI-RM 的中央處理器和非統一內存訪問架構親和性實現人工智能任務加速

        歡迎大家來交流。

        在這個議題中,演講嘉賓將就開源項目 CRI-RM 以及它在浪潮 AIStation 的實際應用跟大家分享。

        CRI-RM(Container Runtime Interface, Resource manager), 是英特爾®初創的一個開源項目,其目的是通過在節點上的動態劃分系統資源,配合 Kubernetes 調度器,實現在節點層面上的最優任務編排,把 Intel®平臺的特性完美的適配到 Kubernetes 的集群環境里。

        AIStation 是浪潮發布的人工智能開發平臺,面向深度學習開發訓練場景,全面整合 AI 計算資源、訓練數據資源以及 AI 開發工具。

        隨著 AI 技術創新、場景化 AI 應用持續落地,越來越多的企業開始嘗試搭建 AI平臺,進行 AI 技術開發、模型訓練,并將其應用到業務流程之中。但是,AI平臺的搭建并非一蹴而就。從 AI 模型的開發,到最終進入到生產部署階段,企業將面臨資源管理、模型測試等帶來的不同挑戰,同時還需要能夠充分發揮 CPU 等硬件的性能潛力,提升 AI 訓練性能。

        浪潮與英特爾合作,利用基于容器運行時接口的資源管理器 CRI-RM 進行了 AI 訓練加速實踐,可以在 K8s 集群上,按照拓撲資源實現物理主機的最優分配,從而突破使用 K8s 原生 CPU 管理機制所帶來的性能瓶頸,大幅提升 AI 計算的性能。

        AI 模型訓練進入云原生時代,算力挑戰浮出水面,提到 AI 模型訓練,不少開發者腦海中浮現出的是繁瑣的資源申請與管理流程、巨大的算力消耗、漫長的模型訓練時間……而云原生技術的出現,能夠在很大程度上化解 AI 資源的調度難題。通過 K8s ,企業將能夠管理云平臺中多個主機上的容器化應用,實現 AI 資源的統一部署、規劃、更新和維護,能夠有效提高用戶的 AI 資源管理率,提升平臺的可管理性、可擴展性、彈性與可用性。

        浪潮 AIStation 應運而生。面向人工智能企業訓練開發與服務部署場景,浪潮 AIStation包含完整的模型開發、訓練和部署全流程,可視化開發、集中化管理等特性,能夠為用戶提供高性能的 AI 計算資源,實現高效的計算力支撐、精準的資源管理和調度、敏捷的數據整合及加速、流程化的 AI 場景及業務整合。

        圖:浪潮 AIStation V3 架構圖

        要通過 AIStation 構建 AI 應用平臺,需要進行的一個重要抉擇便是:算力如何提供?雖然GPU 被普遍用于 AI 訓練,但這并不意味著 GPU 是唯一選擇。事實上,在大量的行業場景中,用戶希望充分利用既有的 CPU 計算資源,靈活地滿足 AI 等多種負載的要求,同時減少資本支出。 但是,在 K8s 集群上使用 CPU 進行訓練,用戶會遇到一定的性能瓶頸。這是因為 K8s 原生的 CPU 管理機制沒有考慮 CPU 綁定與 NUMA 親和性,高版本的 K8s 只會對 QOS 為 Guaranteed 的 Pod 生效,這可能會導致 CPU 在 AI 訓練中無法充分發揮性能。

        CRI-RM 優化助力浪潮 AIStation 突破性能瓶頸,在發現 K8s 集群上的 AI 算力瓶頸之后,浪潮與英特爾展開了深入合作,使用 CRI-RM(基于容器運行時接口的資源管理器)技術對 K8s 進行了優化。該組件可以插在 Kubelet 和 Container Runtime(CR) 之間,截取來自 Kubelet CRI 協議的請求,扮演 CR 的非透明代理,跟蹤所有集群節點容器狀態,能夠更好地將處理器、內存、IO 外設和內存控制器等資源分配給應用負載,從而有效提升性能表現。

        在TensorFlow CNN測試用例中,這一優化被證明能夠實現高達 57.76% 的性能提升[1]。這意味著在未對硬件配置進行更新的前提下,CRI-RM 的應用會帶來大幅度的性能提升,使得用戶無需在進行硬件投入便能夠獲得可觀的 AI 訓練性能提升,從而提高基礎設施的利用效率,并節約總體擁有成本 (TCO)。

        圖:使用 CRI-RM 進行優化前后的性能對比

        (Tensorflow | model: customized cnn,越低越好)

        在此次優化的基礎上,浪潮與英特爾還在探索在基于第三代英特爾® 至強® 可擴展處理器的 HPC 集群上進行進一步的性能驗證,并計劃在利用 CPU 進行人工智能推理和訓練方面進行更為廣泛的合作,通過硬件選型、軟件優化、系統集成等多種不同的方式,加速從云端到邊緣基礎設施上的人工智能性能表現。

        查看完整方案文,請訪問此方案

        [1] 數據援引自浪潮內部測試結果;測試配置:英特爾至強金牌6132處理器 @ 2.60GHz,28 核,56 線程,192GB內存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1

        KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生計算基金會 CNCF 主辦。作為云原生領域的頂級技術盛會,歷年的 KubeCon + CloudNativeCon + Open Source Summit China 都匯聚了國內外最活躍的開源云原生社區、最先進的技術代表與行業的最佳落地實踐,推動云原生計算領域的知識更新和技術進步。本屆大會的議程安排現已全面上線,更多詳情請查看大會官網。

        免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

        關鍵詞: 原生 工作 負載

        下一篇:RingCentral 和 Mitel 宣布戰略合作伙伴關系,幫助客戶無縫遷移到基于云的統一商務通信
        上一篇:FHD酒店機電設計助力之下,酒店的未來能有多少新期待?

         
        亚洲AV网站在线观看| 亚洲国产日产无码精品| 激情综合亚洲色婷婷五月| 亚洲A∨无码无在线观看| 亚洲精品夜夜夜妓女网| 亚洲男人av香蕉爽爽爽爽| 一区国严二区亚洲三区| 亚洲.国产.欧美一区二区三区| 久久亚洲精品国产精品婷婷| 国产精品亚洲专区在线观看| 久久亚洲精品专区蓝色区| 亚洲av无码片在线观看| 国产精品亚洲精品| 狠狠色伊人亚洲综合网站色| 欧洲 亚洲 国产图片综合| 亚洲男同gay片| 亚洲av日韩av永久在线观看| 国产精品亚洲专区一区| 亚洲福利视频一区二区| 久久影院亚洲一区| 亚洲精品无码不卡在线播放HE| 亚洲国产精品无码久久久秋霞2| 亚洲第一区香蕉_国产a| 亚洲色偷偷偷网站色偷一区| 亚洲乱码中文字幕小综合| 亚洲综合一区国产精品| 黑人粗长大战亚洲女2021国产精品成人免费视频| 亚洲精品无码av中文字幕| 国产精品亚洲综合一区在线观看 | 777亚洲精品乱码久久久久久 | 亚洲成人福利在线| 久久精品国产亚洲AV蜜臀色欲| 国产精品亚洲综合久久| 国产精品久久久久久亚洲影视| 亚洲国产成人精品久久久国产成人一区二区三区综| 亚洲AV伊人久久青青草原| 亚洲尤码不卡AV麻豆| 亚洲国产香蕉碰碰人人| 亚洲一级毛片免费在线观看| 亚洲成a人无码亚洲成av无码| 亚洲精品老司机在线观看|