微軟推出ZeRO++技術 可顯著減少大模型訓練時間和成本-新動態
發布日期: 2023-06-27 16:54:45 來源: IT之家
6 月 27 日消息,微軟研究人員日前推出了名為 ZeRO++ 的新技術,用于優化在訓練大型 AI 模型時,容易遇到的數據傳輸成本和帶寬限制的難題,可顯著減少大模型訓練時間和成本。
據悉,ZeRO++ 建立在現有的 ZeRO 傳輸技術基礎上,并提供增強的通信策略,可提高訓練效率,同時減少訓練時間和成本。
為了減少參數通信量,ZeRO++ 可對權重進行量化,其利用基于塊的量化方法來保持訓練精度,這種優化的量化過程相對原始 Zero 傳輸技術更快更準確。為了能夠盡量減少通信開銷,ZeRO++ 通過在每臺機器上保持完整的模型副本,以向 GPU 顯存換取通信帶寬。而在梯度通信方面,ZeRO++ 引入了一種名為 qgZ 的新的量化梯度通信方式,可以減少跨節點的流量和延遲。
這些改進的通信技術大大減少了通信量,微軟研究人員表示,與 ZeRO 相比,ZeRO++ 減少了高達 4 倍的通信量,提高了訓練吞吐量和效率。當在每個 GPU 上使用小批量大小時,在高帶寬集群中,ZeRO++ 相比 ZeRO-3 的吞吐量提高了 28% 至 36%。在低帶寬集群中,與 ZeRO-3 相比,ZeRO++ 實現了平均 2 倍的加速,使得大模型訓練在更多種類的集群上更為可行。
IT之家注:IT之家注意到,例如 Turing-NLG、ChatGPT 和 GPT-4 這樣的大型模型,其訓練需要跨多個 GPU 設備占用大量顯存和計算資源,而 ZeRO++ 引入了通信優化策略,以克服在低帶寬集群上進行訓練時原有 ZeRO 傳輸技術的帶寬限制。目前微軟已經放出了相關技術文檔,研究人員可以利用 ZeRO++ 更有效地訓練模型,在 AI 領域探索新的可能性。
關鍵詞:
推薦內容
- 微軟推出ZeRO++技術 可顯著減少大模型訓練時間和成本-新動態 a>
- 病假工資是按基本工資還是實發工資補發?病假工資是扣除五險一金前還是后? a>
- 天天快訊:早期買入日本股票的基金經理認為日本股市漲勢正在消退 a>
- 鄭州西亞斯學院:破解“書院制”課題 滿足全面育人需求 a>
- 世界訊息:內蒙古“教育招生考試中心填報志愿輔助系統”上線,助力考生填報志愿 a>
- 中央網信辦:重點整治7方面網上涉未成年人突出問題 a>
- 武漢生物工程學院探索應用型人才培養新模式 a>
- 全球資訊:45億參數科學大模型一天訓完 a>
- 黑龍江伊春:給普通高中插上因校制宜發展的“翅膀”-全球熱頭條 a>
- 內支線集裝箱船舶雙檔靠泊 洋山港海事局在自動化碼頭推出新舉措 a>
- 愛的迫降大結局是什么?愛的迫降女主不是親生的嗎? a>
- 安凱微上市募10.5億首日漲34% 去年業績降現金流轉負 世界速讀 a>
- 微軟Edge Canary版本116.0.1934.0中隱藏了一個名為“EdgePhoto”的功能|今頭條 a>
- 廣康生化上市首日破發跌7% 募7.85億華泰聯合賺6600萬|天天消息 a>
- 終結景區“多頭收費”亂象,關鍵在實現“一體化”管理 天天報道 a>
- 熱推薦:新華網:劉健辭去公司董事長職務 a>
- 湖北遠安:以旅興農 繪出“詩與遠方”新畫卷_環球視點 a>
- 等額本金還款是什么方式?為什么選擇等額本金還款方式?_天天熱消息 a>
- 南京高淳稅務:稅企面對面服務點對點 打造公平透明稅收軟環境 a>
- 世界快資訊:打新必看 | 6月28日兩只新股申購,值得打嗎? a>