亚洲精品中文免费|亚洲日韩中文字幕制服|久久精品亚洲免费|一本之道久久免费

<dl id="hur0q"><div id="hur0q"></div></dl>

<tr id="cogee"><pre id="cogee"></pre></tr>

在場虛擬空間｜單機(jī)訓(xùn)練200億參數(shù)大模型：Cerebras打破新紀(jì)錄

用戶投稿 ? 2022年6月27日 06:17 ? 社會

轉(zhuǎn)載自機(jī)器之心

本周，芯片創(chuàng)業(yè)公司 Cerebras 宣布了一個里程碑式的新進(jìn)展：在單個計算設(shè)備中訓(xùn)練了超過百億參數(shù)的 NLP（自然語言處理）人工智能模型。

由 Cerebras 訓(xùn)練的 AI 模型體量達(dá)到了前所未有的 200 億參數(shù)，所有這些都無需橫跨多個加速器擴(kuò)展工作負(fù)載。這項工作足以滿足目前網(wǎng)絡(luò)上最火的文本到圖像 AI 生成模型——OpenAI 的 120 億參數(shù)大模型 DALL-E。

Cerebras 新工作中最重要的一點是對基礎(chǔ)設(shè)施和軟件復(fù)雜性的要求降低了。這家公司提供的芯片 Wafer Scale Engine-2（WSE2）顧名思義，蝕刻在單個臺積電 7 nm 制程的整塊晶圓上，該面積通常足以容納數(shù)百個主流芯片——具有驚人的 2.6 萬億個晶體管、85 萬個 AI 計算內(nèi)核和 40 GB 集成緩存，封裝后功耗高達(dá) 15kW。

接近晶圓大小的 Wafer Scale Engine-2，面積比一個 iPad 還大。

雖然 Cerebras 的單機(jī)在體量上已經(jīng)類似于超算了，但在單塊芯片中保留多達(dá) 200 億個參數(shù)的 NLP 模型仍然顯著降低了數(shù)千個 GPU 的訓(xùn)練成本，以及相關(guān)的硬件和擴(kuò)展要求，同時消除了在它們之間分割模型的技術(shù)困難。Cerebras 表示，后者是「NLP 工作負(fù)載中最痛苦的方面之一」，有時「需要幾個月才能完成」。

這是一個定制化的問題，不僅對每個正在處理的神經(jīng)網(wǎng)絡(luò)，對于每個 GPU 的規(guī)格以及將它們聯(lián)系在一起的網(wǎng)絡(luò)都是獨(dú)一無二的——這些元素必須在第一次訓(xùn)練開始之前提前設(shè)置好，而且也不能跨系統(tǒng)移植。

Cerebras 的 CS-2 是一個獨(dú)立的超級計算集群，其中包括 Wafer Scale Engine-2 芯片，所有相關(guān)的電源、內(nèi)存和存儲子系統(tǒng)。

200 億的參數(shù)量大概是個什么水平？在人工智能領(lǐng)域里，大規(guī)模預(yù)訓(xùn)練模型是最近各家科技公司和機(jī)構(gòu)正在努力發(fā)展的方向，OpenAI 的 GPT-3 是一種 NLP 模型，它可以寫出足以欺騙人類讀者的整篇文章、做數(shù)學(xué)運(yùn)算和翻譯，其具有驚人的 1750 億個參數(shù)。DeepMind 的 Gopher 于去年年底推出，將參數(shù)量的紀(jì)錄提高到 2800 億。

最近一段時間，谷歌大腦甚至宣布訓(xùn)練了一個超過萬億參數(shù)的模型 Switch Transformer。

「在 NLP 領(lǐng)域中，體量更大的模型被證明效果更好。但傳統(tǒng)上，只有極少數(shù)公司擁有足夠的資源和專業(yè)知識來完成分解這些大型模型，將其分散到數(shù)百或數(shù)千個圖形處理單元的艱苦工作，」Cerebras 首席執(zhí)行官、聯(lián)合創(chuàng)始人 Andrew Feldman 說道?！敢虼艘仓挥袠O少數(shù)公司可以訓(xùn)練大型 NLP 模型——這對于行業(yè)的其他人來說太昂貴、太耗時且無法使用?！?/p>

現(xiàn)在，Cerebras 的方法能夠降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的應(yīng)用門檻，使整個 AI 生態(tài)系統(tǒng)能夠在幾分鐘內(nèi)建立大型模型，并在單個 CS-2 系統(tǒng)上訓(xùn)練它們。

然而，就像旗艦級 CPU 的時鐘速度一樣，參數(shù)量只是大模型性能的其中一項指標(biāo)。最近，一些研究在減少參數(shù)的前提下已經(jīng)取得了更好的結(jié)果，例如 DeepMind 今年 4 月提出的 Chinchilla，只用 700 億個參數(shù)就在常規(guī)情況下超過了 GPT-3 和 Gopher。

這類研究的目標(biāo)當(dāng)然是更智能的工作，而不是更努力地工作。因此 Cerebras 的成就比人們第一眼看到的更為重要——該研究讓我們相信現(xiàn)有的芯片制程水平能夠適應(yīng)日益復(fù)雜的模型，該公司表示，以特殊芯片為核心的系統(tǒng)具備了支撐「數(shù)千億甚至數(shù)萬億參數(shù)」模型的能力。

在單芯片上可訓(xùn)練參數(shù)量的爆炸式增長需要依賴 Cerebras 的 Weight Streaming 技術(shù)。該技術(shù)可以將計算和內(nèi)存占用分離，根據(jù) AI 工作負(fù)載中快速增長的參數(shù)量，允許內(nèi)存進(jìn)行任意量級的擴(kuò)展。這使得設(shè)置時間從幾個月減少到幾分鐘，并且可以在 GPT-J 和 GPT-Neo 等型號之間切換。正如研究者所說：「只需要敲幾次鍵盤?！?/p>

「Cerebras 以低成本、便捷的方式向人們提供了運(yùn)行大型語言模型的能力，開啟了人工智能令人興奮的新時代。它為那些不能花費(fèi)數(shù)千萬美元的組織提供了一個簡單而廉價的，參與到大模型競爭之中的方式，」Intersect360 研究公司的首席研究官 Dan Olds 說道?！府?dāng) CS-2 客戶在大量數(shù)據(jù)集上訓(xùn)練 GPT-3 和 GPT-J 級模型時，我們非常期待 CS-2 客戶的新應(yīng)用和新發(fā)現(xiàn)?！?/p>

參考內(nèi)容：

https://www.tomshardware.com/news/cerebras-slays-gpus-breaks-record-for-largest-ai-models-trained-on-a-single-device

https://www.cerebras.net/press-release/cerebras-systems-sets-record-for-largest-ai-models-ever-trained-on-a-single-device/

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

人工智能體量公司內(nèi)存單機(jī)參數(shù)工作新紀(jì)錄模型系統(tǒng)芯片虛擬空間負(fù)載

捷報 – 惠朗科技成功中標(biāo)海南農(nóng)信智能印控儀設(shè)備采購項目

上一篇 2022年6月27日 06:17

研究有機(jī)電子3D打印

下一篇 2022年6月27日 06:17

筆記本最好配置(目前筆記本最好的配置)
本文主要講的是筆記本最好配置，以及和目前筆記本最好的配置相關(guān)的知識，如果覺得本文對您有所幫助，不要忘了將本文分享給朋友。筆記本電腦什么配置好？ 01 CPU：這個主要取決于頻率和…
2022年11月26日
0
存儲過程語法(sql server存儲過程語法)
今天小編給各位分享存儲過程語法的知識，其中也會對sql server存儲過程語法進(jìn)行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！ oracle存儲過程基本語法…
2022年11月26日
0
妻子發(fā)微信：“我老公不在，快來”，同事：“下了班就來找你”
在現(xiàn)如今網(wǎng)絡(luò)如此發(fā)達(dá)的時代，大家可以從各個地方了解到全國大事小事，正所謂世界之大無奇不有，每天都發(fā)生著奇奇怪怪的事情，今天小編突然看到這樣一件事，看完之后都不知道說什么好了。王某…
2022年11月26日
0
《樂隊的海邊》第二場live秀開啟趙夢為鄭秀妍寫中文歌詞
今日（11月25日），芒果TV女性經(jīng)營勵志奮斗真人秀《樂隊的海邊》第二期即將上線。張儷、趙夢、鄭秀妍、于文文、劉戀、張?zhí)鞇墼诤Ｄ鲜…偤Ｊ薪?jīng)營的“炸廚”音樂餐廳蒸蒸日上，收獲顧客滿滿…
2022年11月25日
0
自由的工作
02我國把自由職業(yè)者分為三類第一類是小本生意人，如個體零售店小餐館印刷店裝修公司老板，還有路邊小攤經(jīng)營者第二類是沒有底薪的推銷員，如買保險的人地產(chǎn)經(jīng)紀(jì)房子中介直銷人士，賣卡的人。 …
2022年11月25日
0
中興Axon40 Ultra航天版將于11月29日正式發(fā)布
據(jù)中興手機(jī)官微爆料，中興Axon40 Ultra航天版將于11月29日正式發(fā)布，新機(jī)不僅會采用驍龍?zhí)幚砥?，還將為大家?guī)硪幻丢?dú)立安全芯片，獲得國密認(rèn)證，擁有安全專利布局，不僅可以大…
2022年11月24日
0
英皇文化產(chǎn)業(yè)：結(jié)束全部7間英皇UA電影城經(jīng)營
11月21日，英皇文化產(chǎn)業(yè)發(fā)布公告，英皇娛藝影院（廣東）有限公司（“中國附屬公司”）為英皇UA的全資附屬營運(yùn)公司。董事會謹(jǐn)此知會公司股東，于2022年11月21日，英皇UA（作為…
2022年11月24日
0
iqoo11什么時候上市 iqoo11發(fā)布時間最新消息
iqoo11什么時候發(fā)布？隨著新一代旗艦芯片的發(fā)布，各家手機(jī)廠商也是公布了自己的旗艦機(jī)，那么iqoo11什么時候發(fā)布呢？下面就讓小編為大家介紹一下，一起來看看吧。 iqoo11什么…
2022年11月24日
0
銳龍97900x參數(shù)規(guī)格跑分評測銳龍97900x屬于什么檔次
銳龍9 7900X是銳龍7000系列處理器中性能頂尖的型號之一，它采用了這一代標(biāo)配的zen4架構(gòu)和5nm制程工藝，那么它具體的參數(shù)跑分如何，在電腦上世紀(jì)發(fā)揮怎么樣呢，下面就來看看銳…
2022年11月24日
0
免費(fèi)清理c盤的軟件(清理c盤空間不影響系統(tǒng))
電腦用久了慢如龜速，還卡頓，這最大的原因啊就是C盤空間不足造成的。即使電腦配置再好，或者硬盤再快，如果長時間沒有打掃C盤，打開文件或者穩(wěn)定之類的，都卡得讓人頭大。這時候呢不要去…
2022年11月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息