特斯拉CEO馬斯克近日透露,公司內(nèi)部的Dojo AI訓(xùn)練計算機項目正穩(wěn)步前行,預(yù)計在今年稍后時間,將會推出下一代AI芯片——Dojo 2。馬斯克強調(diào),任何新技術(shù)的成熟都需要經(jīng)歷多次重大迭代,Dojo 2已然表現(xiàn)出色,但他對未來更加期待的是Dojo 3,相信它會帶來更為驚艷的表現(xiàn)。
然而,就在馬斯克對外釋放積極信號的同時,特斯拉AI官方發(fā)布的一份技術(shù)報告揭示了Dojo超級計算機目前面臨的挑戰(zhàn)。報告顯示,Dojo正受到制造缺陷和硬件老化引發(fā)的靜默數(shù)據(jù)損壞(SDC)問題困擾。與傳統(tǒng)系統(tǒng)故障不同,這些問題不會立即顯現(xiàn),而是在AI模型訓(xùn)練過程中默默侵蝕數(shù)據(jù)的完整性,猶如隱藏在暗處的定時炸彈。
據(jù)特斯拉AI解釋,一個存在缺陷的節(jié)點可能導(dǎo)致整個AI模型訓(xùn)練過程功虧一簣,不僅可能產(chǎn)生錯誤結(jié)果,還可能使模型收斂速度大打折扣,訓(xùn)練周期因此延長數(shù)周。更為嚴重的是,這些問題在模型訓(xùn)練完成后幾乎無法被察覺,企業(yè)可能在毫不知情的情況下,將基于受損數(shù)據(jù)訓(xùn)練的AI系統(tǒng)投入實際應(yīng)用,從而帶來不可預(yù)知的風險。
Dojo超級計算機由數(shù)千個小型計算機節(jié)點構(gòu)成,每個節(jié)點都配備了CPU(中央處理單元)和GPU(圖形處理單元)。CPU負責節(jié)點的整體管理和調(diào)度,而GPU則專注于處理復(fù)雜的計算任務(wù),如將大型任務(wù)分割成多個小部分,并同時執(zhí)行,從而大幅提高計算效率。
面對當前的技術(shù)挑戰(zhàn),特斯拉AI團隊正全力以赴,致力于解決Dojo超級計算機的靜默數(shù)據(jù)損壞問題,以確保AI模型訓(xùn)練的準確性和可靠性。可以預(yù)見,隨著Dojo技術(shù)的不斷迭代升級,特斯拉在人工智能領(lǐng)域的領(lǐng)先地位將得到進一步鞏固。