12月11日面壁智能宣布公司完成新一輪數(shù)億元融資,本輪融資后,面壁智能將進(jìn)一步提速以端側(cè)AI為代表的高效大模型商業(yè)化布局,面壁智能CEO李大海表示,更高知識密度的小模型和端側(cè)智能,成為大模型發(fā)展的新階段。如今,因為端側(cè)智能發(fā)展的深刻影響,主流消費電子和新興硬件正演變成一個個在不同場景、執(zhí)行特定任務(wù)的超級智能體,成為新一輪科技創(chuàng)業(yè)大風(fēng)口。
隨著AI PC和AI手機(jī)的推出以及Apple Intelligence等產(chǎn)品不斷改進(jìn),以及其他在小型語言模型上運行的應(yīng)用程序正在形成,一部分AI查詢會在邊緣或設(shè)備上進(jìn)行處理,Barclays最新的一篇AI推理計算的未來發(fā)展趨勢報告指出,邊緣查詢從2024年總查詢的1%上升到2025年的10%。估計到2026年,將有15%的查詢在終端設(shè)備上進(jìn)行,到2028年約為25%,一些專家估計,未來端側(cè)AI的占比預(yù)計會增長至50%。
隨著大模型能力持續(xù)增強(qiáng),應(yīng)用場景持續(xù)突破,大模型應(yīng)用架構(gòu)也逐漸清晰,其中在應(yīng)用層中agent成為業(yè)內(nèi)關(guān)注的焦點,智能體是大模型能力的擴(kuò)展,彌補(bǔ)大模型在操作和執(zhí)行方面的不足,具備記憶、搜索、規(guī)劃、決策、執(zhí)行等能力。
Barclays的最新報告認(rèn)為,目前AI行業(yè)發(fā)展的處于Chatbot及Copilot時代,2025—2026年即將迎來agent時代。12月11日谷歌發(fā)布最新模型Gemini 2.0的同時推出了一系列agent,智能體正成為大模型的下一站。
端側(cè)大模型和智能體正成為AI的新階段,未來AI算力需求或?qū)⒂瓉硇伦兓?。Barclays的最新報告認(rèn)為推理計算將逐漸主導(dǎo)AI算力需求。隨著像GPT-5這樣的大型語言模型和新的AI基礎(chǔ)設(shè)施(如NVIDIA Blackwell GPU)的出現(xiàn),AI應(yīng)用,尤其是agent系統(tǒng),將迎來爆發(fā)式增長,消費者和企業(yè)人工智能市場可能會真正開始騰飛。
報告預(yù)測,隨著agent系統(tǒng)推出,很大一部分計算可能會轉(zhuǎn)移到對這些服務(wù)的推理上,約占推理市場的30%。隨著采用的增加,整體推理可能會超過訓(xùn)練計算,報告預(yù)測,到2026年,如果消費者AI采用率超過10億DAU,agent在企業(yè)任務(wù)滲透率超過5%,那么所需的總計算量約為1500億EFLOPs,其中推理計算將占近75%,訓(xùn)練計算占25%。
基于企業(yè)級agent的采用估計,企業(yè)推理需求的計算量在2026年約為50億EFLOPs,隨著B200從明年開始安裝,H100應(yīng)該用于企業(yè)推理,報告估計只有未滿足的30億EFLOPs企業(yè)推理需求需要在2026年使用新芯片。
企業(yè)推理需求的計算量在2026年約為 50億EFLOPs
NVIDIA GPU目前占據(jù)推理市場約80%的份額,但到2028年這一比例將下降至約50%,主要原因是最大型的超大規(guī)模云服務(wù)商都在定制構(gòu)建定制ASIC(亞馬遜的Inferentia、Meta的MTIA、谷歌TPU v6、Grok和其他),報告預(yù)測ASIC芯片市場份額將持續(xù)增長,到2028年,這些ASIC可以處理高達(dá)40%的消費者推理計算。
定制ASIC芯片上推理工作負(fù)載比例的增加,預(yù)計將進(jìn)一步降低每token的單位成本,推理單元成本(每百萬tokens)正以每18個月超過90%的速率持續(xù)下降。不過,報告指出,單位成本的降低并沒有導(dǎo)致產(chǎn)能過剩,而是帶來了更多的使用,刺激了更多AI產(chǎn)品的開發(fā)和應(yīng)用,從而增加了對算力的總需求。
定制ASIC芯片上推理工作負(fù)載比例的增加
此外,市場對算力相關(guān)資本支出的估計過低,Barclays的半導(dǎo)體研究團(tuán)隊預(yù)測,到2026年,僅AI芯片相關(guān)的資本支出就需要近3000億美元,這比市場共識預(yù)測高出370%以上,如果將其他計算和數(shù)據(jù)中心資產(chǎn)的資本支出考慮在內(nèi),總資本支出可能高達(dá)7000億美元。
到 2026 年,僅 AI 芯片相關(guān)的資本支出就需要近 3000 億美元
端側(cè)大模型算力需求方面,報告認(rèn)為,雖然端側(cè)AI可以處理一部分AI查詢,但占比相對較小,由于設(shè)備的算力、內(nèi)存和功耗限制,大型語言模型難以在端側(cè)有效運行,云端數(shù)據(jù)中心仍將是滿足AI算力需求的主力軍。
明年端側(cè)大模型和AI智能體將會迎來怎樣的發(fā)展,agent時代將如何重塑計算需求?11月19日,第十九屆中國IDC產(chǎn)業(yè)年度大典,中國工程院院士鄔賀銓將帶來《端側(cè)大模型與AI智能體》的主旨演講。大會聚焦“智算崛起”“賦能協(xié)同”“環(huán)球布局”“誰主沉浮”“算力新十年”幾大議題模塊,歡迎掃描以下二維碼即可報名。
“多元重構(gòu) 算力躍遷” 第十九屆中國IDC產(chǎn)業(yè)年度大典 報名二維碼