亚洲综合在线网站,亚洲小视频在线播放,亚洲免费观看,亚洲视频精品,97久精品国产片一区二区三区,日韩中文字幕第6页,最近日韩中文字幕

當前位置: 當前位置:首頁(yè) >綜合 >華為發(fā)布AI推理創(chuàng )新技術(shù)UCM:實(shí)現高吞吐、低時(shí)延推理體驗,降低每Token推理成本 正文

華為發(fā)布AI推理創(chuàng )新技術(shù)UCM:實(shí)現高吞吐、低時(shí)延推理體驗,降低每Token推理成本

2025-10-16 18:43:23 來(lái)源:四海皆兄弟網(wǎng)作者:探索 點(diǎn)擊:301次

  新浪科技訊 8月12日下午消息,發(fā)布在2025金融A(yíng)I推理應用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),創(chuàng )新實(shí)現高吞吐、技術(shù)低時(shí)延的現高推理體驗。

  在當今數字化時(shí)代,低時(shí)低AI發(fā)展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書(shū)指出,AI正從訓練向推理的創(chuàng )新結構性轉變而快速增長(cháng)。在這樣的技術(shù)大背景下,AI推理體驗的現高重要性愈發(fā)凸顯。

  推理體驗直接關(guān)系到用戶(hù)與AI交互時(shí)的低時(shí)低感受,包括回答問(wèn)題的延推驗降時(shí)延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區間(時(shí)延5ms),而我國普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶(hù)體驗的難題迫在眉睫。

  據介紹,華為此次發(fā)布的AI推理創(chuàng )新技術(shù)UCM(推理記憶數據管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類(lèi)型緩存加速算法工具,分級管理推理過(guò)程中產(chǎn)生的KV Cache記憶數據,擴大推理上下文窗口,以實(shí)現高吞吐、低時(shí)延的推理體驗,降低每Token推理成本。

海量資訊、精準解讀,盡在新浪財經(jīng)APP

責任編輯:郭栩彤

作者:百科
------分隔線(xiàn)----------------------------
頭條新聞
圖片新聞
新聞排行榜
    常州市| 吐鲁番市| 麦盖提县| 乳山市| 武穴市| 时尚| 久治县| 辽宁省| 南和县| 齐齐哈尔市| 和硕县| 洪湖市| 呼伦贝尔市| 贡觉县| 扶余县| 双流县| 宁陵县| 双牌县| 贺州市| 鹿泉市| 河北省| 绥宁县| 克山县| 翼城县| 清涧县| 谷城县| 江口县| 兴化市| 揭西县| 闵行区| 收藏| 西平县| 苍梧县| 万州区| 陆丰市| 腾冲县| 册亨县| 平山县| 辽宁省| 新龙县| 新竹市|