“DeepSeek甚至绕过了CUDA”工程师灵魂提问：英伟达护城河还在吗？

更新时间：2025-03-20 05:45:29 发布时间：5小时前浏览：3602 评论：0

内容摘要　　原标题：“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？　　来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。　　在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需

　　原标题：“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

　　来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比meta等高出10倍，可以总结为“他们从头开始重建了一切”。

　　在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

　　PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。

　　一位亚马逊工程师提出灵魂质问：CUDA是否还是护城河？这种顶尖实验室可以有效利用任何GPU。

　　来自p>

　　在实际编译流程中，CUDA代码首先被编译为PTX代码，PTX代码再被编译为目标GPU架构的机器码（SASS,Streaming ASSembler）。

　　Llama.cpp项目中的一个新PR请求，使用SIMD指令（允许一条指令同时处理多个数据）显著提升WebAssembly在特定点积函数上的运行速度，提交者表示：

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: “DeepSeek甚至绕过了CUDA”工程师灵魂提问：英伟达护城河还在吗？

本文链接: http://0447.cn/news/show-399016.html (转载时请保留)

0 条

各界拥抱AI规模化产业应用契机

科技站务管理账号 ⋅ 0阅读量 ⋅ 0评论 ⋅ 1小时前

2025-03-20
别让AI“培训课”割韭菜

科技站务管理账号 ⋅ 0阅读量 ⋅ 0评论 ⋅ 1小时前

2025-03-20
大容量低延迟！芝奇首发DDR5

科技吉诺特 ⋅ 5阅读量 ⋅ 0评论 ⋅ 1小时前

2025-03-20
今年电动自行车以旧换新突破200万辆

科技 qiritang1688 ⋅ 16阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
巴洛沙韦治疗禽流感比奥司他韦更有效

科技 hsm888888 ⋅ 13阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
我国去年集装箱产量超过810万标准箱

科技 huilongzhou ⋅ 17阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
腾讯混元首次上榜Chatbot Arena排名：跻身全球Top 15

科技 gzyunbang ⋅ 16阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
珠江游船船员上岗前有健康检测全国首个旅游船船员全周期健康管理模式在广州落地

科技 jnyonghong ⋅ 15阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
RTX 50欧洲全面降价！但只是为了汇率

科技 shanghaixiangyang168 ⋅ 19阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20
驻梅州市梅县区白渡镇工作队：队长支教葫芦丝点燃学子音乐梦

科技 ze75 ⋅ 19阅读量 ⋅ 0评论 ⋅ 2小时前

2025-03-20

站务管理账号

去ta空间

24小时热闻

今日推荐