南宫·NG28而PTX在接近汇编说话的层级运转-南宫·NG28(China)官方网站-登录入口

发布日期：2025-07-31 06:07 点击次数：208

快科技2月5日音尘，DeepSeek群众爆火，再一次引发外界对GPU算力为止话题的关怀。

据报谈，DeepSeek造就的大说话模子绕过了英伟达的CUDA框架，正为异日兼容国产GPU芯片作念准备。

家喻户晓，英伟达的CUDA（Compute Unified Device Architecture，协调运算架构）能大幅裁汰研发大模子的难度，获群众造就商使用，一举将英伟达推上AI芯片界限的控制地位。

但最新发现闪现，DeepSeek使用英伟达的H800芯片进修时，使用英伟达底层硬件辅导PTX（Parallel Thread Execution）说话，而非高档编程说话CUDA。

这么意味着DeepSeek绕过了CUDA，使用更底层的编程说话作念优化。

关于关节造就东谈主员来说，CUDA是一种愈加友好的高档说话，造就者只需要专注于关节和算法最联系的运转逻辑，而不太需要考虑具体的关节是如安在GPU等硬件上具体如何引申贪图的，从而轻视裁汰造就难度。

而PTX在接近汇编说话的层级运转，允许进行细粒度的优化，如寄存器分派和Thread / Warp级别的调度。这种编程十分复杂且难以感概，是以行业通用的作念法是使用CUDA这么的高档编程说话。

换句话说，DeepSeek把优化作念到了极致。

北京航空航天大学副造就黄雷示意，绕过CUDA不错径直凭证GPU的驱动函数作念一些新的造就，从而完毕愈加细粒度的操作。

这也阐述DeepSeek领有一些擅长写PTX说话的里面造就者。假如它之后使用国产GPU，其在硬件适配方面将会更庖丁解牛，其唯有了解这些硬件驱动提供的一些基本函数接口，就不错仿照英伟达GPU硬件的编程接口去写联系的代码，从而让自家大模子愈加容易适配国产硬件。

“这突显了DeepSeek不凡的工程水平，并标明好意思国对华制裁加重的“GPU枯竭危境”激励了他们报复感和创造力。”韩国Mirae Asset Securities Research的又名分析师示意。

【本文终局】如需转载请务必注明出处：快科技

牵涉剪辑：朝日

著作本体举报

]article_adlist--> 　　声明：新浪网独家稿件，未经授权谢绝转载。 -->