快科技2月5日音尘,DeepSeek群众爆火,再一次引发外界对GPU算力为止话题的关怀。
据报谈,DeepSeek造就的大说话模子绕过了英伟达的CUDA框架,正为异日兼容国产GPU芯片作念准备。
家喻户晓,英伟达的CUDA(Compute Unified Device Architecture,协调运算架构)能大幅裁汰研发大模子的难度,获群众造就商使用,一举将英伟达推上AI芯片界限的控制地位。
但最新发现闪现,DeepSeek使用英伟达的H800芯片进修时,使用英伟达底层硬件辅导PTX(Parallel Thread Execution)说话,而非高档编程说话CUDA。
这么意味着DeepSeek绕过了CUDA,使用更底层的编程说话作念优化。
关于关节造就东谈主员来说,CUDA是一种愈加友好的高档说话,造就者只需要专注于关节和算法最联系的运转逻辑,而不太需要考虑具体的关节是如安在GPU等硬件上具体如何引申贪图的,从而轻视裁汰造就难度。
而PTX在接近汇编说话的层级运转,允许进行细粒度的优化,如寄存器分派和Thread / Warp级别的调度。这种编程十分复杂且难以感概,是以行业通用的作念法是使用CUDA这么的高档编程说话。
换句话说,DeepSeek把优化作念到了极致。
北京航空航天大学副造就黄雷示意,绕过CUDA不错径直凭证GPU的驱动函数作念一些新的造就,从而完毕愈加细粒度的操作。
这也阐述DeepSeek领有一些擅长写PTX说话的里面造就者。假如它之后使用国产GPU,其在硬件适配方面将会更庖丁解牛,其唯有了解这些硬件驱动提供的一些基本函数接口,就不错仿照英伟达GPU硬件的编程接口去写联系的代码,从而让自家大模子愈加容易适配国产硬件。
“这突显了DeepSeek不凡的工程水平,并标明好意思国对华制裁加重的“GPU枯竭危境”激励了他们报复感和创造力。”韩国Mirae Asset Securities Research的又名分析师示意。
【本文终局】如需转载请务必注明出处:快科技
牵涉剪辑:朝日
著作本体举报 ]article_adlist--> 声明:新浪网独家稿件,未经授权谢绝转载。 -->