这小姑娘脾气这么不好呢

发布时间:2025-03-12 21:27:42     来源:北京市教育委员会
分享:

绵阳涪城区夜场KTV公司招聘男模/外场模特-教育委员-+Q:-:4397301:-:底薪5000-10000以上,可日结/周结/月结,详情咨询了解:-:{DeepSeek“开源周”进一步推动大模型普惠破圈。大模型“开源潮”起,要想继续留在这张“牌桌”上比拼,AI企业未来的发力点在哪? ―――――――――― 过去的一周,DeepSeek带动的AI(人工智能)大模型“开源潮”热度空前。 2月24日,国内AI企业深度求索(DeepSeek)启动“开源周”,计划在一周内,每天开源1个代码库,以完全透明的方式与全球开发者分享他们的研究进展。3月1日,DeepSeek发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,DeepSeek“开源周”就此收官。 5天时间,5个核心代码库,一名AI大模型开发者向中青报・中青网记者介绍,DeepSeek此次开源的代码库,基本覆盖了AI大模型开发的关键核心环节,比如硬件性能高效利用、数据处理提速等,有利于降低技术门槛和成本。对此,DeepSeek方面也表示:“希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。” 所谓开源,原指在计算机软件开发过程中,源代码可以被访问或获取,感兴趣的人都能查看、修改和分发其中的代码。但在中国工程院院士、之江实验室主任王坚看来,人工智能时代,开源不能仅用开放源代码来表达,其创新的特点应是“Open Resource”,即开放资源。“开源是对社会的贡献,是对全世界的贡献。”王坚说。 开源助推大模型破圈 以2月24日DeepSeek向公众开源的FlashMLA代码库为例。据了解,MLA(多头潜在注意力机制)可以显著减少AI大模型训练和推理过程中的内存占用。FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,主要解决大模型处理不同长度文本的问题。 “就像统一尺寸的快递箱子,小了要舍弃商品,大了会浪费空间。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰对记者解释说,FlashMLA就像可随意伸缩的快递箱子,通过精准分配GPU资源,处理可变长度文本序列,实现了MLA的高效解码。 除FlashMLA之外,DeepSeek“开源周”开放的DeepEP、DeepGEMM等均是AI大模型开发中会用到的关键技术。“开源就意味着企业把自己的研发成果免费提供给全球开发者,开发者们在不同环境试用或迭代的过程中,会主动找到开源模型的不足并进行完善,进而推动技术的快速迭代更新。”在田丰看来,这就是模型开源的重要价值所在。 DeepSeek成立至今,开源是其一贯坚持的策略。今年年初,开源模型DeepSeek-R1横空出世,一时间,DeepSeek“接入潮”涌动,“开源”功不可没。如今,DeepSeek通过“开源周”主动开放核心代码库,扩大开源程度,田丰认为,这将有力助推AI大模型实现模型、算力、应用3个层面的普惠“破圈”。 田丰提到,在模型方面,DeepSeek打破了一直以来少数国际巨头对顶尖大模型的技术垄断,使得开发者能够像拼乐高一样,按需组装大模型的核心代码;在算力方面,DeepSeek通过软件优化弥补了硬件上的差距,让全球开发者都可以用个人级算力搞科研创新。在应用方面,田丰预计,基于开源的DeepSeek系列模型,市场上近期可能涌现出上百个行业应用大模型,或将覆盖农业、工业、服务业等。 长江证券2月25日发布的研报认为,此次DeepSeek开源代码库,或将围绕降本增效这一核心,通过开源模式与低成本路径,改变此前“大力出奇迹”,即堆算力、堆数据的AI开发逻辑,加速技术普惠化。同时,DeepSeek继续其开源策略,也将进一步加速AI技术平权,并在其基础上催生大量垂类应用,进一步带动算力需求爆发。 在AI界有这样一个说法:2023年Meta开源大模型LLaMA为全球开发者带来ChatGPT水平的智能,2025年DeepSeek-R1的开源为大家带来了OpenAI o1水平的智能。如今,开源策略已成为DeepSeek扩大影响力的重要途径。 截至2月24日,DeepSeek-R1在国际知名开源社区Hugging Face上已获得上万点赞,成为该平台150万个公开模型中最受欢迎的开源大模型之一。公开信息显示,目前,已有多个团队成功复现了DeepSeek的核心模型,比如Hugging Face的Open-R1、香港科技大学的simpleRL-reason等。 “开源模型之间的竞争在于开放程度,众人拾柴火焰高。”田丰提到,他身边就有不少人自己在家里部署了DeepSeek系列模型,并积极地在模型上面创新,训练行业模型。田丰认为,围绕DeepSeek的开源社区生态已经逐渐建立起来,其扩张的速度取决于社区内开发者的数量。“只要我们坚持开源,足够开放,绝对会有越来越多的全球开发者参与进来,为DeekSeek社区作贡献。”他说。 真正的“护城河”在哪里 值得一提的是,今年1月DeepSeek火爆出圈以来,越来越多的AI厂商开始拥抱开源。今年2月,字节跳动、昆仑万维、百度文心一言等均推出开源模型。2月25日,阿里云旗下视觉生成基座模型万相2.1(Wan)正式开源,阿里云自此实现了全模态、全尺寸大模型的开源。 “AI以及整个计算机科学的底层推动逻辑,始终是建立在开源精神之上的。”清华大学计算机科学与技术系长聘副教授、面壁智能创始人刘知远对记者说,通过开源,所有开发者都可以基于已有的、可信赖的技术基石,快速迭代、创新,“未来,开源会更深入、更广泛地应用”。 在国内,AI大模型开源似乎已成趋势,但从全球来看,这种趋势尚未统一。比如OpenAI依然坚持走闭源路线,Google则采取混合策略,其核心模型Gemini为闭源产品,Gemma等小型模型则为开源。 记者在采访中了解到,对AI企业来说,闭源模式有利于形成技术壁垒,通过控制代码的使用和分发,能够为企业提供稳定的收入来源。反过来,则可能会影响其核心竞争力,这也是投资圈对AI模型开源存在的忧虑之一。 “开源的代码或模型只是基础,真正的竞争力往往体现在如何将其打磨、优化,并应用到大规模、复杂的实际场景中。”清华大学计算机系助理研究员、面壁智能首席研究员韩旭认为,单点技术的开源不会削弱其核心优势,反而可能丰富整个行业的生态,“真正的护城河依然掌握在那些能够整合、优化,并持续推进技术演进的企业手中”。 大模型“开源潮”涌起,要想继续留在这张“牌桌”上比拼,AI企业未来的发力点在哪?田丰指出,一方面,要进一步提高开源模型的推理能力、计算性能,降低部署门槛。他以DeepSeek-V3为例说,部署该模型的“满血版”依然有一定的算力要求,如果模型部署门槛能进一步降低,将会有更多的开发者拥抱DeepSeek,也会带动更大范围的硬件智能+物联网、软件智能+应用生态链的升级。 另一方面,在开源底层基础模型之外,芯片、数据、应用等层面的软硬件协同创新也很关键。“国产GPU、存储系统如何与AI技术深度适配,数据处理模块如何更高效地支持模型运行等,在模型之上,还有大量生态需要中国甚至全球的开发者去补足。”田丰说,这是开源生态构建的重要内容,也是众多企业应该抓住的机会。 中青报・中青网记者 贾骥业 来源:中国青年报}