Notice: failed to open file: a_html_seo_function.php DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手_教育_糖心vlog官网

DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手

我不是糖心vlog 教育 2025-01-30 3 0

中国人工智能初创公司 DeepSeek 在过去一周成为硅谷热议的对象,并触发了本周一美国科技股 " 崩盘 "。

1 月 29 日,OpenAI 最新称,它发现有证据表明中国人工智能初创公司 DeepSeek 使用其专有模型来训练自己的开源模型,并暗示这可能违反了 OpenAI 的服务条款。但 OpenAI 没有进一步列举哪些证据。OpenAI 的服务条款规定,用户不能 " 复制 " 其任何服务或 " 使用其输出来开发与 OpenAI 竞争的模型 "。

一种 " 常见技术 " 引发争议

与 Meta 的 Llama 开源模型可免费使用不同,OpenAI 的模型系统是封闭的,但个人用户仍可付费接入其编程接口(API)获取数据。截至发稿,DeepSeek 尚未予以回应。

此前,美国政府称正在组织专家紧急评估 DeepSeek 的技术及影响。美国白宫 AI 和加密货币事务负责人大卫 · 萨克斯(David Sacks)表示,未来几个月,美国领先的人工智能公司将采取措施,试图防止其他公司对 " 蒸馏技术 " 的获取。

DeepSeek 模型取得的技术突破已经引起美国总统特朗普的关注。特朗普周一表示,DeepSeek 这款中国 AI 应用程序应该成为美国公司的 " 激励因素 ",他表示:" 如果中国业界能够开发出更便宜的人工智能技术,美国公司也会效仿。你不必花费数十亿美元,而是花更少的钱,希望找到相同的解决方案。"

数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。数据蒸馏的目的是将复杂模型的知识提炼到简单模型。

据 DeepSeek-V3 的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。

" 以前的大模型训练相当于使用题海战术,在大量的数据中训练。而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。" 一位计算机研究人员这样解释。

不过此前有学者认为,蒸馏技术存在 " 隐性天花板 ",它虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题;而且这种技术在多模态数据方面效果不好。

而 DeepSeek 的模型从某种程度上打破了这种业内普遍存在的观念,其大模型的水平已经能与原始的基础模型相提并论。这是引发美国担忧的根本原因之一。就在 1 月 28 日凌晨,DeepSeek 发布了最新视觉模型 Janus-Pro,在多模态理解和文生图指令遵从能力都收获了显著提升,并在多个基准上超越了 DALL-E 3 与 Stable Diffusion。

英国伦敦大学学院(UCL)名誉教授和计算机科学家彼得 · 本特利曾在接受采访时称:" 蒸馏技术对一些不具备 OpenAI 或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。"

" 蒸馏模型 " 何以超越原创?

一位美国科技巨头公司 AI 相关项目开发人员对第一财经记者表示:" 我并不认为蒸馏类似 Llama 这样的开源模型有什么问题,尤其是像 DeepSeek 这样在蒸馏后采取开源的模型,其实是有存在的合理性的,这样能加速大模型的迭代,没有必要所有的公司都从头开始训练大模型,这会导致资源的浪费。"

他还表示,全球很多 AI 初创公司也同样使用多种大模型的蒸馏融合技术,形成了所谓的 " 多专家模型 "(MoE),这样的蒸馏模型是有可能在性能方面超越原始模型的,因为它有更强的泛化能力,得到的信息更加丰富,提升最终性能。

" 这就好比你有一个团队,里面有本科生、研究生、博士生、工业界初级工程师、资深工程师,当你遇到问题时,可以把不同难度的任务分派给不同的’专家’。这样会以最高效的方式给出最匹配的答案。" 他解释道。

上述人士分析称,关键的核心问题不在于 DeepSeek 蒸馏了其他大模型,而是为何同样是在蒸馏开源模型的基础上,DeepSeek 能够脱颖而出,以如此低廉的成本价格就能实现如此高的性能,并不是所有的公司投入这些资源后都能够实现的。

他认为,DeepSeek 完美平衡了多专家模型、训练时长,预训练、后训练等工作,使得投入和产出达到一个最高效的值。" 当你做得好到对别人有威胁了,总会有一些官司找上门。" 他表示。

但也有 AI 研究人员指出,过度依赖蒸馏技术的 " 捷径 ",会导致研发人员为了快速取得成果而放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾在一篇学术报告中提到:" 蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。"

( 本文来自第一财经 )

《姜可》金银花原文免费阅读

夫妻乐园

「活动」注册就送新人大礼包

84.29MB
版本V9.84.14
下载怎么那么甜1V1校园苏沐安装你想要的应用 更方便 更快捷 发现更多
喜欢 18%好评(87人)
评论 40
甜奶硬喝 作者:烧烤味薯片 类别0 最强败家驸马爷1 学长的手指在里面转动的写作业2 帐中香 金银花海棠3 就喜欢听你叫1v1持竿钓鱼4
详细信息
  • 软件大小: 81.23MB
  • 最后更新: 2024-09-16 18:34:53
  • 最新版本: V8.28.17
  • 文件格式: apk
  • 应用分类:ios-Android 宝贝你已经长大了给我
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,清纯校花挨脔日常H,家雀儿(1V2)笔趣阁
二,七界传说txt,第一章少妇初尝云雨69章
三,云鬓凤钗古代宅女幸福札记,抱抱熊txt
四,一炕四女被窝交换啪啪,品花弄香
五,刀锋(1v2骨科)笔趣阁,美女总裁的贴身保安
六,把她送上快乐的巅峰,风流小护士
七,一马双跨by折枚针,赶尸客栈全文

【联系我们】
客服热线:139-8888-666
加载更多
版本更新
V1.22.17
神的游戏,快穿攻略名配器叠加的小说1v1

吧唧吧唧的一进一出

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • q秀文笔文学 4天前
    exom非常不一班
  • 肥女巨肥巨大黑毛 7天前
    我在语文课上强干语文课代表
  • 救命每天都被家具C阅读LINK 7天前
    混混和他的乖乖TXT
  • bl粗大紫黑打桩 6天前
    字字珠玑TXL金银花露
  • 末世狩猎者 2天前
    朝俞R车WRITEAS震动器
  • 一不小心成了室友们的团宠百度云 4天前
    都市妖奇谈下载
  • 疯批双胞胎兄弟骨科 5天前
    退婚后山野糙汉三天被宠成宝
  • 华夏战神 4天前
    后车座的疯狂运动过程
  • 异人傲世录txt下载 4天前
    在暴雪时分小说全文TXT
  • 二个老外把我稿惨了 9天前
    学霸X校霸车全过程