必看教程“微信小程序跑得快可以开挂吗”(原来真的有挂)-知乎

【新闻客户端】   DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。真实逻辑应该是:榨干同等算力去攫取10倍...

【新闻客户端】

  DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。真实逻辑应该是:榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。

  首先训练同一代模型所需算力每隔N个月就是指数级降低,这里面有算法进步、算力本身通缩、数据蒸馏等等因素,这也是为什么说“模型后发更省力”。援引下星球内一则评论:“就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分”。DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。因此幻方在GPT4o发布7个月后,用1/10算力实现几乎同等水平,是合理的,甚至可以作为未来对同代模型训练成本下降速度的预测。但这里面依然有几个概念上的误解。

  首先是“训练”范围上的混淆。幻方的论文明确说明了:“上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本。”也就是星球内一位算法工程师说的“有点断章取义,幻方在训这个模型之前,用了他们自己的r1模型(对标openai o1)来生成数据,这个部分的反复尝试要不要算在成本里呢?单就在训练上做降本增效这件事,这不代表需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。”

  随着Ilya说的“公开互联网数据穷尽”,未来合成数据是突破数据天花板的重要来源,且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量,到了卷数据质量,卷新的Scaling因子(RL、测试时间计算等),而算力只不过换了个地方,继续被其他训练环节榨干。

  从目前各大实验室的实际情况看也是,OpenAI、Anthropic至今仍处于缺卡状态,相信幻方也是。看训练算力是否下降,不应该只看某代模型某次训练这种切面,而应该从“总量”以及“自上而下”去看,这些实验室的训练算力总需求是下降了吗?反而一直在上升。预训练的经济效益下降,那就把卡挪给RL post train,发现模型实现同等提升所需卡减少了,那就减少投入了吗?不会,真实逻辑应该是:榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。

  就好比幻方这次发布的模型,依然是LLM路线下,将MoE压榨到了极致。但相信幻方自己的推理模型r1(对标o1)也在探索r2/r3,这显然需要更多算力。而r2/r3训完,又被用来消耗大量算力为deepseek v4合成数据。发现没,pre-train scaling、RL scaling、test-time compute scaling三条线甚至还有正反馈。因此,只会在可获得最大资源的前提下,用最高效的算法/工程手段,压榨出最大的模型能力提升。而不会因为效率提升而减少投入,个人认为这是个伪逻辑。

  对于推理,不必多说了,一定是上升。引用下星球内洪博的评论:DeepSeek-V3的出现(可能还包括轻量版V3-Lite),将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。未来一两年,大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。

  文章来源:信息平权,原文标题:《训练算力真的下降了吗?》

本文来自作者[sy1]投稿,不代表氢时代立场,如若转载,请注明出处:https://qsdsy.cn/xwzx/202412-4572.html

(5)

文章推荐

  • 中金公司买入的股票_1

    网上有关“中金公司买入的股票”话题很是火热,小编也是针对中金公司买入的股票寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。中金公司买入的股票中金公司买入的股票,这需要查阅相关资料才能解答出来,根据多年的学习经验,如果解答出中金公司买入的股票,能让你事半功倍,下

    2024年12月23日
    10
  • 100元能吵股票吗

    网上有关“100元能吵股票吗”话题很是火热,小编也是针对100元能吵股票吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。理论上是可以!但是实际操作是不行的!首先每笔交易都要收取手续费和税金。然后交易所规定的最小的交易数量是100股(称之为1手!)。也就是

    2024年12月27日
    11
  • 如何从股市中筛选出牛股_1

    网上有关“如何从股市中筛选出牛股”话题很是火热,小编也是针对如何从股市中筛选出牛股寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。有些炒股的朋友在选股的时候,希望有人给自己推荐一些牛股什么的。可股票的推荐也是有很大风险的。投资者完全可以自己掌握一些投资技巧

    2024年12月29日
    12
  • 必看教程“微乐海南麻将开挂版本软件下载”其实确实有挂

     亲,微乐海南麻将开挂版本软件下载这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件. ˂pstyle="

    2024年12月30日
    8
  • 必看教程“微乐天津麻将怎么提高胜率”确实真的有挂

    ˂pstyle="font-size:16px;font-family:-apple-system,BlinkMacSystemFont,"HelveticaNeue","PingFangSC","MicrosoftYaHei&qu

    2024年12月30日
    5
  • 必看教程“趣游麻将可以开挂吗”其实确实有挂

    ˂pstyle="font-size:16px;font-family:-apple-system,BlinkMacSystemFont,"HelveticaNeue","PingFangSC","MicrosoftYaHei&qu

    2024年12月30日
    1
  • 推荐一款“微信小程序跑得快有没有挂”确实真的有挂

    ˂pstyle="font-size:16px;font-family:-apple-system,BlinkMacSystemFont,"font-weight:400;color:#1a1a1a;font-style:normal;background-color:#fffff

    2024年12月31日
    2
  • 必看教程“微乐吉林麻将有挂吗”确实真的有挂

     亲,微乐吉林麻将有挂吗这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件. ˂pstyle="font-

    2024年12月31日
    1
  • 互联网金融概念股有哪些_1

    网上有关“互联网金融概念股有哪些”话题很是火热,小编也是针对互联网金融概念股有哪些寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。大智慧(601519)加速扩张强化金融资讯龙头地位,收购湘财证券,唯一纯正互联网券商东方财富(300059)互联网基金销售同花顺(

    2025年01月03日
    6
  • 组合ETF搬砖的仓位管理

    网上有关“组合ETF搬砖的仓位管理”话题很是火热,小编也是针对组合ETF搬砖的仓位管理寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。2022-07-07周四天气 晴热 卢沟桥事变85周年祭,勿忘国耻,铭记历史。一、组合ETF搬砖(短期网格,轻仓待

    2025年01月15日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • sy1
    sy1 2024年12月30日

    我是氢时代的签约作者“sy1”!

  • sy1
    sy1 2024年12月30日

    希望本篇文章《必看教程“微信小程序跑得快可以开挂吗”(原来真的有挂)-知乎》能对你有所帮助!

  • sy1
    sy1 2024年12月30日

    本站[氢时代]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • sy1
    sy1 2024年12月30日

    本文概览:【新闻客户端】   DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。真实逻辑应该是:榨干同等算力去攫取10倍...

    联系我们

    邮件:氢时代@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们