吞没形态大模型后训练种类多，为何华为昇腾芯片能跑起来？

【大模型后训练种类多吞没形态，为何华为昇腾芯片能跑起来？】大突破，华为用1000颗昇腾完成了DeepSeekV4-Pro的后训练。

事业巅峰期，她与富家公子王珂闪婚退圈，看似成为人生赢家。

元股证券:ygzq.hk配资炒股

大模型推理很多国产芯片都可以了，不用改大模型里面的东西，只需要访问，而输入prompt加上下文可能就几百个token，聊久了最多100万个。

训练难度要高的多，需要改上万亿个系数，还有很多输入。它又分预训练和后训练，前者是从零开始，用32万亿个token的语料，对人类知识建立内部理解，数据压力最大，系数改变最狠。国产芯片这步效率还差些，海量数据搬运连续处理，跑断了很麻烦。

后训练就是微调系数，让完成许多种特定任务，越来越多。如把输出改成人觉得不错的语言顺序，理解人的各类提问方式，RLHF，就是聊天功能强化。还有数学能力，让大模型自己琢磨，提升数学水平，这类有极多测试集要提升。

还有最近很流行的agent能力，就是让大模型适应jason之类的格式化的输入输出，可以和CPU程序交互，规划任务，让CPU根据规划执行访问互联网、编译跑程序等任务，把结果交回大模型分析，继续给出规划。目标是连续干很久，复杂任务干得有谱。这需要后训练，让大模型对特定格式输入能给出正确的规划。

后训练种类多，但是每一类数据都不是特别多，华为昇腾芯片能跑起来。

永元证券 - 品牌股票配资入口提示：本文来自互联网，不代表本网站观点。