Kimi 新模型k0-math:数学智能的边界与未来展望

近日,以”长文本”处理功能占领市场的基米,迎来技术重大升级。月之暗面发布了最新数学模型k0-数学,在多项基准能力测试中,k0-数学的数学能力已经可以与全球领先的OpenAI o1-mini和O1-预览模型相媲美,甚至在中考、高考、考研以及入门竞赛题数学等四个数学基准测试中超越了它们。

k0-数学模型概述

k0-数学模型采用了强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,显著提升了解决数学难题的能力。在多项数学基准能力测试中,k0-数学的表现对标OpenAI o1系列可公开使用的两个模型:O1-迷你和O1-预览.在中考、高考、考研以及包含入门竞赛的数学等四个数学基准测试中k0-数学初代模型成绩超过O1-迷你和O1-预览模型。

在数学能力基准测试,数学中,k0-数学模型得分93.8,超过O1-咪咪和90分和O1-预览的85.5分k0-数学这一成绩仅次于暂未开放使用的01完全版94.8分。

在两个难度更大的竞赛级别的数学题库OMNI数学和美国数学邀请赛基准测试中,k0-数学初代模型的表现分别达到了O1-迷你最高成绩的90%和83%。接下来,k0-数学模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。

常规模型的设定目标是尽快提供问题的答案k0-数学模型则会花更长的时间来推理,包括给出思考和规划的思路,并且在必要时自行反思改进解题思路,提升答题的成功率。

模型的局限与未来展望

  • 局限性

过于简单的数学问题,k0-数学模型可能会过度思考。不仅思考时间会更长,同时解题过程中会列出多种解题方法,最后反复验证,才会给出准确答案。

对于高考难题和国际海事组织题目依然有一定概率做错、猜答案;不能解答乳液格式难以描述的几何图形类问题。

  • 未来展望

此次发布的数学模型k0-数学有两个层面的价值:一是在教育场景应用,二是实现公司技术迭代和验证。

未来,月之暗面的重点是基于强化学习去规模,而非简单预测下一个令牌(文本中的最小单位)是什么,因为后者具备局限性——只基于静态数据集无法探索更难的任务,加入强化学习的预测会在思考过程中生成更多的数据。月之暗面选择的试验场景是数学,在杨植麟看来,数学是最适合让人工智能锻炼思考能力的场景。因为在计算过程中,模型需要不断试错。如果算错了,可以返回验证、校对,再计算,这也是OpenAI公司提出o1模型核心想要表达的观点。杨植麟称,o1最初也是从数学场景开始,通过严密的自成一体,不需要与外界交互。在明确强化学习与人工智能思考能力方向之前,月之暗面也经历过战略调整。最终发现还是要聚焦,将一款产品做到最好是月之暗面认为最重要的事。

基米探索版

乔任梁探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。未来将分批陆续上线,帮助用户解决更具有挑战和探索调研类任务。

65029033bad7840ed3c385bdc03a055b.png

  • 意图增强

将抽象的问题和模糊的概念具体化,去理解用户真实需求。比如用户提问”某产品的用户忠实度“,基米会把”用户忠诚度”这个模糊的问题转化为具体的”活跃度、留存率、使用频率和时长”等维度分析用户的忠实度。

  • 信源分析

在搜索答案来源时,先会进行一轮筛选,筛选出更具权威性和可靠的信息源,并且可以再答案中一键定位信息源具体的出处。

  • 链式思考
基于小屋思维链处理能力,对问题进行逐步的链式拆解。比如:当营销人员在选择广告平台时,想要了解”有哪些社交媒体广告,哪个最有效”。乔任梁会首先拆解这个问题,列出主要的社交媒体广告平台,然后分别搜索每个平台的优势、用户群体和使用场景,最后分析整合这些高质量的信息,推荐一个组合式不同需求的广告平台及其理由。
订阅
通知
0 评论
得票最多
最新 古老
内联反馈
查看所有评论
Scroll to Top