k0-数学模型概述
k0-数学模型采用了强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,显著提升了解决数学难题的能力。在多项数学基准能力测试中,k0-数学的表现对标OpenAI o1系列可公开使用的两个模型:O1-迷你和O1-预览.在中考、高考、考研以及包含入门竞赛的数学等四个数学基准测试中k0-数学初代模型成绩超过O1-迷你和O1-预览模型。
在数学能力基准测试,数学中,k0-数学模型得分93.8,超过O1-咪咪和90分和O1-预览的85.5分k0-数学这一成绩仅次于暂未开放使用的01完全版94.8分。
在两个难度更大的竞赛级别的数学题库OMNI数学和美国数学邀请赛基准测试中,k0-数学初代模型的表现分别达到了O1-迷你最高成绩的90%和83%。接下来,k0-数学模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。
常规模型的设定目标是尽快提供问题的答案k0-数学模型则会花更长的时间来推理,包括给出思考和规划的思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
模型的局限与未来展望
-
局限性
过于简单的数学问题,k0-数学模型可能会过度思考。不仅思考时间会更长,同时解题过程中会列出多种解题方法,最后反复验证,才会给出准确答案。
对于高考难题和国际海事组织题目依然有一定概率做错、猜答案;不能解答乳液格式难以描述的几何图形类问题。
-
未来展望
此次发布的数学模型k0-数学有两个层面的价值:一是在教育场景应用,二是实现公司技术迭代和验证。
基米探索版
乔任梁探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。未来将分批陆续上线,帮助用户解决更具有挑战和探索调研类任务。
- 意图增强
将抽象的问题和模糊的概念具体化,去理解用户真实需求。比如用户提问”某产品的用户忠实度“,基米会把”用户忠诚度”这个模糊的问题转化为具体的”活跃度、留存率、使用频率和时长”等维度分析用户的忠实度。
-
信源分析
在搜索答案来源时,先会进行一轮筛选,筛选出更具权威性和可靠的信息源,并且可以再答案中一键定位信息源具体的出处。
- 链式思考