IT 之家 12 月 16 日音尘开yun体育网,月之暗面 Kimi 本日发布视觉念念考模子 k1。该模子基于强化学习期间打造,原生撑捏端到端图像意会和念念维链期间,并将材干彭胀到数学除外的更多基础科学领域。

月之暗面官方示意,在数学、物理、化学等基础科学学科的基准材干测试中,初代 k1 模子的弘扬逾越了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

IT 之家从月之暗面官方获悉,Kimi 新模子发布即上线。k1 视觉念念考模子已无间上线最新版「Kimi 智能助手」的 Android 和 iPhone 手机 App 以及网页版 kimi.com。在最新版手机 App 或网页版 Kimi+ 页面找到「Kimi 视觉念念考版」,即可拍照或传图体验。
「Kimi 视觉念念考版」会完好意思呈现推理念念维链 CoT,让用户不单看到答题适度,也能完好意思看到模子念念索谜底的全历程。

从模子闇练的角度看,k1 视觉念念考模子的闇练分为两个阶段,先通过预闇练得到基础模子,再在基础模子上进行强化学习后闇练。k1 的基础模子要点优化了字符识别材干,在 OCRBench 上得到 903 分的(state-of-the-art)适度,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数区分为 69.1、66.7 和 96.9。
月之暗面示意,k1 的强化学习后闇练在数据质料和学习效力方面作念了进一步优化,在强化学习的规模化(scaling)上得到了新的破损。
此外,科学的模子材干基准测试决策是大模子行业靠近的紧要挑战之一。由于市面上虚浮针对基础科学学科的图形测试集,Kimi 模子研发团队自主构建了一个尺度化的测试集 Science Vista,涵盖不同难度的数理化图片题目,且从散布上与本色用户需求较为匹配。该测试集将绽开给全行业,用户可央求在许可范围内使用。
在里面测试中,月之暗面也发现了一些 k1 视觉念念考模子存在的局限性,举例在散布外(out-of-distribution)的泛化、在更复杂问题上的告捷率、在更多噪声场景的准确率、多轮问答成果等方面开yun体育网,有很大擢起飞间。在一些场景和泛化材干上,k1 模子与 OpenAI 的 o1 系列模子比较仍有差距。