首页科技资讯文章正文

不是，谁教你这么用Kimi的啊

科技资讯 2025年02月15日 06:58 18 bvfc9

不是，谁教你这么用Kimi的啊

当Kimi戴上眼镜

三周前，给大家介绍了Kimi数学版。

最近使用Kimi，发现那个戴眼镜的同学变了。VI从线条变成了立体，还有一脸蓝色表情，看起来就很睿智。

不是，谁教你这么用Kimi的啊

那时候的Kimi数学版，主要是文生文，你用文字提问题，它给你解步骤，理答案。

当时，只支持LaTeX格式（一种标准的数学公式排版）的问题，而非LaTeX格式、几何问题、图形问题、手写问题则难以理解，也难以回答。

我问Kimi的老师，什么时候能够支持拍图解答，他们说“很快了”。

没想到，三周后，支持视觉理解和CoT思维链（Chain of Thought）的K1模型这就来了。

不是，谁教你这么用Kimi的啊

Ps.特别提一下，三周前上线的Kimi数学版是基于K0-math模型，是K0（líng），不是KO[əʊ]，不是o1模型的大写O。

在深度体验了几天后，我总结了下：

Kimi视觉思考模型，就像一个超级敏锐的AI神探，可以对图片信息进行抽丝剥茧，逐步推理。

不论是客观的数理化还是主观的生活化，都能够轻松应对，既有深度又有细节。

不是，谁教你这么用Kimi的啊

实测10+Case

怎么体验的？

今天，我们不看基准，那玩意既可以很标准，也可以很不标准；也不看demo，demo大多是精调的结果，普通人很难复现。

唯有整活，才能看出模型的泛化能力（指模型应对新的、未见过的数据的表现能力），也是我们每一位使用者能够亲自感知到的东西。

1）问：唱跳+Rap+篮球=？

不是，谁教你这么用Kimi的啊

把这张图丢给Kimi，求解。

不是，谁教你这么用Kimi的啊

ahh，你小子可以的，一上来就直奔主题是吧。

2）问：我刚从成都东站下车，按照这个攻略图，我去宽窄巷子要多久？坐哪号线地铁？

答：大约32分钟（考虑了步行）。

不是，谁教你这么用Kimi的啊

让我们用地图软件来验证。确实如此，也是推荐2号线，在成都东站上车，人民公园下车，大约30分钟。

不是，谁教你这么用Kimi的啊

我们再问一个复杂一点的。

问：我有6个小时，锦里、春熙路、建设路和东郊记忆这4个地方都想去，帮我规划下行程，我从双流机场出发。

然后，Kimi就进行了详细的思考和推理。

不是，谁教你这么用Kimi的啊

最终结果，我让Kimi整理成了表，更加直观。

不是，谁教你这么用Kimi的啊

这张图，我也送给大家，欢迎各位来成都玩~

不是，谁教你这么用Kimi的啊

3）最近计划去九寨沟，在网上看到这样一张图，想让Kimi帮我整理一份攻略。

不是，谁教你这么用Kimi的啊

问：这是一份九寨沟手绘地图，请参照此图帮我整理一份详细的九寨沟游玩攻略（含午饭时间），共9个小时。

不是，谁教你这么用Kimi的啊

不错，居然连手写字也能够识别。

这也是K1模型的一大亮点，能够准确识别出有“噪声”的图片，比如照片灰暗、图像模糊、多题拍摄、手写字、倾斜的拍摄角度等。

不是，谁教你这么用Kimi的啊

4）前段时间，去成都软件园拍下了这张图，考考Kimi。

不是，谁教你这么用Kimi的啊

问：猜猜这是成都的哪里？

不是，谁教你这么用Kimi的啊

答对，成都高新区天府四街。就是……这答案，令人破防。

“这个地方在晚上确实会有一些加班的员工。”哈哈哈，字节的人哭了。

5）问：预测下比亚迪明天的股价？

答：280元≤比亚迪明天的收盘价≤290 元。Kimi没有给出具体股价数字，只列出了区间值，个人认为有90%的概率预测对，对应股价波动在-1.7%~1.7%之间。

不是，谁教你这么用Kimi的啊

虽没有给出具体的数字，但其思考过程值得一看。

“这些均线接近当前价格，表明短期内股价可能趋于稳定。”

“当前股价略高于移动平均线，这可能是一个积极信号。”

“如果市场条件保持稳定，没有重大负面消息，比亚迪明天的收盘价可能会在280至290元之间。但请记住，这只是一个基于当前信息的估计，实际结果可能会有所不同。”

不过，还是要严正声明。以上文字仅供AI测试所用，不代表任何投资建议。

6）问：仔细、认真地理解这张图，帮我写一段生成此图的提示词。

不是，谁教你这么用Kimi的啊

让AI理解AI，还得是你，哈哈哈哈。

7）复杂的图表，也能识别。比如AI模型在诺奖数据集上的表现图。

不是，谁教你这么用Kimi的啊

问：你看看这张图讲了啥？

不是，谁教你这么用Kimi的啊

Kimi得出结论：GPT-4在区分诺贝尔奖论文与其他论文的原创性方面表现最佳，而Mixtral模型在原创性评分与引用次数关联方面表现更佳。

今后看外网论文，再也不愁了。

8）最近，不是好几个computer use产品嘛。测测Kimi，看能不能识别网页，识别自己。

问：这是什么？

不是，谁教你这么用Kimi的啊

准确识别出这是Kimi网站，提供智能助手服务，有输入框、快捷选项和话题推荐等功能。

继续追问：如何才能使用“Kimi视觉思考版”？

不是，谁教你这么用Kimi的啊

这连串回答是我没有想到的，它居然自己去尝试访问kimi.moonshot.cn网站，来回答这个问题。

那我觉得，后面Kimi推出自己的computer use产品，应该也很快了。这视觉识别能力，不开发这个产品，不白糟蹋了嘛。

不是，谁教你这么用Kimi的啊

写在最后

综合体验了下来，K1模型给我总体感受是：

对于答案唯一的物理化领域，K1有逻辑，做题对；对于丰富多彩的生活化领域，K1能推理，想得深。

还真是，每一个像素，都在深入思考。而且，还会完整展示思维链，不仅可以看到结果，也能看到过程。

K1如此出色，源于其技术的突破。传统的视觉推理模型，通常都要借助OCR技术或其他视觉模型，先将图像转换为文本，再进行推理，这一过程势必会导致信息丢失。

而K1是基于端到端打造的视觉推理模型，先通过预训练得到基础模型，再在基础模型上进行强化学习后训练，将视觉识别和推理能力进行无缝融合。在确保信息不丢失的前提下，还提升了推理能力。

以生产力起家的Kimi，今年扩大到生活化、娱乐化场景，如今又在学习场景拔得头筹。

不得不说，Kimi这个六边形战士真是越来越厉害了。

优秀！

周润发：“香港之子”跌落神坛，晚节不保，完美人设竟然都是伪装

医学发现：一旦吃上降压药，这3件事就别做了，别害了自己

发表评论

才聘号Copyright Your WebSite.Some Rights Reserved. 备案号：川ICP备66666666号