首页 科技资讯文章正文

不是,谁教你这么用Kimi的啊

科技资讯 2025年02月15日 06:58 18 bvfc9
不是,谁教你这么用Kimi的啊

当Kimi戴上眼镜


三周前,给大家介绍了Kimi数学版。


最近使用Kimi,发现那个戴眼镜的同学变了。VI从线条变成了立体,还有一脸蓝色表情,看起来就很睿智。

不是,谁教你这么用Kimi的啊


那时候的Kimi数学版,主要是文生文,你用文字提问题,它给你解步骤,理答案。


当时,只支持LaTeX格式(一种标准的数学公式排版)的问题,而非LaTeX格式、几何问题、图形问题、手写问题则难以理解,也难以回答。


我问Kimi的老师,什么时候能够支持拍图解答,他们说“很快了”。


没想到,三周后,支持视觉理解和CoT思维链(Chain of Thought)的K1模型这就来了。

不是,谁教你这么用Kimi的啊

Ps.特别提一下,三周前上线的Kimi数学版是基于K0-math模型,是K0(líng),不是KO[əʊ],不是o1模型的大写O。


在深度体验了几天后,我总结了下:


Kimi视觉思考模型,就像一个超级敏锐的AI神探,可以对图片信息进行抽丝剥茧,逐步推理。


不论是客观的数理化还是主观的生活化,都能够轻松应对,既有深度又有细节。


不是,谁教你这么用Kimi的啊

实测10+Case


怎么体验的?


今天,我们不看基准,那玩意既可以很标准,也可以很不标准;也不看demo,demo大多是精调的结果,普通人很难复现。


唯有整活,才能看出模型的泛化能力(指模型应对新的、未见过的数据的表现能力),也是我们每一位使用者能够亲自感知到的东西。


1)问:唱跳+Rap+篮球=?

不是,谁教你这么用Kimi的啊

把这张图丢给Kimi,求解。

不是,谁教你这么用Kimi的啊

ahh,你小子可以的,一上来就直奔主题是吧。


2)问:我刚从成都东站下车,按照这个攻略图,我去宽窄巷子要多久?坐哪号线地铁?


答:大约32分钟(考虑了步行)。

不是,谁教你这么用Kimi的啊


让我们用地图软件来验证。确实如此,也是推荐2号线,在成都东站上车,人民公园下车,大约30分钟。

不是,谁教你这么用Kimi的啊


我们再问一个复杂一点的。


问:我有6个小时,锦里、春熙路、建设路和东郊记忆这4个地方都想去,帮我规划下行程,我从双流机场出发。


然后,Kimi就进行了详细的思考和推理。

不是,谁教你这么用Kimi的啊


最终结果,我让Kimi整理成了表,更加直观。

不是,谁教你这么用Kimi的啊


这张图,我也送给大家,欢迎各位来成都玩~

不是,谁教你这么用Kimi的啊


3)最近计划去九寨沟,在网上看到这样一张图,想让Kimi帮我整理一份攻略。

不是,谁教你这么用Kimi的啊


问:这是一份九寨沟手绘地图,请参照此图帮我整理一份详细的九寨沟游玩攻略(含午饭时间),共9个小时。

不是,谁教你这么用Kimi的啊


不错,居然连手写字也能够识别。


这也是K1模型的一大亮点,能够准确识别出有“噪声”的图片,比如照片灰暗、图像模糊、多题拍摄、手写字、倾斜的拍摄角度等。

不是,谁教你这么用Kimi的啊


4)前段时间,去成都软件园拍下了这张图,考考Kimi。

不是,谁教你这么用Kimi的啊


问:猜猜这是成都的哪里?

不是,谁教你这么用Kimi的啊


答对,成都高新区天府四街。就是……这答案,令人破防。


这个地方在晚上确实会有一些加班的员工。”哈哈哈,字节的人哭了。


5)问:预测下比亚迪明天的股价?


答:280元≤比亚迪明天的收盘价≤290 元。Kimi没有给出具体股价数字,只列出了区间值,个人认为有90%的概率预测对,对应股价波动在-1.7%~1.7%之间。

不是,谁教你这么用Kimi的啊


虽没有给出具体的数字,但其思考过程值得一看。


“这些均线接近当前价格,表明短期内股价可能趋于稳定。”


“当前股价略高于移动平均线,这可能是一个积极信号。”


“如果市场条件保持稳定,没有重大负面消息,比亚迪明天的收盘价可能会在280至290元之间。但请记住,这只是一个基于当前信息的估计,实际结果可能会有所不同。”


不过,还是要严正声明。以上文字仅供AI测试所用,不代表任何投资建议。


6)问:仔细、认真地理解这张图,帮我写一段生成此图的提示词。

不是,谁教你这么用Kimi的啊


让AI理解AI,还得是你,哈哈哈哈。


7)复杂的图表,也能识别。比如AI模型在诺奖数据集上的表现图。

不是,谁教你这么用Kimi的啊


问:你看看这张图讲了啥?

不是,谁教你这么用Kimi的啊


Kimi得出结论:GPT-4在区分诺贝尔奖论文与其他论文的原创性方面表现最佳,而Mixtral模型在原创性评分与引用次数关联方面表现更佳。


今后看外网论文,再也不愁了。


8)最近,不是好几个computer use产品嘛。测测Kimi,看能不能识别网页,识别自己。


问:这是什么?

不是,谁教你这么用Kimi的啊


准确识别出这是Kimi网站,提供智能助手服务,有输入框、快捷选项和话题推荐等功能。


继续追问:如何才能使用“Kimi视觉思考版”?

不是,谁教你这么用Kimi的啊


这连串回答是我没有想到的,它居然自己去尝试访问kimi.moonshot.cn网站,来回答这个问题。


那我觉得,后面Kimi推出自己的computer use产品,应该也很快了。这视觉识别能力,不开发这个产品,不白糟蹋了嘛。


不是,谁教你这么用Kimi的啊

写在最后


综合体验了下来,K1模型给我总体感受是:


对于答案唯一的物理化领域,K1有逻辑,做题对;对于丰富多彩的生活化领域,K1能推理,想得深。


还真是,每一个像素,都在深入思考。而且,还会完整展示思维链,不仅可以看到结果,也能看到过程。


K1如此出色,源于其技术的突破。传统的视觉推理模型,通常都要借助OCR技术或其他视觉模型,先将图像转换为文本,再进行推理,这一过程势必会导致信息丢失。


而K1是基于端到端打造的视觉推理模型,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练,将视觉识别和推理能力进行无缝融合。在确保信息不丢失的前提下,还提升了推理能力。


以生产力起家的Kimi,今年扩大到生活化、娱乐化场景,如今又在学习场景拔得头筹。


不得不说,Kimi这个六边形战士真是越来越厉害了。


优秀!

发表评论

才聘号Copyright Your WebSite.Some Rights Reserved. 备案号:川ICP备66666666号