西方主流AI,居然用中文推理!原来汉语比英语,有一个巨大优势
就在最近几天,有国外AI模型用户发现,包括OpenAI在内的不少西方人工智能模型,在推理的时候,会自动切换成为中文模式,就算是用俄文提问,也会出现类似的情况。这一现象立马就引发了AI圈的巨大震动,有人甚至怀疑,中文是否已经开始变成AI的“母语”了。那么,是什么造成这一情况?应该说,可能有两个方面的原因,一方面,是全球主流AI模型在底层逻辑方面,使用了deepseek的模式。
在国内deepseek发布之后,立马就在全球引发了轰动,因为中国这款AI模型训练花费仅为西方主流AI模型的1/100,但其智能程度却达到了全球顶级水准,美国高科技股票顿时崩盘。骂归骂,抹黑归抹黑,亚马逊、微软,乃至于英伟达很快就宣布接入deepseek,用自己的身体行动,明确对外证实了中国的这款AI“真的好用”,不排除西方AI模型也存在接入的可能性,所以在推理时“不可遏止”地出现了中文。
另一方面,西方在对deepseek进行全面研究之后,发现其的确存在“低耗高效”的特点,仅用西方资金的1/100,就能实现高水准的智力输出,而之所以会出现这样的“奇迹”,可能与中文的“优势”有关。比如说,中文的词根化非常明显,堪称浅显易懂。如星期一,星期二……星期天,而英文每个单词都不一样,如果一周不止七天,中文也早已准备好了,星期八,星期九,而英文又得生造单词。
再比如说,汉字总数和常用字数量远低于英语。汉字总数不到9万个,而3500个常用字就能覆盖日常99%以上的口书面使用。而英语词汇总数在100万以上,且每年以成千上万的数量在上涨,新增专业词汇量是汉语的7.3倍。究其根本原因,在于英语是表音文字,造词往往需要全新词汇或者对已有词汇进行较大幅度的变形、组合等;中文是表意文字,以有限的常用汉字为基础就能创造出新词来表达新概念和新事物。
有人可能表示,这些差异有什么关系吗?应该说,在训练AI时这些差异会造成明显不同的结果。以英语为例,有西方学者曾指出,若英语单词数量依然保持目前的增速,那么到2050年,需要1.7个地球的算力才能维持AI的运转。而AI学习和使用汉字就简单得多了,数量少,组合词浅显易懂,且在输出token的时候,也显得快得多,相对来说“低耗高效”,“低成本高效能”,也就很正常了。
所以,目前西方主流AI模型中,突然出现大量中文推理,这完全是可以理解的,因为这样能耗少,速度快,输出也快,文本还短。而中文或者汉字,是全球最成熟的表意文字,目前中国在AI领域的异军突起,可以说从仓颉造字,秦皇“书同文,车同轨”时就已经埋下了伏笔。恐怕谁也想不到,不适合作为C语言的汉字,却是AI最喜欢、最合适的学习与输出文字,而英语恰恰可能是最不合适的。
相关文章
发表评论