比较国内的两个AI聊天工具-通义千问、问心一言

在我之前写的文章里,我对国外主流的AI聊天工具–chatGPT与claude、bard进行了比较。这是上次编写的文章–比较一下claude2和google bard与chartGPT的差别,感兴趣的同学可以看一下。为了公平起见,这里就让通义千问、问心一言不与国外的AI聊天工具比较了,而让它们互相比较测试一下,看看最终效果如何。

首先,这是阿里推出的大模型官方网站–通义千问,国内用户可以直接登录并进行在线测试,这里我用了自己的支付宝账号登录测试的,如下图:

登录后,直接在文本框内输入自己想要生成的提示词即可,仍然是尝试问它几个基础的问题:

可以看出通义千问作为大模型无法获取当下的天气、资讯和时间。

这时候我们来看一下,百度的文心一言回答效果怎么样?

我们打开文心一言的主页:文心一言

同样的问它一样问题,看看效果:

果然,有着搜索引擎的加持,确实能够获最新的天气、资讯和时间。下面依然问一下最近的新闻讯息和几个数学问题:

我们再问一下阿里的通义千问,让它解释一下葛立恒数和tree3:

我再将百科里的内容截图下来作为比较:

tree3这个数:约等于10^3.6兆次方。tree3是六位数,TREE3约等于10^3.6兆次方,葛立恒数是曾经在数学证明中出现过的最大的数,后来被一个更大的数TREE3取代。葛立恒数虽然很大很大,但它在TREE3面前却可以忽略不计。TREE3这个数大到无法写出来,无法理解,也无法用物理语言来描述。百亿光年浩瀚的宇宙在TREE3面前甚至可以忽略不计。

tree3的原理

Kruskal证明了一个定理,考虑如下的树序列,最多有i个节点,每一棵树都被k顶染色,任意两棵树都不能同胚嵌入。定理,所有如此的序列必然有限。那么既然Kruskal序列是有限的,HarveyFriedman就定义了一个TREE,表示k染色下序列长度的最大值。Graham数的大概大小是。目前还没人给出过TREE3的上界,只知道它是有限的。顺带一提的是TREE增长速度的等级已经超过了,而Graham数用普普通通的就能描述了。

还有一个有意思的事情是,看一下下面的例子。这里我让这两个AI聊天工具都写一下c#的冒泡排序源码:

给我反馈的答案里,用于冒泡排序举例用的数字是一模一样的,都是{ 64, 34, 25, 12, 22, 11, 90 }。好吧,看来它们用于模型训练的内容都一样,别的我也懒得问了……

由于对诸如文章、文案、诗歌等文本生成的质量评断都是比较主观的,这里就不进行详细比较。

通过上面比较能够发现,通义千问确实没有文心一言说的详细和准确,回答的内容也少,一直在“装糊涂”。我觉得文心一言同bard一样,从结果上来说,通过内容和准确性上有浏览器的加持要比单纯的只有大模型生成的效果好(bard相对某些问题的回答比claude2更好一点)。不过由于案例很少,也不能具有很强的代表性,感兴趣的同学可以上这两个网站里测试一下。

发表回复