通义千问o1模型追评OpenAI的o1啊,阿里最近发布的千问32B Preview推理模型号称追评o1,我们今天就特意来快速验证下,大家感兴趣的也可以到魔撘上找到相关模型来体验。 好,这里我们就用我一直评测大模型用的题目来做,
第一个问题,Strawberry又少个r?
最终答案是对的,我瞄了下推理过程是没有问题的,很详细,但是我觉得太长太啰嗦了
第二个问题,你下个回答是多少中文字?
很明显,它还是逃不开大语言是自回归模型的限制,生成每结束之前它是不知道自己的回答是多少个字的
第三个问题,9.12和9.9哪个数字更大?
答案正确
第4个问题,请给出10个以樱桃结尾的句子
推理分析了一大堆,可惜最终的答案一团糟,还没有以前测试的kimi普通模型来得好
第5个问题,一个弹珠被放到红酒杯里,然后将这个红酒杯在桌子上倒过来,然后将红酒杯拿起来放到冰箱里。请问弹珠现在在哪?请给出你的推理过程。这主要是要测它的推理思维链
看分析过程的话很详细,还考虑到杯子口是否会太窄导致倒过来酒杯时会卡主的情况,这我之前还没有考虑过,所以看他答案的话,我觉得我是可以接受的,确实有可能在桌子上,也有可能在冰箱里。
第6个问题,如果晾干5件衬衫需要4小时,那么晾干20件衬衫需要多久?
很棒!这个问题很少模型能答对的,看来这个推理模型并不是盖得
第7个问题:一个房间里有三个杀人犯,有一个人进来后锁死房门,然后杀了其中一个杀人犯,那现在房间里还剩下多少个杀人犯?请一步步告诉我你的推理过程
它的答案是3个,后来进去的人杀人了,成为了新的杀人犯。但是他没有算死掉的杀人犯,但在推理过程中有说为什么没有算,所以我觉得也可以接受。
好,今天的评测就到这,总的来说我觉得表现还是非常优秀的,加上推理速度挺快的,这也是出乎我意料之外的。大家感兴趣的自己上去玩下吧!