热门

全新国产大模型哪家强？深度对比测评揭秘

AI行业资讯6mos agorelease 深度未来管理员

2,042 0 0

推理能力测试

任务一：直接测试逻辑问题

提示词：

A的女儿是B的女儿的妈妈，A和B是什么关系？

全新国产大模型哪家强？深度对比测评揭秘

全新国产大模型哪家强？深度对比测评揭秘

全新国产大模型哪家强？深度对比测评揭秘

从上述三轮直接提示中我们可以看出：4家大模型都没能正确推理出这个直接提问的问题，是的 ChatGPT4.0 也不行。

在接下来的测试中，我们将引入CoT(思维链）提示方法，来试图优化大模型的表现。在此之前，为了方便读者理解测试题目本身（有同学看着这道题 CPU 已经烧了吗？），我们简单解释一下这个题目：

任务二：引入提示链测试逻辑问题

提示词：

假设B的女儿是A的女儿的女儿，B和A不是同一人。不考虑继父母字母关系，推理B和A是什么关系？

考虑B和A可能的性别，深呼吸，一步一步的思考并推理问题。

智谱清言

全新国产大模型哪家强？深度对比测评揭秘

文心一言 4.0

全新国产大模型哪家强？深度对比测评揭秘

Moonshot AI

全新国产大模型哪家强？深度对比测评揭秘

ChatGPT 4.0

全新国产大模型哪家强？深度对比测评揭秘

第二轮测试总结

回溯一下本轮测试目的：逻辑推理及内容生成

智谱清言：执行了分步骤推理，一共四步，第一步开始错误

文心一言4.0：执行了分步骤推理，一共三步，推理正确

moonshotAI：执行了分步骤推理，一共两步，一步正确，一步错误

国内三家的排名分析大概为：

在逻辑推理方面，文心一言4.0和Moonshot AI都执行了分步骤推理，且在推理过程中没有出现错误。而智谱清言在第一步就出现了错误。因此，在这方面文心一言4.0和Moonshot AI表现较好，智谱清言需要改进。
在内容生成方面，根据提示词的执行流程来看，如果以ChatGPT 4.0为满分标准，那么国内三家AI大模型的排名如下：
1. 1. Moonshot AI：50分。虽然能够执行分步骤推理且有一步是正确的，但在内容和提示词的执行流程上可能存在一些问题，导致整体表现不佳。
  2. 智谱清言：0分。在推理步骤中出现了错误，同时在内容生成方面也没有表现出色，需要进一步改进。
  3. 文心一言4.0：90分。在推理步骤中全部正确，并且在内容生成方面表现优秀，获得了较高的评分。

本轮测试中文心一言4.0在逻辑推理和内容生成方面表现出色，而Moonshot AI虽然在推理方面有所进步，但在内容生成方面仍需提高。智谱清言则需要进一步改进其逻辑推理和内容生成能力。

# AI行业资讯

© Copyright notes

文章版权归作者所有，未经允许请勿转载。

广告也精彩

Related posts

GitHub放大招！CEO现场挑战18分钟开发小游戏，人还在台上网友已经玩到了

未来助理

113

GPT + Tradingview 构建比特币量化策略

未来助理

2,164

从初学者到专家级别的Python使用者 – 掌握print函数

深度未来管理员

1,677

使用AI写作神器提高工作效率和提升字幕质量

深度未来管理员

1,758

利用ChatGPT在小红书打造情感类博主

未来助理

623

如何正确地提问，以便更好地利用ChatGPT搭建自己的私域品牌业务？

未来助理

247

🔥

创建您的帐户，保存工具并保持更新

接收我们精心挑选的顶级工具的每周摘要。
随时退订

创建我的帐户👌

No comments

No comments...

DEEP AIAI综合站

1115Website

0Apps

738Post

832.6KVisitor