【AI测评】Kimi、智谱清言、文心一言、通义千问、豆包等国产AI大模型生成AI热点新闻哪家强？（附提示词+效果截图）

AIGC最新资讯1年前 (2024)发布 OneNav

221 0 0

▌导读

由于昨天试了用Kimi做AI新闻速览效果不太满意（测试效果详细过程见文章：【AI测评】用Kimi做AI新闻速览后，能从2小时缩短至10分钟吗？，今天脑子里还装着这个事。

想再看看其他大模型是否有能用的，于是决定继续找国产热门大模型做个测试。

这次的测试更直接简单些，提示词都一把过，看看哪家国产免费大模型应用做热点新闻速览强？

将需求转化为如下提示词：

你是一位AI新闻工作者，注重新闻真实性和内容排版的阅读体验。现在请提供近24小时关于AI的热点新闻动态，内容呈现格式为：新闻标题：xxx 新闻摘要：xxxxxx 发布时间：xxx 新闻来源：xxx 新闻链接：xxx 新闻链接要求能跳转到真实的新闻文章详情页

▌评分标准

在测试前，为了能更直观方便比较各模型测试结果，我们简单定义下测试评分标准，具体如下：

评分标准	分数
生成新闻与测试项的提示词描述完全相符	5
生成图像与测试项的提示词描述大部分相符	4
生成图像与测试项的提示词描述少部分相符	3
生成图像与测试项的提示词无法判别是否相符	2
生成图像与测试项的提示词完全不符，答非所问	1
无此功能或不支持生成	0

（注意：该评分仅供本次测试的感性反馈使用，非权威测试，请勿纠结。）

▌测试项

对于新闻内容，关键在内容来源真实（不是瞎编的），具有一票否决权。其次是实时性，太老的新闻不能用。再次是来源真实了还得可追溯，能知道原文来自哪。最后是能按要求的格式呈现，方便阅读。

所以，本次测试项如下：

内容真实
新闻具有时效性
来源可追溯
按指定格式呈现

▌测试模型

Kimi
智谱清言-GLM-4
文心一言-文心大模型3.5
通义千问
豆包
讯飞星火

▌测试时间

2024年3月26日

准备工作完成后，我们开始进入测试。

▌Kimi

反馈与评分

下图是点击新闻链接打开的详情内容截图，均为真实新闻内容。

确认内容内容为真实内容后，测试项具体测试结果和评分如下：

▌智谱清言-GLM-4

反馈与评分

下面3张图为对应新闻的3条内容，确认为真实新闻内容。时间上也是近3月25-26日的，满足近24小时需求。

但点击新闻链接进入的新闻详情页要么报错，要么无链接，不可追溯。

确认内容内容为真实内容后，测试项具体测试结果和评分如下：

▌文心一言-文心大模型3.5

反馈与评分

下面2张图为对应新闻的2条内容，确认为真实新闻内容。时间上也满足近24小时需求。

确认内容内容为真实内容后，测试项具体测试结果和评分如下：

▌通义千问

反馈与评分

新闻信息为模拟生成，非真实发生的新闻事件。

一票否决，算是无此功能了。

▌豆包

反馈与评分

新闻信息仅为示例，非真实发生的新闻事件。

一票否决，算是无此功能了。

▌讯飞星火

反馈与评分

新闻信息仅为示例，非真实发生的新闻事件。

一票否决，算是无此功能了。

▌测评总结

本次测评结果汇总表如下：

期待各厂大模型更新后的再次测评(*^▽^*) 。

# AIGC最新资讯 # AI测评

文章版权归作者所有，未经允许请勿转载。

2024年最新的Stable Diffusion整合包安装

AiBots

256

ChatGPT全方位赛前分析！0715美洲杯决赛：阿根廷VS哥伦比亚奖杯花落谁家?

AiBots

223

OpenAI秘密研发“草莓计划”:突破推理瓶颈，将达第二级AGI

AiBots

176

字节将于本周首次大范围公布文生图 / 视频等 AI 模型进展

AiBots

119

07月11日欧洲杯半决赛战报：英格兰2-1逆转荷兰，沃特金斯绝杀，凯恩点射

AiBots

176

Midjourney支持个性化微调啦！快来阅读文章解锁新功能

OneNav

229

暂无评论

暂无评论...

【AI测评】Kimi、智谱清言、文心一言、通义千问、豆包等国产AI大模型生成AI热点新闻哪家强？（附提示词+效果截图）

▌测评总结

【AI测评】用Kimi做AI新闻速览后，能从2小时缩短至10分钟吗？

想和女神聊天吗？阿里腾讯出资30亿美元帮你开发AI角色扮演应用

相关文章

暂无评论

热门网址

相关文章

【AI测评】Kimi、智谱清言、文心一言、通义千问、豆包等国产AI大模型生成AI热点新闻哪家强？（附提示词+效果截图）

▌测评总结

【AI测评】用Kimi做AI新闻速览后，能从2小时缩短至10分钟吗？

想和女神聊天吗？阿里腾讯出资30亿美元帮你开发AI角色扮演应用

相关文章

暂无评论

热门网址

相关文章

广告位