【AI测评】国内AI大模型表格数据处理哪家强？智谱GLM-4、Kimi优秀（4000字详细测评过程+结果）

AI测评1年前 (2024)更新 OneNav

176 0 0

【AI测评】国内AI大模型表格数据处理哪家强？智谱GLM-4、Kimi优秀（4000字详细测评过程+结果）

图片来自ideogram生成

▌锅头导读

今天（3月16日）是广西2024年度公务员笔试考试时间，有听到一些朋友在讨论报考的岗位情况。

锅头心想：现在国产AI大模型这么多，有没有可能用它们来帮我快速解读职位表的信息？文心一言3.5、讯飞星火、豆包、智谱清言GLM-3、智谱清言GLM-4、通义千问、Kimi哪家更强？

想到就去做。

脑子里过了下自己的需求，具体如下：

上传职位表excel文件。
验证AI是否能正确读取表格数据。
了解广西南宁市有多少个岗位？
南宁市符合“计算机类专业”的有多少个岗位？
广西各个城市的分别有多少个岗位？
基于各城市岗位数据，能否以表格形式呈现？
基于各城市岗位数据，能否以柱状图的形式呈现？
基于各城市岗位数据，分别占比多少？
基于各城市岗位数据的占比情况，能否以饼图的形式呈现？

下图为本次测评结果，满分45分，具体评分标准和测评过程见下文。

图片来自锅头测评结果

▌评分标准

在测试前，为了能更直观方便比较各模型测试结果，我们简单定义下测试评分标准，具体如下：

评分标准	分数
与预期完全相符	5
与预期大部分相符	4
与预期少部分相符	3
无法判别是否相符	2
与预期完全不符，答非所问	1
无此功能或不支持生成	0

（注意：该评分仅供本次测试的感性反馈使用，非权威测试，请勿纠结。）

▌测试项

上传表格文件。
读取数据表中某行某列的单元格的值。
读取数据表中某个维度的统计数。
读取数据表中两重维度的统计数。
基于对数据表的理解，输出多个统计数据。
基于对数据表的理解，输出多个统计数据，并将统计数据转化成表格形式呈现。
基于对数据表的理解，输出多个统计数据，并将统计数据转化成柱状图形式呈现。
基于对数据表的理解，输出多个统计数据的占比。
基于对数据表的理解，输出多个统计数据的占比，并将占比数据转化成饼图形式呈现。

▌测试模型

文心一言-文心大模型3.5
讯飞星火
通义千问
豆包
智谱清言-GLM-4
智谱清言-GLM-3
Kimi

▌测试时间

2024年3月15日、16日。

准备工作完成后，我们开始进入测试。

▌文心一言-文心大模型3.5

【AI测评】国内AI大模型表格数据处理哪家强？智谱GLM-4、Kimi优秀（4000字详细测评过程+结果）测试项1：上传表格文件

反馈与评分：仅支持word、pdf，不支持xlsx等表格格式。无法进行后续测试，还没开始就结束了-_-||

总分：0。

▌讯飞星火

测试项1：上传表格文件

反馈与评分：不支持xlsx等表格格式。无法进行后续测试，还没开始又结束了-_-||

总分：0。

▌豆包

测试项1：上传表格文件

反馈与评分：不支持上传文件。无法进行后续测试，还没开始再次结束了-_-||

总分：0。

▌智谱清言-GLM-3

测试项1：上传表格文件

反馈与评分：不支持xlsx等表格格式。无法进行后续测试，还没开始再又结束了-_-||

总分：0。

▌智谱清言-GLM-4

测试项1：上传表格文件

反馈与评分：成功上传职位表xlsx文件，这一项打5分。

测试项2：读取数据表中某行某列的单元格的值

反馈与评分：下图为表格截图，剔除表头列名后，正文第一行第三列确实是“各级人民法院”，这一项打5分。

测试项3：读取数据表中某个维度的统计数

反馈与评分：下图为表格截图，从南宁sheet表中筛选南宁sheet表中包含岗位524个，答案正确，打5分。

测试项4：读取数据表中两重维度的统计数

发现直接检索了包含“计算机类专业”的关键词，没有找到。

那换一种问法：南宁市符合计算机类专业的有多少个岗位？发现可以检索到21个。

反馈与评分：下图为表格截图，从南宁sheet表中筛选专业类别中包含“计算机”的共21个，答案正确，但由于第一次检索结果为0，所以算部分符合预期，打3分。

测试项5：基于对数据表的理解，输出多个统计数据。

反馈与评分：下图为部分城市岗位统计截图，答案正确，打5分。

测试项6：基于对数据表的理解，输出多个统计数据，并将统计数据转化成表格形式呈现。

反馈与评分：虽然表头有英文名，但答案正确，打5分。

测试项7：基于对数据表的理解，输出多个统计数据，并将统计数据转化成柱状图形式呈现。

反馈与评分：能生成柱状图，但是城市名无法展示，算少部分符合预期，这一项打3分。

测试项8：基于对数据表的理解，输出多个统计数据的占比。

反馈与评分：占比答案正确，打5分。

测试项9：基于对数据表的理解，输出多个统计数据的占比，并将占比数据转化成饼图形式呈现。

反馈与评分：饼图占比数据比例值正确，但是选项名称无法显示，算少部分符合，打3分。

总分：5+5+5+3+5+5+3+5+3=39。

▌通义千问

测试项1：上传表格文件

反馈与评分：成功上传职位表xlsx文件，这一项打5分。

测试项2：读取数据表中某行某列的单元格的值

反馈与评分：无法给出答案，再进一步明确输入后还是无法给出答案，还说需要推测出来，算它答非所问，完全不符，这一项打1分。

测试项3：读取数据表中某个维度的统计数

反馈与评分：只是从表格中读取了部分信息，并基于此做部分取数，断章取义，答非所问，打1分。

测试项4：读取数据表中两重维度的统计数

反馈与评分：和第三项测试结果一样，选择性截取部分信息给答案，断章取义，答非所问，打1分。

测试项5：基于对数据表的理解，输出多个统计数据。

反馈与评分：和之前测试结果一样，选择性截取部分信息给答案，断章取义，答非所问，打1分。

测试项6：基于对数据表的理解，输出多个统计数据，并将统计数据转化成表格形式呈现。

反馈与评分：基于测试项5得出的结果，正确转化成表格形式呈现了，表格形式呈现功能符合预期，打5分。

测试项7：基于对数据表的理解，输出多个统计数据，并将统计数据转化成柱状图形式呈现。

反馈与评分：不支持绘制图形或柱状图，无此功能，这一项打0分。

测试项8：基于对数据表的理解，输出多个统计数据的占比。

反馈与评分：提出数据占比需求，无法直接识别总人数，老是要我提供总人数数据。好吧，那就基于已给出的信息作为总人数，还是说没有所有岗位的总人数。行吧，那我再给出岗位总人数为4210。这时候又跟我说一堆道理，实战没耐心跟它耗下去了。算答非所问，打1分。

测试项9：基于对数据表的理解，输出多个统计数据的占比，并将占比数据转化成饼图形式呈现。

反馈与评分：不支持绘制图表，无此功能，打0分。

总分：5+1+1+1+1+5+0+1+0=15。

▌Kimi

测试项1：上传表格文件

反馈与评分：第一次上传提示超过对话长度，不支持。删掉excel表中大部分内容，只保留梧州市的岗位计划表内容后成功上传，算少部分符合，这一项打3分。

测试项2：读取数据表中某行某列的单元格的值

反馈与评分：下图为表格截图，剔除表头列名后，正文第一行第三列确实是“市级”，这一项打5分。

测试项3：读取数据表中某个维度的统计数

反馈与评分：下图为表格截图，从梧州sheet表中看到总共有308行，除去表头后，共307个岗位明细，答案正确，打5分。

测试项4：读取数据表中两重维度的统计数

反馈与评分：第一次筛选是“计算机类专业”，Kimi转化成了“计算机科学与技术类”关键词，但输出结果不对。第二次没有用引号框起来，Kimi转化成提及“计算机类专业”的就算，但是统计数据和明细描述都是错误的，见下面截图，可以看出来职位序号14-19，对应专业（学科）类别的内容中并没有“计算机”出现。这里算答非所问，打1分。

测试项5：基于对数据表的理解，输出多个统计数据。

反馈与评分：下图为excel表透视结果，发现部分数据准确，部分数据错误，算少部分符合预期，打3分。

测试项6：基于对数据表的理解，输出多个统计数据，并将统计数据转化成表格形式呈现。

反馈与评分：能够基于数据结果正确转化为表格，符合预期，打5分。

测试项7：基于对数据表的理解，输出多个统计数据，并将统计数据转化成柱状图形式呈现。

反馈与评分：无法创建图表，无此功能，打0分。

测试项8：基于对数据表的理解，输出多个统计数据的占比。

反馈与评分：基于已有结果统计占比的答案按估算结果正确，符合预期，打5分。

测试项9：基于对数据表的理解，输出多个统计数据的占比，并将占比数据转化成饼图形式呈现。

反馈与评分：无法创建图表，无此功能，打0分。

总分：5+3+5+1+3+5+0+5+0=27分。

▌测评总结

本次测评结果汇总表如下：

从测评结果表可以看出：
智谱清言GLM-4在表格数据处理上的体验效果遥遥领先。
其次到Kimi，能回答对大部分数据问题，但无法生成图表。
接下来到通义千问，只能说有上传表格文件的功能，智商上还不足以正确处理分析表格数据。
最后是文心一言大模型3.5、讯飞星火、豆包、智谱清言GLM-3，这几个现在是干脆不支持了。

按智谱清言GLM-4目前的表现，你会用它来处理表格文件吗？

期待各厂大模型更新后的再次测评(*^▽^*) 。

# AI测评