
-
上传职位表excel文件。 -
验证AI是否能正确读取表格数据。 -
了解广西南宁市有多少个岗位? -
南宁市符合“计算机类专业”的有多少个岗位? -
广西各个城市的分别有多少个岗位? -
基于各城市岗位数据,能否以表格形式呈现? -
基于各城市岗位数据,能否以柱状图的形式呈现? -
基于各城市岗位数据,分别占比多少? -
基于各城市岗位数据的占比情况,能否以饼图的形式呈现?

|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 上传表格文件。
- 读取数据表中某行某列的单元格的值。
- 读取数据表中某个维度的统计数。
- 读取数据表中两重维度的统计数。
- 基于对数据表的理解,输出多个统计数据。
- 基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。
- 基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。
- 基于对数据表的理解,输出多个统计数据的占比。
-
基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。
▌测试模型
- 文心一言-文心大模型3.5
- 讯飞星火
- 通义千问
- 豆包
- 智谱清言-GLM-4
- 智谱清言-GLM-3
- Kimi
▌文心一言-文心大模型3.5
测试项1:上传表格文件
反馈与评分:仅支持word、pdf,不支持xlsx等表格格式。无法进行后续测试,还没开始就结束了-_-||
总分:0。
▌讯飞星火
测试项1:上传表格文件

反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始又结束了-_-||
总分:0。
测试项1:上传表格文件

反馈与评分:不支持上传文件。无法进行后续测试,还没开始再次结束了-_-||
总分:0。
▌智谱清言-GLM-3
测试项1:上传表格文件

反馈与评分:不支持xlsx等表格格式。无法进行后续测试,还没开始再又结束了-_-||
总分:0。
▌智谱清言-GLM-4
测试项1:上传表格文件

反馈与评分:成功上传职位表xlsx文件,这一项打5分。
测试项2:读取数据表中某行某列的单元格的值

反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“各级人民法院”,这一项打5分。

测试项3:读取数据表中某个维度的统计数

反馈与评分:下图为表格截图,从南宁sheet表中筛选南宁sheet表中包含岗位524个,答案正确,打5分。

测试项4:读取数据表中两重维度的统计数


发现直接检索了包含“计算机类专业”的关键词,没有找到。
那换一种问法:南宁市符合计算机类专业的有多少个岗位?发现可以检索到21个。

反馈与评分:下图为表格截图,从南宁sheet表中筛选专业类别中包含“计算机”的共21个,答案正确,但由于第一次检索结果为0,所以算部分符合预期,打3分。

测试项5:基于对数据表的理解,输出多个统计数据。

反馈与评分:下图为部分城市岗位统计截图,答案正确,打5分。




测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

反馈与评分:虽然表头有英文名,但答案正确,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。



反馈与评分:能生成柱状图,但是城市名无法展示,算少部分符合预期,这一项打3分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。

反馈与评分:占比答案正确,打5分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

反馈与评分:饼图占比数据比例值正确,但是选项名称无法显示,算少部分符合,打3分。

总分:5+5+5+3+5+5+3+5+3=39。
▌通义千问
测试项1:上传表格文件

反馈与评分:成功上传职位表xlsx文件,这一项打5分。
测试项2:读取数据表中某行某列的单元格的值
反馈与评分:无法给出答案,再进一步明确输入后还是无法给出答案,还说需要推测出来,算它答非所问,完全不符,这一项打1分。
测试项3:读取数据表中某个维度的统计数

反馈与评分:只是从表格中读取了部分信息,并基于此做部分取数,断章取义,答非所问,打1分。
测试项4:读取数据表中两重维度的统计数

反馈与评分:和第三项测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。
测试项5:基于对数据表的理解,输出多个统计数据。

反馈与评分:和之前测试结果一样,选择性截取部分信息给答案,断章取义,答非所问,打1分。
测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

反馈与评分:基于测试项5得出的结果,正确转化成表格形式呈现了,表格形式呈现功能符合预期,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。

反馈与评分:不支持绘制图形或柱状图,无此功能,这一项打0分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。


反馈与评分:提出数据占比需求,无法直接识别总人数,老是要我提供总人数数据。好吧,那就基于已给出的信息作为总人数,还是说没有所有岗位的总人数。行吧,那我再给出岗位总人数为4210。这时候又跟我说一堆道理,实战没耐心跟它耗下去了。算答非所问,打1分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

反馈与评分:不支持绘制图表,无此功能,打0分。
总分:5+1+1+1+1+5+0+1+0=15。
▌Kimi
测试项1:上传表格文件


反馈与评分:第一次上传提示超过对话长度,不支持。删掉excel表中大部分内容,只保留梧州市的岗位计划表内容后成功上传,算少部分符合,这一项打3分。
测试项2:读取数据表中某行某列的单元格的值

反馈与评分:下图为表格截图,剔除表头列名后,正文第一行第三列确实是“市级”,这一项打5分。

测试项3:读取数据表中某个维度的统计数

反馈与评分:下图为表格截图,从梧州sheet表中看到总共有308行,除去表头后,共307个岗位明细,答案正确,打5分。

测试项4:读取数据表中两重维度的统计数


反馈与评分:第一次筛选是“计算机类专业”,Kimi转化成了“计算机科学与技术类”关键词,但输出结果不对。第二次没有用引号框起来,Kimi转化成提及“计算机类专业”的就算,但是统计数据和明细描述都是错误的,见下面截图,可以看出来职位序号14-19,对应专业(学科)类别的内容中并没有“计算机”出现。这里算答非所问,打1分。

测试项5:基于对数据表的理解,输出多个统计数据。

反馈与评分:下图为excel表透视结果,发现部分数据准确,部分数据错误,算少部分符合预期,打3分。

测试项6:基于对数据表的理解,输出多个统计数据,并将统计数据转化成表格形式呈现。

反馈与评分:能够基于数据结果正确转化为表格,符合预期,打5分。
测试项7:基于对数据表的理解,输出多个统计数据,并将统计数据转化成柱状图形式呈现。

反馈与评分:无法创建图表,无此功能,打0分。
测试项8:基于对数据表的理解,输出多个统计数据的占比。

反馈与评分:基于已有结果统计占比的答案按估算结果正确,符合预期,打5分。
测试项9:基于对数据表的理解,输出多个统计数据的占比,并将占比数据转化成饼图形式呈现。

反馈与评分:无法创建图表,无此功能,打0分。
总分:5+3+5+1+3+5+0+5+0=27分。
▌测评总结
本次测评结果汇总表如下:

从测评结果表可以看出:
智谱清言GLM-4在表格数据处理上的体验效果遥遥领先。
其次到Kimi,能回答对大部分数据问题,但无法生成图表。
接下来到通义千问,只能说有上传表格文件的功能,智商上还不足以正确处理分析表格数据。
最后是文心一言大模型3.5、讯飞星火、豆包、智谱清言GLM-3,这几个现在是干脆不支持了。
按智谱清言GLM-4目前的表现,你会用它来处理表格文件吗?
期待各厂大模型更新后的再次测评(*^▽^*) 。