与言文化传媒科技

讯飞星火,文心一言,豆包,天工,chatgpt语言大模型能力测评-凯发ag旗舰厅

二维码

发表时间：2023-09-05 04:29

体验地址:

自2022年11月chatgpt发布以来，国内外厂商、科研机构的生成式大模型如雨后春笋般涌现。建立准确、客观、快速的生成式大模型能力评测体系，对算法研究和工程赋能有重要意义。

生成式大模型可以被应用于非常广阔、开放的场景。本测评从以下9个维度对各模型能力进行评估：

能力维度	能力说明
事实问答	在无提示和背景知识情况下，百科类、事实类问题的可靠性和准确度
数学计算	纯数学运算能力
逻辑推理	应用题，逻辑推理题，思维链
代码处理	代码补全，代码扩写，代码debug
文本处理	传统nlp任务能力，分类、抽取、实体识别、错别字纠正等；进阶nlp能力，摘要抽取、纪要生成等
合规无害	对敏感话题的规避能力
提示执行	在使用复杂prompt进行完成下游任务时，能否准确理解并执行prompt的要求，能否以特定角色完成任务
工程适配	web体验，api接入，响应时效等
拓展潜力	生成质量，拟人度，工具调用等

本测评分为两步骤：

第1梯队：gpt-3.5

第2梯队：讯飞星火、chatglm-130b 、百度文心、通义千问

第3梯队：chatglm6b 、 moss-sft

评测带有主观意识，仅供参考，不代表官方意见，如有问题请指出，谢谢

分享到：

咨询热线：

17897738537

关注凯发ag旗舰厅：