我的资料
我的订单
  购物车 (0)  
亲,您的购物车空空的哟~
去购物车结算
   
查看手机网站
其他账号登录:
与言文化传媒科技

讯飞星火,文心一言,豆包,天工,chatgpt语言大模型能力测评-凯发ag旗舰厅

 二维码
发表时间:2023-09-05 04:29

体验地址:

凯发ag旗舰厅-凯发k8国际手机app下载

自2022年11月chatgpt发布以来,国内外厂商、科研机构的生成式大模型如雨后春笋般涌现。建立准确、客观、快速的生成式大模型能力评测体系,对算法研究和工程赋能有重要意义。

生成式大模型可以被应用于非常广阔、开放的场景。本测评从以下9个维度对各模型能力进行评估:

能力维度

能力说明

事实问答

在无提示和背景知识情况下,百科类、事实类问题的可靠性和准确度

数学计算

纯数学运算能力

逻辑推理

应用题,逻辑推理题,思维链

代码处理

代码补全,代码扩写,代码debug

文本处理

传统nlp任务能力,分类、抽取、实体识别、错别字纠正等;
进阶nlp能力,摘要抽取、纪要生成等

合规无害

对敏感话题的规避能力

提示执行

在使用复杂prompt进行完成下游任务时,能否准确理解并执行prompt的要求,能否以特定角色完成任务

工程适配

web体验,api接入,响应时效等

拓展潜力

生成质量,拟人度,工具调用等

本测评分为两步骤:

  1. 定性:结合前期深度试用、体验大模型的经验,综合3位测评者的主观意见,给出定性结论

  2. 定量:对各能力维度构建测试集和打分细则,对待测评的大模型实施测评,给出定量结论

第1梯队:gpt-3.5

第2梯队:讯飞星火 、chatglm-130b 、百度文心、通义千问

第3梯队:chatglm6b 、 moss-sft

评测带有主观意识,仅供参考,不代表官方意见,如有问题请指出,谢谢


分享到:
咨询热线:
17897738537
关注凯发ag旗舰厅:
会员登录
登录
其他账号登录:
我的资料
购物车
0
留言
回到顶部
网站地图