实际使用感受如何？来看看这份《人工智能大模型体验报告》今亮点

 当前位置：首页 > 关注 > > 正文

来源：经济参考网时间：2023-06-02 02:29:44

 字号：大中小

近年来，人工智能技术迎来了新一轮大变革，其中由OpenAI开发的ChatGPT在推出短短2个月后便成为了月活破亿的应用。随着海外科技巨头微软、谷歌、Meta等加大投入，国内科技企业如百度、华为、阿里等纷纷布局，人工智能大模型的发展日新月异。

为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点，新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目，抓取了05月22日—05月26日数据，通过人机互动提问等形式，对国内主流大模型进行使用体验评测，旨在为科技企业调整努力方向提供参考。

在综合指数评价方面，本次评测选取4大维度（基础能力、智商测试、情商测试、工作提效能力）、36个子能力，共300个问题，对目前主流大模型产品进行测试，并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等，最终得出各厂商的大模型综合指数评价。

(资料图片仅供参考)

在评价规则上，课题组以各个大模型对参与测评的题目回答完成度，进行了综合考量，其中评测规则分为：答案较为完美，内容可在实际场景中直接使用；基本可用，可在实际场景中使用；调整可用，但需人工进行调整后方可使用；大略可用，需要较多人工调整方可使用；不可用，答非所问、语言不通等五个层级。

注：基于评测条件、评测时间等限制，本次评测结果存在一定主观性，未来将进一步优化完善评测模型，提供更精确结果。

通过围绕四个维度的综合测试，课题组发现，由OpenAI开发的Chat-GPT系列模型各项指标表现优异，且Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升。而由百度开发的人工智能大模型文心一言表现较为抢眼，是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良，但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。

针对各维度能力测评，该报告还给出了相应的案例展示和分析。

在基础能力部分，百度文心一言表现最为抢眼，讯飞星火、阿里巴巴通义千问、智谱ChatGLM表现优良；商汤商量、Vicuna-13B表现尚佳。

在智商测试部分，百度文心一言在该环节意外超过ChatGPT3.5，表现突出，阿里巴巴通义千问分数接近GPT3.5，商汤商量、讯飞星火、智谱ChatGLM表现尚佳；Vicuna-13B表现有待改进。

在情商测试部分，百度文心一言表现最佳；阿里巴巴通义千问与讯飞星火表现优良；商汤商量、智谱ChatGLM表现尚可；Vicuna-13B表现一般。

在工作提效部分，百度文心一言与智谱ChatGLM最佳，讯飞星火次之；阿里巴巴通义千问及Vicuna-13B表现尚可；商汤商量表现一般。

研究发现，人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一，“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果，如何为行业领域提供更为精准、更为高效的解决方案，成为大模型厂商未来弯道超车的机会。

报告指出，随着人工智能的地位和作用越来越重要，政府、企业和社会需要共同努力，各大厂商应投入更多资源，头部企业可以持续发力自研大模型，而专注于解决方案的行业厂商可以考虑通过深耕行业来彰显特色。

研判该报告的测评结果，浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林建议，国内大模型发展应从两方面着力，一方面是大语言模型，中文并非ChatGPT的强项，OpenAI主业在英语，所以中文大语言模型对于中国市场还是有发展空间的；另一方面则是在细分领域应用，比如编程、专业知识问答、中文PPT制作等，这些细分的功能领域才是未来大模型真正需要关注的领域，也是从单个应用转变为生态应用的关键。

扫码查看

AI大模型体验报告

↓↓↓

标签：

上一篇：21个省份试点婚姻登记“跨省通办”|报资讯下一篇：最后一页

笔记本使用技巧 华为笔记本使用技巧

环球热讯:2016年nba全明星正赛全场录像回放（2016nba全明星正赛）

漳县积极引导发展“庭院经济”

苏州：公积金余额可支付首付，不影响贷款额度

内外全面焕新 新摩卡DHT-PHEV上市售价23.18元_消息

去年新疆人均快递使用量23.51件 支出134.79元 焦点报道

助力血友病规范化治疗：构建多层次保障体系 商保有待进一步打通-今日要闻

天天快播：塞尔达传说王国之泪魄有什么用攻略

环球报道:金自天正06月01日涨停分析

落叶知秋VID_20221021 唐人诗云；一叶落而知天下秋。 落叶在秋天...

焦点讯息：漫天飞舞一片荒芜满眼风雪和眼泪都化作尘埃_漫天飞舞

快资讯：三岁萌娃火车站与家人走散 民警暖心相助让孩子回到家人怀抱

6月1日东北地区乙醇市场行情弱势运行

中行威海环翠支行集中开展反洗钱与防范非法借贷金融知识宣传活动|天天即时看

环球热门:“网约护士”上门解难题

【天天聚看点】陕西省市场监督管理局关于2023年第二期食品安全“你点我检”抽检情况的通告（2023年第18期）

自然的暗示

给十万名孩子的六一礼物：三年累计捐建666座乡村儿童操场 已实现“一天捐一座”

糟糕闯入婚礼退伍糙汉吻晕我姜音 糟糕

人民币兑美元中间价报7.0965 调贬144个基点_今日快看

每日热文：手机摇一摇在哪里打开_手机摇一摇

新动态：I.T(00999.HK)今早复牌

豫审小麦新品种“濮兴16号”现场观摩会在南乐举行

天天微速讯：严把儿童用品质量安全关

“二阳”形势如何？怎样科学应对？——多地发热门诊观察

每日热文：63岁“爱隆王”近况：成满脸白胡的小老头，打扮朴素让人认不出

安全常识_今日观点

存在在诞生的瞬间漫画_每日看点

全球快讯:小龙虾吃法顺口溜_小龙虾正确吃法

每日视讯：啜妮怎么读音_啜妮怎么读

《英雄联盟》LCS选手协会回应：没有选手就没有LCS-世界微头条

最新资讯：现在七彩虹主板怎么样_七彩虹主板怎么样

每日焦点！北京4宗地线上竞买结束 顺义新城两宗宅地触发上限

全球观点：泽生科技（871392）:拟定增2亿元，用于研发项目、补充流动资金

以科技打造品牌力 高端化、智能化成车企发展新趋势

世界快报:2023泰国羽毛球公开赛：石宇奇以0-2不敌对手止步首轮

应收账款明细账本怎么填_应收账款明细表的样本

全球今日讯！传开头的成语_dai开头的成语

奥拓电子：公司拟为英伟达提供XR虚拟拍摄解决方案及相关产品和服务

武汉经济的过去与现在

濮阳医专举办康复治疗技术专业第二届专业核心课系列竞赛

中国平安上线员工碳账户，升级"1+N"碳账户体系助推绿色发展

每日观点：易华录:公司的蓝光存储技术未来将在人工智能数据存储方面提供有力支持

【天天新视野】福建漳州盘活存量安置房 西湖观澜项目将提供319套保租房

朝鲜宣布一枚军事侦察卫星发射失败：技术原因

5月31日生意社硫酸基准价为182.00元/吨

中听｜面对家暴不能“和稀泥”，“零容忍”才是最优解|世界热点

李彦宏投资华为“天才少年”创业项目司；快播宣告破产丨邦早报

中文传媒：5月30日融资买入2504.75万元，融资融券余额2.86亿元 热点聚焦

环球热点！“虎口夺粮”是当前头等大事

笔记本使用技巧华为笔记本使用技巧

内外全面焕新新摩卡DHT-PHEV上市售价23.18元_消息

去年新疆人均快递使用量23.51件支出134.79元焦点报道

助力血友病规范化治疗：构建多层次保障体系商保有待进一步打通-今日要闻

落叶知秋VID_20221021 唐人诗云；一叶落而知天下秋。落叶在秋天...

快资讯：三岁萌娃火车站与家人走散民警暖心相助让孩子回到家人怀抱

给十万名孩子的六一礼物：三年累计捐建666座乡村儿童操场已实现“一天捐一座”

糟糕闯入婚礼退伍糙汉吻晕我姜音糟糕

每日焦点！北京4宗地线上竞买结束顺义新城两宗宅地触发上限

以科技打造品牌力高端化、智能化成车企发展新趋势

【天天新视野】福建漳州盘活存量安置房西湖观澜项目将提供319套保租房

中文传媒：5月30日融资买入2504.75万元，融资融券余额2.86亿元热点聚焦