1、INTELLIGENCEARTIFICIAL人工智能大模型保险行业应用评测报告Evaluation Report on the Application of Large-scale Artificial Intelligence Models in the Insurance Industry2023年10月以ChatGPT为代表的AI大模型技术席卷全球,不仅将人工智能推向新的拐点,也让更多人注意到了其底层技术生成式人工智能(AIGC)。AIGC时代,大模型作为基础设施,将为千行百业赋能,场景广阔,潜力无限。具体到保险行业,AIGC 有望在保险产品设计、精算、营销、运营、客服等全链路环节提供深
2、度的技术加持,推动行业提升效能,实现高质量发展的同时,进一步提升普惠金融服务的广度与深度,为中国消费者提供更智能、更便捷、更有温度的保险产品与服务。AIGC时代,应用为王。为了解当下国内外主流大模型在保险领域应用的成熟度和稳定性,国内领先的保险科技平台元保,联合国内保险科技研究机构分子实验室,共同发布人工智能大模型保险行业应用评测报告。报告特邀国内知名高校专家学者、中国大地财产保险股份有限公司、众惠财产相互保险社等共同调研并撰写完成。报告通过保险、法律、医疗等相关领域常规知识问题,测试大模型的基础能力,同时针对部分主要典型的应用能力设计了保险业务场景设定及问题,以测试大模型的实际应用能力。区别
3、于以底层专业性能指标为评测维度的大模型评测报告,报告以应用场景的视角和维度进行测评,向保险行业呈现更为实用和直观的信息,更具现实层面的指导意义。本报告评测结果经专家组进行谨慎的综合论证形成,但考虑到大模型迭代速度日新月异,评测结果仅代表测试期间所呈现的效果。报告在分析结论上难免存在一定的局限性和偏差,欢迎各届批评指正。保险垂直领域大模型评测从常用的保险业务场景中抽离三大主要应用能力,细分为十大能力测试维度,71个评测任务。通过不同任务上大模型的性能表现,挖掘其基础能力的优势和特点。评测框架保险领域大模型评测框架保险领域大模型评测框架产品设计销售营销运营管理客户服务办公辅助专业知识问答专业知识问
4、答保险常识法律知识医疗知识应用能力应用能力业务场景业务场景基础能力基础能力多模态多模态文生图片图像识别语音识别语音生成交互性交互性多轮对话上文关联用语规范接口服务应用性应用性语言生成语言理解逻辑推理摘要总结安全性安全性违规识别有害识别隐私处理诱导防护准确性准确性准确率稳定性召回率覆盖率营销服务应用营销服务应用营销话术优化客服话术推荐综合规划配置营销素材设计合规风控应用合规风控应用智能核保智能理赔实时质检评分说明 大模型大模型名称名称公司名称公司名称百度阿里巴巴智谱华章奇虎360科大讯飞OpenAIGPT-3.5GPT-3.5OpenAIGPT-4.0GPT-4.0AnthropicClaude
5、 1Claude 1AnthropicClaude 2Claude 2昆仑万维*本报告实测模型包括但不限于上述通用大模型,此处只列举部分效果优异的模型版本信息。排名不分先后5 5分:答案较为完美,内容可在实际场景中直接使用4分:基本可用,可在实际场景中使用3 3分:调整可用,但需人工进行调整后方可使用2 2分:大略可用,需要较多人工调整方可使用1 1分:不可用,答非所问、语言不通打分规则打分规则012345012345012345保险常识问答能力指数保险常识问答能力指数应用能力评测:保险专业知识问答知识问答主要评测大模型的交互性、准确性等基础能力。国内外头部大模型在基础知识问答能力上的表现整体
6、较好,国内头部大模型基于中文语境优势,能力指数已实现超越法律知识问答能力指数法律知识问答能力指数医疗知识问答能力指数医疗知识问答能力指数文心一言清华智谱GPT-4*大模型*大模型*大模型*大模型*大模型*大模型*大模型文心一言清华智谱讯飞星火*大模型*大模型*大模型*大模型*大模型*大模型*大模型文心一言*大模型*大模型*大模型*大模型*大模型*大模型*大模型讯飞星火GPT-4社会保险和商业保险的区别主要体现在以下几个方面:1.保障对象和范围:社会保险主要针对劳动者,保障范围包括养老、工伤、疾病、生育、残疾、失业和死亡等方面。商业保险则面向所有人群,保障范围更广泛,包括财产保险、人寿保险、健康