1、大模型“安卓时刻”:高质量数据为“胜负手”证券研究报告互联网传媒行业/行业深度报告2023年3月31日分析师:杨晓峰登记编号:S1220522040001联系人:杨昊摘要21 1、大模型的“安卓时刻”到来大模型的“安卓时刻”到来,训练数据质量或是后续竞争关键,训练数据质量或是后续竞争关键MetaMeta大模型大模型LLaMALLaMA开源且持续改进,为行业带来变数。开源且持续改进,为行业带来变数。我们认为可以参考安卓与iOS的关系,预判开源大模型与OpenAI的GPT模型的关系,当前国内外科技公司都在紧锣密鼓的布局大模型的开发,“安卓时代”来临后,竞争或持续激烈化,格局或将生变。而从而从Cha
2、tGPTChatGPT等模型的经验来看,数据具有重要意义。等模型的经验来看,数据具有重要意义。出于模型准确度和专业性的需求,学术期刊、书籍、代码等资料类型在训练数据中有独特价值。2 2、特别应当关注代码和权威资料作为高质量训练数据的价值、特别应当关注代码和权威资料作为高质量训练数据的价值代码:从代码:从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源,相对门槛较低;或是企业自身积累的代码资源。权威资料:权威资料:关注具有较高权威性的资源,如知乎具有较为丰富的语料,学术期刊、科学书籍的公开可得性更低,因此也具备更强的稀缺性。3 3、建议关注高质量数据产业链参与方
3、:、建议关注高质量数据产业链参与方:中国科传:中国科传:权威文本资料稀缺标的,中国最大的综合性科技出版机构,业务包括期刊、科学图书、出版物进口等,积累有较为丰富的专业资料,且已经有科学智库、中国生物志库等数据库产品生成。海天瑞声:海天瑞声:高质量数据供应商,与各类大型科技公司、研究机构有较为稳定的合作关系。投资建议:投资建议:建议关注文本数据资料相关投资机会。高质量数据相关公司:高质量数据相关公司:1)权威资料及数据供应商,中国科传(万方数据库)、海天瑞声(AI训练数据供应商);2)低估值专业出版公司,如中南传媒、凤凰传媒;大模型开发公司:大模型开发公司:昆仑万维(昆仑天工)、三六零、百度集团
4、(“文心一言”)、腾讯控股(混元大模型)、阿里巴巴(通义大模型)。风险提示:风险提示:开源大模型开发不及预期;AI大模型应用不及预期;数据使用政策发生变化。BV9UjWmUfZkXuVqZtWaQcM7NmOpPmOmPiNpPmQfQnNnObRnMrMuOoPoNvPqQmQ目录一大开源背景下,训练数据质量的比拼是关键二高质量数据之代码库:开源平台供给丰富资源三高质量数据之权威文本:期刊图书资料有获取壁垒四建议关注高质量数据产业链参与方五投资建议六风险提示31.1 META LLaMA:或给大模型竞争格局带来变数数据来源:OpenAI,方正证券研究所4图表:Github上公开的LLaMA源
5、代码图表:国内外互联网科技公司积极布局AI大模型METAMETA开源大模型开源大模型LLaMALLaMA体积小,体积小,性能胜性能胜过过GPTGPT-3 3:2023年2月25日,Meta发布LLaMA模型,发布之后引起了广泛讨论,通过与其他大模型,特别是GPT-3的对比,发现LLaMA性能更优,模型体积却大幅减小。2023年3月初,Github上有公开LLaMA模型全部代码,截至目前为止,已经收获15.2K的收藏。国内已有多家公司已有或正在开发相关国内已有多家公司已有或正在开发相关智能大模型智能大模型。除了国外的微软、META、Google以外,国内的互联网科技公司如腾讯、阿里巴巴、百度、昆
6、仑万维等都有自己的模型布局RLHF在预训练完成的GPT-3上进行调优,分为三步进行:(1 1)有监督的调优)有监督的调优(2 2)模拟人类偏好)模拟人类偏好(3 3)近端策略优化()近端策略优化(PPOPPO)步骤(1)仅进行一次,而步骤(2)、(3)可进行重复迭代,不断更新训练回报模型从而获得更优的策略模型。1.2 ChatGPT的经验:数据训练意义重大图表:GPT的原理数据来源:OpenAI,方正证券研究所5图表:ChatGPT的RLHF调优流程Stage1Stage2模型预训练(无监督)参数微调整(有监督)未标注的语料Transformer模型自主训练模型迁移至NLP任务对特定任务进行f