当前位置:首页 > 报告详情

Datafun3.23 智慧芽 王为磊.pdf

上传人: 张** 编号:158425 2024-03-31 20页 5.01MB

1、DataFunSummitDataFunSummit#20242024专利大模型的实践与问答探索专利大模型的实践与问答探索王为磊 智慧芽 搜索与算法总监兼首席科学家专利大模型介绍专利大模型介绍训练过程训练过程专利检索专利检索+专利大模型专利大模型挑战和展望挑战和展望目录目录DataFunSummitDataFunSummit#202420240101专利大模型专利大模型智慧芽垂直领域大模型智慧芽垂直领域大模型PatentPatent GPTGPTPharmPharm GPTGPT算法能力算法能力Leading Algorithm CapabilitiesMaterialsMaterials G

2、PTGPTAI专家检索AI-powered Expert Retrieval专利申请书撰写助手Assisted Patent Drafting自动生成检索式Automatically Generate Search ExpressionsAI技术问答Conversational Answers to Technical Questions内容生成Content Generation对话问答DialogueQ&A精准检索和专业推荐Precision Search and Professional Recommendation多语言翻译Multilingual Translation总结分析Sum

3、marize and Analyze基于领域专家反馈的强化学习Reinforcement Learning with Expert Feedback监督精调Supervised Fine-tuningRAG检索增强生成Retrieval-Augmented GenerationAI标引Automatic Indexing药物情报助手Drug Search AssistantAI技术预研AI-powered Technical Pre-research自研大模型Self-developed large-scale modelAI助手AI AssistantAI专利对比AI-powered Tec

4、hnical Pre-researchAI专利和论文解读AI-powered Interpretation of Patent and Papers垂直数据基石垂直数据基石PatsnapPatsnap DataData setssets专利Patent生物序列Bio Sequences文献Literature新闻News书籍Books化学结构Chemical Structures适应症Indication药物Drug靶点Target论文Papers材料性质 Material PropertyAI缴费Assisted Paying实践的一些经验实践的一些经验:有差异化的海量数据有小模型+大模型大

5、模型:CPT+SFT+Reward+PPO(DPO)应用场景数据提取产品场景RAG在SAAS行业是必要的组合飞轮算法LLM Algorithm数据基石Data数十个小模型Bert Based models芽仔芽仔DataFunSummitDataFunSummit#202420240202专利大模型训练专利大模型训练领域数据(专利论文等246B246B tokenstokens )PatentGPTPatentGPT差异化差异化数据集数据集a)Patent GPT:超246B训练数据,包括全球170个受理局的超1.8亿专利、超1.6亿论文、超2100万新闻、超50万投融资、超1.1亿企业、超7

6、8万市场报告以及40万本书籍数据。算法面向业务算法面向业务a)大小模型结合:结合智慧芽沉淀的几十种小模型算法能力,数据处理+SFT数据挖掘+小模型的监督数据;b)数据配方:基于垂直大模型的应用场景建立独特的数据配方;c)基于领域专家反馈的强化学习:拥有超过50位知识产权和生物医药专家,反馈2万条训练效果数据,与人类意图保持一致;d)RAG检索增强生成:RAG技术加强大模型理解能力,结合知识库,更好理解企业私有数据,实现问答能力的拓展。(专利搜索)只比垂直只比垂直业务能力,不比通用能力业务能力,不比通用能力a)垂直行业能力超越ChatGPT-3.5,部分超越ChatGPT-4;专利撰写、专利对比

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了智慧芽在2024年举办的DataFunSummit会议中,关于专利大模型实践与问答探索的内容。王为磊博士作为搜索与算法总监兼首席科学家,分享了专利大模型的训练过程、挑战和展望。 关键点如下: 1. 专利大模型训练:采用差异化数据集,结合智慧芽沉淀的几十种小模型算法能力,通过监督精调、RAG检索增强生成等技术,实现对垂直行业的大模型训练。 2. 模型应用:专利大模型在专利撰写、专利对比、专利搜索等方面表现出色,部分能力已超越ChatGPT-3.5,甚至达到ChatGPT-4的水平。 3. 模型评估:MMLU和C-EVAL数据显示,专利大模型在垂直行业能力上表现良好。同时,自建测试集也显示其在专利撰写、总结、问答等方面具有较高的准确性和效率。 4. 未来方向:文章提到了稀疏化、自我迭代、长文本处理、多模态以及Agent等未来研究方向。 综上,智慧芽通过举办DataFunSummit会议,分享了其在专利大模型领域的最新研究成果和实践经验,展示了大模型在专利搜索和问答等场景的应用价值,并为未来的研究方向提供了启示。
"智慧芽如何应用大模型提升专利搜索效率?" "大模型在专利领域的应用有哪些挑战和解决方案?" "如何利用RAG技术加强专利大模型的理解和搜索能力?"
客服
商务合作
小程序
服务号
折叠