1、山海医疗大模型的构建及其应用实践刘升平 云知声AI Labs 研发VP2302.10724 ChatGPT:Jack of all trades,master of none56.53%vs.73.71%行业大模型行业大模型面向行业基于行业知识和任务优化成为行业专家企业级大模型企业级大模型面向企业需求接入企业私有数据,文档和服务企业私有化部署应用级大模型应用级大模型面向应用或场景基于所需特定能力优化通用大模型通用大模型通用能力,探索AGI的边界六边形战士类型发布者模型名称模型大小/基座模型训练方式下游任务与特点通用智谱AIChatGLM开源6B,商用达130B预训练-指令微调-RLHF多行业,
2、多场景云知声山海商用13B,70B预训练-指令微调-RLHF多行业,多场景百度文心一言260B训练数据补充了图谱多行业,多场景医学文本港中(深)、深圳大数据研究院华佗GPT-13B/7BZiya-LLaMA-13B-Pretrain-v1/Baichuan-7B基于医患对话与ChatGPT薅羊毛,进行指令微调医疗问答哈工大本草BenTsaoLLaMA-7B/Bloom-7B/活字1.0/Alpaca-Chinese-7B5通过医学知识图谱与薅羊毛,进行指令微调医疗领域问答医联MedGPTLLaMA/BLOOMZ/Baichuan/Qwen/ChatGLM/XVERSE/InternLM二次预训
3、练指令微调RLHF DPO与医联的已有各种下游任务融合上海AI Lab、华东理工,上海交通等OpenMedLab/PULSE开源采用bloomz-7b1-mt医书,考题等指令微调健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗临床多模态澳门理工大学XrayGLMVisualGLM-6B指令微调影像诊断、多轮问答上海AI LabOpenMEDLab/Xrayplus Pulse使用MIMIC-CXR/OpenI数据报告生成,多模态会话生物药物华为盘古药物分子大模型Ecoder-Decoder架构从2维到SMILE序列的转换成药性预测清华大学智能产业研究院Bio-medGPTLL
4、aMA2以及各种模态的编码器,大约10B在文本模型上融合生信多模态的编码器分子、基因以及蛋白的各种知识问答四类医疗大模型:通用模型数据来源有医学知识,能做医学问答。医学文本模型在通用开源模型上,补充医学文本做二次预训练或指令微调。临床多模态模型融合医学文本模型与影像数据。生物医药模型编码分子、基因与蛋白,再与文本模型融合。PromptCBLUE的目标是评估LLM在不同医疗任务的总体表现,其中包括医疗文本信息抽取、医疗术语归一化、医学文本分类、医疗对话理解与生成4大类问题共计16个子任务。排名参与者组织scoreCMeEE-V2-Micro-F1CMeIE-Micro-F1CHIP-CDN-Mi
5、cro-F1CHIP-CDEE-Micro-F1IMCS-V2-NER-Micro-F1CHIP-MDCFNPC-Micro-F1IMCS-V2-SR-Micro-F1IMCS-V2-DAC-Macro-F1CHIP-CTC-Macro-F1CHIP-STS-Micro-F1KUAKE-IR-Micro-F1KUAKE-QIC-Macro-F1KUAKE-QQR-Micro-F1KUAKE-QTR-Micro-F1MedDG-RougeLIMCS-V2-MRG-RougeL1UNIGPT-MED云知声73.9171.8564.6792.9966.6789.5881.9872.98100.007
6、2.3184.8589.7994.2777.6863.119.5550.252UPSIDE-DOWN国网信产福建亿榕72.5470.3451.7992.3367.8890.2182.7171.41100.0078.1285.5287.2684.9877.7661.928.7649.623hhhhhh惠每科技 72.2868.2554.9687.6967.0589.7882.6070.50100.0076.9584.1786.7390.5676.5160.7711.8748.13 12个开源数据集包含了六种生物医学数据模式(文本、放射学(CT、MRI和X光)、病理学、皮肤病学、乳房X光检查和基因