1、科技论文大模型及研究生学术训练毛先领毛先领北京理工大学北京理工大学Data Hammer Group科学技术是第一生产力&加速度不断加快Prof.Gregory Clark网网络技技术进步大型机性能大型机性能数据增数据增长2论文数量也急剧变多3科技文献,是科学技术的藏经阁4面对如此重要且海量的数据,除了依靠天资海量科技文献海量科技文献如何如何把数据把数据组织起来起来,满足满足科研人科研人员的信息员的信息需求需求?5路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力6起点 基本特点文章为粒度元信息挖掘7扪心自问,它真的是您内心
2、真正想要的趁手工具吗?8例如:科技论文阅读过程文献管理文献管理9起点 基本特点文章为粒度元信息挖掘10路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力11终点12Any TimeAny PlaceAny Topic路线图起点传统搜索、粒度粗、代价高终点智能交互、高效满足大模型之前任务独立、细粒度、代价高大模型之后说话能力强、通用能力13大模型之前主流研究框架成本高学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringer
3、Hammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘14 富语义哈希建模学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringerHammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘15 富语义哈希建模011010110110101010010111Should be similarShould be different16 富语义哈希建模Hashing
4、 for image retrieval Data-independent hashing(AAAI 2017)Data-dependent hashing Supervised hashing(AAAI 2018,WWW 2021,ACM MM 2021)Unsupervised hashing(IJCAI 2019,IJCAI 2020,SIGMOD 2023,TOIS 2024)Hashing for text retrieval(TKDE 2020,TKDE 2022)Hashing for cross-modal retrievalSupervised hashing(TKDE 20
5、20,TKDE 2022,SIGIR 2023,AAAI 2025)Unsupervised hashing(TMM 2023)17科技实体与关系抽取科技实体与关系抽取数据集包含6种实体类别、5种实体关系人工标注共1,948条科技任务型对话科技任务型对话数据集包含5种domain类别、38种slot类别、150,000条对话语句,人工标注共10,000轮科技论文阅读理解科技论文阅读理解数据集包含3种问题视角、28种问题类别,人工标注共5,000条科技论文表格自动抽取科技论文表格自动抽取数据集包含15,000个科技论文表格与对应结构标签科技事件抽取科技事件抽取数据集包含10种词块类别、10种事件
6、类别的文档级、含嵌套、人工标注共6,000条 科技领域基础数据集学术应用套件碎片化数据科技大数据挖掘富富语义哈哈希希建建模模科科技技基基础数数据据集集Hammer ScholarHammer QAIEEEACMSpringerHammer PDFHammer KG 科技对话科技实体识别科技关系抽取科技摘要科技写作科技预训练科技阅读理解科技事件挖掘18将上述理论成果落地,构建了构建了5个个科技领域应用系统应用系统,形成了一整套形成了一整套体系化的解决方案解决方案,极大地提升了广大科研工作者的科研效率。学术应用套件跨模态学术搜索引擎跨模态学术搜索引擎(Hammer Scholar)已被超过70个国