1、YOUR LOGO NLP技术在短视频场景中的 应用实践 爱奇艺 苗艳军 简介 实体识别 实体链接 内容标签 分享大纲 NLP 数据挖掘 分词词典情感词典 同义词典纠错词典 知识图谱 中文词法分析分词词性标注实体识别实体链接词权重 NLP应用研发 内容标签机器翻译标题生成舆情分析标题相似度 深度语义表示词标题文本封面图视频理解多模态 文本纠错事件聚合查询理解语音助手Query生成 随刻推荐用户画像 广告国际站 搜索 客服中心BI 知识付费乐高 审核平台 支持业务 实体识别 实体识别 短视频场景下实体类型 影视综名、人名、音乐名、游戏名、角色名、 难点 歧义性大 实体词与普通词的歧义 电影:狙击
2、手、英雄、功夫 电视剧:爷们儿、悬崖 明星:黎明、宁静 实体词与实体词的歧义 笑傲江湖(电视剧? 电影? 综艺? 文学?) 训练语料获取困难 需兼顾模型效果和推理速度 综艺 电视剧 电影 相声 文学 实体识别 主流模型 CRF、BILSTM-CRF、BERT-CRF、 业务中的考量 训练数据如何生成? 如何兼顾效果和速度? 日调用高峰10亿以上 如何提升泛化能力? 新实体不断出现 训练数据构造 原则 尽量标注模型识别不够好的句子 利用更多信息辅助文本标注 方法 基于搜索用户点击行为的实体标注 基于短视频内容理解的实体标注 借助知识图谱信息辅助标注 标题:笑傲江湖:令狐冲独孤九剑一出,向问天都不
3、是对手,真是精彩! 视频帧 OCR:笑傲江湖 2:东方不败 电影 模型选择:LSTM vs SRU = (+ ) x= = (+ ) = -1+ (1 ) = tanh() + (1 ) = (-1,+ ) = (-1,+ ) = (-1,+ ) = (-1,+ ) = tanh() = -1+ a) LSTM 可并行计算 b) SRU(Simple Recurrent Unit) 无法并行计算 x 1 x + x tanh -1 1- + x1- x tanh x + x tanh -1 -1 C 1,2,., = 实体识别模型:BISRU-CRF Embedding , , O O O OutputCRF Input Text w1 w2 w3 w4 wn-3 wn-2 wn-1 wn word O O O character sru-based O O O BISRUBISRU fe