当前位置:首页 > 报告详情

5 腾讯大数据基于 StarRocks 的向量检索探索.pdf

上传人: 哆哆 编号:186221 2024-11-01 36页 3.29MB

1、基于基于StarRocks的向的向量量检索探索检索探索腾讯大数据腾讯大数据赵裕隆腾讯大数据研发工程师向量检索技术浅析StarRocks实现向量检索的原理及优化StarRocks向量检索在腾讯的实践案例挑战及未来规划01向量检索技术浅析什么是向量什么是向量检索检索向量向量检索检索新型新型应用不断涌现:应用不断涌现:听歌识曲、以图搜图、广告推荐、大模型检索增强等等;Embedding技技术的成熟:术的成熟:大量非结构化数据(视频、语音、图像等)可以通过深度学习技术转化成高维向量(数组);统一数据特征表达:统一数据特征表达:将非结构化数据Embedding后,对高维特征向量进行最近邻(或k近邻)查询

2、即可查找相似内容:给定查询向量,在特征数据库中寻给定查询向量,在特征数据库中寻找距离找距离查询向量最近(即相似度最高)查询向量最近(即相似度最高)的的k个向量;个向量;-get_topN(distance),id -id,metrics_distance(query_vector,vector_column):distance -scan_table(id,vector_column)近似最近近似最近邻查询邻查询高维空间的向量很难进行快速而准确的近邻查询,主要原因在于:高高维度导致的计算复杂性:维度导致的计算复杂性:数据维度较高,通用的距离函数都需要成百上千次浮点运算,十分耗时;维度灾难(维度

3、灾难(Curse of Dimensionality):):随着维度的增大,搜索空间将呈指数增长的现象;维度灾难为了解决高维向量KNN查询的效率问题,近似最近近似最近邻查询(邻查询(Approximate Nearest Neighbor Search,ANNS)应运而生,其通过返回近似查询结果,来显著提升查询效率(通常为数百倍以上)。目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。欧式距离和余弦距离。通常使用召回率(召回率(Recall)来衡量ANNS的查询精度,即近似查询结果中正确答案占实际正确答案的比例。近近邻索引技术邻索引技术哈希/树:用于ANNS的哈希方法主要是局部敏感哈希

4、;树索引的基本思路是对空间进行划分,并采用树型结构维护空间划分的层次关系。量化与倒排(主流):乘积量化(Product Quantization,PQ)先把向量分为多个子段,然后对每段进行分别聚类与编码。量化是一种压缩技术,虽然能够极大的减少存储空间占用和距离计算开销,但是仍然要对全量数据进行距离排序,没有剪枝作用,所以通常需要配合倒排索引技术(Inverted File,IVF),求取TopK个聚类中心的进行剪枝,进一步减少访问的数据量。近近邻图(主流):邻图(主流):近邻图的基本思想是“近邻的近邻也是近邻”,其将每个向量作为图中的一个Node,在距离相近的向量之间建立边连接构成近邻图。查询

5、时从固定入口出发,不断地贪心遍历离查询向量更近的邻节点,直到没有更近的节点停止搜索。各索引技术对比业务背景业务背景 业务场景:业务场景:一个典型检索场景 检索链路复杂:一次检索经过 四套四套 系统 写入链路复杂:写入维护 三条三条 链路 端到端延迟高:端到端 分分钟级钟级延迟 数据一致性保障 业务诉求业务诉求 能力支撑:文本文本检索检索+向量向量检索检索+多多维分析维分析 成本:尽可能少尽可能少的使用和接入成本 业务开发维护成本:高可靠、高可用、用高可靠、高可用、用户友好户友好 性能:亚秒亚秒/秒秒级级 查询延迟,召回率 95%+如何如何选型最符合业务现状,并有利于后续发展选型最符合业务现状,

6、并有利于后续发展 新兴向量库:系统学习成本?链路打通成本?数据迁移成本?后续系统维护成本?现有传统数据库+向量索引:性能?生态融合成本?稳定性?后期迭代?答案:成熟可靠的分布式高性能成熟可靠的分布式高性能 数据数据库系统库系统+向量向量检索检索;02StarRocks实现向量检索的原理及优化整体架构整体架构StarRocks向量数据向量数据库整体架构库整体架构 基本功能的开发完成,具备服服务分析一体务分析一体的向量数据库雏形 形成了内部索引库TenANN,集成了业界主流的向量索引HNSW和IVFPQ语法设计语法设计向量向量检索语义与检索语义与SQL有有gap,如何,如何设计语设计语法来法来进行

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了向量检索技术在腾讯大数据中的应用,以StarRocks数据库为例,详细解析了向量检索的原理、优化方法以及在腾讯的实践案例。文章指出,向量检索技术在新型应用中需求不断涌现,如听歌识曲、以图搜图等,而Embedding技术的成熟使得非结构化数据可以转化为高维向量,进而通过最近邻查询实现相似内容的查找。面临高维空间查询的效率问题,文章提出使用近似最近邻查询(Approximate Nearest Neighbor Search, ANNS)来提升查询效率。StarRocks实现向量检索的原理及优化包括:基本功能的开发完成,形成内部索引库TenANN,支持向量、倒排等多种类型的索引,以及通过表达式构筑SQL,优化时构建对应的执行计划等。在腾讯的实践案例中,StarRocks向量检索在不同的业务场景中均展现出优势,如在RAG场景中使用方便、耗时低,在千万至亿级数据量中成本低、耗时低、运维成本低等。面对高并发场景和大数据量的挑战,文章提出了一系列规划,如实现Serving / HSAP、Tablet级别索引、算法优化等。
"StarRocks如何实现高并发向量检索?" "腾讯如何运用StarRocks向量检索技术解决大数据挑战?" "StarRocks向量检索在腾讯实践案例中表现如何?"
客服
商务合作
小程序
服务号
折叠