5 腾讯大数据基于 StarRocks 的向量检索探索.pdf-三个皮匠报告

1、基于基于StarRocks的向的向量量检索探索检索探索腾讯大数据腾讯大数据赵裕隆腾讯大数据研发工程师向量检索技术浅析StarRocks实现向量检索的原理及优化StarRocks向量检索在腾讯的实践案例挑战及未来规划01向量检索技术浅析什么是向量什么是向量检索检索向量向量检索检索新型新型应用不断涌现：应用不断涌现：听歌识曲、以图搜图、广告推荐、大模型检索增强等等；Embedding技技术的成熟：术的成熟：大量非结构化数据（视频、语音、图像等）可以通过深度学习技术转化成高维向量（数组）；统一数据特征表达：统一数据特征表达：将非结构化数据Embedding后，对高维特征向量进行最近邻（或k近邻）查询

2、即可查找相似内容：给定查询向量，在特征数据库中寻给定查询向量，在特征数据库中寻找距离找距离查询向量最近（即相似度最高）查询向量最近（即相似度最高）的的k个向量；个向量；-get_topN(distance),id -id,metrics_distance(query_vector,vector_column):distance -scan_table(id,vector_column)近似最近近似最近邻查询邻查询高维空间的向量很难进行快速而准确的近邻查询，主要原因在于：高高维度导致的计算复杂性：维度导致的计算复杂性：数据维度较高，通用的距离函数都需要成百上千次浮点运算，十分耗时；维度灾难（维度

3、灾难（Curse of Dimensionality）：）：随着维度的增大，搜索空间将呈指数增长的现象；维度灾难为了解决高维向量KNN查询的效率问题，近似最近近似最近邻查询（邻查询（Approximate Nearest Neighbor Search,ANNS）应运而生，其通过返回近似查询结果，来显著提升查询效率（通常为数百倍以上）。目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。欧式距离和余弦距离。通常使用召回率（召回率（Recall）来衡量ANNS的查询精度，即近似查询结果中正确答案占实际正确答案的比例。近近邻索引技术邻索引技术哈希/树：用于ANNS的哈希方法主要是局部敏感哈希

4、；树索引的基本思路是对空间进行划分，并采用树型结构维护空间划分的层次关系。量化与倒排（主流）：乘积量化（Product Quantization，PQ）先把向量分为多个子段，然后对每段进行分别聚类与编码。量化是一种压缩技术，虽然能够极大的减少存储空间占用和距离计算开销，但是仍然要对全量数据进行距离排序，没有剪枝作用，所以通常需要配合倒排索引技术（Inverted File，IVF），求取TopK个聚类中心的进行剪枝，进一步减少访问的数据量。近近邻图（主流）：邻图（主流）：近邻图的基本思想是“近邻的近邻也是近邻”，其将每个向量作为图中的一个Node，在距离相近的向量之间建立边连接构成近邻图。查询

5、时从固定入口出发，不断地贪心遍历离查询向量更近的邻节点，直到没有更近的节点停止搜索。各索引技术对比业务背景业务背景业务场景：业务场景：一个典型检索场景检索链路复杂：一次检索经过四套四套系统写入链路复杂：写入维护三条三条链路端到端延迟高：端到端分分钟级钟级延迟数据一致性保障业务诉求业务诉求能力支撑：文本文本检索检索+向量向量检索检索+多多维分析维分析成本：尽可能少尽可能少的使用和接入成本业务开发维护成本：高可靠、高可用、用高可靠、高可用、用户友好户友好性能：亚秒亚秒/秒秒级级查询延迟，召回率 95%+如何如何选型最符合业务现状，并有利于后续发展选型最符合业务现状，

6、并有利于后续发展新兴向量库：系统学习成本？链路打通成本？数据迁移成本？后续系统维护成本？现有传统数据库+向量索引：性能？生态融合成本？稳定性？后期迭代？答案：成熟可靠的分布式高性能成熟可靠的分布式高性能数据数据库系统库系统+向量向量检索检索；02StarRocks实现向量检索的原理及优化整体架构整体架构StarRocks向量数据向量数据库整体架构库整体架构基本功能的开发完成，具备服服务分析一体务分析一体的向量数据库雏形形成了内部索引库TenANN，集成了业界主流的向量索引HNSW和IVFPQ语法设计语法设计向量向量检索语义与检索语义与SQL有有gap，如何，如何设计语设计语法来法来进行

5 腾讯大数据基于 StarRocks 的向量检索探索.pdf

相关报告