1、2 0 2 3 年深度行业分析研究报告4UfWuYpXzWmWkZrNmRbR8Q8OpNmMoMmPiNpPtNfQsQpO7NqRpPxNqMtPMYrRrN2 目 录 1 向量数据库AI浪潮下崛起新星 2 市场广阔,百花齐放 3 国内外向量数据库公司巡礼 1.1 数据库分类 1.2 向量数据库的主要应用场景 1.1 数据库分类 信息来源:数据库分类及简介,数据库有哪些类型?如何根据应用场景选择?终于有人讲明白了,IDC The Digital Universe,西南证券整理 关系型数据库(SQL)vs.非关系型数据库(NoSQL)关系型数据库(SQL)定义:依据“一对一、一对多、多对多”
2、的关系模型创建数据库,并将数据以二维表格的形式储存,各个表之间建立关系,通过这些关联的表格间分类、合并、连接或选取等运算来实现数据的管理。发展情况:1960s开始在航空领域发挥作用;因为其良好的一致性以及通用的关系型数据模型接口,使用范围广泛。常见类型:MySQL、Oracle、PostgreSQL等。优点:数据安全(磁盘)、数据一致性、二维表结构直观,易理解、使用SQL语句操作非常方便,可用于比较复杂的查询 缺点:读写性能较差、不擅长处理较复杂的关系 非关系型数据库(NoSQL)起源:2000年左右,互联网应用兴起,需要支持大规模的并发用户,并保持永远在线。一方面,关系型数据库无法支持如此大
3、规模数据和访问量,升级CPU、内存和硬盘可以提高性能,但呈现明显的收益递减效应。另一方面,数据库在机器间的迁移非常复杂,需要较长的停机时间。NoSQL因此应运而生,有效补充了SQL的适用范围,NoSQL在Web应用领域提供了高可用性和可扩展性。特点:没有固定的表结构、数据之间不存在表与表之间的关系、数据之间可以是独立的、NoSQL可用于分布式系统上。类型:数据类型多样,针对不同的数据类型,出现了不同的 NoSQL,如向量数据库。非关系型数据库是关系型数据库的有效补充 图:关系型数据库和非关系型数据库规模对比情况 3 1.1.1 数据库的分类非关系型数据库 4 信息来源:文档数据库介绍,揭秘文档
4、数据库的优势与劣势,NoSQL 是什么?NoSQL 数据库详解,西南证券整理 向量数据库 图形数据库 文档存储数据库 特点 将数据以向量形式存储,可实现向量数据的相似度搜索、聚类、降维等操作。将数据以图的形式存储,以点、边为基础存储单元,每个节点代表一个实体,每条边代表两个实体之间的关系。将数据以文档的形式存储,每个文档包含成对的字段和值。优势 易处理高维度、高相似度、高并发的数据;易与机器学习模型结合并提供智能化的服务。易体现复杂的实体关系;支持高效的图遍历和分析。非常灵活,可在文档中修改数据结构;适用于处理半结构化或多变化的数据;具有较高的性能,可快速传输、处理海量数据。不足 技术成熟度较
5、低,产品和相关应用较少 不适用于处理关系简单或无关系的数据;复杂性高,支持的数据规模有限。缺乏严格的数据约束,需要小心谨慎地管理数据,避免数据出现质量问题。通常不支持多文档操作,难以处理关联数据。非关系型数据库按存储方式分为向量数据库、图形数据库、文档存储数据库、宽列数据库、键值存储数据库等,能够实现非结构化或半结构化数据的处理和存储。5 向量数据库是一种专门用于存储和查询向量数据的数据库系统。向量数据库支持对向量数据进行各种操作,例如:向量检索:根据给定的向量,找出数据库中与之最相似的向量,例如在图像向量数据库中,用户输入一张图片进行搜索时,先将这张图片转换为一个向量,通过向量之间的近似检索
6、,找到与输入图片最相似的图片。向量聚类:根据给定的相似度度量,将数据库中的向量分类,例如根据图片的内容或风格,将图片分成不同的主题。向量降维:根据给定的目标维度,将数据库中的高维向量转换成低维向量,以便于可视化或压缩存储。向量计算:根据给定的算法或模型,对数据库中的向量进行计算或分析,例如根据神经网络模型,对图片进行分类或标注。向量数据是什么?高维:向量数据通常有很多元素,维度很高 稀疏:向量数据中很多元素的值可能为零或接近零。异构:向量数据中的元素可能有不同的类型或含义。动态:向量数据可能随着时间或环境变化而变化。信息来源:和Zilliz聊聊开源商业化、向量数据库和软件全球化,向量数据库(V