专利基于单机向量数据库的数据处理系统、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211433356.5 (22)申请日 2022.11.16 (71)申请人青岛以萨数据技术有限公司地址 266000 山东省青岛市黄岛区灵岩路 77号办公3号楼3 02室 (72)发明人郑松龄　李凡平　石柱国　 (74)专利代理机构北京锺维联合知识产权代理有限公司 1 1579 专利代理师安娜 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2453(2019.01) G06K 9/62(2022.01) (54)发明名称基于单机向量数据库的数据处理系统、设备及存储介质 (57)摘要本发明提供了一种基于单机向量数据库的数据处理系统、设备及存储介质，涉及数据处理领域，该系统包括客户端和与客户端通讯连接的 n个milvus数据库；每一 milvus数据库中均包括x 个第一类数据表和y个第二类数据表；不同 milvus数据库中数据表名称相同的第一类数据表内存储的数据向量不同；每一 milvus数据库中第j个第二类数据表均包括f(j)个子数据表。本发明执行数据查询指令时，每个milvus数据库同时对待查询数据向量进行批量相似度比对，提高了系统的查询性能；在执行数据插入指令时，选择随机的milvus数据库插入，保证了各个milvus 数据库的存储节点的负载均衡。权利要求书3页说明书10页附图1页 CN 115495457 A 2022.12.20 CN 115495457 A 1.一种基于单机向量数据库的数据处理系统，其特征在于，包括客户端和与所述客户端通讯连接的n个mi lvus数据库； n个mi lvus数据库相互之间不具有通讯连接；每一所述mi lvus数据库中均包括x个第一类数据表和y个第二类数据表；每一所述milvus数据库中第i个第一类数据表的数据表名称均为Name1i；不同milvus数据库中数据表名称相同的第一类数据表内存储的数据向量不同；其中， i=1,2,. ..,x；每一所述milvus数据库中第j个第二类数据表均包括f(j)个子数据表，每一所述 milvus数据库中第j个第二类数据表的f(j)个子数据表的数据表名称均分别为N1j, N2j,...,Npj,...,Nf(j)j， Npj=(Name2j,Tj,p)；其中， j=1,2,...,y； p=1,2,...,f(j)； f(j)为第j 个第二类数据表中子数据表的数量； Npj为每一所述milvus数据库中第j个第二类数据表的第p个子数据表的数据表名称； Name2j为每一所述milvus数据库中第j个第二类数据表的每一子数据表的共用名称，且用于表示第j个第二类数据表的数据表类型； Tj,p为每一所述 milvus数据库中第j个第二类数据表的第p个子数据表对应的时间段，且Tj,1,Tj,2,..., Tj,p,...,Tj,f(j)相互不同；所述客户端用于执行以下步骤： S100、将用户输入的数据查询指令A1=(time1,F1)发送至每一所述milvus数据库中；其中， time1为A1对应的查询时间段； F1为A1对应的待查询数据向量；每一所述mi lvus数据库在接收到A1后，均执行以下步骤： S200、根据F1确定第一目标数据表的数据表类型G1；若G1表示第一目标数据表为第二类数据表，则执行步骤S210；其中，第一目标数据表为根据F1确定的需进行数据查询的数据表； S210、获取每一数据表名称中包括G1的子数据表的数据表名称中的时间段H1,H2,..., Hq,...,Hz；其中， q=1,2,...,z； z为数据表名称中包括G1的子数据表的数量； Hq为第q个数据表名称中包括G1的子数据表的数据表名称中的时间段； S220、若Hq与time1存在相同的时间节点，则将其对应的子数据表确定为第一目标子数据表，并执行步骤S23 0； S230、将F1与每一所述第一目标子数据表中每一数据向量进行特征比对处理，得到第一相似度集；所述第一相似度集包括当前的milvus数据库中每一第一目标子数据表对应的相似度子集，每一所述相似度子集包括其对应的第一目标子数据表中每一数据向量与F1之间的相似度； S240、将所述第一相似度集发送至所述客户端；所述客户端在接收到每一所述mi lvus数据库返回的第一相似度集后，执行以下步骤： S300、将每一第一相似度集中大于相似度阈值的相似度对应的数据向量确定为目标向量，并进行展示。 2.根据权利要求1所述的系统，其特征在于，所述客户端还执行以下步骤： S400、将用户的数据插入指令A2=(time2,F2)发送至每一所述milvus数据库中；其中， time2为A2对应的插入时间段； F2为A2对应的待插入数据向量；每一所述mi lvus数据库在接收到A2后，均执行以下步骤： S500、根据F2确定第二目标数据表的数据表类型G2；若G2表示第二目标数据表为第二类数据表，则执行步骤S510；其中，第二目标数据表为根据F2确定的需进行数据插入的数据权　利　要　求　书 1/3 页 2 CN 115495457 A 2表； S510、获取每一数据表名称中包括G2的子数据表的数据表名称中的时间段Y1,Y2,..., Yb,...,Yh；其中， b=1,2,. ..,h； h为数据表名称中包括G2的子数据表的数量； S520、若Yb与time2存在相同的时间节点，则将其对应的子数据表确定为第二目标子数据表，并将第二目标子数据表发送至所述客户端； S530、获取客户端发送的随机数值a； S540、将F2存储至a对应的第二目标子数据表中。 3.根据权利要求1所述的系统，其特征在于，每一所述milvus数据库中第j个第二类数据表还包括一个历史子数据表，所述历史子数据表的数据表名称为 Name2j。 4.根据权利要求3所述的系统，其特征在于，所述步骤S220，还包括： S221、若Hq与time1不存在相同的时间节点，则将F1与数据表名称中包括G1的历史子数据表中每一数据向量进行特征比对处理，得到第二相似度集E=(E1,E2,...,Ee,...,Ek)；其中， e=1,2,...,k； k为数据表名称中包括G1的历史子数据集中数据向量的数量； Ee为F1与数据表名称中包括G1的历史子数据集中第e个数据向量之间的相似度； S222、将E发送至所述客户端；所述客户端在接收到每一所述mi lvus数据库返回的第二相似度集后，执行以下步骤： S223、若Ee＞g，则将Ee对应的数据向量确定为目标向量，并进行展示；其中， g为预设的相似度阈值。 5.根据权利要求1所述的系统，其特征在于，所述客户端还执行以下步骤： S700、获取用户的数据表增加指令A3=(D1,D2)并发送至每一所述milvus数据库中， D1= (Name3,time3)；其中， D1为A3对应的待增加数据表的数据表名称； D2为A3对应的待增加数据表的索引名称； Name3为待增加数据表的数据表名称中的共用名称； time3为待增加数据表的数据表名称中的时间段；每一所述mi lvus数据库在接收到A3后，均执行以下步骤： S710、根据Name3确定第三目标数据表的数据表类型G3；若G3表示第三目标数据表为第二类数据表，则执行步骤S720；其中，第三目标数据表为根据Name3确定的需进行数据表增加的数据表； S720、获取每一数据表名称中包括G3的子数据表的数据表名称中的时间段R1,R2,..., Rt,...,Ru；其中， t=1,2,...,u； u为数据表名称中包括G3的子数据表的数量； Rt为第t个数据表名称中包括G3的子数据表的数据表名称中的时间段； S730、若Rt与time3存在相同的时间节点，则执行步骤S740；若Rt与time3不存在相同的时间节点，则执行步骤S75 0； S740、向所述客户端发送数据表增加失败提示； S750、建立第三目标子数据表；所述第三目标子数据表的数据表名称为D1，并建立D1和 D2的关联关系。 6.根据权利要求1所述的系统，其特征在于，所述客户端还执行以下步骤： S800、将用户输入的数据表删除指令A4=(Name4,time4)发送至每一所述milvus数据库中；其中， Name4为待删除数据表的数据表名称中的数据表类型字段； time4为待删除数据表的数据表名称中的时间段；权　利　要　求　书 2/3 页 3 CN 115495457 A 3

专利 基于单机向量数据库的数据处理系统、设备及存储介质

专利基于单机向量数据库的数据处理系统、设备及存储介质