(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111662253.1
(22)申请日 2021.12.3 0
(65)同一申请的已公布的文献号
申请公布号 CN 114218287 A
(43)申请公布日 2022.03.22
(73)专利权人 北京诺司时空科技有限公司
地址 100020 北京市朝阳区利泽中园10 6号
楼2层B202-2
专利权人 哈尔滨工业大 学
(72)发明人 王宏志 李同欣 张凯欣 郑博
梁栋 叶天生 燕钰 丁小欧
(74)专利代理 机构 哈尔滨华夏松花江知识产权
代理有限公司 23213
专利代理师 岳昕
(51)Int.Cl.
G06F 16/2455(2019.01)
G06F 16/2458(2019.01)G06F 16/28(2019.01)
G06K 9/62(2022.01)
(56)对比文件
CN 113711198 A,2021.1 1.26
CN 1074915 08 A,2017.12.19
US 2008270346 A1,20 08.10.30
US 20132 26903 A1,2013.08.2 9
毕里缘等.基于循环神经网络的数据库查询
开销预测. 《软件学报》 .2017,(第0 3期),第79 9-
810页.
Jingxiong Ni.DeepQT: Learn ing
Sequential Co ntext for Query Executi on
Time Predicti on. 《Database System s for
Advanced Ap plications. 25th I nternati onal
Conference, DASFA A 2020. Proce edings.
Lecture N otes in Computer Science (L NCS
12114)》 .2020,第18 8-203页.
审查员 齐智超
(54)发明名称
一种面向时序数据库的查询时间预测方法
(57)摘要
一种面向时序数据库的查询时间预测方法,
涉及计算机技术领域, 针对现有技术中查询时间
预测速度慢的问题, 包括: 步骤一: 读取时序数
据; 步骤二: 将时序数据写入CnosDB, Cno sDB使用
CnoSQL查询语句对时序数据进行查询检索, 并记
录查询时间; 步骤三: 将查询语句编码为向量化
数据; 步骤四: 对向量化数据提取数据分布特征;
步骤五: 使用PCA对数据分布特征进行降维; 步骤
六: 利用向量化数据和降维后的数据分布特征作
为输入, 查询时间作为输出, 训练梯度提升回归
树模型; 步骤七: 利用训练好的梯度提升回归树
模型进行查询时间预测。 本申请在预测时间上,
在上述实验中本模型都能在几十毫秒内给出预
测结果, 具有非常可观的响应 速度。
权利要求书1页 说明书4页 附图2页
CN 114218287 B
2022.11.04
CN 114218287 B
1.一种面向时序数据库的查询时间预测方法, 其特 征在于包括以下步骤:
步骤一: 读取时序数据;
步骤二: 将时序数据写入CnosDB, CnosDB使用CnoSQL查询语句对时序数据进行查询检
索, 并记录查询时间;
步骤三: 将查询语句编码为向量 化数据;
步骤四: 对向量 化数据提取 数据分布特 征;
步骤五: 使用PCA对数据分布特 征进行降维;
步骤六: 利用向量化数据和降维后的数据分布特征作为输入, 查询时间作为输出, 训练
梯度提升回归树模型;
步骤七: 利用训练好的梯度提升回归树模型进行查询时间预测;
所述步骤三之前还 包括以下步骤: 将Cn oSQL重写为标准的SQ L;
所述步骤三中编码包括join图编码和列信息编码, join图编码和列信息编码的结果连
接作为整个查询的编码;
所述join图编码的具体步骤为:
分析CnoSQL或SQL查询语句中涉及到的参加join的表, 分析每两个参加join的表的连
接关系, 并判断每两个参加join的表之间是否连接, 若 连接, 则将join对应的编码设置为 1,
若未连接, 则将join对应的编码设置为0, 最后 保留二维矩阵的上三角矩阵部分, 并按行展
开为一维矩阵;
所述列信息编码的具体步骤为:
针对每个参加 join的表, 将每个参加join的表中参与 查询谓词的编码列设置为1, 将每
个参加join的表中未参与查询 谓词的编码列设置为0, 将设置为 1的列和设置为0的列连接,
得到查询编码。
2.根据权利要求1所述的一种面向时序数据库的查询时间预测方法, 其特征在于所述
列信息编码通过o ne‑hot编码方式进行。权 利 要 求 书 1/1 页
2
CN 114218287 B
2一种面向时序数据库的查询时间预测方 法
技术领域
[0001]本发明涉及计算机技 术领域, 具体为 一种面向时序数据库的查询时间预测方法。
背景技术
[0002]查询时间预测是数据库领域中准入控制、 查询优化、 查询调度等多个热点问题的
技术基础。 比如, 在数据库优化中, 优化的主要目标是查询响应时间和空间利用率两点, 因
此, 查询的执行时间将作为重要的反馈指标, 指示优化结果的优劣。 但是实际使用中, 如果
对查询负载在物理上执行查询, 得到真实的执行时间, 会给优化过程带来不可接受的代价,
因为负载往 往要反复的执 行成百上千轮。
[0003]目前, 查询时间预测方向的相关研究已经比较成熟。 总的来说, 目前数据库上的查
询时间预测技术有两种 方案: 一种 是在查询计划层面对查询进行编码, 另一种是在物理操
作符层面对查询进行编码。 查询计划层面的编码粒度较低, 预测效果较依赖于训练集和测
试集的特征相似性, 对未知查询的预测效果较差, 而物理操作符层面的编 码, 通常利用查询
树的深度优先遍历, 得到操作符的序列, 从而可以提取出查询树中的结构特征, 编码的粒度
更高, 在应对未知的查询上, 预测效果相对查询计划层面较好, 但是在与训练集相似特征的
测试查询的预测速度慢。
发明内容
[0004]本发明的目的是: 针对现有技术中查询时间预测速度慢的问题, 提出一种面向时
序数据库的查询时间预测方法。
[0005]本发明为了解决上述 技术问题采取的技 术方案是:
[0006]一种面向时序数据库的查询时间预测方法, 包括以下步骤:
[0007]步骤一: 读取时序数据;
[0008]步骤二: 将时序数据写入CnosDB, CnosDB使用CnoSQL查询语句对时序数据进行查
询检索, 并记录查询时间;
[0009]步骤三: 将查询语句编码为向量 化数据;
[0010]步骤四: 对向量 化数据提取 数据分布特 征;
[0011]步骤五: 使用PCA对数据分布特 征进行降维;
[0012]步骤六: 利用向量化数据和降维后的数据分布特征作为输入, 查询时间作为输出,
训练梯度提升回归树模型;
[0013]步骤七: 利用训练好的梯度提升回归树模型进行查询时间预测。
[0014]进一步的, 所述 步骤三之前还 包括以下步骤: 将Cn oSQL重写为标准的SQ L。
[0015]进一步的, 所述步骤三中编码包括join图编码和列信息编码, join图编码和列信
息编码的结果连接作为整个查询的编码。
[0016]进一步的, 所述jo in图编码的具体步骤为:
[0017]分析CnoSQL或SQL查询语句中涉及到的参加join的表, 分析每两个参加join的表说 明 书 1/4 页
3
CN 114218287 B
3
专利 一种面向时序数据库的查询时间预测方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 22:44:17上传分享