(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210531237.7
(22)申请日 2022.05.16
(71)申请人 北京计算机技 术及应用研究所
地址 100854 北京市海淀区永定路51号
申请人 北京航天爱威电子技 术有限公司
(72)发明人 蒋遂平 袁晓光 任凯琦 李智文
秦蕾 李杨
(74)专利代理 机构 中国兵器 工业集团公司专利
中心 11011
专利代理师 辛海明
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 40/194(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种利用 本征值和正交变换计算文档哈希
值的方法
(57)摘要
本发明涉及一种利用本征值和正交变换计
算文档哈希值的方法, 属于自然语言处理领域。
本发明的方法包括从文档中分离出组成文档的
词语, 为每个词语分配一个词向量; 计算文档的
全部词语的词向量组成的矩 阵的协方差矩 阵的
本征值, 这些本征值组成文档的向量; 对文档向
量进行正交变换得到文档系数向量; 在文档系数
向量中, 截取适当数目的低频系数, 进行二值化,
得到文档的哈希值。 本发明提出的利用本征值和
正交变换计算文档哈希值的方法, 计算简单, 并
考虑了词语的语义信息, 相似文档的哈希值差异
较小, 不相似文档的哈希值差异较大, 能够有效
地区分不同文档, 在文档大数据管理中具有重要
的应用价 值。
权利要求书2页 说明书5页 附图1页
CN 115017254 A
2022.09.06
CN 115017254 A
1.一种利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 该方法包括如下
步骤:
S1、 分离文档词语步骤: 从文档中分离出组成文档的词语, 为每个词语分配一个词向
量, 即一个词语表示 为n个浮点数;
S2、 计算本征值步骤: 计算文档的全部词语的词向量组成的矩阵的协方差矩阵的本征
值, 这些本征值组成文档向量, 如果本征值数目不足n个, 则补充 若干个0, 补足n个本征值;
S3、 正交变换步骤: 对文档向量进行正交变换 得到文档系数向量;
S4、 计算文档哈希值步骤: 在文档系数向量中, 截取适当数目的低频系数, 进行二值化,
得到文档的哈希值。
2.如权利要求1所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S1中, 对于汉语采用 “结巴”分词工具将文档分为词语的集 合。
3.如权利要求1所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S1中, 采用W ord2Vec或BERT词向量 化工具为每 个词语分配一个词向量。
4.如权利要求1所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S1中, 对于 英语文档, 不需要分词, 但需要删除没有实际意 义的词语。
5.如权利要求1 ‑4任一项所述的利用本征值和正交变换计算文档哈希值的方法, 其特
征在于, 所述步骤S1中, 为每个词语wi分配一个词向量(xi1,xi2,…,xin); 词向量的维度或分
量数目n在100到1000之间; 如果利用词向量化工具无法为某个词语分配词向量时, 将这个
词语删除。
6.如权利要求5所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S2中, 如果文档最后被划分为m个词语, 计算这m个词语的词向量的平均词向量w ’=
(x’1,x’2,…,x’n), 计算方法如下:
各个词向量减去平均词向量后, 排列成一个m行n列的矩阵M,
将M转置为一个n行m列的矩阵Mt; 如果m≥n, 则 将Mt乘以M得到一个n行n列的协方差矩阵
covM=Mt*M, 如果m<n, 则将M乘以Mt得到一个m行m列的协方差矩阵covM=M *Mt;
计算协方差矩阵covM的本征值λ1, λ2,…, λk; 如果k<n, 则补充若干个0作为本征值, λk+1,
λk+2,…, λn=0; 将这些本征值按照从大到小的顺序排列: λ1≥λ2≥…≥λn;
将本征值组合 为文档向量D=( λ1, λ2,…, λn)。
7.如权利要求6所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 采
用雅可比本征值计算方法计算协方差矩阵covM的本征值。
8.如权利要求6所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S3具体包括: 采 取离散余弦变换对文档向量进行变换, 将文档向量D=( λ1, λ2,…, λn)权 利 要 求 书 1/2 页
2
CN 115017254 A
2变换为文档系数向量C=(c1,c2,…,cn)。
9.如权利要求8所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, 所
述步骤S4具体包括: 在文档系数向量C=(c1,c2,…,cn)中, 截取前面L个低频系数, 得到C ’=
(c1,c2,…,cL), 计算截取的系数平均值c;
将截取的低频系数C ’二值化为文档的哈希值B=(b1,b2,…,bL); 如果ci≥c’, 则bi=1,
否则, bi=0。
10.如权利要求9所述的利用本征值和正交变换计算文档哈希值的方法, 其特征在于, L
=64。权 利 要 求 书 2/2 页
3
CN 115017254 A
3
专利 一种利用本征值和正交变换计算文档哈希值的方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:03上传分享