(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210416968.7
(22)申请日 2022.04.20
(65)同一申请的已公布的文献号
申请公布号 CN 114742029 A
(43)申请公布日 2022.07.12
(73)专利权人 中国传媒大 学
地址 100000 北京市朝阳区定福庄东 街1号
(72)发明人 程南昌
(74)专利代理 机构 北京智行 阳光知识产权代理
事务所(普通 合伙) 11738
专利代理师 邓凤姿
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)(56)对比文件
CN 111930942 A,2020.1 1.13
CN 110738050 A,2020.01.31
CN 110309504 A,2019.10.08
CN 113688954 A,2021.1 1.23
WO 2021218015 A1,2021.1 1.04
CN 111160028 A,2020.0 5.15
刘青磊.汉语词语及句子相似度算法研究与
应用. 《中国优秀硕士学位 论文全文数据库 信息
科技辑》 .2011,(第201 1年11期),
龙昊.一种基 于词匹配的句子相似性计算方
法. 《Advances i n Computati on of Oriental
Languages-proce edings of the i ntertional
Conference o n Computer Proces sing of
Oriental Langua ge》 .2003,
审查员 吴姝泓
(54)发明名称
一种汉语文本比对方法、 存 储介质及设备
(57)摘要
本发明公开了一种汉语文本比对 方法、 存储
介质及设备, 本发明首先通过分片和文本相似度
匹配从进行比对的两个文本中获取具有比对意
义的若干对文本分片。 然后, 在配对的两个文本
分片中利用汉语 分词技术, 结合近邻重组的思想
分别将文本分片重组成由若干个相同且相邻的
词拼接而成的文本片段的集合, 最后在两个集合
的文本片段之间通过最大匹配法进行文本的自
动比对。 该方法通过使用文本分片、 文本相似度
匹配、 汉语分词、 近邻重组等自然语言处理技术
实现了具有语义引导的文本比对, 降低了用最长
公共子序列等暴力解法导致的时间复杂度过高
的问题, 从而快速标识出两文本相似内容的差异
部分。
权利要求书1页 说明书7页 附图2页
CN 114742029 B
2022.12.16
CN 114742029 B
1.一种汉语文本比对方法, 其特 征在于, 具体过程如下:
S1、 将要进行比对的两个文本分别切分成语义完整且长度均匀的文本分片;
S2、 根据步骤S1的两个文本的切分结果, 将两个文本的分片进行两两组合得到多对文
本分片对, 并对每对文本分片对进行相似度计算:
S2.1、 找出要对比的两个文本分片的所有共有词, 并统计所有共有词的总字数;
S2.2、 计算两个文本分片的长度, 得到长度更长的文本分片的字数, 然后 计算两个文本
分片的相似度=共有词的总字数/ 长度更长的文本分片的字数;
S3、 按步骤S2的相似度计算结果, 筛选出相似度超过阈值的文本分片对, 并对筛选出的
每个文本分片对分别进行步骤S4的处理; 如果没有相似度超过阈值的文本分片对, 则停止
对比;
S4、 将要比对的文本分片进行自动分词并对各个词编号后, 筛选保留两个文本分片之
间的相同词及其对应的序号, 再将两个文本分片 中序号相邻的词语拼接, 此时两个文本分
片均由若干个文本片段构成; 最后以片段为单位, 将两个文本分片利用最大匹配法进行比
对找出差异部分并标识出来。
2.根据权利要求1所述的方法, 其特征在于, 步骤S1的具体过程为: 将要进行对比的两
个文本按句号、 感叹号、 问号、 分号切分成句子级的均匀的文本分片。
3.根据权利要求2所述的方法, 其特征在于, 如果某个文本分片字符超过预设的长度阈
值, 则按逗 号将该文本分片再次切分。
4.根据权利要求1所述的方法, 其特 征在于, 步骤S4的具体过程 为:
S4.1、 对文本分片对的两个文本分片分词后, 分别对两个文本分片的分词结果按顺序
编号;
S4.2、 筛选出两个文本分片之间的相同词, 两个文本分片均仅保留筛选出的相同词及
其序号;
S4.3、 经过步骤S4.2的处理后, 分别将两个文本分片中序号相邻的词进行拼接重组为
一个片段, 没有序号与之相邻的词则单独为一个片段, 拼接重组后, 两个文本分片均是由一
个或多个片段组成的;
S4.4、 将拼接重组后的两个文本分片以片段为单位使用最大匹配法进行遍历比对, 并
标识出差异部分。
5.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机
程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑4任一所述的方法。
6.一种计算机设备, 其特征在于, 包括处理器和存储器, 所述存储器用于存储计算机程
序; 所述处 理器用于执 行所述计算机程序时, 实现权利要求1 ‑4任一所述的方法。权 利 要 求 书 1/1 页
2
CN 114742029 B
2一种汉语文本比对方 法、 存储介质及设 备
技术领域
[0001]本发明涉及文本处理技术领域, 具体涉及一种汉语文本比对方法、 存储介质及设
备。
背景技术
[0002]文本比对在生物信息领域、 中文信息等领域有着广泛应用, 如 基因序列比对、 论文
查重系统等。
[0003]余宁[1]公开了一种文本比较方法、 装置、 计算机设备和存储介质,所述方法包括:
获取第一文本及第二文本,将所述第一文本及所述第二文本分别转换成单行文字,并将转
换后的所述第一文本及所述第二文本分别映射到X轴和Y轴; 对在X轴 上的所述第一文本及
在Y轴上的所述第二文本进行遍历查询,获取所述第一文本与所述第二文本中相同文字的
匹配点信息; 根据所述第一文本与所述第二文本中相同文字的匹配点信息进行统计,获取
文本比较结果。
[0004]郭叶[2]提供了一种文本比对方法, 所述方法包括: 从第一文本中获取若干第一子
文本以及从第二文本中获取若干第二子文本; 根据所述第一子文本以及第二子文本获取若
干相似度值; 所述相似度值为一个第一子文本与一个第二子文本之间相似的程度; 根据所
述相似度值 获取相似文本对, 所述相似文本对包含第一子文本以及与该第一子文本相似度
值最大的第二子文本; 获取所述相似文本对中的第一子文本与第二子文本的至少一个区别
特征。
[0005]韩志刚[3]对第一文本和第二文本进行分块; 针对由所述第一文本中文字块与所述
第二文本中文字块组成的文字块对,获取所述文字块对的最长公共子序列对; 根据相邻两
个最长公共子序列对之间的字符信息,生成差异描述信息,所述差异描述信息用于显示所
述文字块对的字符差异.通过本公开的技术方案,基于文字块组成的文字块对进行文本比
较,效率比以行或者单词为 最小单位进行文本比较的效率和精确度更高.
[0006]徐宁[1]通过将待比较文本映射到二维平面,并根据最短相同字符间的最短距离找
出文本之 间的相同字符,提高了文本比较的速度,降低了文本比较的复杂度, 但当待比对文
本差异过大时比对的速度和准确度下降明显 。
[0007]相比较徐宁[1]的方法, 郭叶[2]对源文本进行了子文本划分, 并通过计算相似度值
来定位具有实际比对意义的子文本对从而降低误匹配率。 但其在划分子文本时欠缺了语义
完整性的考虑, 以及忽略了划分后子文本的字符粒度大小对于计算短文本相似度值的影
响。 韩志刚[3]在郭叶基础上优化了分块后的文本比较的方法, 根据最长公共子序列的思想
生成了两文本之间的差异。 由于最长公共子序列时基于字符串匹配算法的思想, 该方法在
用于相似文本片段占比小或相似片段上下文位置差异过大的两个子文本之间的文本比对
时, 算法效率将大幅度下降。 余宁、 郭叶、 韩志刚通过不同的方法提高了文本比对的速度或
效率。 但其任务对 象主要是识别相同文本的修改记录。 但对于相似部分占比较小或相似部
分在各自文本上下文位置差异较大的两个文本(如历年来同一主题相关的政策文本), 识别说 明 书 1/7 页
3
CN 114742029 B
3
专利 一种汉语文本比对方法、存储介质及设备
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:53上传分享