说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210742295.4 (22)申请日 2022.06.28 (71)申请人 西安工业大 学 地址 710021 陕西省西安市未央区学府中 路2号 申请人 中国人民解 放军63768部队 (72)发明人 徐飞 贠曼 刘军 彭佳佳 (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/258(2020.01)G06F 40/211(2020.01) G06F 40/194(2020.01) G06F 40/166(2020.01) G06F 40/151(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于TextRank与多维语义特征融合的 自动摘要方法及系统 (57)摘要 本发明公开了一种基于TextRank与多维语 义特征融合的自动摘要 方法及系统, 通过对预处 理后的新闻进行新闻关键词提取、 新闻主题的获 取、 句子的特征信息以及句子的向量表示, 将句 子与主题相似度、 句子与标题相似度、 关键词覆 盖率、 是否含 特征词四种因素作为影 响句子权重 的影响因素, 并将它们和TextRank原分数以一种 优化的组合应用到自动摘要中, 将 TextRank 分数 和句子特征分数相加取平均数得到句子综合分 数, 利用MMR算法计算句子间的相似度来去除冗 余度较高的句子, 最后根据相似度排序按设定个 数取前n个句子作为摘要, 高了原有公式去除冗 余句的效率, 能够准确获取新闻的摘要内容, 大 大提高了新闻内容概况准确性, 从而帮助人们减 少阅读的时间。 权利要求书2页 说明书11页 附图4页 CN 115017300 A 2022.09.06 CN 115017300 A 1.一种基于TextRank与多维语义特征融合的自动摘要方法, 其特征在于, 包括以下步 骤: S1, 对原始新闻除去无用的符号、 空格; S2, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征信息以及句 子的向量表示; S3, 将步骤S2获取的新闻关键词、 新 闻主题、 句子的特征信息以及句子的向量表示转化 成各自的特征分数, 然后将各自的特征分数按比例相加得到句子特征分数; 同时采用 TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将 TextRank分数和句子特 征分数相加取平均数 得到句子综合分数; S4, 利用MMR算法计算句子 间的相似度来去除冗余度较高的句子, 最后根据相似度排序 按设定个数 取前n个句子作为摘要。 2.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 新闻关键词 通过TF‑IDF方法和新闻所属领域的领域词共同得到; 新闻主题的获 取由LDA模 型通过无监督方法训练得到; 句子的特征信息则是判断句中是否含有 特征词; 句 子的向量表示则是通过W ord2vec深度学习的方法训练出词向量, 进 而得到句向量。 3.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 根据词语权重的加权公式在TF ‑IDF算法得到候选 关键词的基础上进 行加权后得 到候选关键词: weight(i,M)=h ×count(i,M) 其中, 表示单词i在文本M中的权重; 表示单词i在文本M出现的频率, 由TF ‑IDF算法计算 得出; h为词性影响因子, 根据名词和动词不同的重要性可分别赋予不同的权 重。 4.根据权利要求3所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 对特定领域建立出一个该领域较为关心的领域词词典, 若文中含有定义的领域 词, 则将该 领域词和上述经 过TF‑IDF算法得 出的候选关键词一 起提出作为本文的关键词。 5.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 采用基于LDA(Latent Dirichlet Allocation)主题生成模型来得到文档的主题 分布和句子的主题分布, 其中, 文档的主题分布可直接由LDA生成模型的参数得到, 句子的 主题分布公式如下: 其中, P(Wi|T)表示该主题下词语Wi的分布概率, 由LDA模型参数φ得到; len(S)表示句 子S的长度。 6.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 句子的特 征信息包括关键词: 据报道、 据说、 总而言之、 表明、 因此和显然。 7.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 利用加 和取平的方式的得到句向量, 通过句向量 来表示句子的整体 语义信息: 权 利 要 求 书 1/2 页 2 CN 115017300 A 2其中, 表示句子S的句向量; 表示构成句子 的各个词语的空间向量; n为句子长度; 由 word2vec计算得 出的一个k维的空间向量组成。 8.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 句子关键词覆盖率得分: 其中, weight(j,M)表示得到的候选关键词权重; m表示句子S中含有的候选关键词个 数; n表示句子S中含有的领域词个数; W表示领域词的权 重, 为了平衡候选关键词权 重; 句子与主题相似度得分: Theme(S)=1 ‑JS(P||Q) 通过1‑JS(P||Q), 可以得到若文档主题和句子主题相关性越大, 则句子权重越大的句 子权重计算公式, 且值 域范围依然控制在0 ‑1之间; 句子特征信息得分: 句子与标题相似性得分: 其中, 和表示句 子的句向量; 则表示句 子的相似度; 其中, 和 表示句子Si,Sj的句向 量; Similarity(Si,Sj)则表示句子Si,Sj的相似度。 9.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 基于 MMR算法提出去除冗余句, 增 加摘要的可读性: MMR(Si)= λ×W(Si)‑(1‑λ )×max[Similarity(Si,D)] 其中, D为已入选的摘要句集 合。 10.一种基于TextRank与多维语义特征融合的自动摘要系统, 其特征在于, 包括预处理 模块, 特征提取模块, 句子打 分模块和摘要提取模块: 预处理模块, 对原 始新闻除去无用的符号、 空格; 特征提取模块, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征 信息以及句子的向量表示; 句子打分模块, 将获取的新闻关键词、 新闻主题、 句子的特征信 息以及句子的向量表示 转化成各自的特征分数, 然后将各自的特征分数按比例相加得到句 子特征分数; 同时采用 TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将 TextRank分数和句子特 征分数相加取平均数 得到句子综合分数; 摘要提取模块, 计算句子间的相似度来去 除冗余度较高的句子, 最后根据相似度排序 按设定个数 取前n个句子作为摘要输出。权 利 要 求 书 2/2 页 3 CN 115017300 A 3
专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:15
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
ISO 8538 1999 Aerospace — Nuts, hexagonal, self-locking, with counterbore and captive washer, with MJ threads, classifications 1 100 MPa (at ambient temperature.pdf
ISO 10058-3 2008 Chemical analysis of magnesite and dolomite refractory products (alternative to the X-ray fluorescence method) — Part 3 Flame atomic absorption spectrophotometry.pdf
ISO 5455 1979 Technical drawings — Scales.pdf
ISO IEC TR 15413 2001 Information technology — Font services — Abstract service def.pdf
ISO 21849 2022 Aircraft and space — Industrial data — Product identification and traceability.pdf
ISO 23132 2020 Road vehicles Extended Vehicle (ExVe) time critical applications General requirements definitions and classification methodology of time-constrained situations related to Road and ExV.pdf
ISO-TS 20428 2024 Genomics Informatics Data elements and their metadata for describing structured clinical genomic sequence information in electronic health records.pdf
ISO 1598 1990 Plastics - Cellulose acetate — Determination of insoluble particles.pdf
ISO 25178-604 2013 Geometrical product specifications (GPS) — Surface texture Areal — Part 604 Nominal characteristics of non-contact (cohe.pdf
ISO 22241-1 2019 Diesel engines — NOx reduction agent AUS 32 — Part 1 Quality requirements.pdf
GB-T 20159.2-2008 环境条件分类 环境条件分类与环境试验之间的关系及转换指南 运输.pdf
GB-T 6370-2012 表面活性剂 阴离子表面活性剂 水中溶解度的测定.pdf
GB-T 28954-2012 汽车发动机 旋装式机油滤清器 连接尺寸.pdf
GB-T 39281-2020 气体保护电弧焊用高强钢实心焊丝.pdf
GB-T 40017-2021 信息技术 系统间远程通信和信息交换 社区节能控制异构网络融合与可扩展性.pdf
GB-T 43458-2023 二手货出口贸易.pdf
GB-T 690-2008 化学试剂 苯.pdf
GB-T 968-2007 丝锥螺纹公差.pdf
GB-T 42462-2023 化妆品色谱分析结果确认准则.pdf
GB-T 43523-2023 信息与文献 应急准备和响应.pdf
1
/
3
18
评价文档
赞助1.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。