说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210553070.4 (22)申请日 2022.05.19 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 王曦阳 张睿卿 何中军 李芝  吴华  (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) (54)发明名称 文本内容评测方法、 相关装置及计算机程序 产品 (57)摘要 本公开提供了一种文本内容评测方法、 装 置、 设备、 存储介质及计算机程序产品, 涉及 文本 评价、 文本分类、 自然语言处理等人工智能技术 领域。 该方法的一具体实施方式包括: 根据待评 测文本的标点信息将待评测文本拆分为顺序排 列的多个分句后, 将该多个分句中的第一分句确 定为实际词牌名, 然后, 在第三分句至最后分句 中分句字数满足该词牌名所对应的字数要求的 分句的数量超 过数量阈值时进行响应, 基于该第 三分句至该最后分句的拼音文本确定实际韵律 信息, 最后, 在实际韵律信息与该实际词牌名的 标准韵律信息一致时进行响应, 将该待评测文本 评测为词文本。 该实施方式可通过词牌名和韵律 之间的对应关系对文本评测, 以确定待评测文本 的文本类型。 权利要求书2页 说明书10页 附图4页 CN 114818732 A 2022.07.29 CN 114818732 A 1.一种文本内容评测方法, 包括: 根据待评测文本的标点信息, 将所述待评测文本拆分为 顺序排列的多个分句; 将所述多个分句中的第一分句, 确定为实际词牌名; 响应于第三分句至最后分句中分句字数满足所述实际词牌名所对应的字数要求的分 句的数量超过数量阈值, 基于所述第三分句至所述最后分句的拼音文本确定实际韵律信 息; 响应于所述实际韵律信 息与所述实际词牌名的标准韵律信 息一致, 将所述待评测文本 评测为词文本 。 2.根据权利要求1所述的方法, 还 包括: 基于所述第三分句至所述 最后分句的语义信息, 生成所述待评测文本的语义关键词; 基于所述语义关键词与第二分句 的语义相似度, 生成所述待评测文本的语义评测信 息。 3.根据权利要求2所述的方法, 其中, 所述基于所述第 三分句至所述最后分句的语义信 息, 生成所述待评测文本的语义关键词, 包括: 分别获取 所述第三分句至最后分句中各 所述分句各自所对应的参 考语义关键词; 响应于可归为同一语义关键词的参考语义关键词的数量占比超过比例阈值, 将所述同 一语义关键词确定为所述待评测文本的语义关键词。 4.根据权利要求3所述的方法, 还 包括: 基于无法归类为所述同一语义关键词的参 考语义关键词生成语义优化指示信息 。 5.根据权利要求1 ‑4中任一项所述的方法, 还 包括: 响应于所述实际韵律信 息与所述实际词牌名的标准韵律信 息的相似度落入置信区间, 将所述待评测文本确定为低质量词文本 。 6.根据权利要求5所述的方法, 还 包括: 提取所述与实际韵律信 息与所述标准韵律信 息之间的差异信 息, 并基于所述差异信 息 确定差异拼音 文本; 基于所述差异拼音 文本生成韵律优化指示信息 。 7.一种文本内容评测装置, 包括: 文本拆分单元, 被配置成根据待评测文本的标点信息, 将所述待评测文本拆分为顺序 排列的多个分句; 词牌名确定单 元, 被配置成将所述多个分句中的第一分句, 确定为实际词牌名; 韵律信息确定单元, 被配置成响应于第 三分句至最后分句中分句字数满足所述实际词 牌名所对应的字数要求的分句的数量超过数量阈值, 基于所述第三分句至所述最后分句的 拼音文本确定实际韵律信息; 词文本第一评测单元, 被配置成响应于所述实际韵律信 息与所述实际词牌名的标准韵 律信息一 致, 将所述待评测文本 评测为词文本 。 8.根据权利要求7 所述的装置, 还 包括: 语义关键词生成单元, 被配置成基于所述第三分句至所述最后分句的语义信息, 生成 所述待评测文本的语义关键词; 语义评测信息生成单元, 被配置成基于所述语义关键词与第二分句的语义相似度, 生权 利 要 求 书 1/2 页 2 CN 114818732 A 2成所述待评测文本的语义评测信息 。 9.根据权利要求8所述的装置, 其中, 所述语义关键词生成单 元, 包括: 参考关键词获取子单元, 被配置成分别获取所述第 三分句至最后分句中各所述分句各 自所对应的参 考语义关键词; 语义关键词确定子单元, 被配置成响应于可归为同一语义关键词的参考语义关键词的 数量占比超过比例阈值, 将所述同一语义关键词确定为所述待评测文本的语义关键词。 10.根据权利要求9所述的装置, 还 包括: 语义优化信 息生成单元, 被配置成基于无法归类为所述同一语义关键词的参考语义关 键词生成语义优化指示信息 。 11.根据权利要求7 ‑10中任一项所述的装置, 还 包括: 词文本第二评测单元, 被配置成响应于所述实际韵律信 息与所述实际词牌名的标准韵 律信息的相似度落入置信区间, 将所述待评测文本确定为低质量词文本 。 12.根据权利要求1 1所述的装置, 还 包括: 差异拼音文本确定单元, 被配置成提取所述与实际韵律信 息与所述标准韵律信 息之间 的差异信息, 并基于所述差异信息确定 差异拼音 文本; 韵律优化信息生成单 元, 被配置成基于所述差异拼音 文本生成韵律优化指示信息 。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的文本内容评测 方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 所述计算机指令用于使所 述计算机执 行权利要求1 ‑6中任一项所述的文本内容评测方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑6中任一项所述的文本内容评测方法。权 利 要 求 书 2/2 页 3 CN 114818732 A 3

.PDF文档 专利 文本内容评测方法、相关装置及计算机程序产品

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本内容评测方法、相关装置及计算机程序产品 第 1 页 专利 文本内容评测方法、相关装置及计算机程序产品 第 2 页 专利 文本内容评测方法、相关装置及计算机程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。