说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613062.4 (22)申请日 2022.05.31 (71)申请人 深圳市北 科瑞声科技股份有限公司 地址 518036 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园3栋1201-6 (72)发明人 廖晨 蒋志燕 程刚 寇晓丽  张星  (74)专利代理 机构 深圳智汇远见知识产权代理 有限公司 4 4481 专利代理师 刘洁 (51)Int.Cl. G16H 10/20(2018.01) G06F 40/186(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 基于语义识别的流调报告生成方法、 装置、 设备及介质 (57)摘要 本申请涉及一种基于语义识别的流调报告 生成方法、 装置、 设备及存储介质。 所述方法包 括: 对原始流调统计数据执行缺失值填充操作得 到目标流调统计数据, 基于目标流调统计数据及 对应的文档生成 复合文档, 计算复合文档中每个 文档之间的文本相似度后执行去重操作得到目 标复合文档, 将每个文档执行句法分析得到每个 文档的句法分析向量后输入语义识别模型, 得到 每个文档的语义识别结果, 汇总目标流调统计数 据及语义识别结果后填充至模板文件生成目标 流调报告。 本申请可以得到具有流调文档相关语 义信息的目标流调报告供相关决策人员参考, 且 目标流调报告内容简洁。 权利要求书2页 说明书11页 附图2页 CN 115019915 A 2022.09.06 CN 115019915 A 1.一种基于语义识别的流调报告生成方法, 其特 征在于, 所述方法包括: 从预设流调数据库读取原始流调统计数据, 对所述原始流调统计数据 执行缺失值填充 操作, 得到目标流调统计数据; 基于所述目标流调统计数据及所述目标流调数据对应的文档生成复合文档; 计算所述复合文档中的每个文档之间的文本相似度, 基于所述文本相似度对所述复合 文档执行去重操作得到目标复合文档; 将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法分析向量, 将所 述句法分析向量输入预 先训练的语义识别模型, 得到每 个文档的语义识别结果; 汇总所述目标流调统计数据及所述语义识别结果后 填充至预设模板文件, 生成目标流 调报告。 2.如权利要求1所述的基于语义识别的流调报告生成方法, 其特征在于, 所述对所述原 始流调统计数据执 行缺失值 填充操作, 包括: 利用如下公式对所述原 始流调统计数据中数值格式的数据执 行缺失值 填充操作: 其中, K表示填充的值, i表示变量的数量, Xit表示变量在一个时间点的取值, Xil表示变 量在另一时间点的取值, 表示根据第i个 变量的观测数据确定的标准差 。 3.如权利要求1所述的基于语义识别的流调报告生成方法, 其特征在于, 所述计算所述 复合文档中的每 个文档之间的文本相似度, 包括: 对所述复合文档中的每 个文档进行分段, 得到每 个文档对应的至少一个文本段; 对每个文本段执行分词操作得到每个文本段的至少一个分词, 并将每个分词转换成词 向量; 基于每个文本段之间各个词向量的相似度, 确定每 个文本段之间的相似度; 基于每个文本段之间的相似度, 计算得到所述复合文档中的每个文档之间的文本相似 度。 4.如权利要求1或3所述的基于语义识别的流调报告生成方法, 其特征在于, 所述基于 所述文本相似度对所述复合文档执 行去重操作得到目标复合文档, 包括: 选取所述复合文档中文本相似度大于预设阈值的至少两个文档; 读取所述至少两个文档的标识信 息, 判断所述至少两个文档中是否存在标识信 息相同 的文档; 当判断所述至少两个文档中存在标识信 息相同的文档时, 保留所述标识信 息相同的文 档中的任一文档。 5.如权利要求1所述的基于语义识别的流调报告生成方法, 其特征在于, 所述将所述目 标复合文档中的每 个文档执 行句法分析 得到句法分析向量, 包括: 对所述目标复合文档中的每个文档执行分句操作, 得到每个文档对应的至少一个语 句; 将所述至少一个语句执行句法内容分析, 得到所述至少一个语句对应的句法内容向 量;权 利 要 求 书 1/2 页 2 CN 115019915 A 2对所述至少一个语句执行依存句法分析, 得到所述至少一个语句对应的句法依存向 量; 对所述至少一个语句执行句法结构分析, 得到所述至少一个语句对应的句法结构向 量; 融合所述句法内容向量、 所述句法依存向量及所述句法结构向量, 得到每个语句的句 法分析向量, 基于每 个语句的句法分析向量得到每 个文档的句法分析向量。 6.如权利要求5所述的基于语义识别的流调报告生成方法, 其特征在于, 所述融合所述 句法内容向量、 所述句法依存向量及所述句法结构向量, 得到每个语句的句法分析向量, 包 括: 利用下述公式得到每 个语句的句法分析向量: Vsum=aV1+bV2+(1‑a‑b)V3 其中, Vsum表示所述句法分析向量, V1表示所述所述句法依存向量, V2表示所述句法结构 向量, V3表示所述句法内容向量, a和b分别表示预设权 重。 7.如权利要求1所述的基于语义识别的流调报告生成方法, 其特征在于, 在生成目标流 调报告之后, 所述方法还 包括: 将所述目标流调报告发送至预设终端并存 储至预设模板库。 8.一种基于语义识别的流调报告生成装置, 其特 征在于, 所述装置包括: 预处理模块: 用于从预设流调数据库读取原始流调统计数据, 对所述原始流调统计数 据执行缺失值 填充操作, 得到目标流调统计数据; 第一生成模块: 用于基于所述目标流调统计数据及所述目标流调数据对应的文档生成 复合文档; 去重模块: 用于计算所述复合文档 中的每个文档之间的文本相似度, 基于所述文本相 似度对所述复合文档执 行去重操作得到目标复合文档; 识别模块: 用于将所述目标复合文档中的每个文档执行句法分析得到每个文档的句法 分析向量, 将所述句法分析向量输入预先训练的语义识别模型, 得到每个文档的语义识别 结果; 第二生成模块: 用于汇总所述目标流调统计数据及所述语义识别结果后 填充至预设模 板文件, 生成目标流调报告。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现权利要求1至7中任一项所述的基于 语义识别的流调报告生成方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现如权利要求1至7中任一项所述基于语义识别的流调报告生成方法的 步骤。权 利 要 求 书 2/2 页 3 CN 115019915 A 3

.PDF文档 专利 基于语义识别的流调报告生成方法、装置、设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语义识别的流调报告生成方法、装置、设备及介质 第 1 页 专利 基于语义识别的流调报告生成方法、装置、设备及介质 第 2 页 专利 基于语义识别的流调报告生成方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。