说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111661119.X (22)申请日 2021.12.3 0 (71)申请人 北京欧珀通信有限公司 地址 100026 北京市朝阳区朝阳公园南路 10号院2号楼15层15 03 (72)发明人 李洪宇  (74)专利代理 机构 深圳市隆天联鼎知识产权代 理有限公司 4 4232 代理人 刘抗美 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/126(2020.01) G06K 9/62(2022.01) G06F 16/35(2019.01) (54)发明名称 文本处理方法及装置、 存 储介质及电子设备 (57)摘要 本公开涉及自然语 言处理处理技术领域, 具 体涉及一种文本处理方法及装置、 计算机可读存 储介质及电子设备, 方法包括: 获取参考未标注 文本, 并将参考未标注文本输入至预训练的参考 文本处理模型得到各参考未标注文本的特征向 量; 获取至少一个编码层输出的概率值, 并根据 概率值和特征向量在参考未标注文本确定多个 目标未标注文本; 确定目标未标注文本对应的真 实标签, 并利用目标未标注文本和真实标签更新 参考文本处理模 型, 直至参考文本处理模型满足 预设条件; 利用满足预设条件的参考文本处理模 型对待处理文本进行处理得到处理结果。 本公开 实施例的技术方案降低对文本处理时的计算量, 降低对深度学习模型的训练过程的复杂度。 权利要求书2页 说明书9页 附图5页 CN 114330239 A 2022.04.12 CN 114330239 A 1.一种文本处 理方法, 其特 征在于, 包括: 获取参考未标注文本, 并将所述参考未标注文本输入至预训练 的参考文本处理模型得 到各所述参考未标注文本的特 征向量, 其中, 所述 参考文本处 理模型包括多个编码层; 获取至少一个所述编码层输出的概率值, 并根据 所述概率值和所述特征向量在所述参 考未标注文本确定多个目标 未标注文本; 确定所述目标未标注文本对应的真实标签, 并利用所述目标未标注文本和所述真实标 签更新所述 参考文本处 理模型, 直至所述 参考文本处 理模型满足预设条件; 利用满足预设条件的所述 参考文本处 理模型对待处 理文本进行处 理得到处 理结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述概率值和所述特征向量在所 述参考未标注文本确定多个目标 未标注文本包括: 根据各所述参考未标注文本的各所述概率值计算各所述参考未标注文本的互信息和 投票熵; 根据各所述参考未标注文本的所述互信息和所述投票熵以及所述各所述参考未标注 文本的特 征向量确定多个目标 未标注文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述根据各所述参考未标注文本的所述互 信息和所述投票熵以及所述各所述参考未标注文本的特征向量确定多个目标未标注文本 包括: 根据各所述参考未标注文本的所述互信息和所述投票熵确定出预设数量的中间未标 注文本; 根据所述特征向量对所述中间未标注文本进行聚类, 以确定多个所述目标未标注文 本。 4.根据权利要求3所述的方法, 其特征在于, 所述根据各所述参考未标注文本的所述互 信息和所述投票熵确定出 预设数量的中间未 标注文本包括: 根据所述互信息和所述投票熵确定各 所述参考未标注文本的优先级顺序; 根据所述优先级顺序在所述 参考未标注文本确定出 预设数量的中间未 标注文本 。 5.根据权利要求1所述的方法, 其特征在于, 所述获取至少一个所述编码层输出的概率 值, 包括: 以预设间隔获取至少一个所述编码层输出的概 率值。 6.根据权利要求1所述的方法, 其特征在于, 所述获取至少一个所述编码层输出的概率 值, 包括: 利用全连接层和归一 化损失函数将所述编码层的输出转换为所述 概率值。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取初始模型; 获取已标注文本以及所述已标注文本对应的真实标签; 根据所述已标注文本以及所述已标注文本对应的真实标签对所述初始模型进行得到 预训练的所述 参考文本模型。 8.一种文本处 理装置, 其特 征在于, 包括: 获取模块, 用于获取参考未标注文本, 并将所述参考未标注文本输入至预训练的参考 文本处理模型得到各所述参考未标注文本的特征向量, 其中, 所述参考文本处理模型包括权 利 要 求 书 1/2 页 2 CN 114330239 A 2多个编码层; 确定模块, 用于获取至少一个所述编码层输出的概率值, 并根据所述概率值和所述特 征向量在所述 参考未标注文本确定多个目标 未标注文本; 更新模块, 用于确定所述目标未标注文本对应的真实标签, 并利用所述目标未标注文 本和所述真实标签更新所述参考文本处理模型, 直至所述参考文本处理模型满足预设条 件; 处理模块, 用于利用满足预设条件的所述参考文本处理模型对待处理文本进行处理得 到处理结果。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器 执行时实现如权利要求1至7中任一项所述的文本处 理方法。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 以及 存储器, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器 执行时, 使得 所述一个或多个处 理器实现如权利要求1至7中任一项所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 114330239 A 3

.PDF文档 专利 文本处理方法及装置、存储介质及电子设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法及装置、存储介质及电子设备 第 1 页 专利 文本处理方法及装置、存储介质及电子设备 第 2 页 专利 文本处理方法及装置、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。