说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210820115.X (22)申请日 2022.07.12 (71)申请人 北京沃东天骏信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼4层 A402室 申请人 北京京东世纪贸易有限公司 (72)发明人 李家东 宫礼星 周孝青 黄英凡  赵嘉文 李勇 包勇军 颜伟鹏  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 孙宝海 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/126(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本标签确定方法及装置 (57)摘要 本公开提供一种文本标签确定方法及 装置; 涉及自然语言处理技术领域。 该方法包括: 获取 待分析文本, 并将待分析文本输入标签预测模 型, 以获得预测标签及对应概率值; 在预测标签 属于目标标签类别的情况下, 使用预先构建的标 签字典树对待分析文本进行标签搜索匹配, 以获 得匹配标签; 基于预测标签及对应概率值和匹配 标签, 确定待分析文本的至少一个标签。 本公开 可以解决相关技术中对文本数据的多标签预测 过程中, 存在的效率低和预测准确性低的问题。 权利要求书2页 说明书11页 附图5页 CN 115374771 A 2022.11.22 CN 115374771 A 1.一种文本标签确定方法, 其特 征在于, 包括: 获取待分析文本, 并将所述待分析文本输入标签预测模型, 以获得预测标签及对应概 率值; 在所述预测标签属于目标标签类别的情况下, 使用预先构建的标签字典树对所述待分 析文本进行 标签搜索匹配, 以获得匹配标签; 基于所述预测标签及对应概率值和所述匹配标签, 确定所述待分析文本的至少一个标 签。 2.根据权利要求1所述的文本标签确定方法, 其特征在于, 所述标签预测模型的训练过 程包括: 获取具有标签的文本数据作为训练数据, 得到训练样本数据和样本标签向量; 将所述训练样本数据输入所述标签预测模型, 获得对应的样本分类概 率向量; 采用目标损失函数, 计算所述样本分类概率向量和所述样本标签向量之间的损失函数 值; 其中, 所述样本 分类概率向量包括正样本 分类概率值和负样本 分类概率值, 所述目标损 失函数为基于所述正样本分类概率值和所述负样本分类概率值进行展开的二元交叉熵损 失函数, 所述目标损失函数不包含所述正样本 分类概率值的高阶项和所述负样本分类概率 值的高阶项; 基于所述损失函数值, 更新所述标签预测模型的参数。 3.根据权利要求2所述的文本标签确定方法, 其特征在于, 所述标签预测模型包括预训 练编码模块和分类模块, 所述将所述训练文本数据输入所述标签预测模型, 获得对应的样 本分类概 率向量, 包括: 基于所述训练文本数据, 获得训练初始向量; 将所述训练初始向量输入所述预训练编码模块进行语义编码, 获得编码结果; 将所述编码结果输入所述分类模块进行线性变换, 获得样本分类概 率向量。 4.根据权利要求3所述的文本标签确定方法, 其特征在于, 所述将所述训练文本数据输 入所述标签预测模型, 获得对应的样本分类概 率向量, 还 包括: 通过旋转矩阵对所述训练初始向量中元素的绝对位置信 息进行编码, 获得元素的相对 位置向量; 所述语义编码的过程, 包括: 将所述相对位置向量和所述训练初始向量输入所述预训 练编码模块, 获得编码结果。 5.根据权利要求1 ‑4任一项所述的文本标签确定方法, 其特 征在于, 所述方法还 包括: 在所述待分析文本的长度大于第一阈值的情况 下, 对所述待分析文本进行截断处 理。 6.根据权利要求1所述的文本标签确定方法, 其特征在于, 所述对所述待分析文本进行 标签搜索匹配, 包括: 将所述待分析文本作为主字符串, 将所述标签字典树作为模式字符串; 采用前缀树匹配方式, 在所述模式字符串中对所述主字符串进行搜索匹配, 获得匹配 标签。 7.根据权利要求1所述的文本标签确定方法, 其特 征在于, 所述方法还 包括: 在所述预测标签不属于目标标签类别的情况下, 响应于所述预测标签的对应概率值与 第二阈值的比较结果, 确定所述待分析文本的至少一个标签。权 利 要 求 书 1/2 页 2 CN 115374771 A 28.一种文本标签确定装置, 其特 征在于, 所述装置包括: 预测模块, 用于获取待分析文本, 并将待分析文本输入标签预测模型, 以获得预测标签 及对应概 率值; 匹配模块, 用于在所述预测标签属于目标标签类别的情况下, 使用预先构建的标签字 典树对所述待分析文本进行 标签搜索匹配, 以获得匹配标签; 第一确定模块, 用于基于所述预测标签及对应概率值和所述匹配标签, 确定所述待分 析文本的至少一个标签。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器 执行时实现如权利要求1 ‑6中任一项所述的方法。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 以及 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理 器执行时, 使得 所述一个或多个处 理器实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115374771 A 3

.PDF文档 专利 文本标签确定方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本标签确定方法及装置 第 1 页 专利 文本标签确定方法及装置 第 2 页 专利 文本标签确定方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。