说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210699832.1 (22)申请日 2022.06.20 (71)申请人 北京小米移动软件 有限公司 地址 100085 北京市海淀区西二 旗中路33 号院6号楼8层018号 申请人 北京小米松果电子有限公司 (72)发明人 余耀 汤胜军  (74)专利代理 机构 北京法胜知识产权代理有限 公司 11922 专利代理师 戎郑华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01)G06F 40/242(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 商品属性词上下位关系词典的获取方法及 其装置 (57)摘要 本申请提出了一种商品属性词上下位关系 词典的获取方法及其装置, 涉及数据处理技术领 域。 该方法包括: 从多个数据源中提取候选商品 属性词; 对候选商品属性词进行聚类分析, 获取 任一聚类的第一商品属性词; 针对任一聚类的第 一商品属性词, 对第一商品属性词进行两两分 组, 得到商品属性词对; 将任一商品属性词对输 入目标分类模 型中进行上下位关系类型识别, 以 获取任一商品属性词对的上下位 关系, 以生成商 品属性词的上下位关系词典。 本申请中, 提高商 品属性词的覆盖率, 充分挖掘商品属性词之间的 上下位关系, 为后续的全量潜在上下位关系分类 判断提供丰富的样本, 显著提高获取商品属性上 下位关系的准确率, 可以挖掘出更多的商品属性 上下位关系。 权利要求书2页 说明书10页 附图5页 CN 115203362 A 2022.10.18 CN 115203362 A 1.一种商品属性词上 下位关系词典的获取 方法, 其特 征在于, 包括: 从多个数据源中提取候选商品属性词, 其中, 所述多个数据源中包括目标数据源, 基于 预设的词法规则从所述目标 数据源中提取候选商品属性词; 对所述候选商品属性词进行聚类分析, 获取任一聚类的第一商品属性词; 针对任一聚类的所述第一商品属性词, 对所述第一商品属性词进行两两分组, 得到商 品属性词对; 将任一所述商品属性词对输入目标分类模型中进行上下位关系类型识别, 以获取所述 任一商品属性词对的上 下位关系, 以生成商品属性词的上 下位关系词典。 2.根据权利要求1所述的方法, 其特征在于, 所述从多个数据源中提取候选商品属性 词, 包括: 响应于所述数据源为电商服务器, 从所述电商服务器中提取商品标题, 并基于第一语 言模型从所述商品标题中获取第一 候选商品属性词; 响应于所述目标数据源包括多个开放数据库, 基于所述预设的词法规则, 对所述目标 数据源中的语料进行匹配, 确定商品属性语料为第二 候选商品属性词; 响应于所述数据源为预设的商品图谱, 其中, 所述商品图谱包括多个预设商品属性词, 对所述商品图谱进行识别, 从中提取 所述预设商品属性词, 作为第三 候选商品属性词。 3.根据权利要求2所述的方法, 其特征在于, 所述基于第 一语言模型从所述商品标题中 获取第一 候选商品属性词, 包括: 将所述商品标题输入第一语言模型中进行编码, 获取 所述商品标题的特 征表示; 将所述特 征表示输入双向长短期记 忆网络进行识别, 获取 所述商品标题的序列标注; 将所述序列标注输入条件随机场中, 输出 所述商品标题的所述第一 候选商品属性词。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述将任一所述商品属性词对输 入目标分类模型中进行上下位关系类型识别, 以获取所述任一商品属性词对的上下位关 系, 包括: 对任一所述商品属性词对进行语料扩充, 获取 所述商品属性词对 对应的目标文本; 将所述目标文本输入所述目标分类模型中, 识别所述商品属性词对中两个商品属性词 之间在每个关系类型下 的识别概率, 所述关系类型包括上位关系、 下位关系和无上下位关 系; 根据每个关系类型的识别概率满足的预设条件, 确定所述商品属性词对的上下位关 系。 5.根据权利要求4所述的方法, 其特征在于, 所述目标分类模型包括第 二语言模型和全 连接层, 所述将所述 目标文本输入所述 目标分类模型中, 识别所述商品属 性词对中两个商 品属性词之间在每 个关系类型 下的识别概 率, 包括: 将所述目标文本输入所述第 二语言模型进行编码, 获取所述商品属性词对的第 二特征 表示; 将所述第二特征表示输入所述全连接层, 获取所述商 品属性词对中两个商 品属性词之 间在每个关系类型 下的识别概 率。 6.根据权利要求4所述的方法, 其特征在于, 所述对任一所述商品属性词对进行语料扩 充, 获取所述商品属性词对 对应的目标文本, 包括:权 利 要 求 书 1/2 页 2 CN 115203362 A 2获取一个或多个预设的描述元 素; 获取所述描述元 素与所述商品属性词对的语义依赖关系; 基于所述语义依赖关系, 确定所述描述元 素相对所述商品属性词对的填充位置; 在所述填充位置上填充所述描述元 素, 以获取 所述商品属性词对 对应的目标文本 。 7.根据权利要求4所述的方法, 其特征在于, 所述根据每个关系类型的识别概率满足的 预设条件, 确定所述商品属性词对的上 下位关系, 包括: 响应于所述商品属性词对中两个商品属性词之间在所述上位关系下的第一识别概率 大于第一概率阈值, 在所述下位关系下的第二识别概率和在所述无上下位关系下的第三识 别概率均小于第二 概率阈值, 确认所述商品属性词对为所述上位关系; 或 响应于所述第 二识别概率大于所述第 一概率阈值, 所述第 一识别概率和所述第 三识别 概率均小于所述第二 概率阈值, 确认所述商品属性词对为所述下位关系; 或 响应于所述第 三识别概率大于所述第 一概率阈值, 所述第 一识别概率和所述第 二识别 概率均小于所述第二 概率阈值, 确认所述商品属性词对为所述无 上下位关系。 8.根据权利要求4所述的方法, 其特征在于, 所述生成商品属性词上下位关系词典之 前, 还包括: 针对任一上下位关系为无上下位关系的目标商 品属性词对, 对所述目标商 品属性词对 的后缀词进行识别, 判断所述后缀词是否为同类后缀词; 响应于所述后缀词为同类后缀词, 根据所述后 缀词更新所述目标商 品属性词对的上下 位关系。 9.一种商品属性词上 下位关系词典的获取装置, 其特 征在于, 包括: 提取模块, 用于从多个数据源中提取候选商品属性词, 其中, 所述多个数据源中包括目 标数据源, 基于预设的词法规则从所述目标 数据源中提取候选商品属性词; 聚类模块, 用于对所述候选商品属性词进行聚类分析, 获取任一聚类的第一商品属性 词; 分组模块, 用于针对任一聚类的所述第一商品属性词, 对所述第一商品属性词进行两 两分组, 得到商品属性词对; 生成模块, 用于将任一所述商 品属性词对输入目标分类模型中进行上下位关系类型识 别, 以获取 所述任一商品属性词对的上 下位关系, 以生成商品属性词的上 下位关系词典。 10.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑8中任一项所述的方法。 11.一种计算机可读存储介质, 其上存储有计算机指令, 其中, 所述计算机指令用于使 所述计算机执 行根据权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115203362 A 3

.PDF文档 专利 商品属性词上下位关系词典的获取方法及其装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 商品属性词上下位关系词典的获取方法及其装置 第 1 页 专利 商品属性词上下位关系词典的获取方法及其装置 第 2 页 专利 商品属性词上下位关系词典的获取方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。