说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210626061.3 (22)申请日 2022.06.02 (71)申请人 广州欢聚时代信息科技有限公司 地址 511442 广东省广州市番禺区南村镇 万博二路79 号万博商务区万达商业广 场北区B-1栋23层 (72)发明人 葛莉  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06Q 30/02(2012.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 文案素材提取方法及其装置、 设备、 介质、 产 品 (57)摘要 本申请涉及 文案素材提取方法及其装置、 设 备、 介质、 产品, 所述方法包括: 获取广告商品的 标题文本及品类标签, 构造为查询语句; 根据所 述标题文本和/或品类标签相匹配的文案短语, 召回与文案短语相 匹配的源自广告商品的详情 文本中的详情语句; 确定所述查询语句与匹配出 的每个详情语句之间的相似度和置信度; 根据所 述相似度和置信度筛选出部分详情语句, 作为广 告商品的广告文案的文案素材, 构成文案素材列 表。 本申请可以从待发布广告的广告商品的详情 文本中提取出能够描述商品特征的优质详情语 句, 作为文案素材供用户引用, 可实现广告文案 辅助创作。 权利要求书2页 说明书22页 附图5页 CN 114971730 A 2022.08.30 CN 114971730 A 1.一种文案素 材提取方法, 其特 征在于, 包括: 获取广告 商品的标题文本及品类标签, 构造为 查询语句; 根据所述标题文本和/或品类标签相匹配的文案短语, 召回与文案短语相匹配的源自 广告商品的详情文本中的详情语句; 确定所述 查询语句与匹配出的每 个详情语句之间的相似度和置信度; 根据所述相似度和置信度筛选出部分详情语句, 作为广告商品的广告文案的文案素 材, 构成文案素 材列表。 2.根据权利要求1所述的文案素材提取方法, 其特征在于, 根据所述标题文本和/或品 类标签相匹配的文案短语, 召回与文案 短语相匹配的源自广告商品的详情文本中的详情 语 句, 包括: 将广告商品的详情文本进行分句, 获得由详情文本中各个详情语句构成的语句列表; 根据所述标题文本和/或品类标签, 从所述品类标签相对应的短语库中匹配出多个文 案短语, 构成短语列表, 所述文案短语包括多个具有独立词性的词元; 计算短语列表中的每个文案短语分别与语句列表中的各个详情语句的相似度, 根据相 似度筛选出与每 个文案短语构成语义匹配的详情语句。 3.根据权利要求1所述的文案素材提取方法, 其特征在于, 根据所述标题文本和/或品 类标签相匹配的文案短语之前, 包括: 从广告系统中与品类标签相对应的已投放广告的广告文案中提取多个文案短语构成 候选短语, 所述文案短语根据预设的多个短语构造提取, 所述短语构造包括多个有序排列 的词性标签, 其中至少包含一个表示名词的词性标签, 该词性标签相对于其他词性标签后 置; 参考候选短语所在的品类、 店铺、 广告确定每 个候选短语的信息贡献评分; 根据信息贡献评分筛 选部分候选短语, 保留存 储为短语库的文案短语。 4.根据权利要求1所述的文案素材提取方法, 其特征在于, 确定所述查询语句与匹配出 的每个详情语句之间的相似度和置信度, 包括: 将查询语句与匹配出的每个详情语句组成句对, 输入预训练至收敛状态的文本匹配分 类模型中同步确定出该句对相对应的第一分类空间表征不同匹配程度的各个类别的分类 概率和第二分类空间表征 是否适于推广的类别的分类概 率; 将第一分类空间的表征所述句对中的查询语句与详情语句相匹配的类别的分类概率, 确定为该句对中的详情语句对应所述相匹配的类别的相似度; 将第二分类空间的表征所述句对中的详情语句适于推广的类别的分类概率, 确定为该 句对中的详情语句对应所述 适于推广的类别的置信度; 建立所述匹配出的每个详情语句与其在第 一分类空间的类别对应的相似度、 在第 二分 类空间的类别对应的置信度之间的映射关系。 5.根据权利要求4所述的文案素材提取方法, 其特征在于, 所述文本匹配分类模型的训 练过程, 包括: 调用预设的数据集中的单个训练样本输入文本匹配分类模型, 每个训练样本关联设置 第一标签和第二标签, 且包括样本查询语句和样本详情语句, 样本查询 语句包括历史广告 商品的商品标题和品类标签, 样本详情 语句为从所述历史广告商品的详情文本中提取的详权 利 要 求 书 1/2 页 2 CN 114971730 A 2情语句, 第一标签用于指示所述样本查询语句与样本详情语句之 间的多种匹配程度相对应 的类别, 第二标签用于指示所述样本 详情语句是否适于推广相对应的类别; 由文本匹配分类模型提取所述训练样本的深层语义信 息, 根据该深层语义信 息同步执 行两路分类映射, 分别映射至第一分类空间和第二分类空间, 获得第一分类空间和第二分 类空间中各个类别相对应的分类概率, 根据分类概率确定所述训练样本在第一分类空间和 第二分类空间相对应的目标类别; 根据第一标签计算第 一分类空间的目标类别的损失而获得的第 一损失值, 根据第 二标 签计算第二分类空间的目标类别的损失而获得第二损失值, 将第一损失值和 第二损失值汇 总为模型损失值; 根据所述模型损 失值判断文本匹配分类模型是否收敛, 当未收敛时, 对文本匹配分类 模型实施梯度更新, 继续调用下一训练样本迭代训练。 6.根据权利要求4所述的文案素材提取方法, 其特征在于, 根据 所述相似度和置信度筛 选出部分详情语句, 包括: 以所述第一分类空间的类别为主索引, 根据 所述相似度对所述匹配出的每个详情语句 进行第一次倒排序; 以匹配出的每个详情语句的相似度和置信度的加权和值对第一次排序后的各个详情 语句进行第二次倒排序; 从第二次排序后的各个详情语句中选取排行靠前的预定数量的多个详情语句, 作为广 告商品的广告 文案的文案素 材。 7.根据权利要求1至6中任意一项所述的文案素材提取方法, 其特征在于, 构成文案素 材列表之后, 包括: 将所述文案素 材列表推送至提交所述广告 商品的终端设备显示; 响应该终端设备提交的广告发布请求, 获取对应的广告文案, 所述广告文案中包含引 用自所述文案素 材列表中的文案素 材; 以该广告 文案发布所述广告 商品相对应的广告。 8.一种文案素 材提取装置, 其特 征在于, 包括: 查询构造模块, 用于获取广告 商品的标题文本及品类标签, 构造为 查询语句; 语句召回模块, 用于根据 所述标题文本和/或品类标签相匹配的文案短语, 召回与文案 短语相匹配的源自广告 商品的详情文本中的详情语句; 匹配处理模块, 用于确定所述查询语句与匹配出的每个详情语句之间的相似度和置信 度, 所述相似度与置信度对应 每个详情语句同步确定; 素材生成模块, 用于根据所述相似度和置信度筛选出部分详情语句, 作为广告商品的 广告文案的文案素 材, 构成文案素 材列表。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的 步骤。 10.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至7中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。权 利 要 求 书 2/2 页 3 CN 114971730 A 3

.PDF文档 专利 文案素材提取方法及其装置、设备、介质、产品

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文案素材提取方法及其装置、设备、介质、产品 第 1 页 专利 文案素材提取方法及其装置、设备、介质、产品 第 2 页 专利 文案素材提取方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。