说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111481562.9 (22)申请日 2021.12.0 6 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区自由贸易试 验区碧波路518号3 02室 (72)发明人 吴盈娇 江小林 罗超 邹宇  (74)专利代理 机构 上海隆天律师事务所 31282 代理人 夏彬 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 会话信息提取方法、 系统、 设备及存 储介质 (57)摘要 本发明提供了一种会话信息提取方法、 系 统、 设备及存储介质, 该方法包括: 采集待处理的 会话文本, 基于文本分类模型判断所述会话文本 中是否存在时间实体; 如果所述会话文本中存在 时间实体, 则基于预设的时间提取规则从所述时 间实体中提取得到至少一个候选时间信息; 基于 预设的候选时间信息排序规则, 对 所述候选时间 信息进行排序; 根据所述候选时间信息的排序结 果选择至少一候选时间信息作为记录的时间信 息。 本发明实现了从会话中快速、 准确地提取到 时间信息 。 权利要求书3页 说明书10页 附图4页 CN 114117017 A 2022.03.01 CN 114117017 A 1.一种会话信息提取 方法, 其特 征在于, 包括如下步骤: 采集待处 理的会话文本, 基于文本分类模型判断所述会话文本中是否存在时间实体; 如果所述会话文本 中存在时间实体, 则 基于预设的时间提取规则从所述 时间实体 中提 取得到至少一个候选时间信息; 基于预设的候选时间信息排序规则, 对所述 候选时间信息进行排序; 根据所述 候选时间信息的排序结果选择至少一 候选时间信息作为记录的时间信息 。 2.根据权利要求1所述的会话信 息提取方法, 其特征在于, 所述文本分类模型为预训练 的二分类模型; 基于文本分类模型判断所述会话文本中是否存在时间实体之后, 还 包括如下步骤: 如果所述会话文本 中不存在时间实体, 则结束当前待处理 的会话文本的时间信 息提取 流程; 如果所述会话文本 中存在时间实体, 获取所述文本分类模型识别到的时间实体在会话 文本中的位置 。 3.根据权利要求1所述的会话信 息提取方法, 其特征在于, 如果所述会话文本中存在时 间实体, 在基于预设的时间提取规则从所述时间实体中提取得到至少一个候选时间信息之 前, 还包括如下步骤: 基于预设的数据预处 理规则对所述会话文本进行 预处理, 得到预处 理后的会话文本 。 4.根据权利要求3所述的会话信 息提取方法, 其特征在于, 所述基于预设的数据 预处理 规则对所述会话文本进行 预处理, 包括如下步骤: 获取所述文本分类模型识别到的时间实体在会话文本中的位置; 判断所述会话文本中是否存在连续的多个时间实体; 如果存在连续的多个时间实体, 则识别连续的多个时间信息中的时间表达边界, 得到 多个分离的时间实体; 判断多个分离的时间实体之间的关系为连续表达关系还是重复表达关系; 如果是连续表达关系, 则在连续表达关系的多个分离的时间实体之间增加预设的连接 词; 如果是重复表达关系, 则在重复表达关系的多个分离的时间实体之中选择一个时间实 体, 将未被选择的时间实体删除。 5.根据权利要求3所述的会话信 息提取方法, 其特征在于, 所述基于预设的数据 预处理 规则对所述会话文本进行 预处理, 包括如下步骤: 将所述会话文本中的时间实体的表达进行归一 化表达。 6.根据权利要求3所述的会话信 息提取方法, 其特征在于, 所述基于预设的数据 预处理 规则对所述会话文本进行 预处理, 包括如下步骤: 获取时间实体的上 下文文本; 采用预设的干扰时间判断规则, 根据 所述时间实体的上下文文本判断所述 时间实体是 否属于干扰时间实体; 如果是, 则 删除所述时间实体。 7.根据权利要求1所述的会话信 息提取方法, 其特征在于, 所述基于预设的时间提取规 则从所述时间实体中提取 得到至少一个候选时间信息, 包括如下步骤:权 利 要 求 书 1/3 页 2 CN 114117017 A 2获取预设的日期和时间识别模板, 确定模板中 需填入的属性; 从所述会话文本的时间实体中提取 得到所述模板中 需填入的属性所对应的属性 值; 基于所述属性 值和所述日期和时间识别模板, 生成候选时间信息 。 8.根据权利要求1所述的会话信 息提取方法, 其特征在于, 对所述候选时间信 息进行排 序, 包括如下步骤: 获取各个所述候选时间信 息的表达明确度的第 一评分和/或获取所述候选时间信 息在 文本中出现位置的第二评分; 根据所述第一评分和/或所述第二评分得到所述 候选时间信息的置信度; 根据所述 候选时间信息的置信度对所述 候选时间信息进行从高到低排序。 9.根据权利要求8所述的会话信 息提取方法, 其特征在于, 根据 所述候选时间信 息的排 序结果选择至少一 候选时间信息作为记录的时间信息, 包括如下步骤: 根据所述候选时间信息的排序结果选择置信度最高的候选时间信息作为记录的时间 信息。 10.根据权利要求8所述的会话信息提取方法, 其特征在于, 获取各个所述候选时间信 息的表达明确度的第一评分, 包括如下步骤: 获取所述候选时间信息的上 下文文本; 根据预设的优先级命中规则, 判断所述上 下文文本所对应的优先级; 根据所述上 下文文本所对应的优先级确定所述 候选时间信息的第一评分; 获取所述候选时间信息在文本中出现位置的第二评分, 包括如下步骤: 获取所述候选时间信息在文本中出现的位置; 根据所述出现的位置确定所述候选时间信 息的第二评分, 所述出现的位置越接近于会 话末尾, 所对应的第二评分越高。 11.根据权利要求1所述的会话信息提取方法, 其特征在于, 根据所述候选时间信息的 排序结果选择至少一 候选时间信息作为记录的时间信息之后, 还 包括如下步骤: 根据所述会话文本新建预约事 件, 并记录所述预约事 件与客服的关系; 将记录的时间信息作为所述预约事 件的预约时间信息; 在当前时间已达 到所述记录的时间信息所对应的时间点时, 提醒客 服; 统计预设时间段内客服的所有预约事件的完成时间和预约时间之间的关系, 根据统计 结果生成客服考核评分。 12.一种会话信息提取系统, 其特征在于, 用于实现权利要求1至11中任一项所述的会 话信息提取 方法, 所述系统包括: 时间实体识别模块, 用于采集待处理的会话文本, 基于文本分类模型判断所述会话文 本中是否存在时间实体; 候选时间提取模块, 用于如果所述会话文本中存在时间实体, 则基于预设的时间提取 规则从所述时间实体中提取 得到至少一个候选时间信息; 候选时间排序模块, 用于基于预设的候选时间信息排序规则, 对所述候选时间信息进 行排序; 时间信息记录模块, 用于根据 所述候选时间信 息的排序 结果选择至少一候选时间信 息 作为记录的时间信息 。权 利 要 求 书 2/3 页 3 CN 114117017 A 3

.PDF文档 专利 会话信息提取方法、系统、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 会话信息提取方法、系统、设备及存储介质 第 1 页 专利 会话信息提取方法、系统、设备及存储介质 第 2 页 专利 会话信息提取方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:21:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。