说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111626090.1 (22)申请日 2021.12.28 (71)申请人 携程旅游网络技 术 (上海) 有限公司 地址 200335 上海市长 宁区福泉路9 9号 (72)发明人 刘桐桐 陈剑明  (74)专利代理 机构 上海弼兴律师事务所 31283 代理人 林嵩 罗朗 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06F 40/268(2020.01) G06F 40/237(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 游记数据自动提取的方法、 电子设备和介质 (57)摘要 本发明公开了一种游记数据自动提取的方 法、 电子设备及介质, 其中游记数据 自动提取的 方法包括S100、 对待处理文本进行分词和命名体 识别, 得到多个分词和多个命名体; S2 00、 基于目 的地字典表从多个分词中筛选出候选目的地, 和, 基于语料库从多个命名体中筛选出候选目的 地; S300、 若所述候选目的地的数量大于 预设值, 对所有候选目的地进行聚类, 得到多个聚类簇; S400、 将聚类元素最多的聚类簇对应的候选目的 地作为最终的目的地。 本发明通过游记数据自动 提取的方法, 实现了对用户游记中提到的目的地 和POI精准识别, 提高游 记关键词的识别精确性。 权利要求书1页 说明书5页 附图3页 CN 114298045 A 2022.04.08 CN 114298045 A 1.一种游 记数据自动提取的方法, 其特 征在于, 所述方法包括以下步骤: S100、 对待处 理文本进行分词和命名体识别, 得到多个分词和多个命名体; S200、 基于目的地字典表从所述多个分词中筛选出候选目的地, 和, 基于语料库从所述 多个命名体中筛 选出候选目的地; S300、 若所述候选目的地的数量大于预设值, 对所有所述候选目的地进行聚类, 得到多 个聚类簇; S400、 将聚类元 素最多的聚类簇对应的候选目的地作为 最终的目的地。 2.根据权利要求1中所述的游记数据自动提取的方法, 其特征在于, 步骤S300中, 基于 K‑means聚类算法进行聚类。 3.根据权利要求1中所述的游记数据自动提取的方法, 其特征在于, 步骤S200之前还包 括: S101、 根据常用中文停用词生成中文停用词字典, 根据所述中文停用词字典对所述多 个分词进行 过滤处理。 4.根据权利要求1中所述的游记数据自动提取的方法, 其特征在于, 步骤S100具体包 括: 基于马尔科夫链的Jieba工具包对所述待处理文本进行分词和命名体识别, 得到多个 分词和多个命名体。 5.根据权利要求1中所述的游 记数据自动提取的方法, 其特 征在于, 步骤S10 0还包括: 对所述多个分词进行词性标注; 步骤S200具体包括: S201、 基于所述目的地字典表从词性标注为名词的分词中筛 选出所述候选目的地。 6.根据权利要求1中所述的游记数据自动 提取的方法, 其特征在于, 所述游记数据自动 提取的方法还 包括: S500、 构建POI字典表, 所述POI字典表包括目的地字典表中的目的地目录下的所有 POI; S600、 基于所述POI字典表从所述多个分词和所述多个命名体中匹配出候选POI。 7.根据权利要求6中所述的游记数据自动提取的方法, 其特征在于, 所述POI包括多个 POI实体, POI实体包括名称、 别名、 英文名、 坐标、 类型、 所在目的地、 目的地路径、 质量分; 步骤S600具体包括: 若多个所述 候选POI对应同一个POI实体, 则保留名称最长的所述POI实体。 8.根据权利要求6所述的游 记数据自动提取的方法, 其特 征在于, 步骤S6 00具体包括: 基于所述POI字典表从所述多个分词和所述多个命名体中匹配出含有POI的分词和含 有POI的命名体, 根据所述POI的坐标和所述目的地的坐标匹配出 所述候选POI。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的 游记数据自动提取的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至8任一项所述的游 记数据自动提取的方法。权 利 要 求 书 1/1 页 2 CN 114298045 A 2游记数据自动提取的方 法、 电子设备和介质 技术领域 [0001]本发明涉及自然语言处理领域, 尤其涉及一种游记数据自动提取的方法、 电子设 备和介质。 背景技术 [0002]近些年来在行业发展的过程中, 积累了一批由用户输出的优秀的UGC(User ‑ generated  Content, 用户生产内容)游记、 旅拍、 点评等文本数据, 这些数据多为非结构化 的数据, 如果不对其进行结构化处理提取关键信息点, 就难以将其应用于多个复杂的文本 提取POI(Point  of Interest, 兴趣点)类的后续场 景, 如旅拍笔记详情页挖掘和展示关键 词、 游记自动挂货、 POI信息链接展示、 增强SEO(Search  Engine Optimization, 搜索引擎优 化)辅助、 辅助人工审核、 行程自动生成等。 [0003]通过自动提取UGC数据中涉及到的主目的地和POI, 自动纠错模糊匹配识别, 并自 动链接到知识库中, 显得十分必要。 首先, 如果不具有丰富的行业知识, 对目的地、 POI的名 称了如指掌, 就难以分辨出游记中提及的目的地和POI信息。 其次, 游记类文本中提及的目 的地和POI丰富多样, 数量众多, 如果通过人工操作的方式提取目的地和POI, 需要耗费巨大 的人力物力时间财力, 且对于数据库中数量众多的POI难以迅速准确的分辨清楚和所提取 目的地和POI之间的关系, 而且由于人工审核方式固有的特性, 可能会因为疲劳或者粗心 等 情况, 漏掉需要提取的信息, 或者出错。 发明内容 [0004]本发明要解决的技术问题是为了克服现有技术中的人工操作提取目的地和POI的 精确性有 待提高的缺陷, 提供一种游 记数据自动提取的方法、 电子设备和介质。 [0005]本发明是通过 下述技术方案来 解决上述 技术问题: [0006]一种游记数据自动提取的方法, 所述方法包括以下步骤: [0007]S100、 对待处 理文本进行分词和命名体识别, 得到多个分词和多个命名体; [0008]S200、 基于目的地字 典表从所述多个分词中筛选出候选目的地, 和, 基于语料库从 所述多个命名体中筛 选出候选目的地; [0009]S300、 若所述候选目的地的数量大于预设值, 对所有所述候选目的地进行聚类, 得 到多个聚类簇; [0010]S400、 将聚类元 素最多的聚类簇对应的候选目的地作为 最终的目的地。 [0011]较佳地, 步骤S3 00中, 基于K ‑means聚类算法进行聚类。 [0012]较佳地, 步骤S20 0之前还包括: [0013]S101、 根据常用中文停用词生成中文停用词字典, 根据所述中文停用词字典对所 述多个分词进行 过滤处理。 [0014]较佳地, 步骤S10 0具体包括: [0015]基于马尔科夫链的Jieba工具包对所述待处理文本进行分词和命名体识别, 得到说 明 书 1/5 页 3 CN 114298045 A 3

.PDF文档 专利 游记数据自动提取的方法、电子设备和介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 游记数据自动提取的方法、电子设备和介质 第 1 页 专利 游记数据自动提取的方法、电子设备和介质 第 2 页 专利 游记数据自动提取的方法、电子设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。