说明:收录全网最新的团体标准 提供单次或批量下载
ICS35.240 CCS L67 YD 中华人民共和国通信行业标准 YD/T XXXX—XXXX 自然语言处理技术及产品评估方法 第10部分:知识问答系统 Natural language processing technology and product evaluation method -Part 2: Knowledge-based question answering system (报批稿) 202X-XX-XX发布 202X-XX-XX实施 中华人民共和国工业和信息化部 发布 YD/T XXXX—XXXX 前言 本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起 草。 本文件是YD/T4394《自然语言处理技术及产品评估方法》系列标准之一,YD/T4394已经发布了如 下部分: 一一第1部分:基础服务平台; 一第2部分:对话系统; 一一第3部分:智能翻译机; 一一第4部分:机器同传系统; 一一第5部分:智能客服系统; 一一第6部分:客服质检系统, 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由中国通信标准化协会提出并归口。 本文件起草单位:北京大学、中国信息通信研究院、南京新一代人工智能研究院有限公司、北京 邮电大学、电子科技大学、中国科学院自动化研究所、哈尔滨工业大学、苏州大学。 本文件主要起草人:邓志鸿、李子恒、刘一廷、夏惟、董晓飞、吴思奇、张学强、张丹、陶玥、 双错、王玉龙、张忠宝、刘娇、蓝天、周玉、翟飞飞、亢晓勉、赵阳、赵妍妍、王中卿。 II YD/T XXXX—XXXX 引言 随着自然语言处理技术的发展,机器已经能够很好理解人类的意图,已经能与人类进行流畅、自然 的交流,结合知识库技术可以构筑出知识问答系统。知识问答系统使得人们能够便捷地了解自已不熟悉 的知识,甚至在缺乏复杂专业知识的情况下依然能做出和专业人士相接近的决策,这将会大幅改变与知 识相关的行业的生产方式,极大地提高生产效率,为经济发展注入新的活力。在这之中,融入了行业知 识的问答系统,比如医疗问答系统、生物知识问答系统、法律法规知识问答系统等,受到社会上格外的 关注,有取代传统搜索引擎的趋势,可部署到医疗、法律、商业、教育、工业生产等多个领域。目前国 内外已经出现了大量类似产品。然而行业中对于“回答知识”的定义普遍较为模糊,对于系统回答领 域知识的能力尚没有统一的标准,也没有客观全面的评估方法。尤其是对于面向专业性强的知识的问答 系统,以往以对话质量为指导的评价体系将不再适用,需要针对回答中知识的专业性、全面性、可溯源 性等方面设计新的有针对性的评价指标,以及相配套的评估方法。在现有的标准中尚未涉及这方面的内 容。可以预见,未来仍会有大量的知识问答系统产品出现,因此迫切的需要制订知识问答系统的评估方 法,规范产业发展。 本文件是《自然语言处理技术及产品评估方法》系列标准之一,该系列标准的结构和名称如下: 一一第1部分:基础服务平台。目的在于提供词法分析、句法分析、语义分析等NLP基础技术, 可提供情感分析、机器翻译、对话系统等NLP应用技术的服务平台,从基础技术、应用技术、服务 能力3个维度对NLP服务平台进行评估。 一一第2部分:对话系统。目的在于集成了对话系统功能的产品或服务,从对话类型、对话功能、 对话性能、对话体验4个维度进行评估。 一一第3部分:智能翻译机。目的在于实现语音输入、自动翻译和语音输出的智能翻译机,从基础 功能、AI核心技术支持能力、安全性与可靠性和附加业务功能4个维度对智能翻译机进行评估。 一一第4部分:机器同传系统。目的在于提供语音输入、自动分句、机器翻译、语音输出或译文投 屏的机器同传系统,从基础功能、AI核心技术支持能力、工程实现能力、附加业务能力4个维度对 机器同传系统进行评估。 一一第5部分:智能客服系统。目的在于提供语音客服机器人、文本客服机器人等多种产品形态的 智能客服系统,从基础功能、AI核心技术支持能力、企业服务能力和系统成熟度4个维度对智能客 服进行评估。 一一第6部分:客服质检系统。目的在于提供人工客服和智能客服的质检系统,从智能语音、自然 语言理解、基础能力、质检能力4个维度进行评估, 一一第7部分:智能遥控器。目的在于从基础功能、AI核心技术支持能力、安全性与可靠性和附加 业务功能等四个维度对智能遥控器进行规范。 一一第8部分:智能文档处理系统。目的在于提供智能文档处理系统,依照技术能力、产品能力、 应用能力三个方面进行评估。 一一第9部分:观点挖掘系统。目的在于提供文本数据导入与预处理、观点筛选、观点展示等功能 的观点挖掘系统,从基础功能、AI核心技术支持能力、企业服务能力和系统成熟度等四个维度 对观点挖掘进行评估。 III YD/TXXXXXXXX 一第10部分:知识问答系统。目的在于以专业知识、行业知识等具体知识为回答依据的问答系统 从知识运用能力、知识提取能力、知识推理能力、知识表达能力、知识维护能力五个维度进行 规范。 本文件是“自然语言处理技术及产品评估方法”系列文件第10部分:知识问答系统,是为知识问答系 统的研发者和选型者提供评估参考规范。 IV YD/T XXXX—XXXX 自然语言处理技术及产品评估方法 第10部分:知识问答系统 1范围 本文件规定了知识问答系统的评估方法,主要包括知识问答系统能力评估框架、指标体系与评估方 法。 本文件适用于指导对知识问答系统的评估、验收等工作。 规范性引用文件 2 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T41867-2022信息技术人工智能术语 GB/T42131-2022人工智能知识图谱技术框架 3术语和定义 3. 1 知识knowledge 体现对自然世界与人类社会认识的信息。 3. 2 问答question answering 确定以自然语言提供的问题最合适答案的任务。 [来源:GB/T41867-2022,3.3.9] 3. 3 知识问答knowledgequestionanswering 面向专业知识、具体事实、常识等知识的问答任务。 3. 4 知识库knowledgebase 储存知识并提供持久性维护以及高效检索操作的系统。 3. 5 实体entity 独立存在的对象。 [来源:GB/T42131-2022,3.2] YD/T XXXX—XXXX 3. 6 推理inference 从已知前提导出结论的推理方法。 [来源:GB/T5271.28-2001,28.03.01] 3.7 知识推理knowledge-basedinference 以已知知识为前提导出结论的推理方法。 整体框架 4 知识问答系统 知识运用能力 知识提取能力 知识表达能力 知识推理能力 知识维护能力 知识查询 专业性 无害性 时序推理 知识库管理 外部数据接入 评价判断 准确性 可读性 类比推理 知识解析 分析推理 全面性 逻辑性 演绎推理 知识冲突消解 建议指导 可溯源性 聚焦性 因果推理 附加信息丰富度 图1:知识问答系统能力评估框架 如图1所示,本标准围绕知识问答系统的五大核心能力制定了评估框架: a)知识运用能力:运用知识解决多种类型问答需求的能力,包括知识查询、评价判断、分析推理、 建议指导四个能力项; b)知识提取能力:从知识库中提取符合问答需求知识的能力,支撑知识运用、知识推理、知识表 达,分为专业性、准确性、全面性、可溯源性四个能力项; c)知识推理能力:将提取出的原始知识经过推理加工以回答复杂问题的能力,分为时序推理、演 绎推理、类比推理、因果推理四个能力项; d)知识表达能力:保证生成内容安全健康、贴近用户阅读习惯,分为无害性、逻辑性、可读性、 聚焦性四个能力项; e)知识维护能力:关于知识库维护更新的能力,为知识问答系统的根基,回答生成的源头依据, 分为知识解析、外部数据接入、知识库管理、知识冲突消解、附加信息丰富度五个能力项。 5指标体系与评估方法概述 5.1指标体系概述 本文件从知识运用能力、知识提取能力、知识推理能力、知识表达能力、知识维护能力五个能力域 定义了知识问答系统的评估指标,具体指标项与评估方法见表1。 2 YD/T XXXX—XXXX 表1:知识问答系统评估指标体系 能力域 指标项 评估方法 知识查询支持度 功能验证 评价判断支持度 功能验证 知识运用能力 分析推理支持度 功能验证 建议指导支持度 功能验证 专业性 性能量化 准确性 性能量化 知识提取能力 全面性 性能量化 可溯源性 性能量化 时序推理支持度 功能验证 类比推理支持度 功能验证 知识推理能力 演绎推理支持度 功能验证 因果推理支持度 功能验证 无害性 主观感受 可读性 主观感受 知识表达能力 逻辑性 主观感受 聚焦性 主观感受 知识库管理支持度 功能验证 外部知识接入支持度 功能验证 知识维护能力 知识解析支持度 功能验证 知识冲突消解支持度 功能验证 附加信息丰富度 功能验证 5. 2 2评估方法概述 面向知识问答系统的评估方法为技术测试,是使用预定的方法和流程操作测评对象使其产生特定结 果并与预期结果比较的过程,比较方式共有如下三种: a)功能验证:由测试人员检查结果与预期是否相符,需要1-2名测试人员参与; b)主观感受:以测试人员的主观感受为标准判断结果与测试人员自身预期的符合程度,需要3-5 名经过培训的测试人员参与

.pdf文档 YD-T 4394.10-2025 自然语言处理技术及产品评估方法 第10部分 知识问答系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
YD-T 4394.10-2025 自然语言处理技术及产品评估方法 第10部分 知识问答系统 第 1 页 YD-T 4394.10-2025 自然语言处理技术及产品评估方法 第10部分 知识问答系统 第 2 页 YD-T 4394.10-2025 自然语言处理技术及产品评估方法 第10部分 知识问答系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-11-20 15:10:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。