说明:收录全网最新的团体标准 提供单次或批量下载
ICS 35.240 CCS CAPT L60 团体 标准 T/CAPT 003—2021 中文新闻信息结构化标注规范 2021 - 10 - 19发布 2021 - 10 - 20实施 中国新闻技术工作者联合会 发布 全国团体标准信息平台 T/CAPT 003 —2021 I 目次 前言 ................................ ................................ ................. II 1 范围 ................................ ................................ ............... 1 2 规范性引用文件 ................................ ................................ ..... 1 3 术语和定义 ................................ ................................ ......... 1 4 标注体系分类 ................................ ................................ ....... 1 5 实体类信息 ................................ ................................ ......... 1 5.1 实体类信息类型 ................................ ................................ . 1 5.2 实体类信息详情 ................................ ................................ . 2 6 业务类信息 ................................ ................................ ......... 3 6.1 业务类信息类型 ................................ ................................ . 3 6.2 业务类信息详情 ................................ ................................ . 3 7 多媒体元素类信息 ................................ ................................ ... 6 7.1 多媒体元素类信息类型 ................................ ........................... 6 7.2 多媒体元素类信息详情 ................................ ........................... 6 附录A(资料性) 传感器新闻信息 ................................ ....................... 8 全国团体标准信息平台 T/CAPT 003 —2021 II 前言 本文件参照 GB/T 1.1 —2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提 出。 本文件由中国新闻技术工作者联合会归口。 本文件起草单位:新华通讯社通信技术局、北京语言大学信息科学学院、中国人民大学新闻学院、 北京星尘纪元智能科技有限公司、新华社媒体融合生产技术与系统国家重点实验室。 本文件主要起草人:王熠、饶高琦、唐铮、秦玉芳、徐铭锴、钱青青、邰沁清、杨溟、付蓉、刘一 闻、王立欢。 全国团体标准信息平台 T/CAPT 003—2021 1 中文新闻信息结构化标注规范 1 范围 本文件规定了中文新闻信息结构化标注的要求、标注规则和方法。 本文件适用于中文新闻领域信息内容的标注, 服务于新闻信息资产的分析挖掘、 知识发现和再利用, 为多维度检索、组成特定专题、关系图谱等积累数据基础,为新闻信息内容的人工标注、半自动化及自 动化标注应用提供指导和参考依据。 本文件的使用对象包括报刊、广播、电视、通讯社、新闻网站等新闻内容提供商及媒体应用与研究 机构。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 20092 中文新闻信息置标语言 GB/T 20093 中文新闻信息分类与代码 3 术语和定义 下列术语和定义适用于本文件。 3.1 策划类型 新闻内容与当前报道的新闻专题的关系。 注: 与新闻专题报道直接相关的称为程序稿,与新闻专题报道 进行周边报道和反馈的称为配合稿。 4 标注体系分类 中文新闻信息结构化标注通过分析总结新闻内容数据,按照标注体系划分为三个类别: a) 实体类信息:指客观存在的、包含新闻实体公共特征属性的信息。如新闻事件、事发时间、 主要人物等。 b) 业务类信息:指依据新闻领域内业务需求为导向的信息。如新闻场景、新闻背景、新闻情感 等。 c) 多媒体类信息:指在新闻图片、音频、视频中存在的信息。如:图片场景、图片人物、图片 属性、视频人物、视频场景、视频属性、地标建筑、音频人物、音频内容、其他。 5 实体类信息 5.1 实体类信息类型 实体类信息类型包括: —— 新闻事件 —— 事发时间 —— 相关时间 —— 事发地点 —— 相关地点 全国团体标准信息平台 T/CAPT 003 —2021 2 —— 新闻主体 —— 主要人物 —— 相关人物 —— 主要机构 —— 相关机构 5.2 实体类信息详情 5.2.1 新闻事件 新闻报道中对新闻事实的概要性描述。 标注要求:新闻事件分为命名新闻事件和一般新闻事件。命名新闻事件从配备固定的受限词表中选 取,一般新闻事件根据新闻报道内容开放式填写。可通过事件抽取 算法实现自动标注。 示例: “庆祝改革开放 40周年大会” “达沃斯论坛” 5.2.2 事发时间 新闻事件实际发生的时间。 标注要求:事件发生的当地时间。 示例:《习近平抵达印度金奈 出席中印领导人第二次非正式会晤》一文中提到“当地时间下午 2 时10分许,习 近平乘坐的专机抵达金奈国际机场。”则事发时间为“当地时间 2019年10月11日下午2时10分”。 5.2.3 相关时间 新闻事件事发时间之外,新闻报道中提及的时间。 标注要求:除新闻事件发生的时间以外提及的时间,要求不与发稿时间、事发时间重复。可通过自 然语言处理算法实现时间要素的分析和自动标注。 5.2.4 事发地点 新闻事件实际发生的地点。 标注要求:从新闻报道中分析发生地的行政区划、地理位置、地标设施、相关数据。 a) 行政区划。指国家为进行分级管理而实行的区域划分。 b) 地理位置。指对新闻发生地点的地理信息的定量刻画。 c) 设施。指人为建造的并在此中进行相关活动的地点,包括建筑和交通设施及地标等。 d) 相关数据。指新闻事件发生时所处环境的实时基础数据和历史基础数据,主要由各类传感器 采集,包括定 位坐标数据、时间数据、设施数据、历史影像数据等,如设施扫描数据、卫星 数据、历史图片与视频等。该类数据主要通过传感器技术采集,具有实时、连续、可比较、 可解释与不可更改的特性。可用于新闻报道中实时记录、事后溯源、复现、分析、深度调查 等的原始、基础依据,适用区块链、机器学习、无监督学习等技术对媒体挖掘与调查分析的 辅助应用 示例1:地点为行政区划的,比如北京市海淀区、纽约市等 示例2:地点为地理位置的,比如北纬 35°等 示例3:地点为地标设施的,比如欢乐谷、埃菲尔铁塔等 示例4:地点为相关数据的,比如由传感器采集、设施扫描的数据等 5.2.5 相关地点 非新闻事件实际发生的地点,新闻报道中提到的行政区划、地理位置,地标设施,相关数据。 标注要求:从新闻报道中分析提及的行政区划、地理位置、地标设施、相关数据,要求不与事发地 点重复。 可通过自然语言处理算法实现相关地点要素的分析和自动标注。 示例见5.2.4 5.2.6 主要人物 新闻发生涉及的主体人物。 全国团体标准信息平台 T/CAPT 003 —2021 3 标注要求: 在新闻报道中占主要成分, 常见于标题或导语中。 需将主要人物的职务和姓名一同标注。 可通过机器学习、自动标注等 进行人物要素的分析。 示例: “美国总统特朗普表示我亲眼看到了非常了不起的中华文明和中国取得的非常伟大的成就。

pdf文档 T-CAPT 003—2021 中文新闻信息结构化标注规

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
T-CAPT 003—2021 中文新闻信息结构化标注规 第 1 页 T-CAPT 003—2021 中文新闻信息结构化标注规 第 2 页 T-CAPT 003—2021 中文新闻信息结构化标注规 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2022-12-18 17:35:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。