说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202280002307.8 (22)申请日 2022.05.06 (85)PCT国际申请进入国家阶段日 2022.07.21 (86)PCT国际申请的申请数据 PCT/CN2022/091181 2022.05.06 (71)申请人 湖南师范大学 地址 410081 湖南省长 沙市岳麓区麓山路 36号 (72)发明人 李斌  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 李雪静 (51)Int.Cl. G10L 15/26(2006.01)G06F 9/451(2018.01) (54)发明名称 一种基于自建模板的多模态快速转写及标 注系统 (57)摘要 本申请公开一种基于自建模板的多模态快 速转写及标注系统, 包括: 第一获取单元获取媒 体文件对应的项目工程文件; 第二获取单元根据 项目工程文件的目录, 获取媒体文件的音频数 据; 分段单元根据音 频数据的幅度对音频数据进 行分段处理得到音频数据的句段数据; 显示单元 在操作界面上显示句段数据, 操作界面用于提供 展示界面和边界轴控件; 处理单元响应于针对边 界轴控件的编辑操作, 对句段数据进行边界调整 或者句段合并, 得到处理后的句段数据, 然后进 行语音识别处理得到转写文本; 转写单元根据转 写文本更新项目工程文件; 播放单元在展示界面 上播放更新后的项目工程文件时, 显示媒体文件 和转写文本中与媒体文件的播放进度对应的文 本片段。 权利要求书4页 说明书17页 附图8页 CN 115136233 A 2022.09.30 CN 115136233 A 1.一种基于自建模板的多模态快速转写及标注方法, 其特 征在于, 所述方法包括: 获取待处 理的媒体文件 对应的项目工程文件; 根据所述项目工程文件的目录, 获取 所述媒体文件的音频 数据; 根据所述音频数据的幅度对所述音频数据进行分段处理, 得到所述音频数据的句段数 据; 在操作界面上显示所述音频数据的句段数据, 所述操作界面用于提供展示界面和边界 轴控件; 响应于针对所述边界轴 控件的编 辑操作, 对所述句段数据进行边界调整处理或者句段 合并处理, 得到处 理后的句段 数据; 对所述处 理后的句段 数据进行语音识别处 理得到转写 文本; 根据所述转写文本对所述项目工程文件进行更新, 得到更新后的项目工程文件, 所述 更新后的项目工程文件携带 所述转写文本; 在所述展示界面上播放所述更新后的项目工程文件时, 显示所述媒体文件和所述转写 文本中与所述 媒体文件的播 放进度对应的文本片段。 2.如权利要求1所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 响应于针对所述边界轴控件的编辑操作, 对所述句段数据进 行边界调整处理或者句段合并 处理, 得到处 理后的句段 数据, 包括: 响应于针对所述句段数据中活动句段的第 一边界轴 控件的活动端的第 一编辑操作, 控 制所述第一 边界轴控 件的活动端移动至第一 位置; 判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界 轴控件, 所述第二边界轴控件为第二句段对应的边界轴控件, 所述活动句段与所述第二句 段为相邻句段; 若在所述第 一位置处存在与 所述第一边界轴 控件的活动端相重叠的第 二边界轴 控件, 则将所述活动句段与所述第二句段进行合并处 理。 3.如权利要求2所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 在所 述判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界轴 控件之后, 还 包括: 若在所述第一位置处不存在与所述第一边界轴控件的活动端相重叠的第二边界轴控 件, 则根据所述第一 位置调整所述活动句段的边界。 4.如权利要求1所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 响应于针对所述边界轴控件的编辑操作, 对所述句段数据进 行边界调整处理或者句段合并 处理, 得到处 理后的句段 数据, 包括: 响应于针对所述句段数据中的活动句段的第 一边界轴控件的活动端的第 二编辑操作, 控制所述第一 边界轴控 件的活动端移动至第二 位置; 判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界 轴控件, 所述第三边界轴控件为第三句段对应的边界轴控件, 所述活动句段与所述第三句 段为非相邻句段; 若在所述第 二位置处存在与 所述第一边界轴 控件的活动端相重叠的第 三边界轴 控件, 则将所述活动句段、 所述第三句段、 以及所述活动句段与所述第三句段之间的中间句段进权 利 要 求 书 1/4 页 2 CN 115136233 A 2行合并处 理。 5.如权利要求4所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 在所 述判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界轴 控件之后, 还 包括: 若在所述第二位置处不存在与所述第一边界轴控件的活动端相重叠的第三边界轴控 件, 则判断所述第一边界轴控件的静止端位置至所述第二位置之 间的目标区域内是否与任 一所述中间句段重 叠; 若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内不与任一所 述中间句段重 叠, 则根据所述第二 位置调整所述活动句段的边界; 或者 若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内与至少一个 所述中间句段重叠, 则将所述活动句段、 与所述 目标区域存在相 重叠关系的所有中间句段 进行合并处 理。 6.如权利要求1所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 根据所述音频数据的幅度对所述音频数据进行分段处理, 得到所述音频数据的句段数据, 包括: 根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进行分段处理, 得到所述音频 数据的句段 数据。 7.如权利要求6所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进 行分段处理, 得到 所述音频 数据的句段 数据, 包括: 获取所述音频 数据的初始分段 数据; 判断所述初始分段 数据中当前分段内的平均幅度是否大于所述噪音幅度阈值; 若所述初始分段数据中当前分段内的平均幅度大于所述噪音幅度阈值, 则对所述当前 分段标记为有 声段; 对标记为有声段的所述当前分段内的音频点进行句段起点和句段终点的裁剪, 以去除 所述当前分段内的静音或噪声; 若所述裁剪后的当前分段的起点位置与 上一个分段的终点位置相同, 则将所述裁剪后 的当前分段和所述上一个分段进行合并; 若所述裁剪后的当前分段的起点位置与 所述上一个分段的终点位置不相同, 则将所述 裁剪后的当前分段 标记为一个新的分段; 遍历处理所述音频 数据的初始分段 数据, 得到所述音频 数据的句段 数据。 8.如权利要求7所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 获取所述音频 数据的初始分段 数据, 包括: 根据预设语言模板对所述音频数据进行初始分段处理, 获取所述音频数据的初始分段 数据。 9.如权利要求1所述的基于自建模板的多模态快速转写及标注方法, 其特征在于, 所述 获取待处 理的媒体文件 对应的项目工程文件, 包括: 获取待处 理的媒体文件; 检测所述 媒体文件是否已创建对应的项目工程文件;权 利 要 求 书 2/4 页 3 CN 115136233 A 3

.PDF文档 专利 一种基于自建模板的多模态快速转写及标注系统

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自建模板的多模态快速转写及标注系统 第 1 页 专利 一种基于自建模板的多模态快速转写及标注系统 第 2 页 专利 一种基于自建模板的多模态快速转写及标注系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:23:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。