说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210703906.4 (22)申请日 2022.06.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 申请人 浙江大学滨江研究院 (72)发明人 潘晓华 沈诗婧 张志伟 尹建伟 (74)专利代理 机构 杭州天勤知识产权代理有限 公司 33224 专利代理师 高燕 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于主动学习的小样本文本标注方法 及装置 (57)摘要 本发明公开了一种基于主动学习的小样本 文本标注方法, 包括: 获取已标注样本集与未标 注样本集; 使用已标注样本集对 预构建的标注模 型进行训练, 使用未标注样本集对训练后的标注 模型进行测试; 利用判断策略从测试结果中选取 出至少一个不确定性文本, 构建不确定性文本 集; 利用预先构建的主动学习框架, 对步骤3获得 的不确定性文本集进行数据处理与人工标注, 获 得代表性标注样本集; 利用代表性标注样本集, 对标注模型进行迭代训练, 获得最终的标注模 型。 本发明还公开了一种基于上述方法构建的文 本标注装置。 本发明提供的方法通过引入判断策 略与主动学习框架, 提高了小样本资源的利用 率, 也缓解人工标注的压力, 从而获得高质量的 标注模型。 权利要求书2页 说明书6页 附图1页 CN 115129872 A 2022.09.30 CN 115129872 A 1.一种基于主动学习的小样本文本标注方法, 其特 征在于, 包括: 步骤1、 获取已标注样本集与未 标注样本集; 步骤2、 使用所述已标注样本集对预构建的标注模型进行训练, 使用所述未标注样本集 对训练后的标注模型进行测试, 获得相应的测试 结果; 步骤3、 对步骤2获得的测试结果, 利用判断策略从所述测试结果中选取出至少一个不 确定性文本, 构建不确定性文本集; 步骤4、 利用预先构建的主动学习框架, 对步骤3获得的不确定性文本集进行数据处理 与人工标注, 获得代 表性标注样本集, 同时将对应的样本集从所述未 标注样本集中移除; 步骤5、 利用步骤4获得的代表性标注样本集, 对步骤2训练后的标注模型进行迭代训 练, 重复步骤2 ‑4直至满足 终止条件, 获得最终高质量的标注模型。 2.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 2中的标注模型 是基于Bi LSTM模型与CRF序列化标注算法进行构建。 3.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 3中的判断策略是通过计算测试结果中未标注文本的信息熵函数, 将信息熵小于预设值的 未标注文本 视为不确定性文本 。 4.根据权利要求3所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述信 息 熵函数的表达式如下: 式中, n表示类别数, p(yi|x)表示样本x被文本 标注模型分类为第i个标签的概率, θ表示 不确定性文本的预设值。 5.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 4中的主动学习框架包括特征提取模块, 降维模块以及聚类模块, 所述特征提取模块对输入 的不确定性文本进行特征提取, 将提取获得 的多种特征信息输入至降维模块, 所述降维模 块将输入的多种特征信息进行降维, 舍去部分特征信息后获得关键特征信息, 所述聚类模 块根据输入的关键特征信息, 对不确定性文本进行聚类划分, 输出聚类结果中每一个簇类 中的中心样本, 构建代 表性未标注样本集。 6.根据权利要求5所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述主动 学习框架是基于BERT模型的特 征提取主干网络进行构建。 7.根据权利要求5所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述代表 性未标注样本集的具体表达式如下: {x|min( ‖x‑μi‖2),x∈Ci,i=1,2…k} 权 利 要 求 书 1/2 页 2 CN 115129872 A 2式中, k表述簇 的个数, x表示样本, Ci表示第i个簇类, μi表示Ci中的均值向量, E表示最 小化平方误差 。 8.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 5中的终止条件为当轮学习测试中, 不确定性文本集与未标注样本集的比值不超过阈值时, 判断标注模型 学习停止, 完成模型的训练。 9.一种文本标注装置, 包括计算机存储器、 计算机处理器以及存储在所述计算机存储 器中并可在所述计算机处理器上执行 的计算机程序, 其特征在于, 所述计算机存储器中采 用权利要求1所述的最终高质量的标注模型; 所述计算机处理器执行所述计算机程序时实 现以下步骤: 将待标注的文本内容输入至所述标注模型中, 经计算与分析, 输出完成标注的 文本内容。权 利 要 求 书 2/2 页 3 CN 115129872 A 3
专利 一种基于主动学习的小样本文本标注方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 14:07:18
上传分享
举报
下载
原文档
(521.5 KB)
分享
友情链接
ISO 8538 1999 Aerospace — Nuts, hexagonal, self-locking, with counterbore and captive washer, with MJ threads, classifications 1 100 MPa (at ambient temperature.pdf
ISO 10058-3 2008 Chemical analysis of magnesite and dolomite refractory products (alternative to the X-ray fluorescence method) — Part 3 Flame atomic absorption spectrophotometry.pdf
ISO 5455 1979 Technical drawings — Scales.pdf
ISO IEC TR 15413 2001 Information technology — Font services — Abstract service def.pdf
ISO 21849 2022 Aircraft and space — Industrial data — Product identification and traceability.pdf
ISO 23132 2020 Road vehicles Extended Vehicle (ExVe) time critical applications General requirements definitions and classification methodology of time-constrained situations related to Road and ExV.pdf
ISO-TS 20428 2024 Genomics Informatics Data elements and their metadata for describing structured clinical genomic sequence information in electronic health records.pdf
ISO 1598 1990 Plastics - Cellulose acetate — Determination of insoluble particles.pdf
ISO 25178-604 2013 Geometrical product specifications (GPS) — Surface texture Areal — Part 604 Nominal characteristics of non-contact (cohe.pdf
ISO 22241-1 2019 Diesel engines — NOx reduction agent AUS 32 — Part 1 Quality requirements.pdf
GB-T 20159.2-2008 环境条件分类 环境条件分类与环境试验之间的关系及转换指南 运输.pdf
GB-T 6370-2012 表面活性剂 阴离子表面活性剂 水中溶解度的测定.pdf
GB-T 28954-2012 汽车发动机 旋装式机油滤清器 连接尺寸.pdf
GB-T 39281-2020 气体保护电弧焊用高强钢实心焊丝.pdf
GB-T 40017-2021 信息技术 系统间远程通信和信息交换 社区节能控制异构网络融合与可扩展性.pdf
GB-T 43458-2023 二手货出口贸易.pdf
GB-T 690-2008 化学试剂 苯.pdf
GB-T 968-2007 丝锥螺纹公差.pdf
GB-T 42462-2023 化妆品色谱分析结果确认准则.pdf
GB-T 43523-2023 信息与文献 应急准备和响应.pdf
1
/
3
10
评价文档
赞助1.5元 点击下载(521.5 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。