专利一种引入先验知识的少样本问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210331379.9 (22)申请日 2022.03.31 (71)申请人江苏瑞中数据股份有限公司地址 210012 江苏省南京市雨花台区软件大道180号申请人南瑞集团有限公司 (72)发明人赵宇轩　张弦　张锦辉　王威　赵仰东　刘文松　林峰　俞俊　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师柏尚春 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/33(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/126(2020.01) G06N 3/04(2006.01) (54)发明名称一种引入先验知识的少样本问答方法 (57)摘要本发明公开了一种引入先验知识的少样本问答方法，包括以下步骤： S101预制少样本业务领域知识图谱； S102获取用户端查询； S103将所述查询复制两份，分别输入基于查询语义的字特征模块和融合所述业务领域知识的词特征模块进行特征提取，输出提取的字特征向量和词特征向量； S104将所述字特征向量和所述词特征向量拼接，输入经过先验知识增强的相关性计算模型，得到各回答的相关性得分； S105将所述相关性得分最高的回答返回给用户。本发明提供一种引入先验知识的少样本问答方法，使得少样本情况下问答模型准确度提升。权利要求书2页说明书7页附图3页 CN 114860899 A 2022.08.05 CN 114860899 A 1.一种引入先验知识的少样本问答方法，其特征在于，包括以下步骤： S101预制少样本业务领域知识图谱； S102获取用户端查询； S103将所述查询复制两份，分别输入基于查询语义的字特征模块和融合所述业务领域知识的词特征模块进行特征提取，输出提取的字特征向量和词特征向量； S104将所述字特征向量和所述词特征向量拼接，输入经过先验知识增强的相关性计算模型，得到各回答的相关性得分； S105将所述相关性得分最高的回答返回给用户。 2.根据权利要求1所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S101包括： S201收集少样本所处业务领域的业务点； S202基于所述业务领域的专家经验，归纳所述业务点的类别和所述业务点间的关系； S203以所述业务点作为实体，以所述业务点间关系作为实体间关系，以所述业务点的类别及所述关系作为本体，构建业务领域知识图谱。 3.根据权利要求1所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S103中基于查询语义的字特征模块提取，包括： S301将所述查询分字； S302将所述分字序列预处理后输入RoBERTa预训练模型中进行特征提取，提取得到特征矩阵； S303将所述特征矩阵的首向量作为所述字特征向量输出。 4.根据权利要求1所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S103中融合所述业务领域知识的词特征提取，包括： S401将所述查询用分词工具分词，其中，所述分词工具引入了所述业务领域知识图谱中所有实体名称的自定义词典； S402将所述分词序列中每个词与所述业务领域知识图谱中的实体做链接，将与所述链接到的实体存在关联的三元组信息注入至所述分词序列，得到分词图； S403将所述分词图输入K ‑BERT预训练模型中进行特征提取，提取得到特征矩阵； S404将所述特征矩阵的首向量作为所述词特征向量输出。 5.根据权利要求4所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S402中将所述分词序列中每个词与所述业务领域知识图谱中的实体做链接，包括：统计所述词中每个字出现次数，得到所述字词袋；统计所述业务领域知识图谱中每个所述实体名称中每个字出现次数，得到每个所述实体的词袋；使所述词与所述业务领域知识图谱中每个所述实体的名称做相似度计算，通过如下公式计算所述相似度得分：其中， simscorek是所述第k个实体与所述词的相似度得分， n是所述字词袋和所述实体权　利　要　求　书 1/2 页 2 CN 114860899 A 2词袋的并集的长度， xi是所述并集中第i个字在所述词中的出现次数， yi是所述并集中第i个字在所述实体的名称中的出现次数；如果所述相似度得分最高的所述实体得分超过了链接阈值，则判断所述词与所述实体链接。 6.根据权利要求1所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S104中相关性计算模型为： S501将各所述回答输入所述字特征模块进行特征提取，输出所述回答的所述字特征向量； S502将所述拼接向量输入基于自注意力机制的Self ‑Attention第一编码层进行编码，输出第一编码向量； S503将所述第一编码向量与所述回答的所述字特征向量拼接，输入基于自注意力机制的Self‑Attention第二编码层进行编码，输出第二编码向量； S504将所述第二编码向量输入基于批归一化的BatchNormalization归一化层进行归一化以加速收敛，输出归一化向量； S505将所述归一化向量输入2维Softmax全连接层进行分类，所述第2维分类概率值即所述回答的相关性得分。 7.根据权利要求1所述的一种引入先验知识的少样本问答方法，其特征在于，所述步骤 S104中所述相关性计算模型经过先验知识增强的过程包括：将带有回答标注信息的少数原样本分词，所述回答标注信息由业务人员根据样本的所述问题而确定的；将所述分词序列中每个词与所述业务领域知识图谱中的实体做链接；根据所述业务领域知识图谱的本体，将链接成功的词用其他相同所述实体类型的所述实体的名称做替换，得到大量候选增强样本；将所述原样本的文本经过所述字特征模块进行所述字特征提取，提取到所述原样本的字特征向量；将所述候选增强样本文本经过所述字特征模块进行所述字特征提取，将提取到候选样本的特征向量与所述原样本的字特征向量计算向量距离，通过如下公式计算向量距离：其中， xi和yi分别为所述原样本字特征向量和所述候选样本字特征向量在第i维的数值；舍弃所述向量距离超过向量距离阈值的所述候选样本，剩余经过筛选的所述候选样本组成所述先验知识增强样本数据；以所述先验知识增强样本数据的所述问题作输入，以所述先验知识增强样本数据的所述回答标注信息作目标输出，训练所述相关性计算模型。权　利　要　求　书 2/2 页 3 CN 114860899 A 3

专利 一种引入先验知识的少样本问答方法

专利一种引入先验知识的少样本问答方法