专利基于深度学习的藏语短语结构识别模型的构建方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210646748.3 (22)申请日 2022.06.09 (71)申请人青海师范大学地址 810000 青海省西宁市城西区五四西路38号 (72)发明人仁青卓么　关白　尕藏卓玛　 (74)专利代理机构北京细软智谷知识产权代理有限责任公司 1 1471 专利代理师刘晓丹 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01)G06F 16/35(2019.01) (54)发明名称基于深度学习的藏语短语结构识别模型的构建方法及装置 (57)摘要本发明涉及一种基于深度学习的藏语短语结构识别模型的构建方法及装置，包括以单垂符或双垂符为标志从原始语料中获取多个藏语句子，抽取多个所述藏语句子中的部分藏语句子作为处理文本；对所述处理文本进行短语结构划分并标注，对标注后的处理文本进行分析，构成短语结构树；以所述短语结构树中的短语结构为训练文本，对非线性神经网络语言模型进行训练至模型收敛，得到藏语短语结构识别模型。本发明依据树库建立的模型提高了自动句法分析和机器翻译的准确率，推进了机器理解自然语言的步伐。藏语短语结构树库的构建，不仅可以快速有效大量处理相关数据，而且还能综合提高识别性能。权利要求书2页说明书9页附图2页 CN 115017902 A 2022.09.06 CN 115017902 A 1.一种基于深度学习的藏语短语结构识别模型的构建方法，其特征在于，包括：以单垂符或双垂符为标志从原始语料中获取多个藏语句子，作为处理文本；对所述处理文本进行短语结构划分并标注，对标注后的处理文本进行分析，构成短语结构树；以所述短语结构树中的短语结构为训练文本，对非线性神经网络语言模型进行训练至模型收敛，得到藏语短语结构识别模型。 2.根据权利要求1所述的方法，其特征在于，所述对所述处理文本进行短语结构划分并标注，包括：将处理文本中由两个或两个以上词类形成的短语的左边和右边添加括号，形成相应的括号对，对所述括号对内的短语标记相应的短语结构类型的标记，并根据语言知识进行校对；根据所述标注以构成各类短语的核心成分作为标志，获得短语结构的候选项，利用统计算法和短语规则库对所述候选项进行检测，提取短语结构。 3.根据权利要求1所述的方法，其特征在于，采用短语结构划分规则对所述处理文本进行短语结构划分并标注；所述短语结构划分规则，包括：核心词的描述，用于分析短语结构中核心词的功能和语义搭配能力；外部特征和功能描述，用于在较长的短语或者嵌套短语中，分析其组合特征和与其他短语间的从属关系和组合规则；短语结构中的内部关系描述，用于分析短语结构中各组成成分间的语义关系。 4.根据权利要求1所述的方法，其特征在于，所述对所述处理文本进行短语结构划分并标注，包括：先对处理文本进行词类的划分与词性的标注，再进行短语结构的标注；对所述处理文本的句子层次和句法信息进行标注。 5.根据权利要求1所述的方法，其特征在于，采用短语结构语法对标注后的处理文本进行分析，得到的短语结构树由终节点、非终结点以及短语标记三部分组成；采用依存语法对标注后的处理文本进行分析，得到的短语结构树由是有一定序列的集合组成的，描述句子中各成分之间的语法和语义关系来解释句法结构，即描述的是句子中词与词之间的支配关系，通常情况下是谓语作为句子的核心支配其他成分，而其本身不受任何成分的支配。 6.根据权利要求1所述的方法，其特征在于，所述藏语短语结构识别模型的输入是k元文法，输出是下一个词的概率分布， k个上下文词ω1： k当作一个单词窗口：每个词ω和词嵌入的v(ω)∈Rdω对应，输入向量x是k个词的串联井接； x＝[ ν(ω1)； ν(ω2)； …； ν(ωk)]；输入的x之后被传给一个拥有一个或多个隐层的多层感知器： y＝P(ωi丨ω1： k ＝LM(ω1： k)＝softmax(hW2+b2)； h＝g(xW1+b1)； x＝[ ν(ω1)； ν(ω2)； …； ν(ωk)]；权　利　要　求　书 1/2 页 2 CN 115017902 A 2ν(ω)＝E[ω]；其中， V是一个有限的词表，包括针对未登录单词的唯一标识UNK，句子开头的补齐符号 <s>，以及序列结尾的标识< /s>。 7.一种基于深度学习的藏语短语结构识别模型的构建装置，其特征在于，包括：获取模块，用于以单垂符或双垂符为标志从原始语料中获取多个藏语句子，作为处理文本；标注模块，用于对所述处理文本进行短语结构划分并标注，对标注后的处理文本进行分析，构成短语结构树；训练模块，用于以所述短语结构树中的短语结构为训练文本，对非线性神经网络语言模型进行训练至模型收敛，得到藏语短语结构识别模型。权　利　要　求　书 2/2 页 3 CN 115017902 A 3

专利 基于深度学习的藏语短语结构识别模型的构建方法及装置

专利基于深度学习的藏语短语结构识别模型的构建方法及装置