专利自然语言模型训练方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221084851 1.3 (22)申请日 2022.07.19 (71)申请人北京龙智数科科技服务有限公司地址 100020 北京市朝阳区北苑小街8号6 号楼五层5 305 (72)发明人张文俊　暴宇健　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师杨超 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/253(2020.01) G06F 40/30(2020.01) (54)发明名称自然语言模型训练方法、装置、电子设备及存储介质 (57)摘要本申请提供了一种自然语言模型训练方法、装置、电子设备及存储介质。该方法包括：对原始文件语料执行分词操作得到多个词语，并确定每个词语对应的词性代码；基于词性对照表分别将每个词语的词性代码转换为目标词性信息，利用预设的词性标识符以及目标词性信息，生成每个词语对应的先验信息；基于每个词语以及词语对应的先验信息生成每个词语对应的二元组，其中每个词语对应的二元组之间利用预设的分隔符进行分隔；将全部词语对应的二元组所组成的数据集作为自然语言模型训练时的训练集，将训练集输入到自然语言模型中进行多轮训练，得到训练后的自然语言模型。本公开能够缩短自然语言模型训练时间、提高中文语料理解能力。权利要求书2页说明书9页附图3页 CN 115186661 A 2022.10.14 CN 115186661 A 1.一种自然语言模型训练方法，其特征在于，包括：获取用于模型预训练的原始文件语料，对原始文件语料执行分词操作得到多个词语，并确定每个所述词语对应的词性代码；基于预先配置的词性对照表，分别将每个所述词语对应的词性代码转换为目标词性信息，利用预设的词性标识符以及所述目标词性信息，生成每个所述词语对应的先验信息；基于每个所述词语以及所述词语对应的先验信息生成每个词语对应的二元组，其中每个所述词语对应的二元组之间利用预设的分隔符进行分隔；将全部所述词语对应的二元组所组成的数据集作为自然语言模型训练时的训练集，将所述训练集输入到所述自然语言模型中进行多轮训练，得到训练后的自然语言模型。 2.根据权利要求1所述的方法，其特征在于，所述原始文件语料为中文语料，所述获取用于模型预训练的原始文件语料，对原始文件语料执行分词操作得到多个词语，包括：获取用于模型预训练的原始中文语料，利用分词工具对所述原始中文语料执行分词操作得到分词结果，所述分词结果中包含所述原始中文语料中的全部词语，其中所述分词工具包括Jieba 中文分词工具。 3.根据权利要求1所述的方法，其特征在于，所述基于预先配置的词性对照表，分别将每个所述词语对应的词性代码转换为目标词性信息，包括：根据每个所述词语对应的词性代码，查询所述词性对照表中与所述词性代码对应的目标词性信息，以便确定每个所述词语对应的目标词性信息，其中所述词性对照表中包含词性代码与目标词性信息之间的映射关系，所述目标词性信息包括中文词性信息。 4.根据权利要求1所述的方法，其特征在于，所述利用预设的词性标识符以及所述目标词性信息，生成每个所述词语对应的先验信息，包括：基于预设的词性标识符，将每个所述词语对应的所述目标词性信息分别与所述词性标识符进行融合，得到每个所述词语对应的先验信息，其中所述先验信息由所述词性标识符以及所述目标词性信息构成，所述先验信息用于表征所述词语对应的中文词性。 5.根据权利要求1所述的方法，其特征在于，所述基于每个所述词语以及所述词语对应的先验信息生成每个词语对应的二元组，包括：分别将每个所述词语与该词语对应的先验信息进行组合，得到所述词语对应的二元组，以空格作为分隔符将不同词语对应的二元组之间进行分隔，其中所述二元组中包含词语以及词语对应的先验信息。 6.根据权利要求1所述的方法，其特征在于，在所述将所述训练集输入到所述自然语言模型中进行多轮训练之后，所述方法还包括：将预训练后得到的自然语言模型部署到线上，以便利用所述训练后的自然语言模型对线上获取到的中文语料进行词性识别，其中所述自然语言模型包括BERT模型。 7.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标词性信息包括中文词性信息、英文词性信息和数字标识信息。 8.一种自然语言模型训练装置，其特征在于，包括：获取模块，被配置为获取用于模型预训练的原始文件语料，对原始文件语料执行分词操作得到多个词语，并确定每个所述词语对应的词性代码；转换模块，被配置为基于预先配置的词性对照表，分别将每个所述词语对应的词性代权　利　要　求　书 1/2 页 2 CN 115186661 A 2码转换为目标词性信息，利用预设的词性标识符以及所述目标词性信息，生成每个所述词语对应的先验信息；生成模块，被配置为基于每个所述词语以及所述词语对应的先验信息生成每个词语对应的二元组，其中每个所述词语对应的二元组之间利用预设的分隔符进行分隔；训练模块，被配置为将全部所述词语对应的二元组所组成的数据集作为自然语言模型训练时的训练集，将所述训练集输入到所述自然语言模型中进行多轮训练，得到训练后的自然语言模型。 9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115186661 A 3

专利 自然语言模型训练方法、装置、电子设备及存储介质

专利自然语言模型训练方法、装置、电子设备及存储介质