专利融入词语信息的中文拼写纠错方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210850675.X (22)申请日 2022.07.19 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人车万翔　王重元　赵妍妍　刘挺　 (74)专利代理机构哈尔滨华夏松花江知识产权代理有限公司 23213 专利代理师岳昕 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称融入词语信息的中文拼写纠错方法 (57)摘要融入词语信息的中文拼写纠错方法，涉及自然语言处理技术领域，针对现有技术中由于缺少词语信息，并不能对整个词都写错的词语进行纠错的问题，本申请在模型当中有效地引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。本申请在模型中引入专门的神经网络结构用于表示词语信息，并将每个字所在词的词语信息融入到字的表示当中，从而有效引入了词语信息，增强了模型的语义表示能力，大幅提升了模型对整个词都写错的情况的纠错能力，提升了模型整体文本纠错能力。权利要求书1页说明书4页附图2页 CN 115169331 A 2022.10.11 CN 115169331 A 1.融入词语信息的中文拼写纠错方法，其特征在于包括以下步骤：步骤一：获取文本纠错数据，所述文本纠错数据包括待检错句子和纠正后句子；步骤二：对待检错句子进行分词，得到分词结果；步骤三：将待检错句子和分词结果作为输入，将纠正后句子作为输出，训练纠错模型；步骤四：利用训练好的纠错模型进行中文拼写纠错。 2.根据权利要求1所述的融入词语信息的中文拼写纠错方法，其特征在于所述分词通过分词模型进行。 3.根据权利要求2所述的融入词语信息的中文拼写纠错方法，其特征在于所述纠错模型为融入词语信息的中文拼写纠错模型，所述融入词语信息的中文拼写纠错模型具体执行如下步骤：步骤1：利用预训练模型对输入句子中的每个字进行编码，得到字表示；步骤2：利用双向长短时记忆网络将字表示转换为双向上下文字表示；步骤3：获取输入句子的分词结果，并依据输入句子的分词结果以及双向上下文字表示得到词表示；步骤4：将字表示与词表示进行拼接，得到包含词语信息的字向量；步骤5：基于包含词语信息的字向量，并通过线性层得到纠错结果。 4.根据权利要求3所述的融入词语信息的中文拼写纠错方法，其特征在于所述预训练模型为BERT。 5.根据权利要求3所述的融入词语信息的中文拼写纠错方法，其特征在于所述双向上下文字表示为： {D1,…,Dt}＝BiLSTM({C1,…,Ct}) 其中， {C1,…,Ct}为字表示。 6.根据权利要求5所述的融入词语信息的中文拼写纠错方法，其特征在于所述词表示为： Wk＝Dj‑Di 其中， k为当前词的位置， j为词尾字的位置， i 为词首字的位置。 7.根据权利要求6所述的融入词语信息的中文拼写纠错方法，其特征在于所述包含词语信息的字向量表示为： Ei＝concatanate(Wk+Di)。 8.根据权利要求7所述的融入词语信息的中文拼写纠错方法，其特征在于所述纠错结果表示为： {A1,…,Ak}＝Linear(E1,…,Et})。权　利　要　求　书 1/1 页 2 CN 115169331 A 2融入词语信息的中文拼写纠错方法技术领域 [0001]本发明涉及自然语言处理技术领域，具体为融入词语信息的中文拼写纠错方法。背景技术 [0002]中文拼写纠错任务是给定一句中文文本，检查文本中是否存在错别字，并给出错别字的纠正结果。基于BERT预训练模型的序列标注方法是一种常见的文本纠错方法，这种方法使用注意力机制将上下文信息融入到每一个字中，然后独立地考虑每一个字是否是错别字以及错别字应该被纠正为哪个字。但是这种方法存在很大的局限性，它无法明确地将词语信息引入到每一个字中。这种方法在考虑词语中的某个字时，是不会着重参考词语中的其他字的。当整个词语都写错时，在修改词语中的任意一个字时必须要着重参考整个词语才能将整个词语纠正正确。因此，它对于整个词语都写错的情况纠正的效果不佳。例如，在含有错别字的句子 “已经早上九点半了，如果再不走就赤道了 ”中，“赤道”是错别字，正确的修改应该为将 “赤道”修改为“迟到”。为了能解决这一类词语错误，必须要使用到词语信息。现有的方法由于缺少词语信息，难以解决此类问题。发明内容 [0003]本发明的目的是：针对现有技术中由于缺少词语信息，并不能对整个词都写错的词语进行纠错的问题，提出融入词语信息的中文拼写纠错方法。 [0004]本发明为了解决上述技术问题采取的技术方案是： [0005]融入词语信息的中文拼写纠错方法，包括以下步骤： [0006]步骤一：获取文本纠错数据，所述文本纠错数据包括待检错句子和纠正后句子； [0007]步骤二：对待检错句子进行分词，得到分词结果； [0008]步骤三：将待检错句子和分词结果作为输入，将纠正后句子作为输出，训练纠错模型； [0009]步骤四：利用训练好的纠错模型进行中文拼写纠错。 [0010]进一步的，所述分词通过分词模型进行。 [0011]进一步的，所述纠错模型为融入词语信息的中文拼写纠错模型，所述融入词语信息的中文拼写纠错模型具体执行如下步骤： [0012]步骤1：利用预训练模型对输入句子中的每个字进行编码，得到字表示； [0013]步骤2：利用双向长短时记忆网络将字表示转换为双向上下文字表示； [0014]步骤3：获取输入句子的分词结果，并依据输入句子的分词结果以及双向上下文字表示得到词表示； [0015]步骤4：将字表示与词表示进行拼接，得到包含词语信息的字向量； [0016]步骤5：基于包含词语信息的字向量，并通过线性层得到纠错结果。 [0017]进一步的，所述预训练模型为BERT。 [0018]进一步的，所述双向上下文字表示为：说　明　书 1/4 页 3 CN 115169331 A 3

专利 融入词语信息的中文拼写纠错方法

专利融入词语信息的中文拼写纠错方法