(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210850675.X
(22)申请日 2022.07.19
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 车万翔 王重元 赵妍妍 刘挺
(74)专利代理 机构 哈尔滨华夏松花江知识产权
代理有限公司 23213
专利代理师 岳昕
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
融入词语信息的中文拼写纠错方法
(57)摘要
融入词语信息的中文拼写纠错方法, 涉及自
然语言处理技术领域, 针对现有技术中由于缺少
词语信息, 并不能对整个词都写错的词语进行纠
错的问题, 本申请在模型当中有效地引入了词语
信息, 增强了模型的语义表示能力, 大幅提升了
模型对整个词都写错的情况的纠错能力, 提升了
模型整体文本纠错能力。 本申请在模 型中引入专
门的神经网络结构用于表示词语信息, 并将每个
字所在词的词语信息融入到字的表 示当中, 从而
有效引入了词语信息, 增强了模 型的语义表示能
力, 大幅提升了模型对整个词都写错的情况的纠
错能力, 提升 了模型整体文本纠错能力。
权利要求书1页 说明书4页 附图2页
CN 115169331 A
2022.10.11
CN 115169331 A
1.融入词语信息的中文拼写纠错方法, 其特 征在于包括以下步骤:
步骤一: 获取文本纠错数据, 所述文本纠错数据包括待检错句子和纠正后句子;
步骤二: 对待检错句子进行分词, 得到分词结果;
步骤三: 将待检错句子和分词结果作为输入, 将纠正后句子作为输出, 训练纠错模型;
步骤四: 利用训练好的纠错模型进行中文拼写纠错。
2.根据权利要求1所述的融入词语信息的中文拼写纠错方法, 其特征在于所述分词通
过分词模型进行。
3.根据权利要求2所述的融入词语信息的中文拼写纠错方法, 其特征在于所述纠错模
型为融入词语信息的中文拼写纠错模型, 所述融入词语信息的中文拼写纠错模型具体执行
如下步骤:
步骤1: 利用预训练模型对输入句子中的每 个字进行编码, 得到 字表示;
步骤2: 利用双向长短时记 忆网络将字表示 转换为双向上 下文字表示;
步骤3: 获取输入句子的分词结果, 并依据输入句子的分词结果以及双向上下文字表示
得到词表示;
步骤4: 将字表示与词表示进行拼接, 得到包 含词语信息的字向量;
步骤5: 基于包 含词语信息的字向量, 并通过线性层得到纠错结果。
4.根据权利要求3所述的融入词语信息的中文拼写纠错方法, 其特征在于所述预训练
模型为BERT。
5.根据权利要求3所述的融入词语信息的中文拼写纠错方法, 其特征在于所述双向上
下文字表示 为:
{D1,…,Dt}=BiLSTM({C1,…,Ct})
其中, {C1,…,Ct}为字表示。
6.根据权利要求5所述的融入词语信息的中文拼写纠错方法, 其特征在于所述词表示
为:
Wk=Dj‑Di
其中, k为当前词的位置, j为词尾字的位置, i 为词首字的位置 。
7.根据权利要求6所述的融入词语信息的中文拼写纠错方法, 其特征在于所述包含词
语信息的字向量表示 为:
Ei=concatanate(Wk+Di)。
8.根据权利要求7所述的融入词语信息的中文拼写纠错方法, 其特征在于所述纠错结
果表示为:
{A1,…,Ak}=Linear(E1,…,Et})。权 利 要 求 书 1/1 页
2
CN 115169331 A
2融入词语信息的中文拼写纠错方 法
技术领域
[0001]本发明涉及自然语言处 理技术领域, 具体为融入词语信息的中文拼写纠错方法。
背景技术
[0002]中文拼写纠错任务是给定一句中文文本, 检查文本中是否存在错别字, 并给出错
别字的纠正结果。 基于BERT预训练模型的序列标注方法是一种常见的文本纠错方法, 这种
方法使用注意力机制将上下文信息融入到每一个字中, 然后独立地考虑每一个字是否是错
别字以及错别字应该被纠正为哪个字。 但是这种 方法存在很大的局限性, 它 无法明确 地将
词语信息引入到每一个字中。 这种方法在考虑词语中的某个字时, 是不会着重参考词语中
的其他字的。 当整个词语都写错时, 在修改词语中的任意一个字时必须要着重参考整个词
语才能将整个词语纠正正确。 因此, 它对于整个词语都写错的情况纠正的效果不佳。 例如,
在含有错别字的句子 “已经早上 九点半了, 如果再不走就赤道了 ”中,“赤道”是错别字, 正确
的修改应该为将 “赤道”修改为“迟到”。 为了能解决这一类词语错误, 必须要使用到词语信
息。 现有的方法由于缺少词语信息, 难以解决此类问题。
发明内容
[0003]本发明的目的是: 针对现有技术中由于缺少词语信息, 并不能对整个词都写错的
词语进行纠错的问题, 提出融入词语信息的中文拼写纠错方法。
[0004]本发明为了解决上述 技术问题采取的技 术方案是:
[0005]融入词语信息的中文拼写纠错方法, 包括以下步骤:
[0006]步骤一: 获取文本纠错数据, 所述文本纠错数据包括待检错句子和纠正后句子;
[0007]步骤二: 对待检错句子进行分词, 得到分词结果;
[0008]步骤三: 将待检错句子和分词结果作为输入, 将纠正后句子作为输出, 训练纠错模
型;
[0009]步骤四: 利用训练好的纠错模型进行中文拼写纠错。
[0010]进一步的, 所述分词通过分词模型进行。
[0011]进一步的, 所述纠错模型为融入词语信息 的中文拼写纠错模型, 所述融入词语信
息的中文拼写纠错模型 具体执行如下步骤:
[0012]步骤1: 利用预训练模型对输入句子中的每 个字进行编码, 得到 字表示;
[0013]步骤2: 利用双向长短时记 忆网络将字表示 转换为双向上 下文字表示;
[0014]步骤3: 获取输入句子的分词结果, 并依据输入句子的分词结果以及双向上下文字
表示得到词表示;
[0015]步骤4: 将字表示与词表示进行拼接, 得到包 含词语信息的字向量;
[0016]步骤5: 基于包 含词语信息的字向量, 并通过线性层得到纠错结果。
[0017]进一步的, 所述预训练模型为BERT。
[0018]进一步的, 所述双向上 下文字表示 为:说 明 书 1/4 页
3
CN 115169331 A
3
专利 融入词语信息的中文拼写纠错方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:14:34上传分享