说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211416941.4 (22)申请日 2022.11.14 (71)申请人 合肥高维数据技 术有限公司 地址 230088 安徽省合肥市高新区望江西 路900号中安创谷科技园一期A1栋21 楼 (72)发明人 田辉 朱鹏远 鲁国峰 郭玉刚  张志翔  (51)Int.Cl. G06F 40/44(2020.01) G06F 40/289(2020.01) G06F 17/16(2006.01) (54)发明名称 基于字频词频的字 符分组方法、 存储介质及 电子设备 (57)摘要 本发明特别涉及一种基于字频词频的字符 分组方法、 存储介质及电子设备, 其中该字符分 组方法包括如下步骤: 遍历语料库, 计算待分组 的N个字符的概率及其所组成的各词语概率; 根 据字符概率和词语概率计算状态 转移矩阵; 对状 态转移矩 阵进行归一化得到归一化的状态转移 矩阵; 逐一遍历字符, 计算待分配字符c分配到所 有分组的权重并将字符c添加到权重最大的组, 该权重和随机二元字符包含组别数的期望值正 相关, 以此类推直到所有字符完成分组。 通过权 重计算公式, 让经常出现在一起的两个字符分在 不同组时的权重增大, 再通过选择权重最大的组 来让一起出现的字符尽量不同组, 实现了字符的 合理分组, 该分组方式对每组 中字符个数不做限 制, 从而更加合理。 权利要求书2页 说明书5页 附图1页 CN 115455987 A 2022.12.09 CN 115455987 A 1.一种基于 字频词频的字符分组方法, 其特 征在于: 包括如下步骤: 遍历语料库, 根据待分组的N个字符的出现频数计算各字符概率 , 对语料库中的所 有文本进行分词, 根据N个字符所组成词语的出现频 数计算各词语概 率 ; 根据 和 计算一个字符后是另一个字符的概 率得到状态转移 矩阵 ; 对状态转移矩阵 进行归一化使得一个字符后是其他字符的概率之和为1得到归一 化的状态转移 矩阵 ; 逐一遍历字符, 计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的 组, 该权重和随机二元字符包 含组别数的期望值 正相关, 以此类 推直到所有字符完成分组。 2.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述N个字符分组 后的随机二元字符包 含组别数的期望值 通过如下公式计算得到: 式中, g代表二元字符包含的不同组别数, 即归一化的状态转移矩阵 中字 符 对应行、 字符 对应列的元 素值。 3.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述状态转移矩阵 中的元素 代表字符 后是字符 的概率, 其根据如下公式计算得到: 式中, 是特定词语概率之和, 该特定词语中字符 和字符 相邻且按 顺序排列。 4.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述的对状态转移 矩阵 进行归一 化是指按如下公式重 置状态转移 矩阵 中为0的元 素: 式中, 为状态转移矩阵 中第i行所有元素之和, 为状态转移矩 阵 中第i行所有元素为0的字符对应的字符概 率之和。 5.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述的计算待分配 字符c分配到所有 组的权重步骤中, 按如下公式计算待分配字符c分配到第k组 时的 权重:权 利 要 求 书 1/2 页 2 CN 115455987 A 2式中, A为已分组字符和待分配字符c构成的集合, 即归一化的状态转移矩阵 中字符 对应行、 字符 对应列的元 素值。 6.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述的计算待分配 字符c分配到所有 组的权重步骤中, 按如下公式计算待分配字符c分配到第k组 时的 权重: 式中, 即归一化的状态转移 矩阵 中字符c对应行、 字符 对应列的元 素值。 7.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述的计算待分配 字符c分配到所有 组的权重步骤中, 按如下公式计算待分配字符c分配到第k组 时的 权重: 式中, 即归一化的状态转移 矩阵 中字符c对应行、 字符 对应列的元 素值。 8.如权利要求1所述的基于字频词频的字符分组方法, 其特征在于: 所述的逐一遍历字 符, 计算待分配字符c分配到所有分组的权重的步骤中, 按照字频从高到低的顺序逐一遍 历。 9.一种计算机可读存储介质, 其特征在于: 其上存储有计算机程序, 所述计算机程序被 处理器执行时, 实现如权利要求1 ‑8中任一项所述的基于 字频词频的字符分组方法。 10.一种电子设备, 其特征在于: 包括存储器、 处理器及存储在存储器上的计算机程序, 所述处理器执行所述计算机程序时, 实现如权利要求1 ‑8中任一项所述的基于字频词 频的 字符分组方法。权 利 要 求 书 2/2 页 3 CN 115455987 A 3

.PDF文档 专利 基于字频词频的字符分组方法、存储介质及电子设备

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于字频词频的字符分组方法、存储介质及电子设备 第 1 页 专利 基于字频词频的字符分组方法、存储介质及电子设备 第 2 页 专利 基于字频词频的字符分组方法、存储介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 05:47:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。