说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110221339.4 (22)申请日 2021.02.27 (65)同一申请的已公布的文献号 申请公布号 CN 112861440 A (43)申请公布日 2021.05.28 (73)专利权人 哈尔滨工业大 学 (威海) 地址 264209 山 东省威海市环翠区文化西 路2号 (72)发明人 王潇 李斌 辛国栋 黄俊恒  王佰玲  (74)专利代理 机构 济南金迪知识产权代理有限 公司 37219 专利代理师 赵龙群 (51)Int.Cl. G06F 30/27(2020.01)G06F 11/36(2006.01) 审查员 宫贺 (54)发明名称 一种面向各类应用的软件机器人系统及其 工作方法 (57)摘要 本发明涉及一种面向各类应用的软件机器 人系统及其工作方法, 该系统通过对应用软件环 境进行建模, 然后采用深度强化学习方法设计和 实现具有自我学习和决策能力的软件机器人, 并 提供人机交互接口。 在学习完成后, 根据用户下 发的业务指令, 软件机器人系统可以自动执行学 习到的操作序列, 以完成指定软件的指令任务。 该系统可以应用到各类应用软件, 能够简化用户 的操作, 使得用户在使用软件的某种功能时, 无 需关心具体的操作, 只需要向系统下发指令, 系 统就能自动探索并生成最优操作序列, 然后对软 件进行操作完成对应的功能。 权利要求书3页 说明书11页 附图5页 CN 112861440 B 2022.10.28 CN 112861440 B 1.一种面向各类应用的软件机器人系统, 其特征在于, 该系统包括软件环境模块、 软件 机器人模块和人机交 互模块, 软件环境模块用于根据软件下发的软件配置文件, 构造软件模型, 并将软件模型均输 入到软件机器人模块和人机交 互模块; 人机交互模块用于识别用户的指令, 并将用户的指令转化为软件模型中的目标状态, 并将目标状态传递给 软件机器人模块; 软件机器人模块通过训练好的深度强化学习算法得到从当前状态到目标状态的最优 操作序列, 然后将最优操作序列返回给人机交互模块, 并且将最优操作序列保存到知识库 中; 人机交互模块再根据软件机器人模块返回最优操作序列对软件进行操作, 以完成目标 指令, 并将 操作完成后的软件状态返回给用户; 所述的系统的工作方法包括 步骤: (1)根据软件下发的配置文件, 软件环境模块构造软件模型,并将构造的软件模型输入 到软件机器人模块和人机交 互模块; (2)人机交互模块识别用户的指令, 并将用户的指令转化为软件模型中的一个目标状 态, 并将目标状态传递给 软件机器人模块; 具体步骤 包括: 2‑1、 将用户的指令 输入到人机交 互模块中; 2‑2、 使用训练好的自然语言处理模型将用户的指令转换为软件模型中的目标状态, 目 标状态为操作序列的目标状态; 步骤2 ‑2中, 所述 自然语言处理模型为词向量余弦算法, 具 体的操作为: 对于用户的指令和软件模型中的目标状态, 用户的指令和目标状态都是一个句子, 对 用户的指令和目标状态进行 下列操作: 1)使用已有的语料库对用户的指令和软件 模型中的一个目标状态进行分词; 2)将用户的指令和一个目标状态的所有分词构成一个词集 合, 词集合大小为 N; 3)使用0到N‑1对词集合中的每 个分词进行编码; 4)用户的指令和目标状态分别构建维数为N的词向量, 词向量的每一维度的数值表示 当前句子中与词集 合中维度相同的词的频度; 5)计算用户的指令和目标状态的相似度simi larity, 公式如下: 式(I)中, A为用户的指令的向量表示, B为目标状态的向量表示, Ai为用户的指令的向量 表示的第i个元 素,Bi为目标状态的向量表示的第i个元 素; 6)重复步骤1) ‑5), 计算输入用户的指令与每个目标状态的相似度, 选择对应的相似度 最大的目标状态作为与用户的指令匹配的目标状态; 2‑3、 将目标状态传递给 软件机器人模块; (3)在软件机器人模块中, 将软件模型的当前状态及目标状态输入到训练好的深度强 化学习算法模型中得到最优操作序列; 将最优操作序列传递给人机交互模块, 并且将最优 操作序列保存到知识库中; 具体步骤 包括: 3‑1、 软件机器人模块从人机交 互模块得到软件 模型的目标状态;权 利 要 求 书 1/3 页 2 CN 112861440 B 23‑2、 查询知识库中是否存在从当前状态到目标状态的最优操作序列: 若不存在, 转 步骤3‑3; 若存在, 则提取最优操作序列, 并转 步骤3‑7; 3‑3、 初始化从当前状态到目标状态的最优操作序列O为空; 3‑4、 将软件模型的当前状态S*及目标状态Sd输入到训练好的深度强化学习算法模型 中, 得到下一动作a, 即目标Q 值yj最大对应的动作 将动作a加入最优操作序列O; 3‑5、 当前状态执行动作a得到新的当前状态S**, 判 定S**是否和目标状态Sd相同, 若相 同, 得到最优操作序列O, 转 步骤3‑6; 若不相同, 将新的当前状态S* *赋值给S*, 转 步骤3‑4; 3‑6、 将得到的最优操作序列保存到知识库; 3‑7、 将最优操作序列的传递给 人机交互模块; (4)人机交互模块根据软件机器人模块返回的最优操作序列对软件进行操作, 以完成 目标指令, 并将 操作完成后的软件状态返回给用户。 2.根据权利要求1所述的一种面向各类应用的软件机器人系统的工作方法, 其特征在 于, 步骤(1)中, 根据软件 下发的配置文件, 软件环境模块构造软件模型,并将构 造的软件模 型输入到软件机器人模块和人机交 互模块, 具体步骤为: 1‑1、 在软件环境模块中输入软件下发的软件配置文件, 所述软件配置文件包括界面信 息、 菜单信息、 弹窗信息和按 钮信息; 1‑2、 根据软件配置文件, 使用软件环境隐式规则和有限状态机构造机器人自主学习的 软件模型, 该软件模型包含各种状态的集合以及不同状态之间的转换关系, 所述转换关系 为执行动作, 即软件在某个状态下, 执行某种动作, 到达另一个状态; 所述软件环境隐式规 则为软件状态在转换的过程中必须遵循的默认的规则; 1‑3、 将构造的软件 模型传递给 软件机器人模块和人机交 互模块。 3.根据权利要求1所述的一种面向各类应用的软件机器人系统的工作方法, 其特征在 于, 步骤3 ‑4中, 深度强化学习算法为DQ N算法, DQN算法的训练过程 为: 1)初始化DQN算法的输入, 包括迭代轮数T、 状态特征维度 n、 动作集A、 衰减 因子γ、 探索 率 ε、 Q网络结构、 批量梯度下降的样本数m; 2)训练DQ N, 具体包括: 2‑a)随机初始化 Q网络的参数ω, 清空经验回放 集合D; 2‑b)随机选择有限状态机 中两个不同的状态作为当前状态和目标状态, 并将它们合并 作为初始状态S, 将两个目标状态合并作为终止状态SD; 2‑c)计算初始状态S的特 征向量φ(S); 2‑d)在Q网络中使用φ(S)作为输入, 得到Q网络 的所有动作对应的Q值输出,用 ε ‑贪婪 法在该Q值输出中选择对应的动作A*; 2‑e)在状态S下执行当前动作A*,得到新状态S'对应的特征 向量φ(S')、 奖励 R、 新状态 S'是否终止状态; 2‑f)将{φ(S), A*, R, φ(S'), 新状态S'是否终止状态}这个五元组存 入经验回放 集合D; 2‑g)令新状态S'作为初始状态S;权 利 要 求 书 2/3 页 3 CN 112861440 B 3

.PDF文档 专利 一种面向各类应用的软件机器人系统及其工作方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向各类应用的软件机器人系统及其工作方法 第 1 页 专利 一种面向各类应用的软件机器人系统及其工作方法 第 2 页 专利 一种面向各类应用的软件机器人系统及其工作方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:22:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。