专利一种面向各类应用的软件机器人系统及其工作方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110221339.4 (22)申请日 2021.02.27 (65)同一申请的已公布的文献号申请公布号 CN 112861440 A (43)申请公布日 2021.05.28 (73)专利权人哈尔滨工业大学（威海）地址 264209 山东省威海市环翠区文化西路2号 (72)发明人王潇　李斌　辛国栋　黄俊恒　王佰玲　 (74)专利代理机构济南金迪知识产权代理有限公司 37219 专利代理师赵龙群 (51)Int.Cl. G06F 30/27(2020.01)G06F 11/36(2006.01) 审查员宫贺 (54)发明名称一种面向各类应用的软件机器人系统及其工作方法 (57)摘要本发明涉及一种面向各类应用的软件机器人系统及其工作方法，该系统通过对应用软件环境进行建模，然后采用深度强化学习方法设计和实现具有自我学习和决策能力的软件机器人，并提供人机交互接口。在学习完成后，根据用户下发的业务指令，软件机器人系统可以自动执行学习到的操作序列，以完成指定软件的指令任务。该系统可以应用到各类应用软件，能够简化用户的操作，使得用户在使用软件的某种功能时，无需关心具体的操作，只需要向系统下发指令，系统就能自动探索并生成最优操作序列，然后对软件进行操作完成对应的功能。权利要求书3页说明书11页附图5页 CN 112861440 B 2022.10.28 CN 112861440 B 1.一种面向各类应用的软件机器人系统，其特征在于，该系统包括软件环境模块、软件机器人模块和人机交互模块，软件环境模块用于根据软件下发的软件配置文件，构造软件模型，并将软件模型均输入到软件机器人模块和人机交互模块；人机交互模块用于识别用户的指令，并将用户的指令转化为软件模型中的目标状态，并将目标状态传递给软件机器人模块；软件机器人模块通过训练好的深度强化学习算法得到从当前状态到目标状态的最优操作序列，然后将最优操作序列返回给人机交互模块，并且将最优操作序列保存到知识库中；人机交互模块再根据软件机器人模块返回最优操作序列对软件进行操作，以完成目标指令，并将操作完成后的软件状态返回给用户；所述的系统的工作方法包括步骤： (1)根据软件下发的配置文件，软件环境模块构造软件模型,并将构造的软件模型输入到软件机器人模块和人机交互模块； (2)人机交互模块识别用户的指令，并将用户的指令转化为软件模型中的一个目标状态，并将目标状态传递给软件机器人模块；具体步骤包括： 2‑1、将用户的指令输入到人机交互模块中； 2‑2、使用训练好的自然语言处理模型将用户的指令转换为软件模型中的目标状态，目标状态为操作序列的目标状态；步骤2 ‑2中，所述自然语言处理模型为词向量余弦算法，具体的操作为：对于用户的指令和软件模型中的目标状态，用户的指令和目标状态都是一个句子，对用户的指令和目标状态进行下列操作： 1)使用已有的语料库对用户的指令和软件模型中的一个目标状态进行分词； 2)将用户的指令和一个目标状态的所有分词构成一个词集合，词集合大小为 N； 3)使用0到N‑1对词集合中的每个分词进行编码； 4)用户的指令和目标状态分别构建维数为N的词向量，词向量的每一维度的数值表示当前句子中与词集合中维度相同的词的频度； 5)计算用户的指令和目标状态的相似度simi larity，公式如下：式(I)中， A为用户的指令的向量表示， B为目标状态的向量表示， Ai为用户的指令的向量表示的第i个元素,Bi为目标状态的向量表示的第i个元素； 6)重复步骤1) ‑5)，计算输入用户的指令与每个目标状态的相似度，选择对应的相似度最大的目标状态作为与用户的指令匹配的目标状态； 2‑3、将目标状态传递给软件机器人模块； (3)在软件机器人模块中，将软件模型的当前状态及目标状态输入到训练好的深度强化学习算法模型中得到最优操作序列；将最优操作序列传递给人机交互模块，并且将最优操作序列保存到知识库中；具体步骤包括： 3‑1、软件机器人模块从人机交互模块得到软件模型的目标状态；权　利　要　求　书 1/3 页 2 CN 112861440 B 23‑2、查询知识库中是否存在从当前状态到目标状态的最优操作序列：若不存在，转步骤3‑3；若存在，则提取最优操作序列，并转步骤3‑7； 3‑3、初始化从当前状态到目标状态的最优操作序列O为空； 3‑4、将软件模型的当前状态S*及目标状态Sd输入到训练好的深度强化学习算法模型中，得到下一动作a，即目标Q 值yj最大对应的动作将动作a加入最优操作序列O； 3‑5、当前状态执行动作a得到新的当前状态S**，判定S**是否和目标状态Sd相同，若相同，得到最优操作序列O，转步骤3‑6；若不相同，将新的当前状态S* *赋值给S*，转步骤3‑4； 3‑6、将得到的最优操作序列保存到知识库； 3‑7、将最优操作序列的传递给人机交互模块； (4)人机交互模块根据软件机器人模块返回的最优操作序列对软件进行操作，以完成目标指令，并将操作完成后的软件状态返回给用户。 2.根据权利要求1所述的一种面向各类应用的软件机器人系统的工作方法，其特征在于，步骤(1)中，根据软件下发的配置文件，软件环境模块构造软件模型,并将构造的软件模型输入到软件机器人模块和人机交互模块，具体步骤为： 1‑1、在软件环境模块中输入软件下发的软件配置文件，所述软件配置文件包括界面信息、菜单信息、弹窗信息和按钮信息； 1‑2、根据软件配置文件，使用软件环境隐式规则和有限状态机构造机器人自主学习的软件模型，该软件模型包含各种状态的集合以及不同状态之间的转换关系，所述转换关系为执行动作，即软件在某个状态下，执行某种动作，到达另一个状态；所述软件环境隐式规则为软件状态在转换的过程中必须遵循的默认的规则； 1‑3、将构造的软件模型传递给软件机器人模块和人机交互模块。 3.根据权利要求1所述的一种面向各类应用的软件机器人系统的工作方法，其特征在于，步骤3 ‑4中，深度强化学习算法为DQ N算法， DQN算法的训练过程为： 1)初始化DQN算法的输入，包括迭代轮数T、状态特征维度 n、动作集A、衰减因子γ、探索率 ε、 Q网络结构、批量梯度下降的样本数m； 2)训练DQ N，具体包括： 2‑a)随机初始化 Q网络的参数ω，清空经验回放集合D； 2‑b)随机选择有限状态机中两个不同的状态作为当前状态和目标状态，并将它们合并作为初始状态S，将两个目标状态合并作为终止状态SD； 2‑c)计算初始状态S的特征向量φ(S)； 2‑d)在Q网络中使用φ(S)作为输入，得到Q网络的所有动作对应的Q值输出,用 ε ‑贪婪法在该Q值输出中选择对应的动作A*； 2‑e)在状态S下执行当前动作A*,得到新状态S'对应的特征向量φ(S')、奖励 R、新状态 S'是否终止状态； 2‑f)将{φ(S)， A*， R， φ(S')，新状态S'是否终止状态}这个五元组存入经验回放集合D； 2‑g)令新状态S'作为初始状态S；权　利　要　求　书 2/3 页 3 CN 112861440 B 3

专利 一种面向各类应用的软件机器人系统及其工作方法

专利一种面向各类应用的软件机器人系统及其工作方法