(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210655378.X
(22)申请日 2022.06.10
(71)申请人 南京大学
地址 210093 江苏省南京市 鼓楼区汉口路
22号
(72)发明人 张天 潘敏学 朱峰熠 李贵银
(74)专利代理 机构 南京知识律师事务所 32 207
专利代理师 张苏沛
(51)Int.Cl.
G06F 9/451(2018.01)
G06F 40/242(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于文本特征和图神经网络的跨应用
界面分类方法
(57)摘要
本发明公开了一种基于文本特征和图神经
网络的跨应用界面分类方法, 包括步骤: 以特殊
方式分析各个界面的XML文件, 形成节点与边的
关键词词典; 对关键词词典进行词筛选, 包括时
间日期等在内; 依据新的关键词词典, 使用TF ‑
IDF形成点与边的特征; 利用自定义的, 使用边特
征与注意力机制, 结合 GGNN与GAT的 图神经网络,
在跳转关系图中进行半监督学习, 对界面进行场
景分类。 本方法在构建完成跳转关系图, 完成界
面截屏的场景标注的基础上, 主要由基于文本特
征的界面特征提取, 基于文本特征的跳转特征提
取, 文本特征关键词筛选, 对图神经网络中GGNN
使用边特征的改造, 结合图神经网络中GAT的注
意力机制改进神经网络这五个 部分组成。
权利要求书3页 说明书10页 附图3页
CN 114942816 A
2022.08.26
CN 114942816 A
1.一种基于文本特征和图神经网络的跨应用界面分类方法, 其特征在于, 包括以下步
骤:
步骤1): 方法执行前预定了生成一种跳转关系的规范, 用户需要编写测试应用的测试
脚本, 运行测试脚本的过程中自动保存每个状态的界面截屏、 对应的布局文件和界面间的
跳转关系, 将用于 输入图神经网络的跳转关系图的构造以及节点的特 征提取;
步骤2): 基于所述步骤1)保存的跳转关系以及界面截屏, 用户需要根据自己的理解对
这些截屏划分成不同的功能场景, 划分结果即为图神经网络中跳转关系图的节点的标签信
息, 同时将节点即界面截屏划分成训练集和 测试集;
步骤3): 利用保存的布局文件以及跳转信 息, 对各个界面与跳转边进行关键词提取, 以
初步构建一个关键词 词典;
步骤4): 对所述步骤3)中获得的关键词词典进行关键词筛选, 将包含时间、 日期、 存储
容量、 数字、 文件名化 为统一形式, 并去除一些非法词或介词;
步骤5): 使用TF ‑IDF(term frequency–inverse document frequency), 将关键词词典
结合每个节点与边自身的关键词, 转 化为特征矩阵;
步骤6): 每个界面对应 图神经网络中的跳转关键图的节点, 每个跳转对应图神经网络
汇总的跳转关键图的边, 将所述步骤5)中获取 的特征矩阵作为节点与边的初始特征, 输入
到自定义的, 结合GGNN与GAT且 结合使用边特征的图神经网络中, 将所述步骤2)中的训练集
输入进行训练, 并对所述 步骤2)中的测试集节点进行界面的场景划分 分类。
2.根据权利要求1所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特征
在于, 所述 步骤1)与步骤2)是作为本方法的前置介绍, 提供 方法的初始输入。
3.根据权利要求1或2所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特
征在于, 所述步骤1)中所涉及的跳转关系图是输入到门控图神经网络的初始图, 构建跳转
关系图的实现过程包括以下步骤:
步骤11): 编写测试应用的测试脚本; 在安卓模拟器或者真机上安装需要划分功能场景
的安卓应用, 利用安卓开源自动化测试工具Appium识别当前应用界面上的控件信息, 编写
python测试脚本, 脚本需要包含对 该应用所有功能的完整的、 有逻辑的测试, 同时需要在脚
本中加入在每次执行完测试动作到达新的界面状态时保存对应的界面截屏和布局文件的
代码, 按照0、 1、 2的顺序对界面截屏和布局文件顺序保存, 以及按照<执行动作前的界面编
号i, 执行动作后的界面编号j, 执行的测试动作和对应的控件位置信息>的三元组格式保存
所有的界面跳转关, 例如<0, 1, click[30,100][120,199]>, 其中控件位置信息[30,100]
[120,199]通过Ap pium获取;
步骤12): 获取相关文件; 利用Appium执行测试脚本, 脚本运行过程中会按顺序自动保
存和编号所有的界面截屏和布局文件, 以及最终的完整的界面跳转关系;
步骤13): 界面去重和更新编号; 由于测试脚本执行过程中会出现很多重复的界面访
问, 因此步骤12)保存的界面截屏及其对应的布局文件会 出现重复的情况, 布局文件和界面
截屏均是一一对应的, 界面截屏是png格式, 布局文件 是XML格式, 以树形结构的形式描述了
当前界面上各类控件的包含关系, 同时记录了各个控件当前 的属性值, 包括位置、 可见性、
可点击性, 因此需直接读取每一个布局文件为一个字符串, 判断字符串是否相等, 如果相
等, 则说明对应的布局文件和界面截屏为同一个, 需要进行去重, 并且将这些相同的布局文权 利 要 求 书 1/3 页
2
CN 114942816 A
2件和界面截屏的编号重新编号成同一个数字, 并且最后需要将所有的编号更新为0、 1、
2...、 n, 以及更新界面跳转关系文件中的界面编号, 达 到一致性;
步骤14): 构建跳转关系图; 将步骤13)最后得到的编号为0、 1、 2...、 n的界面截屏作为
跳转关系图的节点, 即跳转关系图中的节点i对应于编号为i的界面截屏, 而边的关系则根
据得到的界面跳转关系, 即每一个三元组<执行动作前的界面编号i, 执行动作后的界面编
号j, 执行的测试动作和对应的控件位置信息>表示图中节点i和节点j有一条有向边, 即在
图中为i‑>j, 构造的跳转关系图即为后续步骤中输入到GGNN中的图, 同时界面截屏和对应
的布局文件也 为后续场景 标注、 节点特 征提取的输入。
4.根据权利要求1或2所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特
征在于, 所述步骤2)中用户根据自己对该应用的功能场景 的理解对界面截屏进行标注, 将
这些界面截屏划分为不同的类别, 每一个类别均有对应的功能场景 的含义, 部分界面没有
具体的功能场景含义, 处理方式是将这些界面归类为名为其他场景 的类别, 不作为训练集
也不作为测试集。
5.根据权利要求1所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特征
在于, 所述 步骤4)将所述 步骤3)中获得的词典进行关键词筛 选, 具体包括以下步骤:
步骤41): 筛 选非法词, 删除一些不可 见, 也不符合utf ‑8规范的词;
步骤42): 筛选日期, 将常见的一些日期形式的字符串, 统一替换为 ‘strdate’,使用正
则匹配方式识别;
步骤43): 筛选时间, 将常见的一些日期形式的字符串, 统一替换为 ‘strtime’,使用
python中time模块的st rptime函数进行识别;
步骤44): 筛选容量词, 识别以以下词结尾, 以数字开头的一些表示容量的词将其统一
替换为‘strsize’, 识别的词尾包括['mb','kb','gb','b','Mb','Kb','Gb','B','MB','
KB','GB'];
步骤45): 筛选纯数字, 利用python自带的isdigit()函数, 判断该字符串是否为一个整
数, 并利用该函数识别小数, 对于识别出的纯 数字, 将其统一 替换为‘strnum’;
步骤46): 筛选文件名, 识别以以下词结尾, 表示文件名的字符串将其统一替换为
‘strfile’, 识别的词尾包括['.txt','.doc','.jpg','.png','.PNG','.gif','.docx','
.zip','.tar.gz' ,'.7z','.mp3'], 即只识别以上这些种类的文件名;
步骤47)筛选介词, 将以下介词从关键词词典中删除, 包括['about','across','
after','against','among','around','at','before','behind','below','beside','
but','by','down','during','for','from','in','of','on','over','near','round','
since','to','under','up','with','inside','into','outside','throughout','
upon','without','within']。
6.根据权利要求1所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特征
在于, 所述步骤5)中使用的T F‑IDF提取特性需要一个所有文档的词 库以及每个文档自己的
词库, 所述两个词库对应所述步骤3)、 步骤4)中完成的关键词词典, 将所述词典输入T F‑IDF
模型, 即可计算得 出某个节点或边的特 征。
7.根据权利要求1所述的基于文本特征和图神经网络的跨应用界面分类方法, 其特征
在于, 所述步骤
专利 一种基于文本特征和图神经网络的跨应用界面分类方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:45:46上传分享