研究报告

基于隐私政策条款和机器学习的应用分类

为了提升隐私政策可读性并评价其质量,提出一种基于机器学习的中文隐私政策条款自动分类方法。首先,确立条款分类指标体系,从不同类别条款中提取特征;其次,建立和训练基于机器学习算法的层次多标签分类模型,在测试集上通过实验对比各算法性能;最后,基于分类结果检测隐私政策的虚假性和完整性,同时设计了隐私政策评价方法对其进行评分。实验结果表明,支持向量机模型在分类效果上优于其他模型,准确率达到 86%,验证了该方法在自动分类隐私政策条款上的可行性。此外,对华为应用市场中1500 篇隐私政策检测发现,其中 38.5%不是隐私政策,余下隐私政策中92.5%的内容不完整,大部分得分偏低。

基于自然语言处理的隐私政策自动表述研究

对来自华为应用市场的1,500份中文隐私政策进行检测,检测结果表明38.5%的隐私政策为虚假隐私政策,剩余合法的隐私政策中,92.5%的隐私政策在完整性方面不符合“自评估指南”的要求。在隐私政策自动表述的基础上,设计了一种隐私政策打分方法,实验结果表明大部分隐私政策的得分位于低分数区间内。