发新话题
打印

“绿坝—花季护航”软件技术浅析

“绿坝—花季护航”软件技术浅析

  2008年5月,工业和信息化部在相关部门支持下,全面出资购买“绿坝·花季护航”(以下简称绿色上网软件),免费向全社会提供下载使用。

  关于它的功能以及所涉及到的技术到底如何呢?

  绿色上网软件功能
  绿色上网软件将与不良网址库、关键词库、知识库、图像特征库等数据库交互,依据这些数据库判断相关的网址是否为不良网址,相关的文本是否含有不良关键词或不良文本,相关的图像是否为色情图像或其他不良图像。绿色上网软件一般主要采取网址过滤、关键词过滤、语义分析过滤和图像过滤等技术手段。

  绿色上网软件除具有获取、识别并过滤含有不良信息的网址、文本、图像、视频等主要功能外,还具备应用程序管理、时间管理等辅助功能以及权限管理、日志管理、软件  升级和帮助等功能,其中:

  ●应用程序管理。主要是可选择禁止或限制常用即时通信软件、游戏、网络下载软件、媒体播放软件等应用程序的执行。
  ●时间管理。可根据用户学习和工作需要限定上网时间。
  ●权限管理。设置管理员负责开启/关闭全部或部分过滤功能、设定上网时间、查阅/删除日志、卸载绿色上网软件、修改过滤规则等管理操作。
  ●日志管理。日志管理可提供事后查看用户的访问记录,包括正常网络访问、对不良网址或不良内容的过滤和拦截、所拦截的应用程序日志以及软件的启动、关闭和更新等,甚至还可以定时保存屏幕截取图片。
  ●软件升级。同杀毒软件一样,绿色上网软件一般都可在线升级,升级的内容包括:主过滤引擎、不良网址库、关键词库、知识库、图像特征库等。
  ●帮助功能。提供产品使用的在线帮助。

  绿色上网软件涉及技术

  ●图像识别技术。 图像识别技术指利用计算机视觉、图像理解、模式识别等技术,对图像的颜色、形状、纹理、轮廓、对象的空间关系等视觉特征进行自动提取,并与图像特征数据库中的候选图像在视觉特征上进行相似度匹配。绿坝·花季护航软件综合利用了肤色、人脸、姿态和特殊器官等特征来识别黄色图像,优势明显。
  ●内容识别技术。内容识别是指对获取的网络信息内容进行识别、判断、分类,确定其是否为所需要的目标内容,识别的准确度和速度是其中的重要指标。内容识别的对象主要有文本、图像、视频等。

  文本识别包括关键词、特征词、属性词识别,语法、语义识别,主题、立场、属性识别,涉及到规则匹配、串匹配、自然语言理解等技术。目前基于关键词的识别技术相对成熟,其优点是实现简单,易构造,但容易产生误报。基于语义数据模型的识别技术,通过对所使用语言的语义倾向和所涉及的场景两个维度分析,综合判断文本类型,有效地提高了判断的准确率。

  总的说来,语义过滤技术越来越受到厂商青睐,甚至有人认为语义过滤是今后安全防护主流趋势。此次,工信部采购的绿色上网软件将文字过滤和图像过滤相结合,不失为一次大胆的尝试。

TOP

发新话题
最近访问的版块