2.2.3 智能化网络内容分析理解管控引擎的应用范例
本小节选取基于构建网络上有害信息发现与预警系统为例,重点讲解信息内容安全管理应用模型的应用范例。网上有害信息发现与预警系统可进一步细分为大数据采集存储层、融合分析层以及表达应用层三个层次,具体包括:多通道泛在网络多模态发布内容感知采集,多模态大数据内容结构化存储,网上离散文本、图像及视频的信息特征抽取与表达,多媒体信息特征智能快速比对,以及网上有害信息自动告警等方面的核心关键技术。具体如图2-3所示。
图2-3 网上有害信息发现与预警系统
1.多通道泛在网络多模态发布内容感知采集
多通道泛在网络多模态发布内容感知采集,全面涵盖传统网络媒体、网络新媒体和移动互联网媒体,是重点突破网络客户端尤其是智能移动终端APP内流转信息的统一采集技术,为网络空间内容资源的深度利用提供了全面的数据基础。
2.多模态大数据内容结构化存储
与通用搜索引擎的大规模并行访问、快速页面定位访问的目的不同,网络空间内容资源的深度利用更关注对全媒体特定主题事件大数据进行分布式结构存储和索引。因此,不仅需要存储和管理海量的异构数据,还需要对大数据进行语义分析,存储和管理不同类型数据之间的语义联系,构建分布式结构存储的网络有害信息数据(仓)库。
3.离散文本信息特征抽取与表达
离散语义的网络文本信息非常类似于自然语言处理领域的对话(Dialog)识别及处理技术,不同的是,后者在同一篇文档中,而前者分散在不同时间、不同地点。相关基础研究工作的共性难题是远程指代、主题矛盾等。同时,离散语义复原、网络行为识别等,同样未得到很好的解决。鉴于此,研究创新性的基于离散语义分析的离散文本信息特征分析识别技术,用于重点解决如何进行网络离散文本状态跟踪及复原、适合网络文本的自动分词和句法分析、如何选择和表达离散语义的特征、如何构建适合于网络文本的专用知识库等技术难点。
4.图像信息特征抽取与表达
图像信息特征抽取与表达旨在对图像内容进行特征抽取,用低维度的图像信息特征来描述和表达整个图像的内容。准确性、全面性和鉴别力是对图像信息特征抽取的三大要求,具体表现为:①准确性:图像特征必须准确地描述图像的内容,不会受到与内容无关图像编辑操作的影响,例如,准确的图像特征不会受到图像尺度变换(平移、缩放、旋转等)的影响,因为该类操作对图像内容改变不大;②全面性:图像特征必须完整地表达图像内容,而不是图像某一局部;③鉴别力:图像特征必须对不同的图像内容有较大的差异,能够直接体现图像内容的特点。
5.视频信息特征抽取与表达
视频信息特征抽取与表达旨在对视频内容进行特征抽取,用低维度的视频信息特征来描述和表达整个视频的内容。相比图像内容,视频媒体加入了时间维度,其包含的信息量更为丰富,从而进一步提升了对其内容准确描述的难度。鉴于此,视频信息特征抽取与表达具体包括:①基于内容的视频镜头分割技术,能够将整段视频分割成若干个视频镜头;②基于视频镜头的特征抽取与表达技术,能够针对每一个视频镜头,抽取相应的视频特征,反映视频镜头的内容与特点。准确性、全面性和鉴别力,同样是对视频镜头特征抽取的三大要求。
6.多媒体信息特征智能快速比对与有害信息自动告警
在获取特征之后,需要对特征进行快速、准确的比对,进而能够判断待检测图像、视频是否为数据库中暴恐、反动等类型的有害内容,同时对检测为有害内容的信息进行多平台及时告警。时间效率和智能比对准确性,属于智能比对与自动告警环节的两大明确要求。