登录
免费试用
  • 您好,我是客服小图

    有任何问题都可咨询

EN

智能内容审核系统的优质内容在信息流图文平台的工作解析(一)

一个优质信息流图文内容审核系统的的核心部分,包括了算法审核、人工审核、策略管理、基础服务和权限管理五大模板。

算法审核模块主要是为了实现系统对于图文内容的初步管理,实现对质量内容的免审或优先审核、过滤违规内容等功能,并将系统不能直接决策的内容传入人工审核模块,以达到节约审核人员的人力成本,同时对通过算法审核的内容打上对应的内容标签,方便后续进行推荐分发。

违规审核
违规审核模块是算法识别部分最重要的功能,违规的内容主要包含政治敏感审核、低俗色情审核、公司利益审核。

政治敏感审核是监管部门最看重的部分。因为这类内容常常可能会包含对政治人物进行恶意抹唁、危害国家和社会安全的问题,同时有的自媒体为了博取眼球和关注度可能会恶意发送政治敏感内容,为了防止出现上述问题,需要对此部分内容进行审核。


低俗色情审核是内容审核过程中的重中之重。一个平台内有过多的三俗内容是十分危险的,一方面会面临着大量优质用户的流失;另一方面稍有不慎,可能会因此被相关部门查封,因此需要对内容进行低俗色情的审核。

公司利益审核对公司在用户心目中的形象至关重要,自家平台上充斥的大量公司负面信息对公司而言,是极其不利的事情。

对内容进行审核主要是通过敏感词和文本分类模型实现,其中敏感词识别部分需要将文本内容与策略管理模块中所配置的关键词进行匹配。


2. 质量审核

质量模块主要是为了识别出平台中内容的高质内容和低质内容,方便后续内容的分发和推荐策略。其中,低质内容主要包括广告营销、诱导互动内容、给竞品导流的内容、自动发布的格式化内容、没有意义的内容等。

这里以广告营销模块为例:介绍质量审核模块相关的设计与实现,需要分析广告营销内容的基本组成,这类的内容一般包括介绍发布者自己所要营销的商品指明购买方式,且这类内容的形式一般是图文并貌以吸引用户,同时指明购买方式一般是以二维码或者文字的方式进行诱导的。

根据相关数据显示,验证方式为从人工审核标注为广告营销的内容中,抽取5000篇内容进行调查,发现结果有74.3%的内容是包含二维码的,13.5%的内容引导用户搜索淘宝或者加微信。

因此,文字部分仍然采用政治审核模块的方式,通过关键词、LSTM、TF-IDF的方式更换训练集进行训练,从而识别出文字中是否包含广告营销内容;图片部分,采用识别二维码的方式来监测。

相关推荐