首页

阿里鉴黄标准 宅男不哭!看看阿里腾讯们“智能鉴黄”技术哪家强?

商机问答 |

时间:

2018-03-12

|

推荐访问

阿里鉴黄标准

【www.101ms.com--商机问答】

随着移动互联网读图时代的到来,大量游走在政策边缘的色情、暴力、血腥等擦边球的低俗内容,每天都以数以亿计的数量在各大网站、移动社交类App和UGC类App等平台上涌现,对用户的互联网的内容消费体验造成了干扰,其中色情的图片内容表现最甚。但由于过去对色情内容的监管手段主要依靠的还是人工的排查和过滤,所以高效准确地鉴别和剔除这些淫秽色情信息,成为了一项十分艰巨的任务。

在这里,不得不提的一个神秘职业就是社交圈上广为流传的所谓的“鉴黄师”。据了解,依靠人工排查,鉴黄师们每日人均的审核极限大约在2w张图片量级,除了图片,还需要深入到各种隐蔽的网链背后去寻找并识别那些可能涉黄的信息。这份“看上去很美” 的工作,其实是非常枯燥和繁琐的。此外,单纯依靠人工排查的手段,面对互联网上山呼海啸般的涉黄信息,在效率上无疑是捉襟见肘的。随着近些年人工智能技术的飞速发展,依赖海量数据与机器学习的智能鉴黄手段凭借着高效率高精度等优势,正在逐步取代人工审核,成为打击色情信息的中坚力量。

据小花边了解,目前国内至少已有三家企业平台推出了智能鉴黄服务,分别为阿里绿网、图普科技、腾讯优图(又名万象优图)三家,那么究竟智能鉴黄技术哪家强?三家在鉴黄效果上又有何不同?带着一点小娇羞,同时又怀揣着一点小激动,小花边低调地进行了一番智能“鉴黄”体验!

由于图普和腾讯优图很贴心地提供了线上测试网页,支持上传图片实时返回鉴别结果,小花边用某搜索引擎随机找了几张测试图片,直观体验了下鉴黄效果。结果如下:

PS:在以下鉴黄体验中,所有可能的涉黄信息都会经过系统打分。“打个比方,如果系统打分说这个图片99%涉黄,那就几乎可以确定是,机器自己会处理。另外一些次一点分值的图片,就需要人工鉴别。”

腾讯优图返回结果

图普科技返回结果

赤裸裸的图片显然容易判别,但是一些并不露点,却充满性暗示的图片,应该怎么判断?对图片的智能识别能力将成为一个大考验。为此,小花边特意选择了三张羞羞的图片(别问我是从哪里弄来的)、一张颇受争议的wanimal摄影集的图片(第四张)和四张正常的图片(后四张)来进行识别。

从打分结果上看,似乎腾讯优图的识别精度更高。图片识别结果以标签(色情、性感、正常) + 概率的形式返回,与人工在涉黄可能性上的判断上近乎一致,效果棒棒哒。

然而仅仅几张的测试图片,并不能说明哪家的算法效果,小花边虽然不是专业人士,但也清楚大数据上的评价会更符合统计规律、更贴合实际应用场景。为了更科学公正的比对这三家的技术实力,小花边采取了如下的评测方案:

首先,从网上的某搜索引擎收集了25005张正常图片(主要为一些风景照和生活场景照片)。另再从近期热点“艳照门”视频中截取了92张色情图作为色情的评测集。

样本采集完备后,需要制定评测指标。这里需要和读者普及下两个机器学习领域的重要指标:

正确接受率(true acceptance rate)和错误接受率(false acceptance rate)其中正确接受率表示的是N色情图片中能识别出M张是色情图片的比例,M/N数值越大,则说明算法对色情图片的发现能力越好(比如给定的92张色情图片,如能全部定义为色情,则正确接受率就为100%)。而错误接受率是指在X张正常图片中,把Y张错判为色情图的比例,Y/X数值越大,则出错的概率越高。一般来说,要公平比对不同算法能力,只需比较在同等的错误接受率条件下各自的正确接受率高低就可以了。

OK,万事俱备,就不再卖关子了,直接公布测试结果吧!

先看图普,通过将数据上传官方的测试网页得到了以下结果:25005张非色情图片中有9张被判成了色情;92张色情图片中有27张被判成了色情;因此,其错误接受率为 9/25005=0.036% ,正确接受率为27/92=29.348%。大概有2/3的色情图被系统漏掉了。

然后是腾讯优图和阿里绿网,注册为开发者后,根据官方提供的sdk,批量地获得了每张图片的色情概率;为了和图普的结果看齐,从小到大遍历色情概率阈值,获得了各自同样错误接受率条件下的正确接受率,具体见下表:

结果已经一目了然,在这一轮的比对测试中,腾讯优图完爆了另外两家的效果,此处小花边必须给腾讯的工程师点个赞。不过整体看起来,智能鉴黄技术水平的上升空间还比较大,与肉眼鉴别还有一定的差距,希望在不久的将来可以取代人工,彻底解放苦逼的“鉴黄师”一职。而当这项技术有一天得到了大规模的应用和普及,也不难脑补到数以万计的宅男哭晕在厕所的画面。

作者:孙海亮(微信公众号:花边科技),本文由作者授权创业邦(微信公众号:ichuangyebang)发布,转载请注明作者信息及来源,违者必究

《阿里鉴黄标准 宅男不哭!看看阿里腾讯们“智能鉴黄”技术哪家强?.doc》
将本文的Word文档下载到电脑,方便收藏和打印。
推荐度:
点击下载文档

文档为doc格式

延伸阅读
本站为您整理的2024年视频板块龙头,供大家参考。芒果超媒300413:《超高清视频产业发展行动计划(2019-2022年)》中提出2022年4K电视全面普及、超高清用户2亿、产业规模4万亿的目标
2024-02-18
2023年第二季度,MPU概念上市公司财务费用排名如下:通富微电(002156)的财务费用总额高达5 41亿,中国长城(000066)和长电科技(600584)分别位居第二和第三,华天科技(002
2024-02-18
2024年肿瘤上市公司龙头有:恒瑞医药(600276):肿瘤龙头股。医药工业砥砺前行的白马股,公司坚定拥抱创新,持续推进多个创新管线,覆盖肿瘤、自身免疫、糖尿病、感染等业务,现阶段,公司形成了以卡
2024-02-18
可降解塑料相关上市公司有:锦盛新材:2月8日收盘消息,锦盛新材开盘报8 75元,截至下午3点收盘,该股涨19 18%,报10 200元,总市值为15 3亿元,PE为-68。总股本1 5万股,流通A
2024-02-18
相关卫生纸上市公司有:宜宾纸业600793:2月8日消息,宜宾纸业5日内股价下跌27 84%,最新报7 660元,成交量468 17万手,总市值为13 55亿元。2023年第三季度,宜宾纸业公司实
2024-02-18
2023年第二季度,烧烤概念上市公司财务费用排名如下:锡业股份(000960)的财务费用总额高达2 04亿,新五丰(600975)和天马科技(603668)分别位居第二和第三,道道全(002852
2024-02-18
淀粉上市龙头公司有哪些?淀粉上市龙头公司有:登海种业:淀粉龙头股,登海种业2023年第三季度季报显示,公司营收同比增长37 73%至1 71亿元,登海种业毛利润为6056 43万,毛利率35 52
2024-02-18
一、龙元建设(600491)股票营收情况龙元建设(600491)披露2023年第三季度报告,报告期实现营收24 41亿元,同比-33 75%;归母净利润-7113 4万元,同比-109 99%;扣
2024-02-18
一、中能电气(300062)股票分红记录中能电气最新一次公布的分红方案:10派0 1元。本次权益分派股权登记日为2023年6月7日,除权除息日为2023年6月8日,派息日为2023年6月8日。近年
2024-02-18
新一周,共有1只可转债上市,为恒锋工具可转债锋工转债。  锋工转债,债券代码:123239锋工转债正股为恒锋工具,上市日期为2月22日。具体中签情况如下所示:末六位数:164191,35188
2024-02-18
  • 推荐访问