摘要:弹幕源自于日本的视频分享网站(niconico动画),由A站(AcFun)首先引入国内,除了视频内容本身,由用户发送的弹幕内容,如讨论、吐槽都构成了视频内容之外新的吸引点。弹幕所带来的观众与主播之间实时互动的模式,在现在很火爆的直播行业被大规模应用。 |
弹幕源自于日本的视频分享网站(niconico动画),由A站(AcFun)首先引入国内,除了视频内容本身,由用户发送的弹幕内容,如讨论、吐槽都构成了视频内容之外新的吸引点。弹幕所带来的观众与主播之间实时互动的模式,在现在很火爆的直播行业被大规模应用。
网络直播“野蛮生长”??垃圾弹幕乱象频出
在观看的过程中,偶尔会看到屏幕上冒出一条不和谐的内容,例如:“我有种子, 要的发QQ”,“看**加微信”,“ **表演视频 ,VX:”?,这些弹幕让直播平台的CEO们面临的可能是监管部门的 约谈,严重的甚至会有关站风险。
国家收紧直播平台政策 弹幕不可再“任性”。
当在某搜索引擎输入“直播+弹幕”时,出现的都是国家的重拳监管信息 。
垃圾弹幕已经成直播平台大的运营风险:
我们采访了大数据风控公司,数美CTO 梁堃,他跟我们分析了垃圾信息的分类与垃圾弹幕的伪装方法。
垃圾信息的分类
“知己知彼,百战不殆”,我们先了解一下当前直播上垃圾信息的特点。从内容上来看,直播弹幕的垃圾信息通常分成这么几类:
垃圾广告:各类商品广告、中奖诈骗、办证造假等
色情内容:色情词汇、色情服务信息等
暴恐、政治敏感词: 暴恐涉政、违禁品等内容
水帖?: 恶意灌水、刷屏等
污秽词汇?: 含有辱骂、低俗、污秽性质的词汇
典型伪装术
对于简单的垃圾信息,管理员只要设置好关键字过滤即可。但发送者为了逃避拦截,通常都会对垃圾信息进行伪装,几种典型的伪装术:
、[文字伪装术一] 添加随机噪声,包括文字变换,随机字母,不同字体等。例如,“QQ群”改写成“藤训裙”、“叩叩裙”等
、[文字伪装术二] 使用符号或者特殊文字分割正常语句。例如:★★∨信一yyx7⑥3⑧
、[文字伪装术三] 正常文本信息中 夹带广告、色情等信息。
除了破解垃圾弹幕的伪装术之外,数美的反垃圾系统还做了大量针对直播的特色功能:
色情程度分级
将色情程度分为轻度、重度,平台可根据自身业务的特定,场景灵活调整 。
分级策略
系统内置文本、账号、IP等黑名单,支持自定义使用 。
数美检测体系
数美以海量数据为依托,结合LSTM 、GBM、WORD2VEC、SVM、强化学习等多种前沿机器学习与数据挖掘技术,打造多层次、多维度的实时自学习检测体系。综合考虑广告识别引擎、色情识别引擎、联系方式识别引擎、上下文检测引擎、行为模型检测引擎、画像引擎等返回的结果及其组合情况,结合业务制定策略,做出最终判断。
通过接入数美文本反欺诈服务,可以高效、准确识别弹幕中的垃圾内容,对如色情、政治敏感信息、垃圾广告、水帖等垃圾内容实时拦截,准确率高达99.8%以上
短短几个月的时间,近百家直播平台都接入了数美的反欺诈产品,像“国民老公”家的熊猫TV,红衣教主的“花椒直播”, 全民TV、触手TV,咸蛋家、六间房等都接入了数美的产品。
这是一场攻防战
反垃圾是一个长期攻防的过程。“坏人”做针对性调整来伪装自己,而我们“数美系统”则要快速反应和不断优化,正所谓“魔高一尺,道高一丈”!数美愿与您携手、共建行业健康生态。
责任编辑:hang