随着技术的不断的发展,图片类似度比、比照技术现已非常成熟,所有的视频文件都有自己的MD5值,互相不重复,一个视频初次上传到抖音(其他平台也一样的),系统会自动读取这个视频的MD5值,录入自己的数据库。当我们发布一个视频的时候,抖音最开始会读取这个视频的MD5值和数据库中已有的条目比对。如果发现了一致的MD5,判定这个视频是搬运,没有一致的结果,接着会进行下面的判定。
当MD5值与数据库已存条目不相同时,系统会继续截取视频其中一部分进行关键帧抽取比对,因为如果整个判断的话,全抖音数据太大,服务器负载不了,并且,条件也不允许,在截取一部分视频信息后,我们发布的视频也在同时上传到服务器供大家观看,当达到上百上千赞或者观看后,再判断是否进入下一个流量池时会经过人工审核,判断是否违规,如果违规则就会被人工判定为搬运,如果确定不搬运则进入下一个流量池。这就是为什么有的时候我们一发视频就判定违规,有的则需要过一段时间才会判定违规。
抖音的视频断定标准
有过剪辑经历的用户都理解,视频的码率是每秒25帧,当然,也有人拍照视频为每秒30帧,相当于一秒的画面我们看了30张图片,这样画面的活动会更佳细腻,咱们知道了视频是经过图片的连续活动播映发生的,那么,它就可以被拆分成为图片,每一帧便是一张图片,而咱们上传短视频的时候,抖音会对视频在中转服务器四个动作,紧缩视频减小体积,音乐独自剥离,截取样张,样张比照。
其中样张比照不仅是对服务器里面的视频是否重复进行判别,还会对视频样张中的图片是否包含广告,以及敏感内容进行判别,体系不是人眼,他无法知道什么是违规,什么是广告,什么是重复的内容,仅仅在对数据图片进行比照,和服务器图片像素度高的保存记录。
视频播映量过百或者千万时,在判定是否进入下一个流量池时,就会推荐给人工复核,人工怎样会知道这个视频是转移还是原创的呢,这个仍是得靠体系推荐的,方才说过,咱们上传视频进行组成的时候,体系现已把这些数据悉数比照过一次了,那么,类似度高的内容就会被罗列出来,比方,类似度91%,类似度85%,类似度80%,这些视频列出来,前五个或者前十个,工作人员只需在符合视频的时候,点击类似度查看,就能判定这个视频是原创还是搬运的。