知乎平台的虚拟帐号,虚假热度及流量伪造研究
前言
此文是我对知乎上各种虚假数据的一些简单研究的记录,并不深入。知乎平台自身也会随着时间推移或机制被揭露而做出改变,所以内容并不保证永久对应现状。
为什么要研究这个?
最近有一家叫 Imperva 的公司发布了一个报告,其结果显示互联网的虚假流量占到了 50%。引发了人们对互联网真实性的探讨。我不认为互联网是虚假的,但虚假内容的确日益增多。机器人和水军确实充斥着中文互联网。
noindex
元标签以避免被搜索引擎索引。中文互联网这个大环境里知乎在这方面只是入门,还有更多更夸张的。本文并不是以谴责为目的。虚拟帐号
从某个时刻开始,知乎上出现了大量的虚拟帐号。这些帐号的身兼多职,至少有两个主要作用:
- 给用户的内容点「喜欢」,制造虚假交互和数据
- 搬运提问或 AI 提问,制造了大量 0 关注、0 流量、0 回答的三 0 问题
虚拟帐号机制出现的时间不是很久,应该在一年以内。帐号数量难以统计和预估。我自己简单抓取过一些,有数百个之多。但我的代码只能抓取和我的帐号互动的虚拟帐号,如果应用在全体知乎帐号上,数量可能极其庞大。
这些帐号具有以下特征:
- 提问数量始终显示 30,实际上提问数量可能超过 30(但资料页固定在 30 这个数字上)。
- 主页看不到提问的动态,动态里提问是被隐藏的。大概是为了避免暴露机器人身份。
- 会给用户的回答点喜欢。哪怕这个回答一点流量没有,一个点赞也没有。
这些帐号也有可能给用户内容点「收藏」,但知乎最新的机制里收藏的动态大量匿名用户,所以我无法确定这一点。但目前为止,这些机器人帐号不会给用户点赞。 不,最新的情况疑似虚拟帐号也开始点赞了,反而是点喜欢这种行为变少了(还需要更多的案例收集)。
这是部分我截图出来的虚拟帐号:
这些帐号普遍具有自然的昵称和头像、各异的 IP 属地,并具有一定数量的粉丝和关注。属于是各个方面的深度伪造了。
虚假热度
知乎的所谓热搜(搜索发现)、热榜、搜索框偶尔出现的热门关键字等,热度值极其不符合实际。
热榜的顺序和热度“人工编排”痕迹时常很明显,经常出现毫无浏览量、关注量、没几个回答的提问插在热榜中(还不是广告)。后两个搜出来的东西也时常出现没有任何有意义的内容,根本不存在热度可言的结果。
举例说明,这是最近发生的事情,知乎推荐的所谓热门关键字:
可以看到整整 24 小时,也只有两个毫无流量的自媒体帐号发布的两篇文章。点赞共计 4 个。知乎上根本没有人搜索这个内容,也不关心。
在 4 月 16 日时,我注意到一个更奇葩的。当天推送了一个「深圳 5 个程序员杀产品经理」的热门关键字,但其搜索结果只有一个自媒体在 5 年前发表的 2 个点赞的文章。
个人推测:
- 热榜:小编们为了蹭新闻热度而有意编排的,其顺序和热度值是人为设置和调整的。
- 搜索关键词:从其它互联网来源自动搬运的,热度值是“伪造”或随着一起搬运的。
热榜在真实热度起来后,应该会下放给代码机制运作。但热榜总体的真实性极低,属于是小编命好题,指望用户抢答的模式。平台难堪到要刻意操作和引导用户,才能把站内热度炒起来。
流量伪造
知乎有两个面向用户的推广功能,一个是免费的「内容自荐」,一个是收费的超赞包推广。
内容自荐目前没有发现伪造流量,比较真实。经常出现自荐后,流量几乎不变的情况,即使没推送也不会伪造流量。但是超赞包推广有极为明显的流量伪造机制。
可以看这个回答:https://www.zhihu.com/question/336367454/answer/3378872362
上面的回答,反复用超赞包推广,硬生生的被机器人刷了 131 个喜欢。但奇葩的是这个回答是“被限流”的状态,超赞包推广并不会真实的推送这个回答给用户。造成了只有区区个位数的点赞,但却又 131 个喜欢的奇观。
而且这篇被限流的内容的流量接近一千,可能 95% 全是虚假热度的机制刷出来的。机制在操作虚拟帐号的同时也会伪造对应的虚假流量数据。
结束语
如果你对互联网的真实性有兴趣,可以按照我说的去印证或自己发现。其实在很早的时候,中文互联网就存在大量虚假数据、机器人互动。例如老牌的新浪微博,各种直播平台等。知乎也只是按部就班的走上了这一套,选择了流量而不是质量。
订阅频道第一时间掌握作者博客的最新动态,获取更多的分享。