知乎平台的虚拟帐号,虚假热度及流量伪造研究

发表于 更新于

前言

此文是我对知乎上各种虚假数据的一些简单研究的记录,并不深入。知乎平台自身也会随着时间推移机制被揭露而做出改变,所以内容并不保证永久对应现状。

为什么要研究这个?

最近有一家叫 Imperva 的公司发布了一个报告,其结果显示互联网的虚假流量占到了 50%。引发了人们对互联网真实性的探讨。我不认为互联网是虚假的,但虚假内容的确日益增多。机器人和水军确实充斥着中文互联网。

为了避免这篇文章影响到知乎公司的利益,我已添加 noindex 元标签以避免被搜索引擎索引。中文互联网这个大环境里知乎在这方面只是入门,还有更多更夸张的。本文并不是以谴责为目的。

虚拟帐号

从某个时刻开始,知乎上出现了大量的虚拟帐号。这些帐号的身兼多职,至少有两个主要作用:

  1. 给用户的内容点「喜欢」,制造虚假交互和数据
  2. 搬运提问或 AI 提问,制造了大量 0 关注、0 流量、0 回答的三 0 问题

虚拟帐号机制出现的时间不是很久,应该在一年以内。帐号数量难以统计和预估。我自己简单抓取过一些,有数百个之多。但我的代码只能抓取和我的帐号互动的虚拟帐号,如果应用在全体知乎帐号上,数量可能极其庞大。

这些帐号具有以下特征:

  1. 提问数量始终显示 30,实际上提问数量可能超过 30(但资料页固定在 30 这个数字上)。
  2. 主页看不到提问的动态,动态里提问是被隐藏的。大概是为了避免暴露机器人身份。
  3. 会给用户的回答点喜欢。哪怕这个回答一点流量没有,一个点赞也没有。

这些帐号也有可能给用户内容点「收藏」,但知乎最新的机制里收藏的动态大量匿名用户,所以我无法确定这一点。但目前为止,这些机器人帐号不会给用户点赞。 不,最新的情况疑似虚拟帐号也开始点赞了,反而是点喜欢这种行为变少了(还需要更多的案例收集)。

这是部分我截图出来的虚拟帐号:

虚拟帐号截图

这些帐号普遍具有自然的昵称和头像、各异的 IP 属地,并具有一定数量的粉丝和关注。属于是各个方面的深度伪造了。

虚假热度

此章节推测内容居多,证据只能否定其真实性,但无法完全对应背后的机制。

知乎的所谓热搜(搜索发现)、热榜、搜索框偶尔出现的热门关键字等,热度值极其不符合实际。

热榜的顺序和热度“人工编排”痕迹时常很明显,经常出现毫无浏览量、关注量、没几个回答的提问插在热榜中(还不是广告)。后两个搜出来的东西也时常出现没有任何有意义的内容,根本不存在热度可言的结果。

举例说明,这是最近发生的事情,知乎推荐的所谓热门关键字:

热门关键字搜索结果

可以看到整整 24 小时,也只有两个毫无流量的自媒体帐号发布的两篇文章。点赞共计 4 个。知乎上根本没有人搜索这个内容,也不关心。

在 4 月 16 日时,我注意到一个更奇葩的。当天推送了一个「深圳 5 个程序员杀产品经理」的热门关键字,但其搜索结果只有一个自媒体在 5 年前发表的 2 个点赞的文章。

个人推测:

  • 热榜:小编们为了蹭新闻热度而有意编排的,其顺序和热度值是人为设置和调整的。
  • 搜索关键词:从其它互联网来源自动搬运的,热度值是“伪造”或随着一起搬运的。

热榜在真实热度起来后,应该会下放给代码机制运作。但热榜总体的真实性极低,属于是小编命好题,指望用户抢答的模式。平台难堪到要刻意操作和引导用户,才能把站内热度炒起来。

流量伪造

知乎有两个面向用户的推广功能,一个是免费的「内容自荐」,一个是收费的超赞包推广。

内容自荐目前没有发现伪造流量,比较真实。经常出现自荐后,流量几乎不变的情况,即使没推送也不会伪造流量。但是超赞包推广有极为明显的流量伪造机制。

可以看这个回答:https://www.zhihu.com/question/336367454/answer/3378872362

上面的回答,反复用超赞包推广,硬生生的被机器人刷了 131 个喜欢。但奇葩的是这个回答是“被限流”的状态,超赞包推广并不会真实的推送这个回答给用户。造成了只有区区个位数的点赞,但却又 131 个喜欢的奇观。

而且这篇被限流的内容的流量接近一千,可能 95% 全是虚假热度的机制刷出来的。机制在操作虚拟帐号的同时也会伪造对应的虚假流量数据。

结束语

如果你对互联网的真实性有兴趣,可以按照我说的去印证或自己发现。其实在很早的时候,中文互联网就存在大量虚假数据、机器人互动。例如老牌的新浪微博,各种直播平台等。知乎也只是按部就班的走上了这一套,选择了流量而不是质量。

作者头像 一点点入门知识 打赏作者
本文由作者按照 CC BY 4.0 进行授权
分享: