我们过去曾向贡献过爬网集

作者： qykto / 2 3 月, 2024

下一个想法是我们从我们收集的中知道所有这些也许我们可以使用它们。但我们知道他们会偏向于更高质量的页面。大多数网址不会对任何内容进行排名别这么想。是时候进行更深入的研究了。我启动了看看是否有其他组织尝试过这个过程结果发现了于年月发表的一篇论文名为关于近乎统一的采样。读完摘要的第一句话后我急忙掏出信用卡购买了这篇论文我们考虑从网络上统一随机采样的问题。这正是我所需要的。为什么不采用普通爬行许多更具技术性的阅读本文可能会问为什么我们不简单地从第三方网络索引中选择随机比如神奇的数据集。

我们考虑但选择放弃这种方法有几

个原因尽管它更容易实现。我们无法德国 WhatsApp 号码确定的长期可用性。前百万名单我们用作播种过程的一部分可以从多个来源获得这意味着如果消失我们可以使用其他提供商。并希望确保没有隐式或显式的偏向索引的偏见无论这种偏见有多么微不足道。数据集非常大对于许多尝试创建自己的随机列表的人来说会更难使用。我们希望我们的过程是可重复的。如何获取网络的随机样本获取网络随机样本的过程相当乏味但总体要点是这样的。首先我们从一组易于理解的有偏见的开始。然后我们尝试消除或平衡这种偏差尽可能制作最佳的伪随机列表。

最后我们从这些伪随机开

始对网络进行随机抓取以生成接近真正随机的最终列表。以下是完整的详细信息。起点获取种子获取网络随机样本的第一个大问题是没有真正的随机起点。想一想。与一袋弹珠不同你可以伸手盲目地随机抓起一个弹珠如果你还不知道你就无法随机挑选它。您可以尝试通过将字母和斜线相互推挤来暴力创建随机但我们知道语言不是这样工作的因此与我们在网络上找到的会非常不同。不幸的是每个人都被迫从一些伪随机过程开始。我们必须做出选择。这是一个艰难的过程。我们是从不支持的已知强偏见开始还是从支持的已知较弱偏见开始我们可以使用我们自己索引中白俄罗斯 WhatsApp 号码数据的随机选择作为此过程的起点这将是伪随机的但可能有利于或者我们可以从一个较小的公共索引开始例如这将有很大的偏差走向好的网站。我们决定以后者为起点因为数据是可重现。

发表评论取消回复