Allen Joe (@zrcc) 在 hyperloglog在大数据处理中的应用 中发帖
第一次发帖,不知道讲什么,先发个我博客上的文章吧
,最近有点忙,一直没有逼自己写博客,没有什么动力,就借这个契机,让自己以后持续输出一点什么吧
之前就是因为自己太水2月的号被扬了
[bafybeigm2ff6v3xdq3pa5wytdu74thl6loqn44ygleoecjarsc2mprpaxu]
HyperLogLog 算法简介
在大数据处理中,经常遇到需要统计独立元素数量的问题。例如,我们想知道一个大型网站每天有多少独立用户访问。简单的方法是使用哈希表来跟踪每个用户。但对于巨大的用户量,这种方法需要大量的内存。你需要为每一个用户在表上预留一个位置,因此在大数据的场景下并不适用。加之,我们大多数情况下,只需要了解用户的大致规模,所以HyperLogLog 作为一种精确度较高,内存使用极低的算法,适合这种情况。
1. 什么是 HyperLogLog?
HyperLogLog...