杵凌 (@chulingera2025)[求助] 单机环境下百亿级 16B 数据去重存储与恢复方案设计 中发帖

各位大佬,大家好,小的有个开发问题没有头绪,望各位有经验的大佬能够分享一下经验。 
大概的情况是:单机环境,64G 内存,无分布式 KV 数据库。
如何高效去重新数据(目前数据量约100亿,每个数据约16个字节,每小时增加1亿左右),需要考虑到程序中断后能够恢复。恢复可以换空间。
我这边已经有的方案是分层缓存+硬盘分页,也就是Bloom过滤器作为第一层和HashSet作为第二层。HashSet使用分页机制,最少使用页面自动淘汰到磁盘。
遇到的情况就是这套方案我写的内存压力大,而且到后面性能瓶颈就在磁盘io了。
可以接受空间换时间,索引什么的,重点是数据量大了之后吞吐量和恢复问题。
有没有大佬有思路的可以分享一下,合适的现成库或者存储引擎或者数据结构推荐。
小弟在此谢过 🙏