杵凌 (@chulingera2025) 在 [求助] 单机环境下百亿级 16B 数据去重存储与恢复方案设计中发帖各位大佬，大家好，小的有个开发问题没有头绪，望各位有经验的大佬能够分享一下经验

杵凌 (@chulingera2025) 在 [求助] 单机环境下百亿级 16B 数据去重存储与恢复方案设计中发帖

各位大佬，大家好，小的有个开发问题没有头绪，望各位有经验的大佬能够分享一下经验。 
大概的情况是：单机环境，64G 内存，无分布式 KV 数据库。 
如何高效去重新数据（目前数据量约100亿，每个数据约16个字节，每小时增加1亿左右），需要考虑到程序中断后能够恢复。恢复可以换空间。 
我这边已经有的方案是分层缓存+硬盘分页，也就是Bloom过滤器作为第一层和HashSet作为第二层。HashSet使用分页机制，最少使用页面自动淘汰到磁盘。 
遇到的情况就是这套方案我写的内存压力大，而且到后面性能瓶颈就在磁盘io了。 
可以接受空间换时间，索引什么的，重点是数据量大了之后吞吐量和恢复问题。 
有没有大佬有思路的可以分享一下，合适的现成库或者存储引擎或者数据结构推荐。 
小弟在此谢过 🙏