Koa (@YyItRoad) 在 有没有大数据处理方面的大佬,请教一下Flink在处理离线数据或数据补充方面的问题。 中发帖
RT, 我刚接触Flink不久,使用Stream Api 写了几个简单的作业后,发现Flink作业经常因为各种问题而中断或者部分业务不明确导致的数据遗漏。有没有在以下方面有经验的佬能帮忙答疑解惑的,非常感谢!
问题一:使用mysql作为数据源,由于读取数据方式为一个表一个表依次读取,导致在数据关联时另一条流的数据一直获取不到,如果使用状态进行存储就会形成很大的状态,耗费很多内存直至OOM,尝试过使用rocksDB 作为状态后端来解决但是存在大状态问题。
问题二:在使用mysql数据源时,如何处理数据的补充业务,比如指定一个源数据查询条件后执行flink逻辑。
问题三:在使用Kafka数据源,如何处理数据的补充业务,比如指定一个源数据查询条件后执行flink逻辑。
希望有经验的大佬不吝赐教!