@qian_zhou 在多类文档转换 / 内容抽取 Document parser 中发帖最近工作中，需要阅读大量的不同种类的客户技术需求文档，时间也非常有限

@qian_zhou 在多类文档转换 / 内容抽取 Document parser 中发帖

最近工作中，需要阅读大量的不同种类的客户技术需求文档，时间也非常有限。最终的输出的技术要求都有规范的一个schema。 
自己考虑要分为两步，第一步内容抽取，第二步LLM 分析，并按照schema来输出。 
关于内容抽取方面，希望抽取的信息是有层次结构的。 TITLE, CONTENT, TABLE, IMAGE这些元素都需要抽取。我自己的想法是先使用Google document AI的 api， 然后 fall back到开源的unstructured IO或者docling。 
请教各位佬，是不是有更好的办法？