pawa大佬们提个问:浏览器扩展程序自动爬取网页文章的一些问题 中发帖

我在做一个浏览器扩展程序,实现网页文章的爬取。 
想实现:
1.在扩展程序页面输入任意url链接(文章,如微信公众号)
2.扩展程序自动打开对应的网页
3.对打开的网页内容进行爬取
4.爬取完后,在扩展程序页面内,返回完整的文章内容,包括文字、原格式、图片、链接,看上去就跟原网页展示效果一样
这种需求怎么实现比较好呢?直接content JS注入网页,然后获取页面元素信息(body),最后剔除不需要的内容吗?
有没有懂得大佬,教教,最好是有现成的开源项目,可以让我直接copy用的 0.o
我有尝试使用Mozilla Readability算法 但是效果不好,好多问题