林奈 (@kelan)请教各位佬友,哪个本地模型能满足我的场景对视觉能力的要求? 中发帖

有大概2T的各种图片,想精准的框出指定元素的范围:比如指定元素是人,返回一个box坐标[x_min, y_min, x_max, y_max],尽可能精准,偏移不能太大。 
电脑是m1max 32g内存