第三步:追蹤影象在使用了X-VLM和WeNet之後,我們成功讓裝置聽得懂咱們說的是啥玩意了,接下來要做的就是實現“追蹤目標”,聽起來是不是很酷炫,有種開戰鬥機發射追蹤導彈的感覺~相信不少小夥伴們都猜到了,這剩下的最後一個“STARK”就是用...