實驗證明,這種預訓練方法十分高效,模型規模無需很大,預訓練資料無需很多, 僅216M引數量的X-VLM就能在廣泛的多模態任務上獲得了十分優秀的表現,例如:影象文字檢索、基於圖片的問答或推理、視覺定位、圖片描述生成...