相較於美國、歐洲和中國,印度在AI模型產出方面一直較為緩慢。目前只有少數新創公司發布模型,且多數為大型語言模型或語音模型。為了鼓勵更多開發,印度政府啟動了「印度AI任務」計畫,這項約12億美元的倡議,旨在向獲選的新創公司提供補貼的GPU運算資源,以換取他們公開發布模型。
Avataar AI是該計畫中獲選的12家新創公司之一,現已推出一款名為Varya的新視訊模型,該模型旨在理解在地文化脈絡,例如辨識不同的節慶、食物和服飾。
這家由Peak XV投資、專注於為電商打造視訊工具的新創公司,並非從零開始建構Varya。它以阿里巴巴公開的視訊生成模型Wan 2.2為基礎,並採用了一種稱為「蒸餾」的技術,本質上是將模型的能力壓縮成一個更精簡、更快速的版本,並針對Avataar的特定使用情境進行優化。其成果是模型只需四個步驟即可運行,而非Wan 2.2的50個步驟,生成視訊的速度快了10倍,成本也大幅降低。
具體來說,使用NVIDIA H200 GPU,Varya能在45秒內生成一段5秒的720p影片,而Wan 2.2則需1,230秒。
Varya最引人注目的特點或許是其價格。該公司計畫在託管服務上每秒影片收取0.48印度盧比(約0.005美元),遠低於Veo、Kling、Luma和Runway等模型通常每秒0.10美元以上的費用。這代表著約20倍的價格差異。
Peak XV的董事總經理Rajan Anandan向TechCrunch表示:「印度是一個視訊優先的市場。在印度的每個大型消費網路產品中,視訊都勝過文字。目前的AI視訊模型對於印度大規模應用來說太昂貴了。」他強調:「如果AI視訊要普及到學生、教師、中小企業、創作者、企業和公共服務,成本必須大幅下降。成本是印度AI普及的最大關鍵。」
圖像和視訊生成模型常忽略文化細微差異,產生刻板或通用的內容,TechCrunch先前也曾報導過此問題。Avataar AI表示,他們已使用精選資料來訓練Varya,使其能辨識包括食物、服飾、建築和節慶等文化細節。
Varya將作為開源模型,連同其訓練資料,在印度政府的AI Kosh入口網站上發布,該網站是印度公開AI模型和資料集的集中儲存庫。這意味著開發者可以自行託管或修改模型以滿足自身需求。Avataar也計畫將此模型提供給企業客戶,並表示樂意與Higgsfield和Adobe Firefly等視訊工具合作。目前任何人都可以透過其網站,使用文字提示詞或參考圖片來試用Varya。
Varya的推出反映了印度AI發展雄心的一個基本權衡。業界資深人士指出,印度可以在AI領域取得成就,透過建立應用程式和強大的開發者生態系統,而非在基礎模型上競爭。這種務實主義有其原因:由於缺乏運算資源和高品質資料的限制,印度在模型開發方面的進度一直比全球競爭對手緩慢。
「印度AI任務」也是政府彌補這一差距的廣泛推動計畫之一。去年,該計畫選出了12家新創公司(包括Avataar AI)來開發AI模型,並提供具成本效益的運算資源。今年稍早,資訊科技部長Ashwini Vaishnaw表示,印度目標在2028年前吸引2,000億美元的AI投資,並在六個月內將其GPU容量增加一倍以上。
