印度Avataar AI推Varya視訊模型：低成本、高效率，深耕在地文化

相較於美國、歐洲和中國，印度在AI模型產出方面一直較為緩慢。目前只有少數新創公司發布模型，且多數為大型語言模型或語音模型。為了鼓勵更多開發，印度政府啟動了「印度AI任務」計畫，這項約12億美元的倡議，旨在向獲選的新創公司提供補貼的GPU運算資源，以換取他們公開發布模型。

Avataar AI是該計畫中獲選的12家新創公司之一，現已推出一款名為Varya的新視訊模型，該模型旨在理解在地文化脈絡，例如辨識不同的節慶、食物和服飾。

這家由Peak XV投資、專注於為電商打造視訊工具的新創公司，並非從零開始建構Varya。它以阿里巴巴公開的視訊生成模型Wan 2.2為基礎，並採用了一種稱為「蒸餾」的技術，本質上是將模型的能力壓縮成一個更精簡、更快速的版本，並針對Avataar的特定使用情境進行優化。其成果是模型只需四個步驟即可運行，而非Wan 2.2的50個步驟，生成視訊的速度快了10倍，成本也大幅降低。

具體來說，使用NVIDIA H200 GPU，Varya能在45秒內生成一段5秒的720p影片，而Wan 2.2則需1,230秒。

Varya最引人注目的特點或許是其價格。該公司計畫在託管服務上每秒影片收取0.48印度盧比（約0.005美元），遠低於Veo、Kling、Luma和Runway等模型通常每秒0.10美元以上的費用。這代表著約20倍的價格差異。

Peak XV的董事總經理Rajan Anandan向TechCrunch表示：「印度是一個視訊優先的市場。在印度的每個大型消費網路產品中，視訊都勝過文字。目前的AI視訊模型對於印度大規模應用來說太昂貴了。」他強調：「如果AI視訊要普及到學生、教師、中小企業、創作者、企業和公共服務，成本必須大幅下降。成本是印度AI普及的最大關鍵。」

圖像和視訊生成模型常忽略文化細微差異，產生刻板或通用的內容，TechCrunch先前也曾報導過此問題。Avataar AI表示，他們已使用精選資料來訓練Varya，使其能辨識包括食物、服飾、建築和節慶等文化細節。

Varya將作為開源模型，連同其訓練資料，在印度政府的AI Kosh入口網站上發布，該網站是印度公開AI模型和資料集的集中儲存庫。這意味著開發者可以自行託管或修改模型以滿足自身需求。Avataar也計畫將此模型提供給企業客戶，並表示樂意與Higgsfield和Adobe Firefly等視訊工具合作。目前任何人都可以透過其網站，使用文字提示詞或參考圖片來試用Varya。

Varya的推出反映了印度AI發展雄心的一個基本權衡。業界資深人士指出，印度可以在AI領域取得成就，透過建立應用程式和強大的開發者生態系統，而非在基礎模型上競爭。這種務實主義有其原因：由於缺乏運算資源和高品質資料的限制，印度在模型開發方面的進度一直比全球競爭對手緩慢。

「印度AI任務」也是政府彌補這一差距的廣泛推動計畫之一。去年，該計畫選出了12家新創公司（包括Avataar AI）來開發AI模型，並提供具成本效益的運算資源。今年稍早，資訊科技部長Ashwini Vaishnaw表示，印度目標在2028年前吸引2,000億美元的AI投資，並在六個月內將其GPU容量增加一倍以上。