阿里領投2.9億美元,重注下一代AI“世界模型”
關鍵詞: 世界模型 生數科技 阿里巴巴 大型語言模型 AI視頻生成
隨著大型語言模型(LLM)的局限性逐漸顯現,全球人工智能的競賽焦點正從“文本生成”轉向“模擬現實世界”。
4月10日消息,阿里巴巴已領投人工智能視頻生成工具Vidu的開發商——生數科技(Shengshu Technology)B輪融資,投資金額達20億元人民幣(約合2.9億美元)。這一巨額投資意味著科技巨頭正全力押注“世界模型”,試圖構建一種能更好復制現實世界的新型人工智能。
本輪融資由阿里巴巴主導,好未來教育和百度風投也參與其中。
這是生數科技在短短兩個月內完成的第二次大規模融資,此前該公司剛在啟明創投等機構的支持下完成了6億元人民幣的融資。盡管生數科技拒絕透露最新的具體估值,但密集的資本注入已顯示出市場對這一技術路線的高度認可。
此次投資的核心邏輯,在于行業對當前主流AI技術路線的深刻反思。過去幾年,以OpenAI的ChatGPT為代表的基于文本訓練的大型語言模型主導了市場。然而,隨著應用場景的深入,開發者們開始意識到,僅靠文本難以讓AI真正理解復雜的物理規律。
生數科技認為,“基于視覺、音頻和觸覺等多模態數據構建的通用世界模型,比大型語言模型更能自然地捕捉物理世界的運作方式,”這家成立僅三年的初創公司在一份聲明中闡述了其技術愿景。
生數科技創始人朱軍進一步補充道:“我們的目標是將感知與行動聯系起來。”他希望通過這種新型模型,使人工智能系統能夠更好地模擬和預測現實世界的行為,從而打破數字世界與物理世界的隔閡。
根據AI分析機構的數據,生數科技于今年1月發布的Vidu Q3 Pro型號,在利用文本和圖像生成視頻的AI模型中已躋身全球前十。這一技術實力也是吸引阿里巴巴入局的關鍵因素。
實際上,阿里巴巴在“世界模型”領域的布局早已悄然展開。作為電商起家的科技巨頭,阿里不僅在2月推出了一款用于驅動機器人的模型,還發布了用于視頻生成的免費開源人工智能模型。
除了生數科技,阿里巴巴近期還領投了PixVerse的6000萬美元融資。PixVerse今年早些時候發布了一個AI世界模型,允許用戶在視頻生成過程中精確控制視頻的展開方式。與此同時,百度和百度風投也在上個月領投了Tripo AI的5000萬美元融資。Tripo AI致力于利用AI技術從照片快速生成3D數字模型,其明確表示正在擺脫語言模型所使用的技術,轉向基于物理空間的AI工具開發。
這一輪投資熱潮的背后,是全球科技界對AI下一階段形態的共識。美國科技雜志《連線》的聯合創始人凱文·凱利(Kevin Kelly)上個月在其Substack專欄中撰文指出,世界模型對于機器人技術至關重要,因為這項技術需要的不僅僅是LLM才能發揮作用。
凱利表示:“最終,要復制人類智能,人工智能需要三個要素:推理能力、對物理世界的理解以及持續學習。”他特別強調,雖然目前的聊天機器人已經構建了知識元素,但“世界模型是亟需突破的關鍵領域”。
在激烈的市場競爭中,中國科技企業正試圖通過“世界模型”實現彎道超車。在OpenAI逐步關閉其視頻生成模型Sora的相關服務之后,包括字節跳動、快手在內的多家公司紛紛推出了類似的AI視頻生成工具。
生數科技周五透露,公司已與多家開發具身智能(Embodied AI)的公司建立了戰略合作伙伴關系。這些合作旨在將AI技術應用于與物理世界互動的人形機器人等系統,服務于工業、商業和家庭環境。