人工智能賦能科學(xué)研究提速
關(guān)鍵詞: 模型 科學(xué) 數(shù)據(jù) 開源 人工智能 科研
2025年8月,《國務(wù)院關(guān)于深入實施“人工智能+”行動的意見》發(fā)布,“人工智能+”科學(xué)技術(shù)被列入重點行動,涉及加速科學(xué)發(fā)現(xiàn)進(jìn)程、驅(qū)動技術(shù)研發(fā)模式創(chuàng)新和效能提升等內(nèi)容。 隨著通用大模型能力加速迭代,人工智能賦能科學(xué)研究(AI for Science,簡稱AI4S)正成為全球科技創(chuàng)新的核心賽道,掀起一場關(guān)乎科研底層邏輯的范式革命。 中國信通院發(fā)布的《人工智能產(chǎn)業(yè)發(fā)展研究報告(2025年)》顯示,2023年至2025年上半年,我國人工智能+科研垂直領(lǐng)域投融資活躍度不斷走高,2025年上半年,AI科研應(yīng)用在全國范圍內(nèi)獲投規(guī)模約10億元。 然而,與產(chǎn)業(yè)一片火熱形成鮮明對比的,是擺在科研人員面前的現(xiàn)實矛盾:現(xiàn)有的科學(xué)多模態(tài)模型往往依賴海量且難以獲取的數(shù)據(jù),訓(xùn)練過程如同“黑盒”,難以復(fù)現(xiàn)和改進(jìn)。數(shù)據(jù)需求量大、生態(tài)亟待培養(yǎng)、國際競爭加劇……科研工作者正在探索重構(gòu)AI4S開發(fā)范式,致力于驅(qū)動“AI科學(xué)家”自主進(jìn)行科學(xué)發(fā)現(xiàn)。 小數(shù)據(jù)+開源 實現(xiàn)AI4S“四兩撥千斤” 是否真的需要數(shù)以億計的數(shù)據(jù)才能教會AI理解科學(xué)?這是縈繞在眾多科研工作者,特別是AI4S領(lǐng)域研究人員心中的疑問。 2026年開年,一份最新“科學(xué)智能實戰(zhàn)指南”在開源社區(qū)發(fā)布。來自上海交通大學(xué)、深勢科技(DP Technology)、記憶張量(MemTensor)、中國科學(xué)院理論物理研究所等機(jī)構(gòu)的研究團(tuán)隊,聯(lián)合發(fā)布了Innovator-VL多模態(tài)大模型。 研究人員表示,Innovator-VL的訓(xùn)練過程證明,無需盲目堆砌數(shù)據(jù),僅憑不到500萬條精心挑選的科學(xué)訓(xùn)練樣本與透明的訓(xùn)練策略,便在多項科學(xué)基準(zhǔn)測試中超越了許多數(shù)據(jù)量動輒上億的模型,打破了科學(xué)大模型“唯數(shù)據(jù)量論”的“暴力美學(xué)”,驗證了“質(zhì)量優(yōu)于數(shù)量”的技術(shù)路徑。 Innovator-VL論文第一作者溫子辰向記者表示:“在缺乏大規(guī)模數(shù)據(jù)的情況下,高效且可復(fù)現(xiàn)的科學(xué)多模態(tài)模型不僅是可能的,更是通向未來科學(xué)發(fā)現(xiàn)的實用途徑。” 據(jù)介紹,作為專為科學(xué)領(lǐng)域定制的多模態(tài)大模型,Innovator-VL實現(xiàn)了跨尺度、跨學(xué)科的全場景科學(xué)理解能力。從微觀世界的分子式、晶體結(jié)構(gòu)、冷凍電鏡圖像,到宏觀宇宙的天文光變曲線、遙感影像,再到數(shù)理邏輯領(lǐng)域的復(fù)雜公式、算法流程圖,模型均能實現(xiàn)深度解析與邏輯推理。在實測案例中,面對天文學(xué)核心的天體光變曲線分析任務(wù),通過光變曲線特征、波段演化規(guī)律完成嚴(yán)謹(jǐn)?shù)倪壿嬐茖?dǎo),模型精準(zhǔn)識別Ia型超新星的光變特征;在有機(jī)化學(xué)場景中,模型識別反應(yīng)物結(jié)構(gòu)、拆解官能團(tuán)特性、匹配反應(yīng)類型和選項,輔助化學(xué)領(lǐng)域推理。 值得注意的是,不同于行業(yè)內(nèi)“僅開放模型權(quán)重”的常規(guī)開源模式,Innovator-VL研發(fā)團(tuán)隊完整開源了端到端可復(fù)現(xiàn)的全流程開發(fā)流水線,涵蓋數(shù)據(jù)采集清洗方法論、完整的指令微調(diào)與強(qiáng)化學(xué)習(xí)策略、超參數(shù)優(yōu)化方案與評測框架。 上海交通大學(xué)人工智能學(xué)院助理教授張林峰認(rèn)為,AI在科學(xué)研究中的角色,正在從“加速工具”逐步演變?yōu)椤罢J(rèn)知參與者”?!斑^去我們更多關(guān)注的是讓模型更快地處理數(shù)據(jù),但未來更關(guān)鍵的問題是它能否參與科學(xué)問題本身的定義與重構(gòu)之中?!睆埩址灞硎?。 在這一視角下,Innovator-VL的意義不僅在于性能提升,還是對“AI是否能夠成為科研過程一部分”的一次前瞻性探索。這種探索,或?qū)⒅匦露x人機(jī)協(xié)作在科學(xué)發(fā)現(xiàn)中的邊界。 以Innovator系列模型為代表的AI4S領(lǐng)域接連突破與全面開源,不僅為科研工作者提供了高效可復(fù)用的研發(fā)范式,更讓缺乏海量算力與數(shù)據(jù)資源的高校、中小科研機(jī)構(gòu),得以低成本參與科學(xué)智能的創(chuàng)新探索。中國科學(xué)院院士、上海交通大學(xué)人工智能學(xué)院首席顧問鄂維南直言,當(dāng)前AI4S的關(guān)鍵基礎(chǔ)設(shè)施已逐步成形,Agentic Science at Scale(規(guī)?;灾髦悄荏w科研)的新時代正式開啟。 全鏈條縱深突破 中國AI4S競速新賽道 Innovator系列模型的成功,只是我國AI4S蓬勃發(fā)展的縮影。當(dāng)前,我國正形成“底座模型突破—科研能力遷移—產(chǎn)業(yè)場景落地”的全鏈條發(fā)展格局,協(xié)助科研人員破解傳統(tǒng)科研“周期長、成本高、試錯難”的核心痛點,全力競逐全球AI4S研究高地。 中國工程院外籍院士、香港科技大學(xué)首席副校長郭毅可認(rèn)為,AI4S不僅是技術(shù)革命,更是認(rèn)知革命,正推動科研范式從“試錯驅(qū)動”向“數(shù)據(jù)+模型驅(qū)動”轉(zhuǎn)變,讓AI從被動的效率工具,升級為可主動推理、自主演化的科研合伙人。 “產(chǎn)業(yè)需求牽引+產(chǎn)學(xué)研協(xié)同創(chuàng)新”的特色路徑,形成了基礎(chǔ)創(chuàng)新與產(chǎn)業(yè)落地的正向循環(huán),開源成果也大幅降低了行業(yè)研發(fā)門檻。但AI4S的規(guī)模化落地仍面臨諸多共性挑戰(zhàn),包括多模態(tài)信息對齊、高質(zhì)量標(biāo)準(zhǔn)化數(shù)據(jù)稀缺、模型幻覺與可驗證性等瓶頸,以及跨學(xué)科人才缺口、行業(yè)標(biāo)準(zhǔn)缺失、算力成本高企等問題。 未來,隨著產(chǎn)學(xué)研協(xié)同持續(xù)深化、開源生態(tài)不斷完善,中國AI4S創(chuàng)新將持續(xù)為全球科研范式變革貢獻(xiàn)可復(fù)用的中國方案,推動AI真正成為科研工作者的“最佳助手”與“超級合伙人”。(記者 李曉東)
【責(zé)任編輯:朱家齊】