亚洲国产99,亚洲三级黄色,神马久久桃花,a级毛片毛片免费观看久潮,99久久精品免费观看国产,91视频国产精品,91.com在线

您的位置:首頁>

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破:短鏈條思維顯著提升AI視覺推理

2026-01-07 16:29:53    來源:科技行者

由中國人民大學(xué)和字節(jié)跳動(dòng)種子團(tuán)隊(duì)聯(lián)合開展的這項(xiàng)研究,于2025年11月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的重要期刊上,論文編號為arXiv:2511.22586v1。這項(xiàng)研究深入探討了不同思維鏈條訓(xùn)練方式如何影響視覺語言模型在視覺推理任務(wù)中的泛化能力,揭示了一個(gè)頗為意外的發(fā)現(xiàn):在訓(xùn)練AI進(jìn)行視覺推理時(shí),"短而精"的思維鏈條往往比"長而詳"的推理過程更有效。

想要理解這項(xiàng)研究的意義,可以把AI的視覺推理能力想象成學(xué)習(xí)解迷宮的過程。傳統(tǒng)觀念認(rèn)為,讓AI詳細(xì)描述每一步的思考過程——就像一個(gè)人在迷宮中邊走邊自言自語"現(xiàn)在我面前有三條路,左邊看起來是死胡同,右邊可能通向出口"——這樣的詳細(xì)推理應(yīng)該讓AI學(xué)得更好。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),簡潔而直接的思維訓(xùn)練方式,就像只告訴AI關(guān)鍵的轉(zhuǎn)彎點(diǎn)和最終路徑,反而能讓它在面對新迷宮時(shí)表現(xiàn)得更出色。


(資料圖片僅供參考)

這項(xiàng)研究的核心創(chuàng)新在于系統(tǒng)性地比較了三種不同的思維鏈條訓(xùn)練方法:語言思維鏈(用文字描述推理過程)、定位思維鏈(用坐標(biāo)標(biāo)記關(guān)鍵位置)和視覺思維鏈(直接在圖像上做標(biāo)記)。更重要的是,他們還發(fā)現(xiàn)了"最少定位信息"的訓(xùn)練方式——只保留最關(guān)鍵的空間信息——竟然能達(dá)到最好的泛化效果。這就好比教孩子騎自行車時(shí),與其詳細(xì)解釋每個(gè)動(dòng)作的原理和細(xì)節(jié),不如直接展示幾個(gè)關(guān)鍵姿勢,讓孩子自己摸索出平衡感。

研究團(tuán)隊(duì)選擇了迷宮導(dǎo)航這個(gè)經(jīng)典的視覺推理任務(wù)作為實(shí)驗(yàn)平臺(tái),這個(gè)選擇頗具匠心。迷宮任務(wù)完全依賴視覺信息進(jìn)行推理,不受外部知識干擾,難度可以通過調(diào)整迷宮大小精確控制,而且目前的視覺語言模型在這類任務(wù)上表現(xiàn)還比較薄弱,為研究提供了理想的測試環(huán)境。他們使用了目前性能優(yōu)秀的Qwen2.5-VL-7B模型作為基礎(chǔ),采用了先進(jìn)行監(jiān)督學(xué)習(xí)再用強(qiáng)化學(xué)習(xí)優(yōu)化的訓(xùn)練策略。

一、三種思維鏈條的較量:誰是真正的贏家

在這場思維方式的比較中,研究團(tuán)隊(duì)精心設(shè)計(jì)了三種截然不同的訓(xùn)練方法。第一種是語言思維鏈,就像我們平時(shí)思考問題時(shí)的內(nèi)心獨(dú)白,AI會(huì)用文字詳細(xì)描述自己的推理過程。比如在解迷宮時(shí),它會(huì)說"從起點(diǎn)開始,我只能向西走,然后我有兩個(gè)選擇:繼續(xù)向西還是向南,考慮到目標(biāo)在下方,向南可能是更好的選擇"。這種方法的優(yōu)勢在于推理過程清晰透明,就像一位老師在黑板上一步步演示解題過程。

第二種是定位思維鏈,它將推理過程轉(zhuǎn)化為空間坐標(biāo)的序列。在迷宮任務(wù)中,這種方法會(huì)將每個(gè)關(guān)鍵位置用具體的坐標(biāo)表示,比如"從起點(diǎn)[452,59]出發(fā),下一步移動(dòng)到[359,59]"。這種方法的獨(dú)特之處在于它將抽象的推理過程轉(zhuǎn)化為具體的空間信息,讓AI能夠建立起語言推理和視覺空間之間的直接聯(lián)系。

第三種是視覺思維鏈,這是最接近人類直覺思維的方法。AI不僅會(huì)生成推理文本,還會(huì)在圖像上直接進(jìn)行操作——畫線標(biāo)記路徑、圈出重要區(qū)域、裁剪關(guān)鍵部分。這就像我們在地圖上用筆畫出路線一樣,將思維過程直接體現(xiàn)在視覺空間中。這種方法最大的特點(diǎn)是實(shí)現(xiàn)了真正的多模態(tài)推理,思考過程在文字和圖像之間來回切換。

然而,實(shí)驗(yàn)結(jié)果卻出人意料。雖然視覺思維鏈在訓(xùn)練初期確實(shí)展現(xiàn)出更快的收斂速度,仿佛有了"開掛"的優(yōu)勢,但最終的性能天花板卻并沒有比其他方法高出多少。這就像三個(gè)學(xué)生用不同方法學(xué)數(shù)學(xué),雖然有人起步更快,但最終的考試成績卻相差不大。更令人驚訝的是,當(dāng)研究團(tuán)隊(duì)深入分析訓(xùn)練動(dòng)態(tài)時(shí)發(fā)現(xiàn),視覺思維鏈的優(yōu)勢主要體現(xiàn)在訓(xùn)練效率上——它能讓模型更快地掌握任務(wù)要領(lǐng),但并不能突破性能的根本限制。

二、"短而精"的意外勝利

在進(jìn)一步的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更加令人驚喜的現(xiàn)象。他們設(shè)計(jì)了一種"最少定位信息"的訓(xùn)練方式,這種方法幾乎完全去掉了詳細(xì)的推理解釋,只保留最終的路徑坐標(biāo)序列。換句話說,就像教授駕駛技巧時(shí),不解釋每個(gè)動(dòng)作的理論依據(jù),而是直接展示最優(yōu)路線。

這種極簡方法的表現(xiàn)讓研究人員大吃一驚。不僅訓(xùn)練收斂速度更快,最終的泛化能力也最強(qiáng)。當(dāng)模型需要處理更大規(guī)模的迷宮時(shí),用"最少定位信息"訓(xùn)練的AI表現(xiàn)得最為穩(wěn)定和可靠。這個(gè)發(fā)現(xiàn)顛覆了"解釋越詳細(xì),學(xué)習(xí)效果越好"的直覺認(rèn)知。

為了理解這個(gè)現(xiàn)象,可以用學(xué)習(xí)駕駛來類比。一個(gè)教練可以選擇詳細(xì)解釋每個(gè)操作的原理——"現(xiàn)在踩離合器是因?yàn)樾枰袛喟l(fā)動(dòng)機(jī)動(dòng)力傳輸,然后移動(dòng)擋位桿是為了改變齒輪組合比例"——也可以選擇簡潔直接的指導(dǎo)——"先踩離合,再掛檔,然后松離合加油門"。雖然詳細(xì)解釋看起來更有教育價(jià)值,但簡潔指導(dǎo)往往能讓學(xué)員更快掌握核心技能,并且在面對各種不同路況時(shí)適應(yīng)性更強(qiáng)。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證實(shí)了這個(gè)"短即是長"的效應(yīng)。他們發(fā)現(xiàn),當(dāng)AI的定位能力得到適當(dāng)訓(xùn)練和對齊后,它完全可以依靠內(nèi)在的空間表征進(jìn)行有效推理,而不需要依賴外部提供的詳細(xì)坐標(biāo)系統(tǒng)。這就像一個(gè)熟練的司機(jī),即使在沒有GPS詳細(xì)導(dǎo)航的情況下,也能憑借對道路網(wǎng)絡(luò)的內(nèi)在理解找到目的地。

三、泛化能力的真正考驗(yàn)

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的泛化測試來驗(yàn)證各種訓(xùn)練方法的真實(shí)效果。第一種是單尺度泛化測試,就像讓只在小型練習(xí)場學(xué)過車的新手去駕駛稍大一些的車輛。具體來說,他們在6×6規(guī)模的迷宮上訓(xùn)練模型,然后測試其在7×7迷宮上的表現(xiàn)。第二種是跨尺度泛化測試,相當(dāng)于讓在多種車型上都練習(xí)過的司機(jī)去駕駛完全不同規(guī)格的車輛,即在4×4到6×6的多種尺寸迷宮上訓(xùn)練,然后在10×10的大型迷宮上測試。

結(jié)果再次證實(shí)了"最少定位信息"方法的優(yōu)勢。在兩種測試情況下,這種簡潔訓(xùn)練方法都展現(xiàn)出了最強(qiáng)的泛化能力。更有趣的是,視覺思維鏈方法雖然在訓(xùn)練階段表現(xiàn)不錯(cuò),但在面對全新尺寸的迷宮時(shí),其性能提升很快就遇到了瓶頸,而簡潔方法訓(xùn)練的模型卻能持續(xù)保持高水準(zhǔn)的表現(xiàn)。

這種現(xiàn)象背后的原理可以這樣理解:詳細(xì)的思維鏈條訓(xùn)練雖然提供了豐富的信息,但也可能導(dǎo)致模型過度依賴特定的推理模式和視覺線索,就像一個(gè)總是依賴特定地標(biāo)的司機(jī),一旦環(huán)境發(fā)生變化就容易迷路。相反,簡潔訓(xùn)練方法迫使模型學(xué)習(xí)更加本質(zhì)和通用的推理規(guī)律,就像培養(yǎng)司機(jī)的方向感和路況判斷能力,使其能在各種環(huán)境中都游刃有余。

研究還發(fā)現(xiàn),當(dāng)模型的定位能力得到充分訓(xùn)練后,它能夠內(nèi)化并運(yùn)用自己的潛在空間表征,而不再需要依賴外部明確指定的坐標(biāo)系統(tǒng)。這種能力使得模型在面對新的視覺環(huán)境時(shí),能夠快速建立起內(nèi)在的空間理解框架,從而實(shí)現(xiàn)更好的適應(yīng)和泛化。

四、驗(yàn)證發(fā)現(xiàn):從迷宮到現(xiàn)實(shí)世界

為了驗(yàn)證這些發(fā)現(xiàn)是否具有普遍適用性,研究團(tuán)隊(duì)將實(shí)驗(yàn)擴(kuò)展到了其他視覺推理任務(wù)。他們選擇了兩個(gè)經(jīng)典的視覺游戲:冰湖游戲和拼圖游戲。在冰湖游戲中,AI需要在避開陷阱的同時(shí)找到通向目標(biāo)的路徑,而在拼圖游戲中,AI需要將九塊混亂的圖片重新組合成完整的圖像。

實(shí)驗(yàn)結(jié)果令人鼓舞。在這些完全不同的任務(wù)中,"最少定位信息"的訓(xùn)練方法同樣展現(xiàn)出了顯著優(yōu)勢。特別是在拼圖任務(wù)中,這種方法將模型的成功率從幾乎為零提升到了超過70%,這種巨大的性能躍升充分證明了簡潔訓(xùn)練方法的威力。

研究團(tuán)隊(duì)還在真實(shí)世界的視覺問答任務(wù)上驗(yàn)證了他們的發(fā)現(xiàn)。在V*基準(zhǔn)測試和HR-Bench等標(biāo)準(zhǔn)數(shù)據(jù)集上,采用簡潔方法訓(xùn)練的模型在所有子任務(wù)中都達(dá)到了最佳性能,進(jìn)一步證實(shí)了"短即是長"效應(yīng)的普遍性和實(shí)用性。

這些跨任務(wù)的驗(yàn)證結(jié)果表明,簡潔而精準(zhǔn)的訓(xùn)練方式能夠幫助AI學(xué)習(xí)到更加本質(zhì)和可遷移的視覺推理能力。就像學(xué)習(xí)音樂時(shí),掌握了基本的音階和節(jié)拍規(guī)律,就能演奏各種不同風(fēng)格的曲目一樣,AI通過簡潔訓(xùn)練獲得的核心推理能力,能夠靈活應(yīng)用到各種不同的視覺任務(wù)中。

五、理論洞察:為什么少即是多

這項(xiàng)研究最重要的理論貢獻(xiàn)在于揭示了視覺推理學(xué)習(xí)中的一個(gè)根本機(jī)制:當(dāng)AI的定位能力得到充分訓(xùn)練后,它主要依賴這種內(nèi)在的空間理解能力進(jìn)行推理,而過多的外部監(jiān)督信息反而可能成為干擾因素。

這個(gè)發(fā)現(xiàn)可以用"學(xué)自行車?yán)碚?來解釋。當(dāng)我們教孩子騎自行車時(shí),如果過分關(guān)注每個(gè)細(xì)節(jié)——"現(xiàn)在左腳用力,右手稍微向左轉(zhuǎn),身體重心前移2度"——孩子反而會(huì)被這些復(fù)雜指令搞糊涂。相反,如果我們只提供幾個(gè)關(guān)鍵指導(dǎo)點(diǎn)——"保持前進(jìn),感受平衡"——孩子更容易建立起內(nèi)在的平衡感,這種直覺一旦形成,就能適應(yīng)各種不同的騎行環(huán)境。

研究團(tuán)隊(duì)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)在這個(gè)過程中扮演了關(guān)鍵角色。在初始的監(jiān)督學(xué)習(xí)階段,不同的思維鏈條方法確實(shí)會(huì)產(chǎn)生不同的效果,但經(jīng)過強(qiáng)化學(xué)習(xí)的進(jìn)一步優(yōu)化后,模型主要加強(qiáng)的是其已有的定位和推理能力,而不是依賴于復(fù)雜的外部推理鏈條。這就解釋了為什么簡潔方法最終能夠勝出——它從一開始就專注于培養(yǎng)模型的核心能力,而不是讓模型依賴輔助工具。

更深層次的理解是,視覺推理任務(wù)的本質(zhì)在于空間關(guān)系的理解和操作,而不在于語言描述的詳細(xì)程度。當(dāng)AI真正掌握了空間推理的核心技能后,它就像一個(gè)經(jīng)驗(yàn)豐富的建筑師,能夠在腦海中清晰地構(gòu)建和操作三維模型,而不需要詳細(xì)的文字描述來輔助思考。

六、實(shí)際應(yīng)用與未來展望

這項(xiàng)研究的實(shí)際意義遠(yuǎn)超學(xué)術(shù)范疇,它為AI視覺推理系統(tǒng)的訓(xùn)練提供了全新的設(shè)計(jì)思路。在實(shí)際應(yīng)用中,這意味著我們可以用更少的標(biāo)注成本獲得更好的模型性能。傳統(tǒng)方法需要大量人工標(biāo)注詳細(xì)的推理過程,不僅成本高昂,還容易引入人為偏差。而簡潔訓(xùn)練方法只需要標(biāo)注關(guān)鍵的結(jié)果信息,大大降低了數(shù)據(jù)準(zhǔn)備的復(fù)雜度和成本。

在自動(dòng)駕駛領(lǐng)域,這個(gè)發(fā)現(xiàn)尤其具有價(jià)值。當(dāng)前的自動(dòng)駕駛系統(tǒng)往往需要復(fù)雜的決策解釋機(jī)制,但這項(xiàng)研究表明,專注于培養(yǎng)系統(tǒng)的核心空間理解能力,可能比構(gòu)建復(fù)雜的推理解釋系統(tǒng)更加有效。這就像培養(yǎng)一個(gè)優(yōu)秀的司機(jī),關(guān)鍵在于建立良好的路況感知和反應(yīng)能力,而不是讓司機(jī)在每次轉(zhuǎn)彎時(shí)都詳細(xì)解釋選擇這個(gè)角度的理論依據(jù)。

在機(jī)器人導(dǎo)航和操作任務(wù)中,簡潔訓(xùn)練方法同樣能發(fā)揮重要作用。研究表明,讓機(jī)器人專注于學(xué)習(xí)環(huán)境中的關(guān)鍵空間標(biāo)記和導(dǎo)航要點(diǎn),比讓它學(xué)習(xí)詳細(xì)的環(huán)境描述和決策過程更加有效。這種方法不僅能提高機(jī)器人在熟悉環(huán)境中的表現(xiàn),更重要的是能增強(qiáng)其在新環(huán)境中的適應(yīng)能力。

研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前工作的局限性。他們的實(shí)驗(yàn)主要集中在相對簡單的視覺推理任務(wù)上,雖然已經(jīng)擴(kuò)展到了一些真實(shí)世界的應(yīng)用場景,但還需要在更廣泛的任務(wù)類型上驗(yàn)證這些發(fā)現(xiàn)的普適性。此外,"最少信息原則"的具體應(yīng)用方式可能因任務(wù)而異,需要進(jìn)一步研究如何為不同類型的視覺推理任務(wù)設(shè)計(jì)最優(yōu)的簡潔訓(xùn)練策略。

展望未來,這項(xiàng)研究開啟了AI訓(xùn)練方法論的新思路。它提示我們,在追求AI系統(tǒng)性能提升時(shí),也許應(yīng)該更多地關(guān)注如何培養(yǎng)AI的內(nèi)在能力,而不是僅僅依賴外部信息的堆砌。這種"少即是多"的訓(xùn)練哲學(xué),可能在其他AI領(lǐng)域也有廣闊的應(yīng)用前景,值得研究者們進(jìn)一步探索和發(fā)展。

說到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:有時(shí)候,最有效的學(xué)習(xí)方式不是記住所有細(xì)節(jié),而是掌握核心要領(lǐng)。就像武俠小說中常說的"大道至簡",AI的視覺推理能力提升也許并不需要復(fù)雜華麗的技巧,而是需要扎實(shí)的基本功和對本質(zhì)規(guī)律的深度理解。這個(gè)發(fā)現(xiàn)不僅為AI研究者提供了新的方向,也讓我們對人工智能的學(xué)習(xí)機(jī)制有了更深入的認(rèn)識。對于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以查閱原論文arXiv:2511.22586v1獲取完整的研究內(nèi)容。

Q&A

Q1:什么是思維鏈條訓(xùn)練方法?

A:思維鏈條訓(xùn)練是讓AI在解決問題時(shí)生成中間推理步驟的方法,就像人類思考時(shí)的"自言自語"。研究比較了三種方式:用文字描述推理過程的語言思維鏈、用坐標(biāo)標(biāo)記位置的定位思維鏈,以及直接在圖像上做標(biāo)記的視覺思維鏈。

Q2:為什么簡潔的訓(xùn)練方法比詳細(xì)的更有效?

A:研究發(fā)現(xiàn),過多的詳細(xì)解釋可能讓AI過度依賴特定模式,就像總是依賴地標(biāo)的司機(jī)在新環(huán)境中容易迷路。簡潔方法迫使AI學(xué)習(xí)更本質(zhì)的推理規(guī)律,培養(yǎng)內(nèi)在的空間理解能力,從而在面對新任務(wù)時(shí)適應(yīng)性更強(qiáng)。

Q3:這個(gè)發(fā)現(xiàn)對實(shí)際AI應(yīng)用有什么意義?

A:這項(xiàng)研究大大降低了AI訓(xùn)練成本,因?yàn)橹恍铇?biāo)注關(guān)鍵結(jié)果而非詳細(xì)過程。在自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域,專注培養(yǎng)核心空間理解能力比構(gòu)建復(fù)雜推理解釋系統(tǒng)更有效,能讓AI在新環(huán)境中表現(xiàn)更好。

關(guān)鍵詞: 原理 機(jī)器人 字節(jié)跳動(dòng) 視覺推理 知名企業(yè)

相關(guān)閱讀

信丰县| 信宜市| 湖州市| 邢台市| 昌乐县| 德昌县| 漾濞| 安庆市| 山东省| 麻栗坡县| 肃南| 环江| 视频| 阿瓦提县| 同江市| 金华市| 庆阳市| 托克逊县| 麻江县| 四川省| 隆安县| 遂平县| 偃师市| 萝北县| 正镶白旗| 双江| 当阳市| 井陉县| 错那县| 随州市| 遂川县| 新绛县| 尼木县| 塔河县| 乌鲁木齐市| 晋中市| 八宿县| 长岛县| 依安县| 两当县| 佛坪县|