您的位置：首頁>

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破：短鏈條思維顯著提升AI視覺推理

2026-01-07 16:29:53 來源：科技行者

由中國人民大學(xué)和字節(jié)跳動(dòng)種子團(tuán)隊(duì)聯(lián)合開展的這項(xiàng)研究，于2025年11月發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的重要期刊上，論文編號為arXiv:2511.22586v1。這項(xiàng)研究深入探討了不同思維鏈條訓(xùn)練方式如何影響視覺語言模型在視覺推理任務(wù)中的泛化能力，揭示了一個(gè)頗為意外的發(fā)現(xiàn)：在訓(xùn)練AI進(jìn)行視覺推理時(shí)，"短而精"的思維鏈條往往比"長而詳"的推理過程更有效。

想要理解這項(xiàng)研究的意義，可以把AI的視覺推理能力想象成學(xué)習(xí)解迷宮的過程。傳統(tǒng)觀念認(rèn)為，讓AI詳細(xì)描述每一步的思考過程——就像一個(gè)人在迷宮中邊走邊自言自語"現(xiàn)在我面前有三條路，左邊看起來是死胡同，右邊可能通向出口"——這樣的詳細(xì)推理應(yīng)該讓AI學(xué)得更好。然而，研究團(tuán)隊(duì)發(fā)現(xiàn)，簡潔而直接的思維訓(xùn)練方式，就像只告訴AI關(guān)鍵的轉(zhuǎn)彎點(diǎn)和最終路徑，反而能讓它在面對新迷宮時(shí)表現(xiàn)得更出色。

(資料圖片僅供參考)

這項(xiàng)研究的核心創(chuàng)新在于系統(tǒng)性地比較了三種不同的思維鏈條訓(xùn)練方法：語言思維鏈（用文字描述推理過程）、定位思維鏈（用坐標(biāo)標(biāo)記關(guān)鍵位置）和視覺思維鏈（直接在圖像上做標(biāo)記）。更重要的是，他們還發(fā)現(xiàn)了"最少定位信息"的訓(xùn)練方式——只保留最關(guān)鍵的空間信息——竟然能達(dá)到最好的泛化效果。這就好比教孩子騎自行車時(shí)，與其詳細(xì)解釋每個(gè)動(dòng)作的原理和細(xì)節(jié)，不如直接展示幾個(gè)關(guān)鍵姿勢，讓孩子自己摸索出平衡感。

研究團(tuán)隊(duì)選擇了迷宮導(dǎo)航這個(gè)經(jīng)典的視覺推理任務(wù)作為實(shí)驗(yàn)平臺(tái)，這個(gè)選擇頗具匠心。迷宮任務(wù)完全依賴視覺信息進(jìn)行推理，不受外部知識干擾，難度可以通過調(diào)整迷宮大小精確控制，而且目前的視覺語言模型在這類任務(wù)上表現(xiàn)還比較薄弱，為研究提供了理想的測試環(huán)境。他們使用了目前性能優(yōu)秀的Qwen2.5-VL-7B模型作為基礎(chǔ)，采用了先進(jìn)行監(jiān)督學(xué)習(xí)再用強(qiáng)化學(xué)習(xí)優(yōu)化的訓(xùn)練策略。

一、三種思維鏈條的較量：誰是真正的贏家

在這場思維方式的比較中，研究團(tuán)隊(duì)精心設(shè)計(jì)了三種截然不同的訓(xùn)練方法。第一種是語言思維鏈，就像我們平時(shí)思考問題時(shí)的內(nèi)心獨(dú)白，AI會(huì)用文字詳細(xì)描述自己的推理過程。比如在解迷宮時(shí)，它會(huì)說"從起點(diǎn)開始，我只能向西走，然后我有兩個(gè)選擇：繼續(xù)向西還是向南，考慮到目標(biāo)在下方，向南可能是更好的選擇"。這種方法的優(yōu)勢在于推理過程清晰透明，就像一位老師在黑板上一步步演示解題過程。

第二種是定位思維鏈，它將推理過程轉(zhuǎn)化為空間坐標(biāo)的序列。在迷宮任務(wù)中，這種方法會(huì)將每個(gè)關(guān)鍵位置用具體的坐標(biāo)表示，比如"從起點(diǎn)[452,59]出發(fā)，下一步移動(dòng)到[359,59]"。這種方法的獨(dú)特之處在于它將抽象的推理過程轉(zhuǎn)化為具體的空間信息，讓AI能夠建立起語言推理和視覺空間之間的直接聯(lián)系。

第三種是視覺思維鏈，這是最接近人類直覺思維的方法。AI不僅會(huì)生成推理文本，還會(huì)在圖像上直接進(jìn)行操作——畫線標(biāo)記路徑、圈出重要區(qū)域、裁剪關(guān)鍵部分。這就像我們在地圖上用筆畫出路線一樣，將思維過程直接體現(xiàn)在視覺空間中。這種方法最大的特點(diǎn)是實(shí)現(xiàn)了真正的多模態(tài)推理，思考過程在文字和圖像之間來回切換。

然而，實(shí)驗(yàn)結(jié)果卻出人意料。雖然視覺思維鏈在訓(xùn)練初期確實(shí)展現(xiàn)出更快的收斂速度，仿佛有了"開掛"的優(yōu)勢，但最終的性能天花板卻并沒有比其他方法高出多少。這就像三個(gè)學(xué)生用不同方法學(xué)數(shù)學(xué)，雖然有人起步更快，但最終的考試成績卻相差不大。更令人驚訝的是，當(dāng)研究團(tuán)隊(duì)深入分析訓(xùn)練動(dòng)態(tài)時(shí)發(fā)現(xiàn)，視覺思維鏈的優(yōu)勢主要體現(xiàn)在訓(xùn)練效率上——它能讓模型更快地掌握任務(wù)要領(lǐng)，但并不能突破性能的根本限制。

二、"短而精"的意外勝利

在進(jìn)一步的實(shí)驗(yàn)中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更加令人驚喜的現(xiàn)象。他們設(shè)計(jì)了一種"最少定位信息"的訓(xùn)練方式，這種方法幾乎完全去掉了詳細(xì)的推理解釋，只保留最終的路徑坐標(biāo)序列。換句話說，就像教授駕駛技巧時(shí)，不解釋每個(gè)動(dòng)作的理論依據(jù)，而是直接展示最優(yōu)路線。

這種極簡方法的表現(xiàn)讓研究人員大吃一驚。不僅訓(xùn)練收斂速度更快，最終的泛化能力也最強(qiáng)。當(dāng)模型需要處理更大規(guī)模的迷宮時(shí)，用"最少定位信息"訓(xùn)練的AI表現(xiàn)得最為穩(wěn)定和可靠。這個(gè)發(fā)現(xiàn)顛覆了"解釋越詳細(xì)，學(xué)習(xí)效果越好"的直覺認(rèn)知。

為了理解這個(gè)現(xiàn)象，可以用學(xué)習(xí)駕駛來類比。一個(gè)教練可以選擇詳細(xì)解釋每個(gè)操作的原理——"現(xiàn)在踩離合器是因?yàn)樾枰袛喟l(fā)動(dòng)機(jī)動(dòng)力傳輸，然后移動(dòng)擋位桿是為了改變齒輪組合比例"——也可以選擇簡潔直接的指導(dǎo)——"先踩離合，再掛檔，然后松離合加油門"。雖然詳細(xì)解釋看起來更有教育價(jià)值，但簡潔指導(dǎo)往往能讓學(xué)員更快掌握核心技能，并且在面對各種不同路況時(shí)適應(yīng)性更強(qiáng)。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證實(shí)了這個(gè)"短即是長"的效應(yīng)。他們發(fā)現(xiàn)，當(dāng)AI的定位能力得到適當(dāng)訓(xùn)練和對齊后，它完全可以依靠內(nèi)在的空間表征進(jìn)行有效推理，而不需要依賴外部提供的詳細(xì)坐標(biāo)系統(tǒng)。這就像一個(gè)熟練的司機(jī)，即使在沒有GPS詳細(xì)導(dǎo)航的情況下，也能憑借對道路網(wǎng)絡(luò)的內(nèi)在理解找到目的地。

三、泛化能力的真正考驗(yàn)

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的泛化測試來驗(yàn)證各種訓(xùn)練方法的真實(shí)效果。第一種是單尺度泛化測試，就像讓只在小型練習(xí)場學(xué)過車的新手去駕駛稍大一些的車輛。具體來說，他們在6×6規(guī)模的迷宮上訓(xùn)練模型，然后測試其在7×7迷宮上的表現(xiàn)。第二種是跨尺度泛化測試，相當(dāng)于讓在多種車型上都練習(xí)過的司機(jī)去駕駛完全不同規(guī)格的車輛，即在4×4到6×6的多種尺寸迷宮上訓(xùn)練，然后在10×10的大型迷宮上測試。

結(jié)果再次證實(shí)了"最少定位信息"方法的優(yōu)勢。在兩種測試情況下，這種簡潔訓(xùn)練方法都展現(xiàn)出了最強(qiáng)的泛化能力。更有趣的是，視覺思維鏈方法雖然在訓(xùn)練階段表現(xiàn)不錯(cuò)，但在面對全新尺寸的迷宮時(shí)，其性能提升很快就遇到了瓶頸，而簡潔方法訓(xùn)練的模型卻能持續(xù)保持高水準(zhǔn)的表現(xiàn)。

這種現(xiàn)象背后的原理可以這樣理解：詳細(xì)的思維鏈條訓(xùn)練雖然提供了豐富的信息，但也可能導(dǎo)致模型過度依賴特定的推理模式和視覺線索，就像一個(gè)總是依賴特定地標(biāo)的司機(jī)，一旦環(huán)境發(fā)生變化就容易迷路。相反，簡潔訓(xùn)練方法迫使模型學(xué)習(xí)更加本質(zhì)和通用的推理規(guī)律，就像培養(yǎng)司機(jī)的方向感和路況判斷能力，使其能在各種環(huán)境中都游刃有余。

研究還發(fā)現(xiàn)，當(dāng)模型的定位能力得到充分訓(xùn)練后，它能夠內(nèi)化并運(yùn)用自己的潛在空間表征，而不再需要依賴外部明確指定的坐標(biāo)系統(tǒng)。這種能力使得模型在面對新的視覺環(huán)境時(shí)，能夠快速建立起內(nèi)在的空間理解框架，從而實(shí)現(xiàn)更好的適應(yīng)和泛化。

四、驗(yàn)證發(fā)現(xiàn)：從迷宮到現(xiàn)實(shí)世界

為了驗(yàn)證這些發(fā)現(xiàn)是否具有普遍適用性，研究團(tuán)隊(duì)將實(shí)驗(yàn)擴(kuò)展到了其他視覺推理任務(wù)。他們選擇了兩個(gè)經(jīng)典的視覺游戲：冰湖游戲和拼圖游戲。在冰湖游戲中，AI需要在避開陷阱的同時(shí)找到通向目標(biāo)的路徑，而在拼圖游戲中，AI需要將九塊混亂的圖片重新組合成完整的圖像。

實(shí)驗(yàn)結(jié)果令人鼓舞。在這些完全不同的任務(wù)中，"最少定位信息"的訓(xùn)練方法同樣展現(xiàn)出了顯著優(yōu)勢。特別是在拼圖任務(wù)中，這種方法將模型的成功率從幾乎為零提升到了超過70%，這種巨大的性能躍升充分證明了簡潔訓(xùn)練方法的威力。

研究團(tuán)隊(duì)還在真實(shí)世界的視覺問答任務(wù)上驗(yàn)證了他們的發(fā)現(xiàn)。在V*基準(zhǔn)測試和HR-Bench等標(biāo)準(zhǔn)數(shù)據(jù)集上，采用簡潔方法訓(xùn)練的模型在所有子任務(wù)中都達(dá)到了最佳性能，進(jìn)一步證實(shí)了"短即是長"效應(yīng)的普遍性和實(shí)用性。

這些跨任務(wù)的驗(yàn)證結(jié)果表明，簡潔而精準(zhǔn)的訓(xùn)練方式能夠幫助AI學(xué)習(xí)到更加本質(zhì)和可遷移的視覺推理能力。就像學(xué)習(xí)音樂時(shí)，掌握了基本的音階和節(jié)拍規(guī)律，就能演奏各種不同風(fēng)格的曲目一樣，AI通過簡潔訓(xùn)練獲得的核心推理能力，能夠靈活應(yīng)用到各種不同的視覺任務(wù)中。

五、理論洞察：為什么少即是多

這項(xiàng)研究最重要的理論貢獻(xiàn)在于揭示了視覺推理學(xué)習(xí)中的一個(gè)根本機(jī)制：當(dāng)AI的定位能力得到充分訓(xùn)練后，它主要依賴這種內(nèi)在的空間理解能力進(jìn)行推理，而過多的外部監(jiān)督信息反而可能成為干擾因素。

這個(gè)發(fā)現(xiàn)可以用"學(xué)自行車?yán)碚?來解釋。當(dāng)我們教孩子騎自行車時(shí)，如果過分關(guān)注每個(gè)細(xì)節(jié)——"現(xiàn)在左腳用力，右手稍微向左轉(zhuǎn)，身體重心前移2度"——孩子反而會(huì)被這些復(fù)雜指令搞糊涂。相反，如果我們只提供幾個(gè)關(guān)鍵指導(dǎo)點(diǎn)——"保持前進(jìn)，感受平衡"——孩子更容易建立起內(nèi)在的平衡感，這種直覺一旦形成，就能適應(yīng)各種不同的騎行環(huán)境。

研究團(tuán)隊(duì)發(fā)現(xiàn)，強(qiáng)化學(xué)習(xí)在這個(gè)過程中扮演了關(guān)鍵角色。在初始的監(jiān)督學(xué)習(xí)階段，不同的思維鏈條方法確實(shí)會(huì)產(chǎn)生不同的效果，但經(jīng)過強(qiáng)化學(xué)習(xí)的進(jìn)一步優(yōu)化后，模型主要加強(qiáng)的是其已有的定位和推理能力，而不是依賴于復(fù)雜的外部推理鏈條。這就解釋了為什么簡潔方法最終能夠勝出——它從一開始就專注于培養(yǎng)模型的核心能力，而不是讓模型依賴輔助工具。

更深層次的理解是，視覺推理任務(wù)的本質(zhì)在于空間關(guān)系的理解和操作，而不在于語言描述的詳細(xì)程度。當(dāng)AI真正掌握了空間推理的核心技能后，它就像一個(gè)經(jīng)驗(yàn)豐富的建筑師，能夠在腦海中清晰地構(gòu)建和操作三維模型，而不需要詳細(xì)的文字描述來輔助思考。

六、實(shí)際應(yīng)用與未來展望

這項(xiàng)研究的實(shí)際意義遠(yuǎn)超學(xué)術(shù)范疇，它為AI視覺推理系統(tǒng)的訓(xùn)練提供了全新的設(shè)計(jì)思路。在實(shí)際應(yīng)用中，這意味著我們可以用更少的標(biāo)注成本獲得更好的模型性能。傳統(tǒng)方法需要大量人工標(biāo)注詳細(xì)的推理過程，不僅成本高昂，還容易引入人為偏差。而簡潔訓(xùn)練方法只需要標(biāo)注關(guān)鍵的結(jié)果信息，大大降低了數(shù)據(jù)準(zhǔn)備的復(fù)雜度和成本。

在自動(dòng)駕駛領(lǐng)域，這個(gè)發(fā)現(xiàn)尤其具有價(jià)值。當(dāng)前的自動(dòng)駕駛系統(tǒng)往往需要復(fù)雜的決策解釋機(jī)制，但這項(xiàng)研究表明，專注于培養(yǎng)系統(tǒng)的核心空間理解能力，可能比構(gòu)建復(fù)雜的推理解釋系統(tǒng)更加有效。這就像培養(yǎng)一個(gè)優(yōu)秀的司機(jī)，關(guān)鍵在于建立良好的路況感知和反應(yīng)能力，而不是讓司機(jī)在每次轉(zhuǎn)彎時(shí)都詳細(xì)解釋選擇這個(gè)角度的理論依據(jù)。

在機(jī)器人導(dǎo)航和操作任務(wù)中，簡潔訓(xùn)練方法同樣能發(fā)揮重要作用。研究表明，讓機(jī)器人專注于學(xué)習(xí)環(huán)境中的關(guān)鍵空間標(biāo)記和導(dǎo)航要點(diǎn)，比讓它學(xué)習(xí)詳細(xì)的環(huán)境描述和決策過程更加有效。這種方法不僅能提高機(jī)器人在熟悉環(huán)境中的表現(xiàn)，更重要的是能增強(qiáng)其在新環(huán)境中的適應(yīng)能力。

研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前工作的局限性。他們的實(shí)驗(yàn)主要集中在相對簡單的視覺推理任務(wù)上，雖然已經(jīng)擴(kuò)展到了一些真實(shí)世界的應(yīng)用場景，但還需要在更廣泛的任務(wù)類型上驗(yàn)證這些發(fā)現(xiàn)的普適性。此外，"最少信息原則"的具體應(yīng)用方式可能因任務(wù)而異，需要進(jìn)一步研究如何為不同類型的視覺推理任務(wù)設(shè)計(jì)最優(yōu)的簡潔訓(xùn)練策略。

展望未來，這項(xiàng)研究開啟了AI訓(xùn)練方法論的新思路。它提示我們，在追求AI系統(tǒng)性能提升時(shí)，也許應(yīng)該更多地關(guān)注如何培養(yǎng)AI的內(nèi)在能力，而不是僅僅依賴外部信息的堆砌。這種"少即是多"的訓(xùn)練哲學(xué)，可能在其他AI領(lǐng)域也有廣闊的應(yīng)用前景，值得研究者們進(jìn)一步探索和發(fā)展。

說到底，這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理：有時(shí)候，最有效的學(xué)習(xí)方式不是記住所有細(xì)節(jié)，而是掌握核心要領(lǐng)。就像武俠小說中常說的"大道至簡"，AI的視覺推理能力提升也許并不需要復(fù)雜華麗的技巧，而是需要扎實(shí)的基本功和對本質(zhì)規(guī)律的深度理解。這個(gè)發(fā)現(xiàn)不僅為AI研究者提供了新的方向，也讓我們對人工智能的學(xué)習(xí)機(jī)制有了更深入的認(rèn)識。對于想要深入了解技術(shù)細(xì)節(jié)的讀者，可以查閱原論文arXiv:2511.22586v1獲取完整的研究內(nèi)容。

Q&A

Q1：什么是思維鏈條訓(xùn)練方法？

A：思維鏈條訓(xùn)練是讓AI在解決問題時(shí)生成中間推理步驟的方法，就像人類思考時(shí)的"自言自語"。研究比較了三種方式：用文字描述推理過程的語言思維鏈、用坐標(biāo)標(biāo)記位置的定位思維鏈，以及直接在圖像上做標(biāo)記的視覺思維鏈。

Q2：為什么簡潔的訓(xùn)練方法比詳細(xì)的更有效？

A：研究發(fā)現(xiàn)，過多的詳細(xì)解釋可能讓AI過度依賴特定模式，就像總是依賴地標(biāo)的司機(jī)在新環(huán)境中容易迷路。簡潔方法迫使AI學(xué)習(xí)更本質(zhì)的推理規(guī)律，培養(yǎng)內(nèi)在的空間理解能力，從而在面對新任務(wù)時(shí)適應(yīng)性更強(qiáng)。

Q3：這個(gè)發(fā)現(xiàn)對實(shí)際AI應(yīng)用有什么意義？

A：這項(xiàng)研究大大降低了AI訓(xùn)練成本，因?yàn)橹恍铇?biāo)注關(guān)鍵結(jié)果而非詳細(xì)過程。在自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域，專注培養(yǎng)核心空間理解能力比構(gòu)建復(fù)雜推理解釋系統(tǒng)更有效，能讓AI在新環(huán)境中表現(xiàn)更好。

關(guān)鍵詞：原理機(jī)器人字節(jié)跳動(dòng) 視覺推理知名企業(yè)

亚洲国产99,亚洲三级黄色,神马久久桃花,a级毛片毛片免费观看久潮,99久久精品免费观看国产,91视频国产精品,91.com在线

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破：短鏈條思維顯著提升AI視覺推理

相關(guān)閱讀

每日熱門：思泉新材(301489.SZ)董事吳攀擬減持不超144.45萬股

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破：短鏈條思維顯著提升AI視覺推理

國信期貨：焦煤建議短線操作

四川壽楠木材加工有限公司成立注冊資本50萬人民幣_(tái)最新消息

PriceSeek提醒：萬華丙烯酸報(bào)價(jià)下降50元

焦點(diǎn)要聞：生意社：1月7日利華益維遠(yuǎn)PC裝置動(dòng)態(tài)

教育數(shù)據(jù)相關(guān)股票名單，這些股票現(xiàn)在什么價(jià)格？（2026/1/6）

水井坊：融資凈買入577.05萬元，融資余額3.55億元（01-06）

當(dāng)前聚焦：太猛了，特斯拉正式發(fā)布新款 Model Y ！

今熱點(diǎn)：強(qiáng)力新材：公司的光敏性聚酰亞胺（PSPI）目前處于客戶驗(yàn)證階段

飛亞達(dá)：長空齒輪公司主要產(chǎn)品為精密齒輪、精密減速器

愛朋醫(yī)療：連續(xù)兩個(gè)交易日收盤漲幅偏離值累計(jì)超30%

每日聚焦：電連技術(shù)(300679.SZ)：公司暫未有關(guān)于腦機(jī)接口領(lǐng)域類產(chǎn)品出貨

鋼研高納：商業(yè)航天業(yè)務(wù)占比較低主營業(yè)務(wù)方向?yàn)楹娇瞻l(fā)動(dòng)機(jī) 焦點(diǎn)信息

恒瑞醫(yī)藥2025年12月股份變動(dòng)：A股員工持股計(jì)劃致總股本微增_看點(diǎn)

高通悄然豐富驍龍X2 Elite系列PC處理器產(chǎn)品線，新增多個(gè)SKU|新視野

閆學(xué)晶事件導(dǎo)致佐香園被抵制，不少網(wǎng)友將其倒掉或者丟掉-每日看點(diǎn)

每日視點(diǎn)!中鐵裝配：公司產(chǎn)品及服務(wù)不適用核電的相關(guān)領(lǐng)域

國內(nèi)純滌紗行業(yè)平均開工率統(tǒng)計(jì)_滾動(dòng)

速讀：捷榮國際控股(02119.HK)：截至二零二五年十二月三十一日止之股份發(fā)行人的證券變動(dòng)月報(bào)表內(nèi)容摘要

熱點(diǎn)文章

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破：短鏈條思維顯著提升AI視覺推理

相關(guān)閱讀

熱點(diǎn)文章

推薦文章