日韩精品视频在线观看免费_麻豆av一区二区_黄色裸体小视频_啦啦啦免费高清在线观看_亚洲综合二区_国产真人真事毛片视频

對話階躍星辰姜大昕:模型突破先于商業(yè)化,下一步關鍵是視覺領域Transformer級架構

藍鯨新聞5月9日訊(記者 武靜靜)大模型行業(yè)正經歷前所未有地加速演進,昨日的技術高地,轉瞬可能成為明日的過時概念。GPT-4 的生命周期之短,映照出技術的瞬息萬變,這款曾經的標桿產品生命周期僅存 467 天,恰似大模型賽道的殘酷縮影,技術迭代速度和戰(zhàn)略窗口期被空前壓縮。

從全員預訓練,到All in推理,從閉源到開源,在短短的一年之內,大模型焦點快速切換。當下的2025,關鍵詞是推理和開源。下一個是什么,誰也難以預測。

在這空前變化中,身處其中的大模型公司的感知和思考是什么。5月8日階躍星辰在北京舉行媒體溝通會,階躍星辰創(chuàng)始人、CEO姜大昕接受了藍鯨新聞等多家媒體采訪,聊起了他們對大模型時代,如何在變化中保持定力的思考,以及對下一步技術發(fā)展的判斷。

在多模態(tài)領域出現(xiàn)任何短板,都會延緩實現(xiàn) AGI 的進程

從2023年4月成立到現(xiàn)在,這家成立僅僅兩年的大模型公司,已經累計發(fā)布了22款自研基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等全系列,在階躍星辰 Step 系列基座模型矩陣中,多模態(tài)模型的占比已經達 7 成,所以在業(yè)內被稱為“多模態(tài)卷王”。

為什么會押注多模態(tài)?姜大昕的回答是:“多模態(tài)是實現(xiàn) AGI 的必經之路。在多模態(tài)領域出現(xiàn)任何短板,都會延緩實現(xiàn) AGI 的進程。”

他提到,AGI 對標的是人類智能:人類的智能本身是多元化的,除了語言的符號智能,還包括視覺智能、空間智能和運動智能等等。這些智能的習得需要通過視覺和其他模態(tài)來進行學習。因此,要實現(xiàn)對標人類的 AGI,模型也必須具備處理多種模態(tài)信息的能力。

此外,在應用層面來看,無論是垂直領域的應用還是 C 端應用,多模態(tài)都是必不可少。因為想讓 AI 更好地理解用戶所處的環(huán)境并進行更自然的交流,它需要具備“能聽、能看、能說”的能力。“多模態(tài)可以讓智能體充分地理解和感知這個世界。”姜大昕說。

在創(chuàng)立之初,階躍星辰就規(guī)劃了通往 AGI 的路線圖,包括三個階段:模擬世界—探索世界—歸納世界。在姜大昕看來,當下,整個行業(yè)的技術發(fā)展仍然處于非常陡峭的區(qū)間。

所以,當下,公司依舊會堅持基礎大模型的研發(fā),追求智能的上限:“行業(yè)變化太快,前兩年很厲害的 GPT-4都快下架了,階躍不想在這個過程中放棄主流增長或前進的趨勢,因此會堅持做基礎模型的研發(fā)。追求 AGI是我們的初心。”

視覺理解生成一體化是關鍵問題

實現(xiàn)AGI,下一步大模型的主要發(fā)展趨勢是什么?

姜大昕認為,未來的模型發(fā)展將沿著增強推理能力和實現(xiàn)多模理解生成一體化這兩個主要方向前進。

首先,是在預訓練的基礎模型上加入強化學習,激發(fā)推理的長思維鏈能力。這種強大的推理能力與多模態(tài)能力的結合,被認為是 Agent 爆發(fā)的兩個必要條件之一。

此外,除了語言模型推理之外,另一個能力是如何把推理引入到多模態(tài)領域。因為 單純的視覺理解是有限的,引入推理后,模型能夠結合其感知能力和內部知識,更深入地理解復雜的場景和情況。

第二個核心趨勢就是,視覺領域的理解生成一體化。這也是當下多模態(tài)領域的核心問題。“理解生成一體化是計算機視覺需要突破的一個堡壘,這對于預測下一幀、利用海量視頻進行預訓練、構建世界模型、實現(xiàn)具身智能和機器人泛化至關重要。

姜大昕進一步解釋:“理解生成一體化的核心定義是理解和生成由同一個模型來完成,這在文本領域(如 ChatGPT)已經實現(xiàn),但在視覺領域,目前的模型在多模態(tài)領域理解和生成往往由不同的模型完成,理解生成一體化是核心問題。

生成需要理解來控制理解需要生成來監(jiān)督”,姜大昕強調,生成的內容需要理解來控制,以確保生成內容有意義和有價值,理解需要生成來監(jiān)督,只有能夠生成,才能知道是否真正理解。如果能夠攻克這一難題,便能利用海量的視頻數(shù)據(jù)進行預訓練,并有望將計算機視覺的各項任務統(tǒng)一到一個模型之中。

盡管意義重大,視覺領域的理解生成一體化依然面臨著模態(tài)復雜度高的嚴峻挑戰(zhàn),由于高維連續(xù)空間難以高效表達,目前尚未找到類似 Transformer 在文本領域那樣具有突破性的、可擴展的架構。近期出現(xiàn)的模型,例如 GPT-4o 的圖像編輯能力以及階躍星辰的 Step 1X-Edit,被認為是理解生成一體化的初步嘗試,它們需要在理解圖像和指令的基礎上進行內容生成,并保持對原始圖像的忠實度。

據(jù)姜大昕透露,階躍星辰正在內部探索多條技術路線,以期找到可擴展的理解生成一體化架構,實現(xiàn)視覺模態(tài)的“Transformer 時刻”。“ 在技術路線未收斂之前,并行探索多種可能的解決方案是必要的。”

“突破可能在瞬間發(fā)生,但難以預測何時到來。”姜大昕說。

雙輪驅動:超級模型+超級應用

除了技術和方向,落地與應用是另一關鍵議題。

階躍星辰早在今年2月的首屆生態(tài)開放日上便明確,下一步將戰(zhàn)略聚焦智能終端 Agent 方向,并重點布局汽車、手機、具身智能、IoT 等核心應用場景。

姜大昕提到,Agent 爆發(fā)需要兩個必要的條件,一個是多模態(tài)的能力,另外一個是慢思考的能力,這兩個能力恰好在 2024 年的時候取得了突破性的進展。

選擇智能終端方向,是因其作為用戶感知與體驗的延伸,能夠采集環(huán)境信息,助力 Agent 理解用戶所處環(huán)境及任務上下文。此外,終端亦能執(zhí)行任務,未來的 Agent 有望通過自然對話簡化復雜設備操作。目前,階躍星辰正積極與手機、汽車、機器人等終端領域的頭部企業(yè)合作,探索 Agent 的實際落地。

對于 AI 應用的未來走向,姜大昕向藍鯨新聞指出,僅做應用的公司可能面臨通用模型能力提升后被降維打擊的風險。在關鍵的商業(yè)化方向上, 階躍星辰采取的是“超級模型加上超級應用”的雙輪驅動策略。

姜大昕認為,模型突破先于商業(yè)化,“通常是模型能力的突破先發(fā)生,然后才帶來商業(yè)化的成熟應用。例如,GPT-3.5 的出現(xiàn)催生了 ChatGPT,多模融合和推理模型的進步帶來了 Agent,而多模理解生成一體化(尤其是可擴展的一體化)的實現(xiàn),可能會進一步解鎖人形機器人泛化和構建世界模型等更大的應用和價值。”

階躍專注于基礎模型能力,但也重視應用,因為通用模型的能力需要通過應用來牽引。例如,玩具場景中孩子說話停頓的問題在通用模型中不會出現(xiàn),但解決這種問題可以促進模型能力的提升。

“雙輪驅動策略使得階躍星辰能夠在堅持基礎模型研發(fā),追求AGI的同時,通過與行業(yè)伙伴合作,在實際應用場景中探索和落地Agent能力,形成從模型到Agent,從云側到端側的生態(tài)體系,實現(xiàn)軟硬件結合以更好地理解用戶需求和完成任務。”

姜大昕展望未來:“所有終端都可能 Agent 化,將原本冰冷的設備轉變?yōu)橛脩舻闹悄芑锇椤!?/p>

主站蜘蛛池模板: 国产精品视频★ | 国产精品久久久久久久新郎 | 成人久久免费网站 | 91偷自产一区二区三区精品 | 国产精品偷伦小说 | 成人黄页网站 | 欧美中日韩在线 | 亚洲视频在线网站 | 狠狠躁躁夜夜躁波多野结依 | 欧美精品国产 | 日韩在线视频观看免费 | 亚洲无吗视频在线 | 国产欧美一区二区三区96精品 | 福利在线国产 | 国产精品美女乱子伦高 | 日韩乱淫 | 亚洲国产精品天堂 | 美女久久 | 国产精品一区二区三 | 国产日韩网站 | 外国一级黄色大片 | 亚洲成人精品一区 | 成人在线视频精品 | 一级做性色a爱片久久毛片欧 | 精品乱码一区二区三区 | 久久五十路丰满熟女中出 | 日韩精品在线观看一区二区 | 国产精品久久久成人一区二区三区 | 人人妻人人爽人人澡人人 | 好男人好视频好资源在线观看 | 精品无码国模私拍视频 | 天天操天天色综合 | 色爽av| 国产乱淫视频免费 | 国产毛片一区二区三区视频 | 91看片网页 | 久久久久国产一级毛片高清片 | 国产偷伦视频片手机在线观看 | 亚洲中文无码一区二区三区 | 国产综合色视频 | 成人做爰黄 |