奧特曼自詡:達到或接近天才水平!OpenAI,重磅發布!
      來源:證券時報網作者:周春媚2025-04-17 12:40

      OpenAI迄今最智能的推理模型發布。

      今日,OpenAI發布了最新兩款o系列推理模型,分別是o3和o4-mini,這也是o系列中首次可以使用圖像進行思維鏈推理、實現“看圖思考”的模型。其中,o3是其最強大的推理旗艦模型,在編程、數學、科學、視覺感知等多個維度的基準測試中都處于領先位置;o4-mini是一個針對快速高效、成本效益推理進行優化的較小模型,更具性價比。

      在兩款o系列推理模型發布后,OpenAI首席執行官薩姆·奧特曼轉發一名體驗者的推文,并表示新模型“達到或接近天才水平”。此外,奧特曼還表示,預計會在未來幾周內將o3升級到專業版o3-pro。

      視覺推理能力“首秀”,具備自主執行任務能力

      據OpenAI介紹,最新發布的o3和o4-mini經過訓練后,可以在做出反應前進行更長時間的思考。這是公司迄今為止發布的最智能的模型,代表著ChatGPT能力的一次重大飛躍。

      記者注意到,在半小時的線上發布會直播中,此前曾長期休假的OpenAI總裁GregBrockman(格雷格·布洛克曼)也作為發布者,向觀眾介紹和演示o3和o4-mini。

      根據介紹及演示,o3和o4-mini主要有以下亮點:

      一是性能更強大。作為OpenAI迄今最強大的推理模型,o3和o4-mini在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。在STEM問答(MMMU、MathVista)、圖表閱讀和推理(CharXiv)、感知原語(VLMsareBlind)和視覺搜索(V*)方面均達到了新的最先進性能。

      此外,在外部專家的評估中,o3在困難的現實任務中比OpenAIo1犯的重大錯誤少20%,尤其是在編程、商業/咨詢和創意構思等領域表現出色。o4-mini作為一款體型更小的模型,則以其尺寸和成本實現了卓越的性能,是AIME2024和2025基準測試中表現最佳的模型。而且o4-mini支持比o3高得多的使用限制,具備高容量、高吞吐量的優勢。

      二是具備圖像思考和推理能力,可實現“看圖思考”。與前代模型相比,o3和o4-mini模型可以直接將圖像整合到思維鏈中,用圖像來進行思考,并在多模態基準測試中展現出頂尖性能。

      OpenAI稱,人們可以上傳白板照片、教科書圖表或手繪草圖,即使圖像模糊、反轉或質量低下,模型也能對其進行解讀。借助工具,模型可以動態操作圖像,在推理過程中進行旋轉、縮放或變換。

      比如,當用戶將一張寫有較難看清文字的筆記本圖片輸入到對話框中,并提問“筆記本上寫了什么”時,o3會分析圖片,并依次推理出其中的文字內容。當用戶向其輸入一張手繪題目的圖片時,o3也會對圖片進行仔細識別,并給出完整的解題思維鏈。

      三是可調動ChatGPT中的工具,自主執行任務。據介紹,o3和o4-mini可以完全訪問ChatGPT中的工具,以及通過API中的函數調用訪問用戶自己的自定義工具。例如,用戶可能會問:“加州夏季的能源使用量與去年相比如何?”該模型可以搜索網絡公共事業數據,編寫Python代碼進行預測,生成圖表或圖像,并解釋預測背后的關鍵因素,并將多個工具調用串聯起來。推理功能使模型能夠根據遇到的信息做出反應和調整。

      新模型“小步快跑”,GPT-5依然不見蹤影

      最近一段時間以來,OpenAI在新模型、新功能的發布上保持著密集的節奏,以層出不窮的新模型展現技術的最新實力。

      值得注意的是,在推出o3系列最新模型的前一天,OpenAI還推出三款GPT-4.1系列模型,包含標準版GPT-4.1、輕量款GPT-4.1mini,以及超小型版本GPT-4.1nano。事實上,此前GPT系列模型已進化至4.5版本,而此次的“倒退”則是OpenAI在面對全球大模型廠商激烈的價格競爭而采取的策略,以更具性價比的4.1版本吸引更多用戶。

      據介紹,GPT-4.1最大優勢在于多模態處理、代碼能力、指令遵循和成本方面實現顯著提升。價格方面,GPT-4.1比GPT-4o價格降低26%,GPT-4.1Nano作為最小、最快的模型,價格也最便宜,每百萬token的成本僅為12美分。

      相比于這些新模型,公眾一直更為期待的是GPT-5,但GPT-5的發布時間卻一直在延遲。去年年底,華爾街日報報道稱,GPT-5正面臨重重困難,該項目已開發超過18個月,成本花費巨大,卻仍未取得預期成果。

      奧特曼此前也曾經表示,由于計算能力的限制,公司無法按預期頻率推出GPT-5。今年4月初,奧特曼在社交媒體上發文稱,GPT-5的發布比預期要晚,因為“順利整合所有內容比我們預想的要困難得多。”他表示,將在未來幾周內發布o3和o4-mini,未來幾個月將發布GPT-5,并強調GPT-5發布后會非常受歡迎,可能會有大量的用戶使用,所以需要提前做好準備。

      與備受關注的GPT-5一樣,目前大家也對DeepSeek的下一代推理模型R2充滿期待。市場預期R2將于今年5月推出。前不久,DeepSeek與清華大學研究團隊聯合發布題為《獎勵模型的推理時Scaling方法及其在大規模語言模型中的應用》的重磅論文,提出自我原則點評調優(SPCT)與元獎勵模型(MetaRewardModel)兩項核心技術,為提升大語言模型的推理能力提供了全新方法論,被視為下一代推理模型R2的重要技術鋪墊。

      校對:祝甜婷

      責任編輯: 冉超
      聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
      下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
      網友評論
      登錄后可以發言
      發送
      網友評論僅供其表達個人看法,并不表明證券時報立場
      暫無評論
      為你推薦
      時報熱榜
      換一換
        熱點視頻
        換一換
        亚洲国产成人久久综合一| 狠狠色狠狠色很很综合很久久| 久久久久性色AV毛片特级| 99精品国产在热久久| 91精品国产色综合久久不| 亚洲午夜无码AV毛片久久| 久久一区二区明星换脸| 狠狠做深爱婷婷久久综合一区| 久久99国产精品一区二区| 亚洲国产精品无码久久98| 久久久精品午夜免费不卡| 久久亚洲精品无码gv| 久久大香伊蕉在人线观看热2| 伊人久久大香线蕉av色| 狠狠色丁香久久综合婷婷| 青青国产成人久久91| 少妇久久久久久久久久| 久久亚洲国产精品五月天婷| 曰曰摸天天摸人人看久久久| 色综合合久久天天给综看| 日韩人妻无码一区二区三区久久| 激情五月综合综合久久69| 色综合久久精品中文字幕首页| 国产精品免费看久久久| 国产成人久久精品麻豆一区| 精品无码久久久久久尤物| 国产高潮国产高潮久久久| 国产成人精品久久一区二区三区av| 久久亚洲sm情趣捆绑调教| 久久婷婷综合中文字幕| 国产精品伊人久久伊人电影| 久久久久久久久久久精品尤物| 亚洲精品国精品久久99热一| 国产精品嫩草久久久久| 亚洲精品视频久久| 99久久久国产精品免费牛牛四川| 青青草原综合久久大伊人| MM131亚洲国产美女久久| 久久亚洲精品11p| 人人狠狠综合久久亚洲| 亚洲伊人久久大香线焦|