openai o3測試版是什麼?

Open ai的O3測試版是指Open的某個新功能或產品的測試版本。Open是一家致力於人工智慧研究和開發的公司,它們開發了各種模型和工具,如GPT系列模型、DALL-E影像生成器等。測試版通常是為了在正式釋出前收集使用者反饋、測試功能和完善產品。

然而,到2023年為止,Open並沒有公開宣佈一個名為“O3測試版”的產品或功能。因此,這可能是一個內部測試版本,或者是對某個即將釋出的新功能的預覽。如果你對Open的最新動態感興趣,建議關注Open的官方網站或社交媒體賬號,以獲取最新的官方資訊。

Open ai號稱o3在一些條件下接近通用人工智慧(AGI)。Open CEO Sam Altman在直播中說:“我們認為這是下一階段的開始。你可以使用這些模型來完成越來越複雜、需要大量推理的任務。”他還誇讚o3在程式設計方面的表現令人難以置信。

和前代o1模型一樣,o3透過思維鏈進行思考,逐步解釋其邏輯推理過程,總結出它認為最準確的答案。

o3有完整版mini版,新功能是可將模型推理時間設定為低、中、高,模型思考時間越高,效果越好。mini版更精簡,針對特定任務進行了微調,將在1月底推出,之後不久推出o3完整版

ARC-AGI是一項旨在評估系統推理首次遇到的極其困難的數學和邏輯問題能力的基準測試,由Keras之父François Chollet發起。在ARC-AGI測試中,o3在高推理能力設定下取得了87.5%的分數,在低推理能力設定下的分數也高達o1的3倍

這一成績令社交平臺一片雀躍,認為技術發展非但不見放緩,反而展示出比預期更快的通往AGI的速度。

要知道,之前GPT-3的評測結果為0%,GPT-4o為5%,而o3一舉將成績提升到87.5%,令人瞠目。與之前的大模型相比,o3能適應以前從未遇到過的任務,可以說接近人類水平的效能

François Chollet釋出了o3的完整測試報告。o3在兩個ARC-AGI資料集中進行了測試,並在兩個具有可變樣本量的計算級別上進行了測試:6(高效率)和1024(低效率,172倍計算)。其中,75.7%的高效率分數在ARC-AGI-Pub的預算規則範圍內(成本<10000美元),87.5%的低效率分數成本則相當昂貴,但仍然表明新任務的效能確實會隨著計算量的增加而提高。

目前o3還不是很經濟。使用者能夠以每項任務大約5美元(摺合人民幣約36元)的價格來支付人工解決ARC-AGI任務,只消耗幾美分的能源。而在低推理模式下,o3完成每個任務需要花費17-20美元(摺合人民幣約124~145元)。

Open明年將與ARC-AGI背後的基金會合作構建其下一個基準測試。

其他基準測試中,o3亦有遠勝競品的表現。

在由真實世界軟體任務組成的SWE-Bench Verified基準測試中,o3模型的準確率約為71.7%,比o1模型高出20%以上。Open研究高階副總裁Mark Chen說:“這確實意味著我們正在攀登實用性的前沿。

產品推廣
TOP1
微軟雲Azure資料庫SQL Server

Azure 虛擬機器上的 SQL Ser...

TOP2
微軟雲Azure PostgreSQL

利用完全託管、智慧且可擴充套件的 Pos...

TOP3
微軟雲Azure資料庫MySQL

使用可縮放的開源 MySQL 資料庫進行...

微軟雲Azure資料庫MariaDB

企業就緒且完全託管的社群 MariaDB...

Azure Cache for Redis

分散式可縮放記憶體中解決方案,提供超快速...

微軟雲azure 資料工廠

使用 Azure 資料工廠整合所有資料,...

0.019666s