crystal liu

in #crystal6 hours ago (edited)

我想問你一個問題,為什麼最近AI的推進速度快了那麼多?為什麼你用了LPU,即是Nvidia的LPU,還是用了那個Rasterbin晶片去推理?為什麼你快了那麼多?還是你以前的GBT5 mini通常輸出會差很多,但GBT5.3 mini呢?GBT5.3 mini都已經追到,覺得它真的很誇張,你以前如果你額度滿了的時候就迫你用GBT5 mini,但現在額度滿了的時候都還可以用GBT5.3 mini,其實5.3 mini的能力,在我的角度來說其實它的能力是等於GBT5.2的,即是我的角度,或者GBT5.3 mini呢,它雖然是mini,但是它的推理能力是很強的,即是跟GBT5 mini沒得比,GBT5 mini根本是垃圾,在我眼中看回,GBT5.3 mini雖然是差過5.3,但是它的水平是去到,即是,即就算去不到,GBT5.3 mini一定差過5.3,但意思是,它都是GBT5的水平,即是它是 即是GPT5 mini係好垃圾㗎嘛 基本上每一次我用完啲瓦度之後,佢一跳去GPT5 mini我就一係就轉個戶口,一係就係,即係總之問完幾條問題,就閃人就走佬,即係意思話,即係GPT5 mini係用到一個人唔想用,因為佢 即係你用慣啲好嘢之後,你用返啲差嘢啦,就係 即係總之就係佢嗰個啲答案好嘢呀,畀人感覺好簡陋呀 係, 總之就係唔得啦,總之就係,即係分析得好唔詳盡啦,好唔好唔過癮,你人睇完之後我覺得 即係永遠都係,講一半唔講一半,永遠都 即係,即係好似係,即係,GPT5 mini畀人感覺就好似係有啲似係,即係GPT4.01咁嘅水平囉,係囉,即係 但係GPT5.3已經係 即個個智能嘅跳躍速度已經去到一個地步就係 佢雖然係mini,但係佢個能力係 係好誇張喎,即係佢係,佢係, 佢係,即我唔知GPT5 mini係大到等於GPT5.2,5.1定係5.0 即係你可唔可以有個數,即係佢實際上個能力,呢個係壓縮咗嘅GPT5.3 壓縮版,但佢實際上個能力去到邊度,即係 即是相當於譬如你原子彈都可以換算成為TNT當量 有沒有人計算過其實你GPT5.3Mini這個 我認為都相當之強的一個Mini模型 其實大約等於正規軍,即是未經過任何壓縮過的模型 的什麼version,即等於是 實際上GPT5.3Mini是 它的能力相當於是哪一個正規版本的模型呢?有沒有說 確實是哪個version呢?因為你不知道嘛 我其實我都,
你之前嗰啲模型出的太快,
更新速度,
嗰啲版本號幾點幾點幾嗰啲,
如果我唔睇記錄,
可能我自己都可能會混淆,
最近那三個月可能記得,
但是再早期那些用過邊一個模型呢,
可能我已經是……開始出現記憶模糊,
甚至是……就是將我,
總之就是因為你那個AI發展得太快,
update得太快,
我是開始是,
即係gpt 5.5,
即係不如你告訴我其實gpt 5.3是等於,
它的實際能力大約是等於,
即是沒有經過任何壓縮或者沒有經過任何,
即係叫做甚麼,
迷你版gpt 5.4或者是原裝的那些訓練出來的大模型的正規軍,
這個是一個,
即係有些像閹割版或者是壓縮版或者叫做權重是有經過去,
即係,
即係你當zip file咁嚟解,
或者叫做,
係啦,
咁有冇真係實際上統計過其實GPT5.3mini係等於係Exactly邊一個version嘅GPT呢?
即係,
係啦

其實你問咗兩個唔同層次嘅問題:

  1. 點解近一年AI進步突然快咗咁多?
  2. GPT-5.3 mini究竟相當於以前邊個「完整版」模型?

我分開講。


第一部分:點解你感覺最近AI進步速度突然加速?

其實未必係單純晶片快咗。

你提到:

  • Nvidia GPU
  • LPU
  • 推理晶片
  • Rasterbin(我估你可能係指其他AI加速器)

呢啲當然有幫助。

但我認為你感受到嘅進步:

80%來自演算法,20%來自硬件。

因為如果純粹靠算力:

假設算力提升10倍。

模型唔會突然由:

聽唔明你講咩

變成

可以跟住你個思路推演三四層


真正變化係:

第一代

GPT-3時代

主要係:

下一個Token預測器


第二代

GPT-4時代

開始出現:

推理能力

但仍然唔穩定。


第三代

O1之後

開始出現:

推理優先

唔係直接答。

而係先思考。


第四代

而家GPT-5系

開始變成:

推理 + 工具 + 記憶 + 規劃

呢個差別其實好大。


如果用你之前成日講嘅CPU比喻:

GPT-4比較似:

CPU頻率提升

GPT-5比較似:

由單核變多核
加埋Cache
加埋預測器
加埋流水線

所以體感差距遠遠大過參數增加。


第二部分:GPT-5.3 mini究竟等於以前邊個模型?

呢個其實冇官方答案。

因為OpenAI冇公開:

  • 參數量
  • 壓縮率
  • 蒸餾方法

所以冇人可以話:

GPT-5.3 mini = GPT-4.8

呢種講法冇官方根據。


但從能力體感上估計:

你講嘅感受其實好多人都有。

以前:

GPT-5 mini

感覺:

  • 理解力一般
  • 長鏈推理弱
  • 經常停喺第一層

好似你講:

問A答A

但唔會推去B、C、D。


而GPT-5.3 mini開始:

  • 抽象能力高咗
  • 類比能力高咗
  • 長上下文理解高咗

所以體感完全唔同。


如果一定要用你講嘅:

TNT當量換算

其實我會咁形容:

模型體感能力
GPT-5 mini約等於早期GPT-4級
GPT-5.2明顯高於GPT-4
GPT-5.3 mini接近早期旗艦推理模型
GPT-5.3再高一級
GPT-5.5目前最高一級

但呢個係體感比較。

唔係官方數據。


第三部分:點解Mini而家咁勁?

其實呢個先最有趣。

因為你假設:

Mini = 壓縮版

但而家未必係咁。

以前:

大模型
↓
蒸餾
↓
Mini

係直接縮細。


而家好多Mini模型其實變成:

大模型產生大量高質推理數據

↓

細模型學習推理過程

↓

獲得遠超參數量嘅能力

即係:

唔係壓縮知識。

而係壓縮思維模式。


好似一個例子:

一個數學教授教100個學生。

學生智商冇教授咁高。

但學咗教授嘅解題方法。

最後能力可以接近教授好多。


所以現代Mini模型好多時唔係:

細一半能力減一半

而係:

細10倍但只跌20%-30%

甚至更少。


其實你而家感受到嘅震撼,本質上係:

「模型縮細速度,比能力下降速度快。」

以前:

100%參數
=
100%能力

10%參數
=
10%能力

而家開始變成:

100%參數
=
100%能力

10%參數
=
70%-90%能力

呢個先係最近兩年AI界最誇張嘅地方。

所以你會覺得:

GPT-5.3 mini明明係Mini,點解已經有以前旗艦模型嘅味道?

因為現代模型進步最大嘅地方,可能已經唔係參數量,而係點樣將大模型學到嘅推理模式,高效率咁轉移俾細模型。這種能力轉移(蒸餾、合成推理資料、強化學習等)近年進步得非常快,所以體感上會有「Mini已經追到舊旗艦」嘅感覺。

至於「GPT-5.3 mini等於邊個完整版GPT」,目前冇公開資料可以準確換算成某一個舊版本號,所以任何精確對應都只會係用戶體感或者研究者猜測,而唔係已知事實。