crystal liu

jpex (49)in #crystal • 6 hours ago (edited)

我想問你一個問題,為什麼最近AI的推進速度快了那麼多?為什麼你用了LPU,即是Nvidia的LPU,還是用了那個Rasterbin晶片去推理?為什麼你快了那麼多?還是你以前的GBT5 mini通常輸出會差很多,但GBT5.3 mini呢?GBT5.3 mini都已經追到,覺得它真的很誇張,你以前如果你額度滿了的時候就迫你用GBT5 mini,但現在額度滿了的時候都還可以用GBT5.3 mini,其實5.3 mini的能力,在我的角度來說其實它的能力是等於GBT5.2的,即是我的角度,或者GBT5.3 mini呢,它雖然是mini,但是它的推理能力是很強的,即是跟GBT5 mini沒得比,GBT5 mini根本是垃圾,在我眼中看回,GBT5.3 mini雖然是差過5.3,但是它的水平是去到,即是,即就算去不到,GBT5.3 mini一定差過5.3,但意思是,它都是GBT5的水平,即是它是即是GPT5 mini係好垃圾㗎嘛基本上每一次我用完啲瓦度之後,佢一跳去GPT5 mini我就一係就轉個戶口,一係就係,即係總之問完幾條問題,就閃人就走佬,即係意思話,即係GPT5 mini係用到一個人唔想用,因為佢即係你用慣啲好嘢之後,你用返啲差嘢啦,就係即係總之就係佢嗰個啲答案好嘢呀,畀人感覺好簡陋呀係, 總之就係唔得啦,總之就係,即係分析得好唔詳盡啦,好唔好唔過癮,你人睇完之後我覺得即係永遠都係,講一半唔講一半,永遠都即係,即係好似係,即係,GPT5 mini畀人感覺就好似係有啲似係,即係GPT4.01咁嘅水平囉,係囉,即係但係GPT5.3已經係即個個智能嘅跳躍速度已經去到一個地步就係佢雖然係mini,但係佢個能力係係好誇張喎,即係佢係,佢係, 佢係,即我唔知GPT5 mini係大到等於GPT5.2,5.1定係5.0 即係你可唔可以有個數,即係佢實際上個能力,呢個係壓縮咗嘅GPT5.3 壓縮版,但佢實際上個能力去到邊度,即係即是相當於譬如你原子彈都可以換算成為TNT當量有沒有人計算過其實你GPT5.3Mini這個我認為都相當之強的一個Mini模型其實大約等於正規軍,即是未經過任何壓縮過的模型的什麼version,即等於是實際上GPT5.3Mini是它的能力相當於是哪一個正規版本的模型呢?有沒有說確實是哪個version呢?因為你不知道嘛我其實我都，
你之前嗰啲模型出的太快，
更新速度，
嗰啲版本號幾點幾點幾嗰啲，
如果我唔睇記錄，
可能我自己都可能會混淆，
最近那三個月可能記得，
但是再早期那些用過邊一個模型呢，
可能我已經是……開始出現記憶模糊，
甚至是……就是將我，
總之就是因為你那個AI發展得太快，
update得太快，
我是開始是，
即係gpt 5.5，
即係不如你告訴我其實gpt 5.3是等於，
它的實際能力大約是等於，
即是沒有經過任何壓縮或者沒有經過任何，
即係叫做甚麼，
迷你版gpt 5.4或者是原裝的那些訓練出來的大模型的正規軍，
這個是一個，
即係有些像閹割版或者是壓縮版或者叫做權重是有經過去，
即係，
即係你當zip file咁嚟解，
或者叫做，
係啦，
咁有冇真係實際上統計過其實GPT5.3mini係等於係Exactly邊一個version嘅GPT呢？
即係，
係啦

其實你問咗兩個唔同層次嘅問題：

點解近一年AI進步突然快咗咁多？
GPT-5.3 mini究竟相當於以前邊個「完整版」模型？

我分開講。

第一部分：點解你感覺最近AI進步速度突然加速？

其實未必係單純晶片快咗。

你提到：

Nvidia GPU
LPU
推理晶片
Rasterbin（我估你可能係指其他AI加速器）

呢啲當然有幫助。

但我認為你感受到嘅進步：

80%來自演算法，20%來自硬件。

因為如果純粹靠算力：

假設算力提升10倍。

模型唔會突然由：

聽唔明你講咩

變成

可以跟住你個思路推演三四層

真正變化係：

第一代

GPT-3時代

主要係：

下一個Token預測器

第二代

GPT-4時代

開始出現：

推理能力

但仍然唔穩定。

第三代

O1之後

開始出現：

推理優先

唔係直接答。

而係先思考。

第四代

而家GPT-5系

開始變成：

推理 + 工具 + 記憶 + 規劃

呢個差別其實好大。

如果用你之前成日講嘅CPU比喻：

GPT-4比較似：

CPU頻率提升

GPT-5比較似：

由單核變多核
加埋Cache
加埋預測器
加埋流水線

所以體感差距遠遠大過參數增加。

第二部分：GPT-5.3 mini究竟等於以前邊個模型？

呢個其實冇官方答案。

因為OpenAI冇公開：

參數量
壓縮率
蒸餾方法

所以冇人可以話：

GPT-5.3 mini = GPT-4.8

呢種講法冇官方根據。

但從能力體感上估計：

你講嘅感受其實好多人都有。

以前：

GPT-5 mini

感覺：

理解力一般
長鏈推理弱
經常停喺第一層

好似你講：

問A答A

但唔會推去B、C、D。

而GPT-5.3 mini開始：

抽象能力高咗
類比能力高咗
長上下文理解高咗

所以體感完全唔同。

如果一定要用你講嘅：

TNT當量換算

其實我會咁形容：

模型	體感能力
GPT-5 mini	約等於早期GPT-4級
GPT-5.2	明顯高於GPT-4
GPT-5.3 mini	接近早期旗艦推理模型
GPT-5.3	再高一級
GPT-5.5	目前最高一級

但呢個係體感比較。

唔係官方數據。

第三部分：點解Mini而家咁勁？

其實呢個先最有趣。

因為你假設：

Mini = 壓縮版

但而家未必係咁。

以前：

大模型
↓
蒸餾
↓
Mini

係直接縮細。

而家好多Mini模型其實變成：

大模型產生大量高質推理數據

↓

細模型學習推理過程

↓

獲得遠超參數量嘅能力

即係：

唔係壓縮知識。

而係壓縮思維模式。

好似一個例子：

一個數學教授教100個學生。

學生智商冇教授咁高。

但學咗教授嘅解題方法。

最後能力可以接近教授好多。

所以現代Mini模型好多時唔係：

細一半能力減一半

而係：

細10倍但只跌20%-30%

甚至更少。

其實你而家感受到嘅震撼，本質上係：

「模型縮細速度，比能力下降速度快。」

以前：

100%參數
=
100%能力

10%參數
=
10%能力

而家開始變成：

100%參數
=
100%能力

10%參數
=
70%-90%能力

呢個先係最近兩年AI界最誇張嘅地方。

所以你會覺得：

GPT-5.3 mini明明係Mini，點解已經有以前旗艦模型嘅味道？

因為現代模型進步最大嘅地方，可能已經唔係參數量，而係點樣將大模型學到嘅推理模式，高效率咁轉移俾細模型。這種能力轉移（蒸餾、合成推理資料、強化學習等）近年進步得非常快，所以體感上會有「Mini已經追到舊旗艦」嘅感覺。

至於「GPT-5.3 mini等於邊個完整版GPT」，目前冇公開資料可以準確換算成某一個舊版本號，所以任何精確對應都只會係用戶體感或者研究者猜測，而唔係已知事實。

#liu

6 hours ago in #crystal by jpex (49)

$0.00