
近期熱門的 Alpha Arena 專案,將 ChatGPT、Gemini、Grok 等不同的大型語言模型 (LLM),推上了金融交易的競技場,讓這些前沿 AI 模型槓桿交易Crypto,網頁是公開顯示歷史資金和持倉變化。這個概念極具吸引力:讓最強的 AI 們同台競技,比較它們的交易績效。
在令人興奮的「AI 交易」敘事之下,本文將從技術層面拆解 Alpha Arena 的運作機制,看看技術原理是否真的無懈可擊 ?
一、 運作機制:當 LLM 成為量化交易員
Alpha Arena 的核心是利用呼叫大型語言模型 API,讓多個 LLM 扮演交易決策者的角色。其運作流程可以拆解為「輸入」、「處理」與「輸出」三階段。
輸入:將市場「文本化」的提示詞
系統會向 LLM 發送一個設計好的提示詞,其內容包含:
- 狀態數據 : 當前帳戶績效、倉位、交易次數等。

- 市場數據 : 中間價、EMA (指數移動平均線) 等技術指標資料。

- 關鍵指標文本化: 這是本專案的特色之一。它將 MACD、RSI 這類傳統的時間序列數據,用自然語言描述出來(例如:「RSI 目前為 46.4」),強迫 LLM 在文本層面理解技術指標。
處理:模型的「思考鏈」 (Chain of Thought)
下面是網頁上實際的 GPT-5 API 回應結果:
{"cot_trace": "**Examining liquidation risk**\n\nWhen it comes to a short position, liquidation happens if the price rises above a certain level. In my case, the liquidation price is 0.17 and it matches the entry, which gives me pause. Since the current price is 0.167, I’m feeling safe for now. Yet, the liquidation price being so close means I can't widen my stop, especially since it is set at 0.171712. That puts me at critical risk, as the stop is above the liquidation price.\n**Assessing long position risks**\n\nIt seems the liquidation price might be rounded, like 0.170 when it could have more decimals. If liquidation happens at 0.17, hitting 0.1717 would liquidate before the stop, which doesn’t seem feasible. While we shouldn't close early, I’m checking my long position in BNB. Invalidation requires a 4-hour candle close below 990 and open interest over 62000. Currently, the price is 993.635 and OI is 65954.12, which doesn’t trigger invalidation. Although the 4-hour trend is negative, I’ll stick to my strategy.\n**Confirming holding positions**\n\nI need to hold all six positions without any adjustments since modifications like adjusting stops or profit targets aren’t allowed. For each coin, I have to provide an object that includes several fields: coin, signal (which will be 'hold'), the full quantity size, profit target, stop loss, invalidation condition, leverage, confidence, and risk in USD. \n\nFor example, with ETH having a quantity of -1.3, I’m writing it as is since the instructions specify using the full current size. There’s a bit of confusion about sign conventions, but I’ll follow the guidelines provided for holding.\n**Finalizing position details**\n\nI’m confirming the details for short positions, where negative quantities matter. For example, the quantity for my first position is -1.3, so I’ll output that. The profit target is 3407.47, the stop loss is 3719.44, the leverage is 12, confidence is 0.63, and the risk is 156.53. \n\nI’ll check other positions too, like SOL with quantity -35.79, XRP -1509.0, and BTC -0.02. For BNB, I have a quantity of 3.5, a profit target of 1073.65, and a specific invalidation condition related to open interest that isn’t met yet.\n**Creating hold signal JSON**\n\nI need to ensure the hold signal is set correctly. If any stops or targets were triggered since entry, the system will handle that automatically. I won't enter new trades since we have existing positions in all symbols, and we can't increase size. \n\nThe output will be a single JSON object with keys for each coin: ETH, SOL, XRP, BTC, DOGE, and BNB. Each will have the required fields formatted as floats. I'll ensure precision and check if any invalidation for BNB has triggered, but we can't infer anything from the current status. Now, I’ll produce the JSON accordingly.\n",
"cot_trace_summary": "My current strategy is to hold all positions as my analysis suggests current market conditions do not warrant adjustments despite a significant overall loss. I'm maintaining my short positions in ETH, SOL, XRP, BTC, and DOGE, as well as my long position in BNB, focusing on their individual exit plans and risk management parameters."}
如 cot_trace 所示,LLM 會接收提示詞,並進行一段類似人類的「思考過程」。它會評估風險(”Examining liquidation risk”)、評估倉位(”Assessing long position risks”),並最終決定其行動。
輸出:結構化的 JSON 交易決策
LLM 最終會回傳一個標準化的 JSON 物件,作為其交易指令。這個 JSON 包含了所有關鍵決策:
- 交易訊號 (Signal):
hold(持有) 或sell(賣出)。 - 風險參數 (Risk Parameters):
profit_target(止盈) 和stop_loss(止損)。 - 退出條件 (Invalidation Condition): 一個 LLM 即時生成的、基於技術指標的出場規則(例如:「4 小時 K 線收盤價高於 3800 並且 4 小時的 MACD 柱狀圖連續 2 根為正值」)。
- 信心指數 (Confidence): 一個 0 到 1 的數字,表示模型對此決策的信心。
範例格式如下:
{
"ETH": {
"risk_usd": 156.53,
"leverage": 12,
"confidence": 0.63,
"quantity": -1.3,
"invalidation_condition": "Close early only if a 4h candle closes above 3800 AND the 4h MACD histogram turns positive for 2 consecutive bars.",
"profit_target": 3407.47,
"stop_loss": 3719.44,
"justification": "",
"coin": "ETH",
"signal": "hold"
}
}
二、 方法論缺陷:是「策略」還是「幻覺」?
儘管機制看似完整,但從嚴謹的量化交易角度審視,Alpha Arena 在方法論上存在幾個根本性的缺陷。
缺陷一:策略是「幻覺」,而非「回測」的產物
這是最核心的問題。LLM 產出的 invalidation_condition(退出條件)並不是一個經過系統性回測證明其有效的策略。
相反地,它更像是 LLM 基於其龐大的訓練數據(網路論壇、分析文章),「幻覺」或「拼湊」出來的、當下聽起來最合理的交易規則。這如同要求 AI「即時創造」一道新菜,而非嚴格執行一道經過千次測試的米其林食譜——聽起來很棒,但穩定性與安全性存疑。
缺陷二:缺乏一致性與可重複性
傳統的量化交易程式是確定性的:相同的輸入(RSI > 70)永遠會觸發相同的條件。
但 LLM 本質上是機率性的。這意味著,即使下次遇到完全相同的市場數據和提示詞,LLM 也不保證會生成完全相同的 cot_trace 或 invalidation_condition。它下一次可能認為「RSI 跌破 50」才是出場條件。這使得整個系統極度不穩定、無法驗證,也無法回測一個「隨機變動」的策略。
缺陷三:不科學的「自信度」評分
經過分析顯示,模型給出的 confidence 分數高度集中在 0.6-0.7 之間,且未見低於 0.6 的分佈。這種集中的數值分佈,不像科學計算的結果,反而更像 LLM 作為評判者(LLM as a judge)時產生的「幻覺分數」。
我們直接去抓取網頁的 api 回應,實際去分析 LLM 的輸出,統計所有模型的 LLM Response ,分析發現 0.6-0.7 出現的頻率非常高且頻繁,且沒有出現低於 0.6 信心的分佈,不是很合理情況。
正常情況下,如果分數是經過科學計算的,它應該是一個連續的分佈。

--- confidence 分數的出現次數 ---
分數 0.62: 48 次
分數 0.63: 32 次
分數 0.64: 16 次
分數 0.65: 85 次
分數 0.67: 17 次
分數 0.7: 100 次
分數 0.75: 62 次
分數 0.78: 24 次
分數 0.8: 12 次
分數 0.85: 12 次
分數 0.9: 12 次
缺陷四:時間序列「文本化」導致時間意義缺失
將 MACD、RSI 這類時序數據轉換為文本序列,是為了迎合 LLM 的輸入格式。然而,Transformer 架構是基於 token 的順序去預測下一個 token,它無法真正理解「時間的連續性」。
當時間序列被「壓平」成文字時,LLM 的「腦海」中缺乏了時間的維度。雖然它可能在預訓練中學到了 MACD 和 RSI 的基本概念(這或許能解釋 Deepseek 表現較好的原因),但要求它基於這種「無時間感」的文本去做出精確的時序預測,是有難度的。
三、 潛在價值:為何 Alpha Arena 仍有價值
儘管缺陷明顯, Alpha Arena 也是有其價值。它的真正價值不在於當下的交易績效,而在於它展示的潛力:
潛力一:革命性的「可解釋性」 (Explainable AI)
LLM 的思維鏈是這個專案最有趣的部分。傳統量化交易的「黑盒子」模型(例如 SVM 或神經網路)很難解釋為什麼它要買入。
而 Alpha Arena 迫使 LLM 用人類可讀的語言來「解釋」它的決策過程(”Examining liquidation risk…”)。對於某些機構而言,這種決策過程透明化的特性是有價值的,可以使用 AI 輔助決策。
2. 潛力二:「非結構化數據」的巨大潛力
目前專案僅將「結構化」的技術指標文本化,這確實是上面說的缺陷之一。
但如果在這個框架中,讓 LLM 在 Prompt 中加入,去處理非結構化數據,這就是 LLM 相較於傳統模型,最具壓倒性優勢的地方。
例如:
- 「這是過去 1 小時社群平台上關於 BTC 的恐慌指數」
- 「聯準會主席在 5 分鐘前的發言偏向鷹派」
傳統模型難以理解這些文本的語意和情緒。而 LLM 交易機器人是有潛力將「市場情緒」、「新聞事件」和「技術指標」真正融合在同一個決策模型中的架構。
潛力三:一個極具價值的「元實驗」
Alpha Arena(阿爾法競技場)這個名字本身就點出了其價值。它不是在宣稱誰是最好的交易模型,而是建立了一個「競技場」讓所有模型同台競技。
這本身就是一個非常有價值的實驗。它讓我們首次有機會在相同的規則下,橫向比較不同 LLM(GPT-5, Gemini,Grok…)的金融推理能力。
四、 結論:一個「有趣」但尚未成熟的未來
從技術層面分析來看,Alpha Arena 目前更像是一台令人興奮的「概念車」。它存在「策略幻覺」、「缺乏一致性」等根本性的方法論缺陷,使其目前的交易結果不具備嚴謹的科學意義。
然而,它的價值絕非零。Alpha Arena 成功地展示了 LLM 在決策可解釋性和融合非結構化數據方面的巨大潛力。它作為一個「AI 競技場」的實驗,其價值遠高於它產生的帳面損益。
總體而言,這是一個「好玩有趣」且極具啟發性的專案,它為我們揭開了 AI 金融交易未來樣貌。