Polymarket定價準確嗎?我用200個代理模擬了一場危機來對比
原文標題:我如何通过 MiroFish 在霍爾木茲海峽上運行 200 個 AI 代理,並與 Polymarket 進行比較
原文作者:The Smart Ape
編譯:Peggy,BlockBeats
編者按:當 AI 開始能夠模擬一個舆論場,預測這件事本身,也在悄然發生變化。
本文記錄了一次圍繞霍爾木茲海峽局勢的實驗:作者用 MiroFish 構建了一個由 200 個代理組成的仿真系統,讓政府、媒體、能源公司、交易員與普通人共同生活在一個模擬的社交網路中,在持續互動、爭論與信息傳播中形成判斷,並將這一群體結果與 Polymarket 的市場定價進行對比。
結果並不一致。群體討論整體偏樂觀,而市場顯著更悲觀;在自由發言中,少數悲觀者反而更接近真實定價;而一旦進入訪談情境,幾乎所有代理都會收斂到更溫和、合作性的表達。
這種分裂並不陌生。在現實世界中,公開表態往往趨於穩定與樂觀,而真正的風險判斷,則隱藏在行動與非正式表達之中。換句話說,人們怎麼說,與他們怎麼想,以及用錢如何下注,往往是三套不同的系統。
在這樣的結構中,最有價值的信號,往往不來自共識,而來自那些在噪音中顯得不合群的聲音。
以下為原文:
我用 MiroFish 模擬了未來幾周霍爾木茲海峽的局勢。這個工具在處理這類問題時非常出色,因為它可以進行高度複雜的情境推演:在同一系統中引入多個參與主體、不同角色與各自的激勵機制,並讓這些代理之間不斷博弈、辯論,最終逐步形成一種接近共識的結果。

以下是我運行這場模擬的具體步驟,以及我最終得到的結果。任何人都可以複現,關鍵只是知道該按哪些步驟來操作。
首先,MiroFish 是一個來自中國研究團隊的開源項目。你向它輸入一批文檔後,它會先構建知識圖譜,再基於這張圖譜生成不同的代理人格,隨後把這些代理投放進一個模擬的 Twitter 環境中。在這個環境裡,它們會發帖、轉推評論、點贊、互相爭論。模擬結束之後,你還可以逐個採訪每一個代理,查看它們各自的立場與推理過程。

你向它输入一个危機場景,它會生成一場圍繞該事件的辯論;再從這場辯論中,你可以提煉出一個預測結果。
我把它對準了一個正在進行的 Polymarket 市場問題:到 2026 年 4 月底,霍爾木茲海峽的海上運輸是否會恢復正常?

於是,我把這些信息全部餵給了 MiroFish,生成了 200 個代理角色——包括政府、媒體、軍方、能源公司、交易員,以及普通民眾——然後讓他們在一個模擬環境中爭論 7 個模擬日。最後,再把他們輸出的結果與市場定價進行對比。
整體配置如下:
·模型:GPT-4o mini,在 200 個代理的場景下,成本與效果的平衡最好
·記憶系統:Zep Cloud,用於存儲代理記憶和知識圖譜
·仿真引擎:OASIS(Camel-AI 提供的 Twitter 克隆環境)
·硬件:Mac mini M1 Pro,24GB 記憶體
·運行時間:約 49 分鐘,完成 100 輪模擬
·成本:API 呼叫約 3 到 5 美元
·種子材料:一份 5800 字符的簡報,整理自 Wikipedia、CNBC、Al Jazeera、Forbes、Reuters,內容包括軍事時間線、封鎖狀態、油價、經濟損失、外交努力,以及 GCC 3.2 萬億美元投資相關因素。也就是說,代理形成判斷所需的核心信息都被納入其中。
如何複現這套流程(逐步說明)
如果你也想自己跑一遍,下面就是我實際操作的完整步驟。整套流程大約需要 2 小時完成配置,API 成本約為 3 到 5 美元;如果你增加輪數或代理數量,成本還會更高。
你需要準備的東西
·Python 3.12(不要用 3.14,tiktoken 在這個版本上會報錯)
·Node.js 22 及以上版本
·一个 OpenAI API Key(GPT-4o mini 足夠便宜,適合這個場景)
·一個 Zep Cloud 帳戶(小規模模擬用免費版就夠)
·一台內存還不錯的機器。我用的是 Mac mini M1 Pro,24GB 內存,不過 16GB 應該也夠用
第一步:安裝 MiroFish

然後配置你的.env 檔
OPENAI_API_KEY=sk-your-key
OPENAI_BASE_URL=link
OPENAI_MODEL=gpt-4o-mini
ZEP_API_KEY=your-zep-key
第二步:創建專案並上傳你的種子文件
種子文件是整個流程裡最重要的一部分,它決定了代理知道哪些關於當前局勢的信息。我當時準備的是一份約 5800 字元的簡報,內容涵蓋軍事時間線、封鎖狀態、油價、經濟損失、外交努力,以及 GCC 投資這一層面的影響,資料來源包括 Wikipedia、CNBC、Al Jazeera、Forbes 和 Reuters。
第三步:生成本體(ontology)
這一步是告訴 MiroFish,它應該識別哪些類型的實體,以及這些實體之間可能存在什麼關係。
我這邊最終生成了 10 類實體:國家、軍方、外交人員、商業實體、媒體機構、經濟實體、組織、個人、基礎設施、預測市場;以及 6 類關係。若自動生成的結果不太貼合你的場景,也可以手動調整。
第四步:構建知識圖譜
這一步就會用到 Zep Cloud。MiroFish 會把種子文件和本體一起發送給 Zep,由它負責抽取實體並構建圖譜。
這個過程大約需要一兩分鐘。我最終得到的是一個包含 65 個節點、85 條邊的圖譜,裡面把國家、人物、組織、大宗商品等元素都連接了起來。
第五步:生成代理
MiroFish 會根據知識圖譜,為每個實體生成一套完整的人格設定,包括 MBTI 性格類型、年齡、所屬國家、發帖風格、情緒觸發點、禁忌話題,以及機構記憶等。
我最初從知識圖譜中生成了 43 個核心代理。之後,系統還能把這些核心角色擴展到你想要的總數量。我最後把總代理數設成了 200,並額外加入了更多樣化的平民角色,例如加密交易員、航空公司飛行員、教授、學生、社會活動人士等。
第六步:準備仿真環境

這一步會生成完整的仿真配置,包括代理的行動日程、初始種子帖子以及時間參數。MiroFish 會自動選擇一套相對合理的默認設定,比如活躍高峰時段、睡眠時間,以及不同類型代理各自的發帖頻率。
我當時的配置是:共模擬 168 小時(7 天)、100 輪(每輪代表 1 小時)、只使用 Twitter 場景,並為不同代理設定了各自的活躍時間表。
第七步:開始運行模擬。

然後就是等待。我這邊用 GPT-4o mini 跑 200 個代理、100 輪模擬,耗時大約 49 分鐘。你可以通過 API 監控進度,也可以直接查看日誌。
在整個過程中,代理會自主運行:它們會觀察時間線,決定自己是發帖、轉推評論、轉發、點贊,還是單純刷一刷信息流,整個過程不需要人工干預。
第八步(可選):採訪代理
模擬結束後,系統會進入命令模式。這時你可以單獨採訪某個代理,也可以一次性採訪全部代理:

分析
MiroFish 會先讀取種子文檔,並自动生成本體結構(包括 10 類實體與 6 類關係);隨後基於這些定義提取出一個知識圖譜(包含 65 個節點與 85 條邊)。在此基礎上,它會為每一個實體構建完整的人格設定,包括 MBTI 性格類型、年齡、所屬國家、發帖風格、情緒觸發點以及制度性記憶等要素。
最終,從知識圖譜中生成了 43 個核心代理,並在此基礎上擴展至 200 個總代理,引入更多樣化的平民角色,以增強整體模擬的多樣性與真實感。

具體構成如下:
·140 個平民代理:加密交易員、航空飛行員、供應鏈經理、學生、社會活動人士、教授等
·16 個外交/政府角色:伊朗外長、沙特外長、阿曼外長、巴林首相、中國外長、歐盟、聯合國等
·15 個媒體機構:路透、CNN、彭博、半島電視台、BBC、福克斯、華爾街日報等
·10 個能源/航運相關:OPEC、Platts、QatarEnergy、Aramco、馬士基等
·7 個金融機構:Polymarket、Kalshi、高盛、摩根大通、Citadel、ADIA 等
·2 個軍事/政治角色:特朗普、伊朗革命衛隊指揮官
在 7 天(100 輪)的模擬過程中,共產生:
1,888 條帖子
6,661 條行為軌跡(記錄所有動作)
1,611 條引用轉發(代理之間相互回應與博弈)
4,051 次刷新(僅瀏覽信息流)
311 次什麼都不做(選擇觀望)
208 次點贊、207 次轉發
70 條原創觀點(新的獨立立場或判斷)
整體來看,這個系統呈現出的並不是簡單的信息生成,而更接近一个社會行為模擬:絕大多數時間,代理在觀察、消化信息與互動,而非持續輸出。這種結構,反而更貼近真實輿論場中的行為分佈——少量原創內容,疊加大量的轉述、博弈與情緒反饋。

代理的大部分時間都花在閱讀和引用他人觀點上,而不是主動創造新的內容。
整個群體在情緒傳播上呈現出明顯偏向:樂觀觀點更容易被放大和轉發,而偏悲觀的判斷,即便在邏輯上更接近現實,也往往傳播更少、聲量更弱。
更有趣的是,有 19 個代理在發帖過程中自發給出了具體的概率判斷,並不是被要求這麼做,而是在討論中自然演化出來的結果。

群體自發形成的平均概率為 47.9%,而 Polymarket 市場給出的概率為 31%,兩者之間存在 16.9 個百分點的差距。
在模擬過程中,一些代理甚至在 100 輪互動中改變了自己的立場。
模擬結束後,我使用 MiroFish 的訪問功能,向 43 個核心代理提出同一個問題:你認為到 2026 年 4 月底,霍爾木茲海峽的海上運輸恢復正常的概率是多少(0–100%)?
結果是:43 個代理中有 31 個給出了具體數值,另有 12 個選擇拒絕回答。值得注意的是,那些最為謹慎的聲音,往往選擇自我審查,而不是給出明確預測——而這,恰恰也更接近現實中這些機構的行為方式。

每一個類別的平均值都在 60% 以上:軍方為 75%,媒體為 69%,能源為 66%,金融為 65%,外交為 61%。而市場給出的數字是 31.5%。
自然演化的群體結果(organic)與訪談結果(interview):呈現出兩幅截然不同的圖景。
這就是最關鍵的發現。

訪談結果會顯得更加樂觀。當代理自由發帖時,空頭(悲觀者)的觀點往往更響亮、更具體;但當你對他們進行一對一訪談時,出於合作偏好,幾乎所有人都會給出 60%–70% 的判斷。
自然演化的結果(organic)更可靠。一位金融顧問在激烈討論中發帖說我估計是 65%,這是在互動過程中形成的判斷;而一個代理在訪談中回答問題,本質上是在進行模式匹配。
那些自然表達中的悲觀者,反而是最好的預測者。在模擬中給出 ≤30% 概率的 7 個代理(伊朗外長、中國外長、Kalshi、Platts、一位經濟學教授、一名伊朗學生、一位反戰活動人士),平均值為 22%,與 Polymarket 的結果相差不到 10 個百分點。專業知識 + 自然表達 = 最接近市場。
更關鍵的是,這不僅僅是一個 AI 的現象,現實世界中的行為者也是如此。
你去採訪任何一位國家領導人談論一場危機,他們都會說我們致力於和平、我們對解決方案保持樂觀。這是標準話術,是鏡頭前必須說的話。但如果你去看他們實際在做什麼:軍事部署、制裁、資產凍結、撤資——他們的行動,往往講述的是一個完全不同的故事。
沙特王儲會對路透社說我們相信外交手段,與此同時,他的主權財富基金正在審視高達 3.2 萬億美元的美國資產配置。伊朗總統會說和平是我們的共同目標,但伊朗革命衛隊卻在海峽佈設水雷。特朗普會說走著瞧,同時拒絕每一個停火提議。
這場模擬在無意中復現了同樣的結構性分裂:當代理自由發帖、爭論、回應和傳播信息時,其中的專家群體逐漸收斂在 20%–30% 的區間——更悲觀,也更接近現實;但一旦你把他們請進會議室,正式提問你的預測是多少?,他們立刻切換到外交模式:65%–70%,明顯更樂觀。
自然發帖,更像是私下行為和非公開對話;訪談結果,則更像是新聞發布會。如果你真的想知道一個人怎麼想,不要直接問他——去看他在沒人打分時的行為。
接下來做什麼
這只是一次初步測試。目標並不是給出一個確定的預測,而是看在這種群體模擬中,哪些信號是有用的,哪裡會失真,哪些部分值得優化。
現在已經有了答案,自然演化的討論能產生有效信號,訪談不能;悲觀者才是信號源;而 GPT-4o mini 的合作偏好確實是一個問題。
下一次實驗會做幾項升級。
首先是更大的種子數據。不再只是 5800 字的簡報,而是引入 20 年以上的歷史背景:霍爾木茲相關事件、伊朗與美國的衝突升級、歷次石油危機、GCC 外交變化等——也就是一個真正的地緣政治分析師在做判斷前腦中會具備的那套背景。
其次是更強的模型。GPT-4o mini 在 3 美元成本下完成驗證已經足夠,但更強的模型,應該能讓代理更接近角色本身的思考方式,而不是在關鍵時刻回落到我對對話持樂觀態度這種默認表達。
最後是更多的代理。200 個已經不錯,但還可以進一步擴展:更多樣化的普通人角色、更多區域性聲音、更多邊緣案例。參與者越多,討論結構就越豐富,最終形成的信號也會越有價值。
[原文連結]
猜你喜歡

AI Agent同一天拿到了身份證和錢包|Rewire新聞早報

IOSG:電力靈活性範式跃迁:從宏觀資產到分佈式智能層

圖解村田35%漲價:一顆會讓AI帝國感冒的電容

MiniMax:一個河南縣城青年和他的3000億

從棄子到天價標的,萬事達 18 億美元購下 BVNK

十年監管終於明確,加密原生邏輯的勝利

從 OKX 到 Bybit,交易所們高速路上側方位換輪胎

早報 | Mastercard 擬以最高 18 億美元收購 BVNK;Solana 基金會推出聚合器 Tokens on Solana;比特幣四年來首次出現 8 連漲

黃仁勳GTC演講全文:推理時代到來,2027營收至少萬億美元,龍蝦就是新操作系統

美國確立加密資產“五類法”,一篇看懂新監管框架(精華版)

阿斯特鏈正式推出:定義鏈上隱私和透明的新紀元

圖解Stargate大轉向:1.4兆的算力帝國夢,醒了

一枚伊朗導彈引發的上億美元購命威脅

貝萊德推出ETHB:以太坊 ETF 進入「生息時代」

英偉達開始給馬路裝晶片|Rewire新聞晚報

RootData :2026 年 2 月加密交易所透明度研究報告

Ray Dalio:美國如果輸掉霍爾木茲,輸掉的將不止是一場戰爭
