国产在线女主播福利,久久香蕉国产在线观看

阿里字節(jié)“圍獵”智譜、MiniMax：Token到底該由誰來定價？

2026-04-15 09:50

前不久，Anthropic 停止允許訂閱用戶通過 OpenClaw 等第三方工具接入 Claude API。理由并不復(fù)雜，一個OpenClaw 代理運(yùn)行一天，消耗的算力成本在1000美元到5000美元之間，而用戶每月只付了200美元。

Claude Code 負(fù)責(zé)人 Boris Cherny在聲明里說，訂閱服務(wù)“并非為這些第三方工具的使用模式而設(shè)計”。這句話沒有錯，但它遮住了一個更基礎(chǔ)的問題：沒有任何訂閱服務(wù)能被設(shè)計成覆蓋這種使用模式。Agent 場景下的 Token 消耗量沒有上限，也沒有歷史數(shù)據(jù)可以參考，任何固定月費(fèi)都是在對一個無法建模的變量做猜測。

3月底，中國國家數(shù)據(jù)局公布了另一組數(shù)字：中國日均 Token 調(diào)用量突破140萬億，兩年增長超千倍。同期，字節(jié)的 Token 調(diào)用量躋身全球三甲，與 OpenAI、谷歌并列。無問芯穹CEO 夏立雪在一場行業(yè)論壇上描述這個增速時說，上一次看到類似的曲線，是3G時代手機(jī)流量從每月100MB開始普及的時候。當(dāng)時沒有人預(yù)料到，流量放開之后會跑出抖音、微信和外賣。

兩件事放在一起，描述的是同一個現(xiàn)實(shí)：Token的消耗正在以罕見的速度增長，但支撐整個行業(yè)運(yùn)轉(zhuǎn)的定價邏輯，依然建立在兩年前聊天機(jī)器人時代的假設(shè)之上，即用戶的使用量是可以被歷史數(shù)據(jù)預(yù)測的，輕度用戶會自然地覆蓋重度用戶，整體成本可以被攤平。

智能體們打破了這個假設(shè)的每一個前提，市場變化的速度，超過了任何定價模型的響應(yīng)能力。縱觀過去兩年 Token 市場的演化，每一個優(yōu)勢窗口的終結(jié)，都由同一個邏輯驅(qū)動，即當(dāng)競爭者能夠復(fù)制優(yōu)勢——規(guī)�？梢员蛔汾s，算法可以被開源，場景可以被大平臺的分發(fā)能力碾壓。

目前唯一難以被快速復(fù)制的，是將 Token 效率內(nèi)化為產(chǎn)品架構(gòu)、定價邏輯和工程文化的能力。而在這件事上真正做到體系化的，只有 Anthropic。

失去意義的平均價格

Token 之所以不同于電力、鋼鐵等傳統(tǒng)生產(chǎn)要素，在于它具備獨(dú)一無二的“可編程性”。沒有任何一種傳統(tǒng)生產(chǎn)要素，能僅憑“指令不同”就將自身價值改變十萬倍。這種可編程性，是 Token 作為新型生產(chǎn)要素的本質(zhì)特征，也是理解當(dāng)前 AI 經(jīng)濟(jì)混亂的前提。

理解這一點(diǎn)，需要先建立量級感。36氪報道，OpenAI API 日均處理約21.6萬億 Token，谷歌Gemini 日均約43萬億，而中國的140萬億約為前兩者之和的兩倍有余。摩根大通預(yù)測，僅中國的AI推理 Token 消耗，就將在五年內(nèi)再增370倍。這個量級本身說明了，Token 已經(jīng)是一個經(jīng)濟(jì)規(guī)模指標(biāo)。

此外，Token 的大量消耗使用發(fā)生在公有云的統(tǒng)計口徑之外。金融機(jī)構(gòu)在本地服務(wù)器上跑票據(jù)識別，車端智能座艙的對話在車內(nèi)閉環(huán)完成，工業(yè)機(jī)器人的視覺模型以毫秒級響應(yīng)運(yùn)行在邊緣設(shè)備上，這些都不會出現(xiàn)在任何公開數(shù)據(jù)里。一位從業(yè)者估算，非公有云API的調(diào)用量至少是公有云的五到十倍。

規(guī)模之外，Token 的價值結(jié)構(gòu)與生產(chǎn)成本更應(yīng)該關(guān)注。黃仁勛今年3月在一篇署名文章里把AI產(chǎn)業(yè)拆成五層：能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用，并將 Token 定義為現(xiàn)代 AI 的基本單位，也是AI的語言和貨幣。這個定義的精妙之處在于，它同時指向了Token的兩種屬性：作為語言，它是計算過程的原子；作為貨幣，它是價值流通的媒介。

但生產(chǎn)一個 Token 的代價，遠(yuǎn)比這個定義看起來復(fù)雜。據(jù) Sam Altman 和 Epoch AI 披露，ChatGPT 發(fā)送一條文本提示大約消耗0.3瓦時。谷歌搜索的耗電量（0.03瓦時）僅為其一小部分。谷歌2025年也曾披露，Gemini發(fā)送一條典型的文本提示大約消耗0.24瓦時，并產(chǎn)生約 0.03 克二氧化碳。

隨著模型復(fù)雜度的增加，推理成本也相應(yīng)上升。GPT-5級別的系統(tǒng)每次查詢可能消耗約18瓦時，而進(jìn)行擴(kuò)展推理時則可能消耗高達(dá)40瓦時。差距來自兩個地方，一是模型大小，參數(shù)越多，生成每一個Token所需的計算量就越大；二是推理模式，新一代模型在輸出每一個可見 Token 之前，會在內(nèi)部進(jìn)行大量隱式推演，用戶看到一個字，模型內(nèi)部可能已經(jīng)“想”了上百步。單個可見 Token 的真實(shí)成本，被這個思考過程成倍放大了。

這是 Token 與電力、石油這類生產(chǎn)要素的根本區(qū)別，Token的價值并不由生產(chǎn)成本決定，而完全由使用場景決定。同樣一百萬個 Token，用于閑聊，市場價約0.01美元；用于代碼生成，可以值200美元；用于法律文件審查，價值可能超過1000美元，價值差距達(dá)十萬倍。耶魯大學(xué)研究者將這一特征描述為 Token 的“可合同化”屬性：數(shù)量可以精確計量，但價值取決于它被編程去做什么。

當(dāng)整個行業(yè)用同一個價格邏輯去覆蓋價值差距十萬倍的使用場景時，系統(tǒng)性的定價混亂就不是偶然，而是必然。

因此，所謂平均 Token 價格，就像用平均客單價來描述一個既有路邊攤又有米其林餐廳的商圈，即便數(shù)字正確，但毫無意義。Collis 和 Brynjolfsson 曾在2025年的估算顯示，生成式AI在2024年僅為美國消費(fèi)者創(chuàng)造的消費(fèi)者剩余就高達(dá)約970億美元，用戶實(shí)際獲得的價值，遠(yuǎn)超過他們支付的金額。這個數(shù)字的絕大部分，集中在高價值應(yīng)用場景。

Token經(jīng)濟(jì)的窗口期正在合攏

在 Token 經(jīng)濟(jì)中，競爭優(yōu)勢是跟隨技術(shù)躍遷、產(chǎn)品形態(tài)轉(zhuǎn)變與市場結(jié)構(gòu)共同決定的時間窗口。每一個窗口的受益者，都在無意識中為下一個顛覆者鋪路，而能在多個窗口連續(xù)卡位的玩家，才是真正的贏家。

2025年初，算法是 Token 第一個窗口。DeepSeek V3 發(fā)布后，混合專家架構(gòu)（MoE）將同等能力的推理成本壓低了一個數(shù)量級：模型內(nèi)部包含多個專家子模塊，每次推理只激活其中一小部分，在保留完整模型能力的同時，將單次推理的實(shí)際計算量大幅壓縮，將推理成本下降了一個數(shù)量級。

但算法窗口的悖論在于，打開它的那把鑰匙，同時也是關(guān)上它的鎖。DeepSeek 選擇了開源，將核心模型權(quán)重和架構(gòu)設(shè)計公開，吸引全球開發(fā)者接入生態(tài)。這個選擇在短期內(nèi)快速擴(kuò)大了市場份額，在中長期則主動壓縮了算法領(lǐng)先的窗口期。當(dāng)架構(gòu)創(chuàng)新被開源，整個行業(yè)的 Token 成本基準(zhǔn)被同步重置，算法優(yōu)勢也就從專有壁壘變成了公共基礎(chǔ)設(shè)施。

同年底，規(guī)模成為第二個窗口�；鹕揭鎸⒒ヂ�(lián)網(wǎng)流量戰(zhàn)的打法平移了過來，用大規(guī)模的機(jī)場廣告宣告自己在 Token 市場的存在。譚待在4月2日的最新的業(yè)務(wù)進(jìn)展分享中提到，兩年之內(nèi)，火山引擎的 Token 調(diào)用量增長了1000倍，萬億級 Token 消耗企業(yè)增至140家。

不過規(guī)模優(yōu)勢存在一定時效性，譚待在接受《第一財經(jīng)》的采訪時也談到，在 Token 大規(guī)模調(diào)用量中，包含了大量無效算力。譚待以解數(shù)學(xué)題為例：枚舉法計算量大，模型能力不足就會采用類似方式，造成無謂消耗；更優(yōu)秀的模型能找到簡潔解法，優(yōu)化空間很大。規(guī)模數(shù)字的背面，是大量本可以避免的算力浪費(fèi)。當(dāng)競爭從“消耗了多少”轉(zhuǎn)向“每個Token創(chuàng)造了多少價值”時，規(guī)模窗口就開始關(guān)閉。

場景，是當(dāng)前 Token 競爭最激烈的地方。智譜、MiniMax、月之暗面沒有字節(jié)的流量規(guī)模，也沒有阿里、騰訊的云計算生態(tài)，但它們在 To B 高價值場景里找到了立足點(diǎn)。智譜與 MiniMax 的市值一度超過快手等傳統(tǒng)互聯(lián)網(wǎng)公司，充分說明場景窗口在特定階段能創(chuàng)造的估值溢價有多大。

但這個窗口如今也正在收窄。在一場行業(yè)論壇上，楊植麟問智譜CEO 張鵬：你們?yōu)槭裁礉q價？張鵬的回答是，完成一個 Agent 任務(wù)消耗的 Token 量，是回答簡單問題的十倍甚至百倍；長期依賴低價競爭，對整個行業(yè)都沒有好處。

這場對話背后，一場更大規(guī)模的場景爭奪戰(zhàn)正在展開。字節(jié)通過飛書和扣子（Coze）平臺，將大模型能力直接嵌入企業(yè)的協(xié)同工作流與海量流量節(jié)點(diǎn)；騰訊依托微信生態(tài)與企業(yè)微信，掌握著企業(yè)觸達(dá)并服務(wù)客戶的最短社交鏈路；阿里則將旗下 AI 業(yè)務(wù)統(tǒng)籌為 ATH 事業(yè)群，Token 消耗被直接打包成企業(yè)數(shù)字化底座的一部分。

這三家公司擁有在企業(yè)端已經(jīng)建立多年的信任關(guān)系和系統(tǒng)整合能力。獨(dú)立廠商依賴模型質(zhì)量差異維系的場景優(yōu)勢，正在被這種結(jié)構(gòu)性優(yōu)勢快速壓縮。

Token效率是當(dāng)前正在形成的第四個窗口，也是最難被快速復(fù)制的一個。這一窗口的競爭，目前集中在 Coding 場景。Anthropic 封禁第三方工具后，大量習(xí)慣于低成本接入 Claude 的用戶開始尋找替代方案。OpenAI 迅速將自己定位成更易上手的選擇。但 Anthropic 押注的是訓(xùn)練和運(yùn)行模型的效率，OpenAI 的心態(tài)是奧特曼總能籌集到更多資金支持算力規(guī)模。

用資本堆算力換市場份額，是一種可以奏效但難以持續(xù)的策略。截至今年3月底，OpenAI 的 API 每分鐘處理量已突破150億 Token，而2025年10月這個數(shù)字還是60億。但算力供給的增速遠(yuǎn)遠(yuǎn)跟不上，GPU 租賃價格在兩個月內(nèi)漲了48%，英偉達(dá)最新一代 Blackwell 芯片的每小時租用費(fèi)用已升至4.08美元，數(shù)據(jù)中心的建設(shè)周期以年計算。OpenAI 甚至部分暫停了 Sora 視頻生成工具，騰出計算資源給編碼和企業(yè)級產(chǎn)品。

Anthropic 看到的是 Harness Engineering 這條路，通過重新設(shè)計 Agent 的調(diào)度架構(gòu)，從系統(tǒng)層面減少無效 Token 消耗，讓更少的算力做更多的事。這是在算力稀缺的現(xiàn)實(shí)約束下，重新定義效率本身的含義。

而在中國市場，阿里云也開始切入效率窗口，其將 Token 的定價、調(diào)用追蹤與企業(yè)賬單管理整合進(jìn)統(tǒng)一的云計算基礎(chǔ)設(shè)施。吳泳銘提到，很多企業(yè)已經(jīng)不把 Token 消耗當(dāng)IT預(yù)算，而是當(dāng)作生產(chǎn)資料和研發(fā)成本來核算。這是一種更慢的建法，但也更難被顛覆。

在算力供給觸及物理極限、需求仍在加速增長的現(xiàn)實(shí)下，真正稀缺的不是便宜的 Token，而是在有限算力約束下能產(chǎn)出最高價值密度的 Token。

封禁OpenClaw，只是結(jié)果

在算力稀缺、定價體系失效、Agent 消耗失控的多重壓力下，Anthropic 是迄今為止唯一一家不只是調(diào)整了定價策略，還從工程架構(gòu)層面重新回答了“Agent應(yīng)該怎么運(yùn)行”這個問題的公司。封禁是被動應(yīng)對，Managed Agents 才是主動給出的答案。

Harness 是 Agent 框架的調(diào)度層，負(fù)責(zé)決定何時調(diào)用模型、如何管理上下文、出錯時怎么處理。在 Chatbot 時代，這套邏輯相對簡單。進(jìn)入 Agent 時代后，Harness 開始承載更復(fù)雜的任務(wù)，也開始產(chǎn)生大量本不必要的 Token 消耗。

Anthropic 工程博客提供了一個具體案例，Claude Sonnet 4.5，存在一種被工程師稱為“上下文焦慮”的行為當(dāng)模型感知到上下文窗口接近上限時，會提前終止任務(wù)。Harness為此添加了上下文重置機(jī)制，在適當(dāng)時機(jī)強(qiáng)制清除并重載上下文，以確保任務(wù)繼續(xù)。這在當(dāng)時是合理的工程補(bǔ)丁。

問題發(fā)生在 Claude Opus 4.5 上線之后。新模型已經(jīng)不再出現(xiàn)“上下文焦慮”，但舊的重置機(jī)制仍在每次執(zhí)行時觸發(fā)，消耗著不必要的 Token，增加著不必要的延遲。這些機(jī)制從解決問題的補(bǔ)丁，變成了制造成本的負(fù)擔(dān)。Anthropic 工程師將其稱為“死重”。

這是 Harness 框架的結(jié)構(gòu)性缺陷：每一套 Harness 都是對某一時刻模型能力的快照。模型在持續(xù)進(jìn)化，但快照被當(dāng)作永久規(guī)則執(zhí)行。模型迭代越快，這種錯位就越嚴(yán)重。

在商業(yè)場景里，這個問題被進(jìn)一步放大。OpenClaw 在處理單次用戶查詢時，實(shí)際產(chǎn)生的 API 請求數(shù)量是 Claude Code 官方框架的數(shù)倍，每次請求攜帶超過10萬 Token 的上下文窗口。換算成 API 費(fèi)率，單次查詢的真實(shí)成本是訂閱價格的幾十倍。無論個人的主觀使用頻次高低，通過這類框架發(fā)起的請求，天然具有重度用戶的成本畫像。平臺對重度用戶的補(bǔ)貼，由此從概率問題變成了確定性問題。

Anthropic 的應(yīng)對是 Managed Agents，核心思路是為 Agent 領(lǐng)域建立接口穩(wěn)定，實(shí)現(xiàn)自由替換的抽象層。“上下文焦慮”消失了，對應(yīng)的重置機(jī)制自然退場，不會留下“死重”。內(nèi)部測試數(shù)據(jù)顯示，在結(jié)構(gòu)化文件生成任務(wù)中，Managed Agents 將任務(wù)成功率提升了最高10個百分點(diǎn)，提升最顯著的是最難的任務(wù)。

同期出現(xiàn)的 Hermes Agent，從另一個方向印證了同一個判斷。這個強(qiáng)調(diào)“閉環(huán)學(xué)習(xí)循環(huán)”的框架，在更新已積累的操作流程文件時，選擇以 patch 方式寫入，只傳入需要修改的具體字段，而非重寫整個文件。patch只觸碰問題所在，Token 消耗也更少。這是 Token 效率意識在框架設(shè)計層面最具體的體現(xiàn)之一。

Token 經(jīng)濟(jì)的新競爭，已經(jīng)細(xì)微到“誰能讓每一個 Token 產(chǎn)出更高的價值”。羅福莉在自己那篇瀏覽量超過73w+的帖子最后寫道，真正的出路不是更便宜的 Token，而是模型和 Agent 的協(xié)同進(jìn)化。