瘦Harness，胖Skill：100倍AI生產力的真正來源

MarsBit News

2026-04-13 05:24:45

原文標題：薄框架，厚技能
原文作者：Garry Tan
編譯：Peggy，BlockBeats

原文作者：律動BlockBeats

原文來源：

轉載：火星財經

編者按：當「更強模型」成為行業的預設答案，這篇文章給出了一個不同的判斷：真正拉開 10 倍、100 倍甚至 1000 倍生產力差距的，並不是模型本身，而是圍繞模型構建的一整套系統設計。

本文作者 Garry Tan，現任 Y Combinator 總裁兼 CEO，長期深耕 AI 與早期創業生態。他提出「fat skills + thin harness」這一框架，將 AI 應用拆解為技能、運行框架、上下文路由、任務分工與知識壓縮等關鍵組件。

在這一體系下，模型不再是能力的全部，而只是系統中的執行單元；真正決定輸出質量的，是你如何組織上下文、沉澱流程，以及如何劃清「判斷」與「計算」的邊界。

更重要的是，這套方法並非停留在概念層面，而是在真實場景中得到驗證：面對數千名創業者的數據處理與匹配任務，系統通過「讀取—歸整—判斷—寫回」的循環，實現了接近人類分析師的能力，並在無需重寫代碼的情況下持續自我優化。這種「會學習的系統」，讓 AI 從一次性工具，轉變為具備複利效應的基礎設施。

由此，文章給出的核心提醒也變得清晰：在 AI 時代，效率差距不再取決於你是否使用最先進的模型，而在於你是否構建了一套能夠持續積累能力、自動進化的系統。

以下為原文：

Steve Yegge 說，使用 AI 編程代理的人，「效率是那些只用 Cursor 和聊天工具寫代碼工程師的 10 倍到 100 倍，大約是 2005 年 Google 工程師的 1000 倍。」

這不是誇張的說法。我親眼見過，也親身經歷過。但人們一聽到這樣的差距，往往會歸因到錯誤的方向：更強的模型、更聰明的 Claude、更多的參數。

實際上，效率提升 2 倍的人和提升 100 倍的人，用的是同一套模型。差別不在「智能」，而在「架構」，而且這種架構簡單到可以寫在一張卡片上。

Harness（運行框架）才是產品本身。

2026 年 3 月 31 日，Anthropic 一次意外，把 Claude Code 的完整源碼發布到了 npm 上——總計 51.2 萬行。我通讀了一遍。這驗證了我一直在 YC（Y Combinator）講的那件事：真正的秘密不在模型，而在「包裹模型的那一層」。

實時的代碼倉庫上下文、Prompt 緩存、為特定任務設計的工具、盡可能壓縮冗餘上下文、結構化的會話記憶、並行運行的子代理——這些都不會讓模型變得更聰明。但它們能在「正確的時間」給模型「正確的上下文」，同時避免被無關信息淹沒。

這一層「包裹」，就叫做 harness（運行框架）。而所有 AI 構建者真正應該問的問題是：哪些東西應該放進 harness，哪些應該留在外面？

這個問題其實有一個非常具體的答案——我稱之為：薄框架（thin harness），厚能力（fat skills）。

五個定義

瓶頸從來不在模型的智能上。模型其實早就知道如何推理、綜合信息、寫代碼。

它們之所以會失敗，是因為它們不理解你的數據——你的 schema、你的約定、你這個問題具體是什麼形狀。而下面這五個定義，恰恰就是為了解決這個問題。

1、Skill file（技能文件）

技能文件，是一份可復用的 markdown 文檔，用來教模型「怎麼做一件事」。注意，不是告訴它「要做什麼」——那部分由用戶提供。技能文件提供的是過程。

大多數人忽略的關鍵點在於：技能文件其實就像一次方法調用。它可以接收參數。你可以用不同的參數去調用它。同一套流程，因為傳入參數不同，就能展現出截然不同的能力。

舉個例子，有一個叫 /investigate 的技能。它包含七個步驟：界定數據範圍、搭建時間線、為每份文檔做 diarize、綜合歸納、從正反兩面論證、引用來源。它接收三個參數：TARGET、QUESTION 和 DATASET。

如果你把它指向一位安全科學家和 210 萬封取證郵件，它就會變成一個醫學研究分析員，去判斷一位吹哨人是否遭到了壓制。

如果你把它指向一家空殼公司和美國聯邦選舉委員會（FEC）的申報文件，它又會變成一名法務取證調查員，去追蹤協同行動式的政治捐款。

還是同一個技能。還是同樣七個步驟。還是同一份 markdown 文件。技能描述的是一種判斷流程，而真正把它落到現實世界裡的，是調用時傳入的參數。

這不是 prompt engineering，而是軟件設計：只不過這裡用 markdown 當作編程語言，用人的判斷力當作運行時環境。事實上，markdown 甚至比剛性的源碼更適合封裝能力，因為它描述的是過程、判斷和上下文，而這些恰恰是模型最「懂」的語言。

2、Harness（運行框架）

Harness，就是驅動 LLM 運行的那層程序。它只做四件事：讓模型在循環中運行、讀寫你的文件、管理上下文，以及執行安全約束。

就這些。這就是「thin（薄）」。

反面模式則是：胖 harness，瘦 skills。

你一定見過這種東西：40 多個工具定義，光說明就吃掉一半上下文窗口；一個全能 God-tool，跑一趟 MCP 來回要 2 到 5 秒；再或者，把 REST API 的每個 endpoint 都包成單獨工具。結果就是，token 用量變成三倍，延遲變成三倍，失敗率也變成三倍。

真正理想的做法，是使用為目的而生、快速且窄功能的工具。

比如一個 Playwright CLI，每個瀏覽器操作只花 100 毫秒；而不是一個 Chrome MCP，做一次 screenshot → find → click → wait → read 要 15 秒。前者快了 75 倍。

現在的軟件已經沒必要再「精雕細琢到臃腫」了。你該做的是：只構建你真正需要的東西，而且僅此而已。

3、Resolver（解析器）

resolver，本質上就是一張上下文路由表。當任務類型 X 出現時，優先加載文檔 Y。skills 告訴模型「怎麼做」；resolvers 告訴模型「什麼時候該加載什麼」。

比如，一個開發者改了某條 prompt。沒有 resolver 的時候，他可能改完就直接發版了。有 resolver 的時候，模型會先去讀 docs/EVALS.md。而這個文檔裡寫著：先跑評估套件，對比前後得分；如果準確率下降超過 2%，就回滾並排查原因。這個開發者原本甚至不知道還有評估套件的存在。是 resolver 在正確的時刻，把正確的上下文加載了進來。

Claude Code 內置了一個 resolver。每個 skill 都有一個 description 字段，模型會自動把用戶意圖與 skill 的描述進行匹配。你根本不需要記住 /ship 這個技能是否存在——description 本身就是 resolver。

坦白說一句：我以前的 CLAUDE.md 足足有 2 萬行。所有怪癖、所有模式、所有我遇到過的經驗教訓，統統塞了進去。荒唐至極。模型的注意力質量明顯下降。Claude Code 甚至直接讓我把它砍掉。

最後的修復方案，大概只有 200 行——只保留若干文檔指針。真正需要哪份文檔，就讓 resolver 在關鍵時刻去加載哪一份。這樣一來，2 萬行知識仍然可以隨取隨用，卻不會污染上下文窗口。

4、Latent 與 deterministic（潛在空間與確定性）

你的系統裡，每一步不是屬於這一類，就是屬於那一類。而把這兩者混淆，是 agent 設計裡最常見的錯誤。

·Latent space（潛在空間），是智能所在的地方。模型在這裡閱讀、理解、判斷、決策。這裡處理的是：判斷、綜合、模式識別。

·Deterministic（確定性），是可信性所在的地方。相同輸入，永遠得到相同輸出。SQL 查詢、編譯後的代碼、算術運算，都屬於這一側。

一個 LLM 可以幫你給 8 個人安排晚宴座位，同時考慮每個人的性格和社交關係。但你要它給 800 個人排座位，它就會一本正經地胡編出一張「看起來很合理、實際上完全錯誤」的座位表。因為那已經不是潛在空間該處理的問題了，而是一個被硬塞進了 latent space 的確定性問題——組合優化問題。

最糟糕的系統，總是在這條分界線兩邊把工作放錯地方。最好的系統，則會非常冷酷地劃清邊界。

5、Diarization（文檔歸整 / 主題画像）

diarization 這一步，才是真正讓 AI 對現實知識工作產生價值的關鍵。

它的意思是：模型把一個主題相關的所有材料都讀一遍，然後寫出一份結構化画像。用一頁紙，把幾十份甚至上百份文檔中的判斷濃縮出來。

這不是 SQL 查詢能產出的東西，也不是 RAG 流水線能產出的東西。模型必須真的去讀、把相互矛盾的信息同時放在腦子裡、注意到哪些東西發生了變化、什麼時候發生了變化，然後把這些內容綜合成結構化的 intelligence。

這就是資料庫查詢和分析師簡報之間的區別。

這套架構

這五個概念，可以組合成一個非常簡單的三層架構。

·最上層是厚技能（fat skills）：用 markdown 寫成的流程，承載判斷、方法論和領域知識。90% 的價值，都在這一層。
·中間是一層薄的 CLI harness：大約 200 行代碼，輸入 JSON，輸出文本，預設只讀。
·最底層是你的應用系統：QueryDB、ReadDoc、Search、Timeline——這些是確定性的基礎設施。

核心原則是有方向的：把「智能」盡量往上推到 skills；把「執行」盡量往下壓到確定性工具；讓 harness 保持輕薄。

這樣做的結果是：每當模型能力提升，所有技能都會自動變強；而底層的確定性系統，始終保持穩定可靠。

會學習的系統

下面我用一個我們在 YC 正在構建的真實系統，來展示這五個定義是如何一起工作的。

2026 年 7 月，Chase Center。Startup School 有 6000 名創始人參加。每個人都有結構化申請材料、問卷回答、與導師 1:1 對話的轉錄，以及公開信號：X 上的貼文、GitHub 提交記錄、Claude Code 的使用記錄（可以看出他們的開發速度）。

傳統做法是：15 個人項目團隊逐份閱讀申請，憑直覺判斷，然後更新一張表格。

這個方法在 200 人規模時還能運轉，但在 6000 人時就徹底失效了。沒有人類能在腦中同時容納這麼多画像，並意識到：AI agent 基礎設施方向最優秀的三個候選人，分別是拉各斯的開發工具創始人、新加坡的合規創業者、以及布魯克林的 CLI 工具開發者——而他們在不同的 1:1 對話中，用完全不同的表述描述了同一個痛點。

模型可以做到。方法如下：

Enrichment（資訊增強）

有一個技能叫 /enrich-founder，它會拉取所有數據源，做資訊增強、diarization，並標出「創始人說的」和「實際在做的」之間的差異。

底層的確定性系統負責：SQL 查詢、GitHub 數據、Demo URL 的瀏覽器測試、社交信號抓取、CrustData 查詢等。一個定時任務每天運行一次。6000 個創始人画像始終保持最新。

diarization 的輸出，能捕捉到關鍵詞搜索完全無法發現的信息：

這種「說法 vs 實際行為」的差異，需要同時讀取 GitHub 提交歷史、申請材料和對話記錄，並在腦中整合。沒有任何 embedding 相似度搜索能做到這一點，關鍵詞過濾也不行。模型必須完整閱讀，然後做出判斷。（這正是應該放在 latent space 的任務！）

Matching（匹配）

這是「技能 = 方法調用」發揮威力的地方。

同一個匹配技能，調用三次，可以產生完全不同的策略：

/match-breakout：處理 1200 人，按領域聚類，每組 30 人（embedding + 確定性分配）

/match-lunch：處理 600 人，跨領域「偶然匹配」，每桌 8 人且不重複——由 LLM 先生成主題，再由確定性算法安排座位

/match-live：處理現場實時參與者，基於最近鄰 embedding，200ms 內完成 1 對 1 匹配，並排除已見過的人

而模型還能做出傳統聚類算法無法完成的判斷：

「Santos 和 Oram 都屬於 AI 基礎設施，但不是競爭關係——Santos 做成本歸因，Oram 做編排。應該放在同一組。」
「Kim 申請時寫的是開發者工具，但 1:1 對話顯示他在做 SOC2 合規自動化。應重新歸類到 FinTech / RegTech。」

這種重新分類，是 embedding 完全捕捉不到的。模型必須讀完整個画像。

學習循環（learning loop）

活動結束後，一個 /improve 技能會讀取 NPS 調研結果，對那些「還行」的反饋做 diarization——不是差評，而是「差一點就好」的那些——並提取模式。

然後，它會提出新規則，並寫回匹配技能中：

當參與者說「AI infrastructure」，但其代碼 80% 以上為計費模塊： → 分類為 FinTech，而非 AI Infra

當同組兩人已經認識： → 降低匹配權重優先引入新關係

這些規則會被寫回 skill 文件。下一次運行時自動生效。技能在「自我改寫」。7 月活動，「還行」評分占 12%；下一場活動降到 4%。

skill 文件學會了「還行」意味著什麼，而系統在沒有人重寫代碼的情況下變得更好。

這種模式可以遷移到任何領域：

檢索 → 閱讀 → diarize → 計數 → 綜合

然後：調研 → 調查 → diarize → 重寫 skill

如果你要問 2026 年最有價值的循環是什麼，就是這一套。它可以應用到幾乎所有知識工作場景。

技能是永久升級

我最近在 X 上發過一條給 OpenClaw 的指令，反響比預期大：

這條內容獲得了上千點贊和兩千多收藏。很多人以為這是 prompt engineering 的技巧。

其實不是，這就是前面講的那套架構。你寫下的每一個 skill，都是對系統的永久升級。它不會退化，不會遺忘。它會在凌晨三點自動運行。而當下一代模型發布時，所有 skill 會瞬間變強——latent 部分的判斷能力提升，而 deterministic 部分依然穩定可靠。

這就是 Yegge 所說的 100 倍效率的來源。

不是更聰明的模型，而是：厚技能、薄框架（Thin Harness, Fat Skills），以及把一切固化為能力的紀律。

系統會複利增長。搭建一次，長期運行。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年Dr.Han公開信
9.3萬熱度
#
加密市場小幅下跌
15.58萬熱度
#
原油價格上漲
3.45萬熱度
#
美軍封鎖霍爾木茲海峽
69.09萬熱度
#
AaveDAO2500萬美元撥款提案
179.7萬熱度

熱門 Gate Fun
查看更多

1
BDOG
BDOG
市值:$2282.75持有人數:1
0.00%
2
UBI
UBI
市值:$2275.86持有人數:0
0.00%
3
G10X
G10
市值:$2279.31持有人數:0
0.00%
4
NUC
NUCLEAR
市值:$2286.2持有人數:1
0.00%
5
BABI
BABI NGOK
市值:$2282.75持有人數:0
0.00%

瘦Harness，胖Skill：100倍AI生產力的真正來源

熱門話題

Gate13週年Dr.Han公開信

加密市場小幅下跌

原油價格上漲

美軍封鎖霍爾木茲海峽

AaveDAO2500萬美元撥款提案

熱門 Gate Fun

BDOG

BDOG

UBI

UBI

G10X

G10

NUC

NUCLEAR

BABI

BABI NGOK

置頂