
當 AI 的瓶頸不再是模型:Perseus Yang 的開源生態建設實踐與思考
TechFlow Selected深潮精選

當 AI 的瓶頸不再是模型:Perseus Yang 的開源生態建設實踐與思考
模型會繼續變強,但誰來定義 agent 該怎麼和真實世界交互,誰來決定領域知識該以什麼形式被編碼和分發,這些問題的答案不會從模型里長出來。
作者:劉軍
2026 年,AI 行業的一個共識正在成形:模型能力不再是瓶頸。差距在模型之外,在領域知識的編碼,在 agent 與真實世界的接口,在工具鏈的成熟度。這個差距正在被開源社區填補,而且速度超出所有人預期。OpenClaw 在 72 小時內拿到 6 萬顆 GitHub 星,三個月後突破 35 萬顆。Claude Code 的 Skill 生態半年內從 50 個增長到 334 個以上。Hermes Agent 更激進,讓 agent 自主構建可複用技能。Vela Partners 的數據顯示,過去 90 天,個人 AI 助手和 Agentic Skill 插件兩個品類合計新增 24.4 萬顆星。這是一場 Skill 大爆發。
Perseus Yang 的工作坐落在這場爆發的核心地帶。作為 Cornell 數學與計算機科學背景出身、Forbes Business Council 成員、THINC Fellowship 入選者,他過去幾年在 GitHub 上參與和維護了十餘個 AI 相關的開源項目,涵蓋 agent 技能擴展、手機設備級操控、AI 引擎優化工具鏈、GEO 數據分析 agent、內容自動化工作流、支付協議基礎設施等方向。他的特點是同時具備深厚的工程背景和極強的產品直覺。他不只是寫代碼,而是能從用戶需求出發定義一個工具應該長什麼樣,然後端到端地把它造出來並推動採用。
以下是他在這個過程中形成的幾個核心判斷。
第一個判斷:Skill 系統是 AI agent 時代最被低估的基礎設施
Anthropic 在 2025 年底將 Agent Skills 發佈為開放標準後,OpenAI 的 Codex CLI 也採用了相同的 SKILL.md 格式。OpenClaw 的 ClawHub 註冊中心已經積累了超過 13000 個社區貢獻的 Skill,Claude Code 生態也在快速跟進。Skill 的意義遠不止"給 agent 加插件"。它本質上是讓不會寫代碼的人也能參與 AI 編程的方式。一個運營人員用自然語言寫一份 SKILL.md,就能讓 agent 學會一個新工作流。這是一次範式轉移:AI 的真正威力不取決於模型參數量,而取決於模型被注入了什麼領域知識,而 Skill 把注入知識的權力從工程師擴展到了所有人。
但 Perseus 觀察到一個問題。絕大多數 Skill 集中在工程領域,代碼審查、前端設計、DevOps、測試。非工程領域的專業知識幾乎沒有被系統性地編碼為 Skill。這意味著 Skill 生態的覆蓋面遠遠沒有達到它應有的邊界。
這個觀察驅動了他在 GTM 工具鏈方向上的一系列開源工作。其中最具代表性的是 GTM Engineer Skills,一組覆蓋 AI 引擎可發現性完整工作流的 Claude Code 和 Codex 技能集,目前在 GitHub 上積累了 600 多顆星。它把傳統上需要 SEO 專家、內容策略師和前端開發者協作的工作編碼為單人可執行的自動化流程:網站 AI 可發現性審計、內容結構優化、關鍵詞研究、數據可視化的機器可解析層。審計器不輸出建議,而是自動檢測前端框架後生成可直接提交為 Pull Request 的代碼修復。圍繞同一方向,他還構建了配套的 GEO 分析工具,可以同時向 ChatGPT、Claude、Gemini、Perplexity 發送查詢並分析品牌提及率、情感、市場份額和競爭定位,輸出交互式 HTML 報告和結構化數據。
實際效果說明了這套工具的產品價值。Articuler AI 和 Axis Robotics 等公司用 GTM Engineer Skills 在數小時內完成了從調研到 Resource Center 搭建的完整流程,而這類工作在傳統模式下通常需要數十個小時的跨團隊協作。這個效率差不是靠模型能力實現的,而是靠 Perseus 對 GTM 工作流的深度理解和產品化拆解:他把一個模糊的"提升 AI 可發現性"需求拆分為可被 agent 逐步執行的標準化階段,每個階段都有明確的輸入、輸出和質量校驗。這套工具鏈目前被十來家初創公司和多家世界五百強企業採用,開源工具是入口,商業化產品是規模化延伸,兩者共享同一個技術內核。
這個項目本身有價值,但 Perseus 認為它驗證的命題更重要:Skill 系統的能力邊界遠不止工程領域。產品策略、go-to-market、商業分析,任何可以被結構化描述的專業知識,都可以被編碼為 agent 能力。
第二個判斷:AI agent 的操作邊界不應止於瀏覽器和 API
2026 年的 agent 討論被瀏覽器 agent 和 API 集成主導。LangGraph、CrewAI、Google ADK 構成了繁榮的多 agent 編排生態。但 Perseus 注意到一個結構性盲區:全球大多數數字活動發生在手機原生應用中,社交、支付、遊戲、通信,而這些應用沒有公開 API,沒有瀏覽器等效物。現有框架無法操作微信、抖音、WhatsApp 或支付寶。手機是全球最主導的計算界面,但手機原生 agent 的基礎設施幾乎為零。
Perseus 的思考是:為什麼所有人都在教 AI 操作瀏覽器,卻沒有人認真教它操作手機?瀏覽器 agent 的繁榮很大程度上是因為 web 天然對自動化友好,有 DOM、有 API、有 Playwright 這樣成熟的工具鏈。但手機是一個完全不同的世界。原生應用是黑盒,沒有結構化的界面描述,操作只能通過模擬人類的觸摸和滑動來完成。這個問題的難度不在於讓 LLM 理解一個按鈕該不該按,而在於整個執行層的基礎設施從零開始:設備連接管理、屏幕狀態解析、多 agent 之間的設備互斥、敏感操作的安全邊界。
這個判斷驅動了 OpenPocket 的誕生。它是一個通過 ADB 讓 LLM 驅動的 agent 自主操作 Android 設備的開源框架,目前有十來位貢獻者、五百次以上的 commit。用戶真正在用它做的事情很說明問題:自動管理社交媒體賬號、在 IM 裡替你回消息、處理手機上的支付和賬單、甚至自動玩手遊。一個典型的場景是:用戶用自然語言告訴 agent"每天早上 8 點打開 Slack 完成簽到",agent 就會在隔離的 session 中持久運行這個任務,把原本每天重複的手動操作變成後臺自動化。
Perseus 在這個項目中做了幾個他認為關鍵的產品和架構選擇。第一,agent 可以在運行中自動創建新的 Skill。當它遇到一個沒見過的操作流程時,可以把學到的步驟保存為可複用的 SKILL.md,下次直接調用。這意味著 agent 不是一個固定能力的工具,而是一個越用越強的系統。第二,所有敏感操作必須經過人類審批,而不是讓 agent 自己判斷什麼是安全的。在他看來,自主 agent 最危險的不是它做錯事,而是它"自信地"做錯事還以為自己做對了。第三,每個 agent 完全隔離,綁定獨立的設備、配置和會話狀態,多個 agent 可以同時運行而不互相干擾。如果只有 TypeScript 工程師才能擴展 agent 的能力,那這個生態永遠長不大,所以 OpenPocket 和 Claude Code 一樣,用 SKILL.md 作為能力擴展的標準格式。
整個系統支持 29 種以上的 LLM 配置,agent 手機與用戶個人手機完全隔離,所有數據保留在本地。在 OWASP 將"工具濫用"列入 Agentic AI 十大風險、歐盟 AI Act 高風險義務即將生效的 2026 年,這種本地優先、人類在環的設計不是保守,而是 agent 進入真實場景的前提條件。
第三個判斷:開源的價值不在代碼本身,在基礎設施層的標準定義
Perseus 對開源的理解不是"把代碼放到 GitHub 上"。他反覆提到一個觀點:2026 年的 AI 開源生態處在一個標準尚未固化的窗口期,現在被社區採納的架構模式和接口規範,會在未來幾年變成整個行業默認的基礎設施。在這個窗口期,定義一個生態位比優化一個已有方案重要得多。
具體來說,他的 Skill 項目推動了一件技術層面有意義的事:證明 SKILL.md 這個格式不只是工程工具的容器,而是一個足夠通用的領域知識編碼標準。當同一個 SKILL.md 可以同時被 Claude Code、OpenAI Codex CLI 和 OpenClaw 加載執行時,它事實上成了 AI agent 生態的"可移植能力單元"。Perseus 把 go-to-market 這個非工程領域的完整工作流塞進了這個格式,並且跑通了從審計到代碼修復的端到端自動化,這對整個 Skill 標準的通用性是一個有份量的驗證。
他的手機 agent 項目解決的則是 agent 執行層的一個架構空白。現有的 agent 框架在工具調用層面依賴結構化接口,要麼是 API,要麼是 DOM。OpenPocket 必須在沒有任何結構化接口的環境中完成操作,純粹依賴屏幕像素解析和觸摸事件注入。這迫使項目從底層重新設計了 agent 的感知-決策-執行循環,包括設備狀態的實時解析、多 agent 的設備互斥協議、以及操作失敗後的自動恢復機制。這些不是對現有 agent 框架的簡單適配,而是一套針對"無 API 環境下的自主操作"這個問題獨立演化出來的架構方案。
兩個項目的工程設計值得單獨說一下。OpenPocket 採用 Manager、Gateway、Agent Runtime 三層分離架構,每一層可以獨立迭代,社區貢獻者只需要關注自己熟悉的那一層。GTM Engineer Skills 的每個 Skill 內部遵循階段化 pipeline 設計,前一階段的輸出是後一階段的輸入,中間有強制的質量校驗門控,工作流可以在任意階段中斷恢復,錯誤可以被定位到具體階段。這些架構選擇的目的都是同一個:讓開源項目能被真實用戶在生產環境中信任。
從產品視角看,這兩個項目還有一個共同點:Perseus 在設計中始終把"誰來用"和"怎麼擴展"放在架構決策的最前面。GTM Engineer Skills 的目標用戶不是工程師而是增長團隊,所以它的每個 Skill 都有明確的輸入輸出契約和內置的質量校驗,讓非技術用戶也能理解 agent 在做什麼。OpenPocket 的 SKILL.md 擴展機制、自然語言定時任務、多渠道接入(Telegram、Discord、WhatsApp、CLI)都是為了降低非工程用戶的使用門檻。在他看來,一個開源基礎設施項目如果只有工程師能用,那它的天花板就是工程師社區的大小。真正有槓桿的設計是讓 agent 的能力邊界由所有領域的從業者共同拓展。
這種模式貫穿了他的多個項目。不是在現有框架上做應用層開發,而是在 agent 生態的基礎設施層識別缺失的組件,然後把它造出來。
更大的圖景
2026 年的開源 AI 生態正在經歷一個類似於 2010 年代早期雲原生生態的時刻:基礎設施層的標準和工具正在被定義,而這些定義將在未來數年內約束整個行業的發展路徑。在這個窗口期,每一個被社區採納的 Skill 格式、每一個被驗證的 agent 架構模式、每一個被填補的生態空白,都在參與塑造 AI 的下一個界面層。
Perseus Yang 正在做的事情很簡單:用工程能力和產品思維去探索 AI 時代技術前沿的 paradigm。模型會繼續變強,但誰來定義 agent 該怎麼和真實世界交互,誰來決定領域知識該以什麼形式被編碼和分發,這些問題的答案不會從模型里長出來,只能由動手造東西的人一點一點試出來。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News













