矽谷輕鬆談｜S2E57 LLM 之後：Thinking Machines 互動模型的誕生重點摘要

重點摘要

Thinking Machine 互動模型採「微回合機制」，每 200 毫秒同步處理語音、視訊、文字輸入，可真正做到邊聽邊說，不需等待對方說完才回應
模型具備時間感知能力，可感知對話間隔、判斷何時發言或保持沉默，甚至能執行「30 秒後提醒我」這類現有文字模型無法完成的指令
現有主流語音 AI（GPT-4o、Gemini Live）本質上仍是輪流對話——靠外掛模組偵測使用者停止說話的時機才生成回應，並非真正並行
Mira Murati 2024 年（前年）9 月離開 OpenAI，2025 年 2 月創辦 Thinking Machine，A16Z 領投 20 億美元，估值達 120 億美元；核心技術背景為 2023 年 OpenAI 政變事件後的延伸志業
公司成立一年多，6 位共同創辦人已有 3 位離職，其中 2 位於 2026 年（今年）1 月前後相繼出走。Berry Zol（原 OpenAI 出身）疑似將公司機密帶回 OpenAI 而遭解雇；主持人認為此次 Demo 是在危急時刻向投資人與員工展示成果的策略性行動

詳細內容

Thinking Machine 互動模型：微回合機制與時間感知

Thinking Machine 於 2026 年（今年）發布互動 AI 模型研究預覽版，核心創新是「微回合機制」——以每 200 毫秒為一個處理單位持續接收輸入並生成輸出，而非等待用戶說完一句話才回應。主持人強調，這個設計讓模型可以真正做到「邊說邊聽」，就像電話通話兩端可以同時說話，和現行大多數語音 AI 的輪流模式本質上不同。

輸入方面，模型同時處理語音、視訊、文字，訓練時就整合三種模態的 Embedding，不是事後拼接工具
模型具備時間感知，把時間當作第一公民（First Citizen）：可感知距離上一句話過了多少秒、在適當時機主動說話或保持沉默，並可執行「30 秒後提醒我」這類現有文字模型需要額外工具才能完成的指令
上下文不只保留文字訊息，連「沉默」本身也被記錄在上下文裡，讓模型掌握完整的時間軸

三代語音 AI 演進對比

主持人詳細拆解了語音 AI 的技術演進，說明 Thinking Machine 與現有方案的本質差異：

第一代：語音辨識（STT）→ 文字輸入給 LLM → 生成後再轉語音（TTS），模型本身只處理文字，音訊只是前後的工具包裝
第二代（GPT-4o、Gemini Live）：訓練時確實吃進音訊 Embedding，感覺上即時，但仍需靠外掛模組偵測「用戶什麼時候停止說話」，才能生成回應——模型說話時一旦被打斷就必須停下，無法真正並行，本質仍是輪流對話
第三代（Thinking Machine 互動模型）：從訓練階段就以微回合設計整合時間維度，不需偵測停頓邊界，可以真正同時接收新資訊並持續生成輸出

主持人指出，第二代的即時感是靠「Harness Engineering」（外層工程包裝）撐起來的，一旦第三代模型成熟，這些包裝就會失去意義，現有的 LLM 封裝都必須重做。

Mira Murati 職涯背景與創業脈絡

Mira Murati 1989 年生於奧爾巴尼，畢業於達特茅斯機械工程系。2011 年在高盛實習，後於特斯拉 Model X 部門擔任產品經理三年，2018 年加入 OpenAI，2022 年升任 CTO——主持人認為十年內從實習生到 CTO 的晉升速度相當快，反映出她在各公司累積的實際成果。

2025 年 2 月，Mira Murati 創辦 Thinking Machine，共有 6 位共同創辦人，其中包含 PPO（近端策略優化）演算法發明人、前 OpenAI 共同創辦人 John Schulman，擔任首席科學家。同年 7 月，A16Z 領投，募得 20 億美元，公司估值達 120 億美元。

2023 年 OpenAI 政變事件始末

2023 年 11 月，Mira Murati 因對 Sam Altman 管理方式不滿，多次以私下備忘錄反映，並蒐集了對話截圖，分享給 OpenAI 另一位共同創辦人 Ilya Sutskever。Ilya 將這些資料提交給董事會，董事會隨後在未通知最大金主微軟、也未給出明確理由的情況下，無預警解除 Sam Altman 的 CEO 職位，Mira 短暫出任臨時 CEO。

由於員工對決定不透明感到不滿，發起連署要求 Sam Altman 回任；Mira 與 Ilya 最終也都在連署書上簽名。Sam Altman 復職後，在 2024 年（前年）內，當初涉及此事的人（包括 Mira 和 Ilya）相繼離開 OpenAI。主持人認為 Sam Altman 從這次事件學到的是「只要有員工支持，就算被換掉也能回來」，因此選擇清洗相關人員而非改變管理方式。

公司現況與發布動機分析

Thinking Machine 目前面臨嚴峻挑戰：6 位共同創辦人中已有 3 位離職，其中 2 位於 2026 年（今年）1 月前後相繼出走。Berry Zol（原 OpenAI 出身）疑似將公司機密帶回 OpenAI 而遭解雇，且 OpenAI 因此已掌握互動模型的相關研究方向。

主持人推測此次發布的策略動機有三：(1) 搶先成為第一個在大眾視野中成功 Demo 即時互動模型的公司；(2) 安撫投資人與員工，穩定軍心；(3) 吸引更多研究員加入，彌補人才缺口。他認為在 AI 賽道上，外界預期每幾個月就要看到顯著進展，一年多沒有拿出像樣產品的壓力非常大。對一般消費者而言，競爭的結果是未來半年至一年內將有更多即時互動 AI 模型問世。

Thinking Machine 將模型命名為 TML Interaction Small，定位為輕量互動模型。在官方公布的基準測試中，互動度明顯領先 Gemini 和 GPT-4o，但整體智能程度GPT-4o 仍居優，音訊文字準確度GPT Realtime 4o 表現更佳。Thinking Machine 另發布兩項自訂基準測試（TimeSpeak、QSpeak），在這兩項指標上遙遙領先——主持人指出這是「球員兼裁判」，仍待第三方驗證。

精選語錄

“Sam Altman 他學到的一點是，只要有員工的支持，你只要有員工的支持，其實就算我被換掉，我還是有機會回來。”

“模型可以一邊聽你講話一邊說，就像是我們在打電話一樣，你們兩個人可以同時講話，沒有任何問題。”

“當模型能力夠聰明的時候，你很多做的這種疊床架屋給他這些工具，其實到最後是要被丟掉的。“

時間軸

逐字稿未含明確時間戳，以下為內容段落順序：

開場：互動模型 Demo 介紹，微回合機制與即時雙向對話核心演示
中段：Mira Murati 職涯背景（達特茅斯 → 高盛 → 特斯拉 → OpenAI → Thinking Machine）
中段：2023 年 11 月 OpenAI 政變事件始末，以及 2024 年（前年）Mira 離職經過
後段：技術深探——三代語音 AI 演進比較、模型架構細節（Embedding、序列化、時間感知）
後段：基準測試結果解讀（TML Interaction Small vs. GPT-4o / Gemini）
結尾：公司現況危機分析與此次發布動機推測

搜尋摘要

S2E57 LLM 之後：Thinking Machines 互動模型的誕生