S2E57 LLM 之後:Thinking Machines 互動模型的誕生
前 OpenAI CTO Mira Murati 創辦的 Thinking Machine 推出互動 AI 模型,以每 200 毫秒為單位的微回合實現即時雙向對話與時間感知,在公司三位共同創辦人相繼離職、急需穩定投資人信心之際正式亮相。
本頁摘要由 AI 自動生成,著作權屬原節目創作者;可能存在錯誤或遺漏,建議收聽 原節目《矽谷輕鬆談》 以獲取完整資訊。
重點摘要
- Thinking Machine 互動模型採「微回合機制」,每 200 毫秒同步處理語音、視訊、文字輸入,可真正做到邊聽邊說,不需等待對方說完才回應
- 模型具備時間感知能力,可感知對話間隔、判斷何時發言或保持沉默,甚至能執行「30 秒後提醒我」這類現有文字模型無法完成的指令
- 現有主流語音 AI(GPT-4o、Gemini Live)本質上仍是輪流對話——靠外掛模組偵測使用者停止說話的時機才生成回應,並非真正並行
- Mira Murati 2024 年(前年)9 月離開 OpenAI,2025 年 2 月創辦 Thinking Machine,A16Z 領投 20 億美元,估值達 120 億美元;核心技術背景為 2023 年 OpenAI 政變事件後的延伸志業
- 公司成立一年多,6 位共同創辦人已有 3 位離職,其中 2 位於 2026 年(今年)1 月前後相繼出走。Berry Zol(原 OpenAI 出身)疑似將公司機密帶回 OpenAI 而遭解雇;主持人認為此次 Demo 是在危急時刻向投資人與員工展示成果的策略性行動
詳細內容
Thinking Machine 互動模型:微回合機制與時間感知
Thinking Machine 於 2026 年(今年)發布互動 AI 模型研究預覽版,核心創新是「微回合機制」——以每 200 毫秒為一個處理單位持續接收輸入並生成輸出,而非等待用戶說完一句話才回應。主持人強調,這個設計讓模型可以真正做到「邊說邊聽」,就像電話通話兩端可以同時說話,和現行大多數語音 AI 的輪流模式本質上不同。
- 輸入方面,模型同時處理語音、視訊、文字,訓練時就整合三種模態的 Embedding,不是事後拼接工具
- 模型具備時間感知,把時間當作第一公民(First Citizen):可感知距離上一句話過了多少秒、在適當時機主動說話或保持沉默,並可執行「30 秒後提醒我」這類現有文字模型需要額外工具才能完成的指令
- 上下文不只保留文字訊息,連「沉默」本身也被記錄在上下文裡,讓模型掌握完整的時間軸
三代語音 AI 演進對比
主持人詳細拆解了語音 AI 的技術演進,說明 Thinking Machine 與現有方案的本質差異:
- 第一代:語音辨識(STT)→ 文字輸入給 LLM → 生成後再轉語音(TTS),模型本身只處理文字,音訊只是前後的工具包裝
- 第二代(GPT-4o、Gemini Live):訓練時確實吃進音訊 Embedding,感覺上即時,但仍需靠外掛模組偵測「用戶什麼時候停止說話」,才能生成回應——模型說話時一旦被打斷就必須停下,無法真正並行,本質仍是輪流對話
- 第三代(Thinking Machine 互動模型):從訓練階段就以微回合設計整合時間維度,不需偵測停頓邊界,可以真正同時接收新資訊並持續生成輸出
主持人指出,第二代的即時感是靠「Harness Engineering」(外層工程包裝)撐起來的,一旦第三代模型成熟,這些包裝就會失去意義,現有的 LLM 封裝都必須重做。
Mira Murati 職涯背景與創業脈絡
Mira Murati 1989 年生於奧爾巴尼,畢業於達特茅斯機械工程系。2011 年在高盛實習,後於特斯拉 Model X 部門擔任產品經理三年,2018 年加入 OpenAI,2022 年升任 CTO——主持人認為十年內從實習生到 CTO 的晉升速度相當快,反映出她在各公司累積的實際成果。
2025 年 2 月,Mira Murati 創辦 Thinking Machine,共有 6 位共同創辦人,其中包含 PPO(近端策略優化)演算法發明人、前 OpenAI 共同創辦人 John Schulman,擔任首席科學家。同年 7 月,A16Z 領投,募得 20 億美元,公司估值達 120 億美元。
2023 年 OpenAI 政變事件始末
2023 年 11 月,Mira Murati 因對 Sam Altman 管理方式不滿,多次以私下備忘錄反映,並蒐集了對話截圖,分享給 OpenAI 另一位共同創辦人 Ilya Sutskever。Ilya 將這些資料提交給董事會,董事會隨後在未通知最大金主微軟、也未給出明確理由的情況下,無預警解除 Sam Altman 的 CEO 職位,Mira 短暫出任臨時 CEO。
由於員工對決定不透明感到不滿,發起連署要求 Sam Altman 回任;Mira 與 Ilya 最終也都在連署書上簽名。Sam Altman 復職後,在 2024 年(前年)內,當初涉及此事的人(包括 Mira 和 Ilya)相繼離開 OpenAI。主持人認為 Sam Altman 從這次事件學到的是「只要有員工支持,就算被換掉也能回來」,因此選擇清洗相關人員而非改變管理方式。
公司現況與發布動機分析
Thinking Machine 目前面臨嚴峻挑戰:6 位共同創辦人中已有 3 位離職,其中 2 位於 2026 年(今年)1 月前後相繼出走。Berry Zol(原 OpenAI 出身)疑似將公司機密帶回 OpenAI 而遭解雇,且 OpenAI 因此已掌握互動模型的相關研究方向。
主持人推測此次發布的策略動機有三:(1) 搶先成為第一個在大眾視野中成功 Demo 即時互動模型的公司;(2) 安撫投資人與員工,穩定軍心;(3) 吸引更多研究員加入,彌補人才缺口。他認為在 AI 賽道上,外界預期每幾個月就要看到顯著進展,一年多沒有拿出像樣產品的壓力非常大。對一般消費者而言,競爭的結果是未來半年至一年內將有更多即時互動 AI 模型問世。
模型基準測試表現
Thinking Machine 將模型命名為 TML Interaction Small,定位為輕量互動模型。在官方公布的基準測試中,互動度明顯領先 Gemini 和 GPT-4o,但整體智能程度GPT-4o 仍居優,音訊文字準確度GPT Realtime 4o 表現更佳。Thinking Machine 另發布兩項自訂基準測試(TimeSpeak、QSpeak),在這兩項指標上遙遙領先——主持人指出這是「球員兼裁判」,仍待第三方驗證。
精選語錄
“Sam Altman 他學到的一點是,只要有員工的支持,你只要有員工的支持,其實就算我被換掉,我還是有機會回來。”
“模型可以一邊聽你講話一邊說,就像是我們在打電話一樣,你們兩個人可以同時講話,沒有任何問題。”
“當模型能力夠聰明的時候,你很多做的這種疊床架屋給他這些工具,其實到最後是要被丟掉的。“
時間軸
逐字稿未含明確時間戳,以下為內容段落順序:
- 開場:互動模型 Demo 介紹,微回合機制與即時雙向對話核心演示
- 中段:Mira Murati 職涯背景(達特茅斯 → 高盛 → 特斯拉 → OpenAI → Thinking Machine)
- 中段:2023 年 11 月 OpenAI 政變事件始末,以及 2024 年(前年)Mira 離職經過
- 後段:技術深探——三代語音 AI 演進比較、模型架構細節(Embedding、序列化、時間感知)
- 後段:基準測試結果解讀(TML Interaction Small vs. GPT-4o / Gemini)
- 結尾:公司現況危機分析與此次發布動機推測
同節目更多集數
相關主題
- 【天下零時差05.29.26】康是美600店登藥妝龍頭,靠這道「最強護城河」為何寶雅追不上、屈臣氏做太慢?聽天下:天下雜誌Podcast · 2026-05-29
- 【天下零時差05.28.26】美債殖利率飆破5%!買AI公司債比美國公債好?聽天下:天下雜誌Podcast · 2026-05-28
- 【阿榕伯胡說科技Ep.76】5月科技大事解析:黃仁勳再度訪台、聯發科股價噴發、SpaceX上市倒數聽天下:天下雜誌Podcast · 2026-05-28
- 【決策者・聽天下Ep.156】蝦皮店到店四年狂開3000家,還推全台大免運,電商之王如何撼動全台零售?聽天下:天下雜誌Podcast · 2026-05-28
- 【天下零時差05.27.26】記憶體類股迎超級週期瘋漲 專家:本性難移聽天下:天下雜誌Podcast · 2026-05-27