近期,一篇4萬字的演講風靡于國內人工智能(AI)學術圈。
原華為"天才少年"、Logenic AI公司聯合創始人李博杰博士,日前發表了一篇關于AI Agent思考的文章,題為"AI Agent 應該更有趣還是更有用"。
李博杰在這篇文章中表示,AI的發展目前有兩個方向,一個是有趣的AI,也就是更像人的AI;另外一個方向就是更有用的AI,也就是更像工具的AI。但目前的AI技術,要么是只有趣但沒用,要么是只有用但是不像人,"不好玩"。
李博杰指出,通用人工智能(AGI)的目標是,兼具慢思考和類人屬性的 AI Agent,然而當前 AI Agent 和人類夢想之間存在巨大的差距。
李博杰坦言,Video Diffusion 是一個更為終極的技術路線。盡管大模型的成本一定會快速降低,但他不建議貿然自己去做基礎模型。
"如果沒有拳打OpenAI、腳踢Anthropic的實力,在效果上比不過最好的閉源模型,成本上也比不上開源模型。"李博杰表示。
據悉,李博杰今年31歲 (1992年生),曾任華為2012實驗室中央軟件研究所計算機網絡與協議實驗室、分布式與并行軟件實驗室助理科學家、副首席專家,并且以第一批"天才少年"的身份于2019年加入華為,職級P20 (技術專家A級別)。
早在2010年,他進入中國科學技術大學少年班學院學習。在校期間,擔任中科大鏡像站USTC Mirrors的維護者。2014年,李博杰以聯合培養博士生的身份,加入中國科學技術大學與微軟亞洲研究院(MSRA)的聯合項目。
幾乎同時,2019年,李博杰獲得中國科學技術大學與微軟亞洲研究院的合作培養博士生項目中取得計算機科學學位,導師為張霖濤教授和陳恩紅教授。
2023年7月,李博杰離開華為后成立了Logenic AI,致力于成為人類的數字化延伸。憑借尖端的AIGC基礎設施,Logenic AI 能夠協作制作和服務多模式角色Agent,"元宇宙"、以及數字雙胞胎等角色。
李博杰表示,"我們都相信 AGI 肯定會到來,唯一值得爭論的是到達 AGI 的增長曲線是怎樣的,是這一波自回歸模型隨著 scaling law,直接高速增長到 AGI;還是這一波自回歸模型也會遇到瓶頸,AGI 還需要等待下一波技術革命。10 年前 ResNet 掀起 CV 革命的時候,很多人都對 AI 的發展預期過于樂觀。這一波 Transformer 會是通向 AGI 的坦途嗎?"
李博杰強調,AI Agent 的創作者可以盈利。因此,好看的皮囊、有趣的靈魂、有用的 AI、低成本和去中心化,AI Agent 將推動整個 AI 領域持續創新和健康發展。
"我們相信,在人類世界的數字延伸中,有趣的靈魂終會相遇。"李博杰稱。
以下是李博杰演講內容全文,共約4萬字,Enjoy:
非常榮幸來到科大校友會 AI 沙龍分享一些我對 AI Agent 的思考。
我是 1000(2010 級理科實驗班)的李博杰,2014-2019 年在中科大和微軟亞洲研究院讀聯合培養博士,2019-2023 年是華為首屆天才少年,如今我跟一批科大校友一起在做 AI Agent 領域的創業。
今天(去年12月)是湯曉鷗教授的頭七,因此我特別把今天的PPT調成了黑色背景,這也是我第一次用黑色背景的PPT做報告。我也希望,隨著AI技術的發展,未來每個人都可以有自己的數字分身,實現靈魂在數字世界中的永生,在這個世界里生命不再有限,也就不再有分離的悲傷。
AI:有趣和有用
AI的發展目前一直有兩個方向,一個是有趣的AI,也就是更像人的AI;另外一個方向就是更有用的AI,也就是更像工具的AI。
AI 應該更像人還是更像工具呢?其實是有很多爭議的。比如說 OpenAI 的 CEO Sam Altman 就說,AI 應該是一個工具,它不應該是一個生命。而很多科幻電影里的 AI 其實更像人,比如說 Her 里面的 Samantha,還有《流浪地球 2》里面的圖丫丫,黑鏡里面的 Ash,所以我們希望能把這些科幻中的場景帶到現實。只有少數科幻電影里面的 AI 是工具向的,比如《鋼鐵俠》里面的賈維斯。
除了有趣和有用這個水平方向的之外,還有另外一個上下的維度,就是快思考和慢思考。這是一個神經科學的概念,出自一本書《思考,快與慢》,它里面就說人的思考可以分為快思考和慢思考。
所謂的快思考就是不需要過腦子的基礎視覺、聽覺等感知能力和說話等表達能力,像 ChatGPT、stable diffusion 這種一問一答、解決特定問題的 AI 可以認為是一種工具向的快思考,你不問它問題的時候,它不會主動去找你。而 Character AI、Inflection Pi 和 Talkie(星野)這些 AI Agent 產品都是模擬一個人或者動漫游戲角色的對話,但這些對話不涉及復雜任務的解決,也沒有長期記憶,因此只能用來閑聊,沒法像 Her 里面的 Samantha 那樣幫忙解決生活和工作中的問題。
而慢思考就是有狀態的復雜思考,也就是說如何去規劃和解決一個復雜的問題,先做什么、后做什么。比如 MetaGPT 寫代碼是模擬一個軟件開發團隊的分工合作,AutoGPT 是把一個復雜任務拆分成很多個階段來一步步完成,雖然這些系統在實用中還有很多問題,但已經是一個具備慢思考能力的雛形了。
遺憾的是,現有產品中幾乎沒有在第一象限,兼具慢思考和類人屬性的 AI Agent。斯坦福 AI 小鎮是個不錯的學術界嘗試,但斯坦福 AI 小鎮里面沒有真人的交互,而且 AI Agent 一天的作息時間表都是事先排好的,因此并不是很有趣。
有趣的是,科幻電影里面的AI其實大部分是在這個第一象限。因此這就是目前 AI Agent 和人類夢想之間的差距。
因此我們在做的事情跟 Sam Altman 說的正好相反,我們希望讓 AI 更像人,同時又具備慢思考的能力,最終演進成一個數字生命。
請輸入圖說
今天大家都在講AGI的故事,AGI就是通用人工智能。什么是AGI呢?我覺得它又需要有趣,又需要有用。
有趣的方面,就是它需要能夠有自主思考的能力、有自己的個性和感情。而有用的方面,就是AI能夠解決工作、生活中的問題?,F在的AI要么是只有趣但沒用,要么是只有用但是不像人,不好玩。
比如說像 Character AI 之類的角色扮演產品,它不能幫你完成工作或者生活中的問題,但是它可以模擬一個 Elon Musk、Donald Trump 或者原神里面的派蒙。我看過一個分析報告,說 Character AI 有上千萬的用戶,但每個月的營收只有幾十萬美金,相當于只有幾萬付費用戶。大多數用戶跟每個虛擬角色都是聊 10 分鐘、20 分鐘就不知道該說什么了。那為什么它的用戶留存不高、付費率也低呢?因為它既沒有給人提供情緒價值,又沒有給人提供實用價值。
而另一方面就是有用的AI,比如各種Copilot,他們又都是冷冰冰的,問一句答一句,完全是一個工具。這些工具甚至記不住你之前干過什么,記不住你的喜好和習慣。那么用戶自然只會在需要這個工具的時候想起來用它,不需要的時候就會丟到一邊。
我認為未來真正有價值的AI就像電影《Her》里面的Samantha,她首先是一個操作系統的定位,能夠幫主人公去解決很多生活中、工作中的問題,幫他整理郵件等等,而且比傳統的操作系統做得又快又好。同時它又有記憶、有感情、有意識,它不像一個電腦,而是像一個人。因此在感情空窗期的主人公 Theodore 就逐漸愛上了他的操作系統 Samantha。當然并不是所有人都把 Samantha 作為虛擬伴侶,劇中也說了,只有 10% 的用戶跟他們的操作系統發展了浪漫關系。這樣的 AI Agent 我認為才是真正有價值的。
另外值得說道的一點是,全劇中這個Samantha只有語音交互,沒有視覺形象,更不是機器人。目前AI的能力也恰好是語音和文字很成熟,但視頻生成就不夠成熟,人形機器人也不夠成熟。《黑鏡》里面的機器人Ash就是個反例。這部劇里面先是用女主過世男友Ash的社交網絡資料制作了一個語音伴侶,直接把女主給弄哭了,其實做出那個語音伴侶現在的技術已經綽綽有余了。后來女主加錢升級,上傳了一堆視頻資料,買了一個長得像Ash的人形機器人,其實現在的技術也做不到,但就算如此,Ash的女友還是覺得不像,因此把他鎖在閣樓里面了。這里面就有個恐怖谷效應,如果做得不夠逼真,就保持一定的距離。
順便說一句,《黑鏡》里面女主先是文字聊天,然后說了一句 Can you talk to me?然后就接通電話了。試用我們 AI Agent 的一個朋友還真的也這么問我們的 AI Agent,結果我們的 AI Agent 回答,我是一個 AI,只能文字交流,不會說話。他還截圖發給我,問我說好的語音電話呢,我說打語音電話需要按那個打電話的按鈕啊。所以這些經典的 AI 劇真的要一個鏡頭一個鏡頭的拆解分析,里面有很多產品設計的細節。
巧合的是,我們的第一臺 H100 訓練服務器就是在洛杉磯最老的郵局,后來改造成了一個金庫,又改造成了一個數據中心。這個地方在洛杉磯的市中心,距離《Her》的拍攝地 Bradbury Building 只有不到 1 英里。
這個數據中心也是洛杉磯的互聯網交換局(Internet Exchange),距離 Google 和 Cloudflare 入口服務器的延遲都在 1 毫秒以內,其實都在這棟樓里面。從百年前的郵局到今天的互聯網交換局,真的是挺有意思的。
有趣的AI
那么我們首先來看一看如何去構建一個真正有趣的AI。有趣的AI我認為就像一個有趣的人,可以分為好看的皮囊和有趣的靈魂這兩個方面。
好看的皮囊就是它能夠聽得懂語音,看得懂文本、圖片和視頻,有這樣一個視頻、語音的形象,能夠跟人實時交互。
有趣的靈魂就是它需要像人一樣能夠去獨立思考,有長期記憶,有自己的個性。
下面我們就分別從好看的皮囊和有趣的靈魂兩個方面來講。
好看的皮囊:多模態理解能力
說到好看的皮囊,很多人認為只要有一個3D的形象能夠在這兒搖頭晃腦地展示就行了。但是我認為更關鍵的一部分是AI能夠去看到,并且理解周圍的世界,就是他的視覺理解能力是很關鍵的,不管是機器人還是可穿戴設備,還是手機上的攝像頭。
比如說像Google的Gemini演示視頻就做得不錯,雖然它做了剪輯,但是如果我們真正能做到它這么好的效果,是一定不愁用戶的。
我們回顧一下Gemini演示視頻中的幾個片段,給一個畫鴨子的視頻它能描述鴨子是什么,給一個餅干和橘子能對比它們的不同,給一個簡筆畫小游戲知道該往哪邊走,給兩團毛線可以畫出一個用它能織出的毛絨玩具,給幾個行星的圖能夠對它們正確排序,給一個貓跳上柜子的視頻能夠描述發生了什么。
雖然效果非常驚艷,其實仔細想想,這些場景都不是很難做出來的,只要會看圖說話,也就是給圖片生成一個比較好的caption,這些問題大模型就都能回答了。
語音能力也是非常關鍵的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一個語音聊天 AI Agent,一聊聊了一整天,室友還以為我在跟老婆煲電話粥,就沒來打擾我。當他知道我是在跟 AI 聊天的時候,說我怎么能跟 AI 聊這么久。我給他看了看我們的聊天記錄,他說 AI 確實挺能聊的,他用 ChatGPT 不愿意聊這么久,是因為懶得打字。
我認為,多模態大模型有三條路。第一條是用多模態數據端到端預訓練的模型,Google 的 Gemini 就是這么做出來的,最近 Berkeley 的 LVM 也是端到端多模態的,我認為這是最有前景的一個方向。當然這條路需要非常多的計算資源。
現在還有一種工程化的方案,是用膠水層去粘接已經訓練好的模型,比如目前圖片理解做得最好的 GPT-4V,還有學術界開源的 MiniGPT-4/v2,LLaVA 等等。膠水層是我的叫法,專業名詞叫做 projection layer,比如右上角這個 MiniGPT 架構圖中,標著 "" 的 6 個框就是 projection layer。
輸入的圖片、語音、視頻分別通過不同的 encoder 去做編碼,編碼結果經過 projection layer 映射到 token,輸入給 Transformer 大模型。大模型的輸出 token 經過 projection layer,分別映射到圖片、語音、視頻的解碼器,這樣就可以生成圖片、語音、視頻了。
在這個膠水層粘接的方案里,可以看到 encoder、decoder 和大模型上面都標著 "??",那就是凍結權重的意思。使用多模態數據訓練的時候,只修改 projection layer 部分的權重,不修改其他部分的權重,這樣訓練的成本就能大大降低,只要幾百美金就能訓練出一個多模態大模型。
第三條路是第二條路推向極致的方案,連 projection layer 都不要了,直接用文本去粘接encoder、decoder和文本大模型,不需要做任何訓練。例如語音部分就是先做語音識別,把語音轉換成文字輸入給大模型,然后再把大模型的輸出送給語音合成模型生成音頻。不要小看這種聽起來很土的方案,在語音領域,目前這種方案還是最靠譜的,現有的多模態大模型在識別和合成人類說話語音方面都不太行。
Google Gemini 的語音對話響應延遲只有 0.5 秒,這是一個真人都很難達到的延遲,真人的延遲一般在 1 秒左右。我們現有的語音聊天產品,比如 ChatGPT,語音對話延遲高達 5~10 秒。因此大家才會覺得 Google Gemini 的效果非常驚艷。
那么這個效果是不是很難做出來呢?其實我們現在用開源的方案就可以做出來2秒以內的語音對話響應延遲,而且還包含實時視頻理解。
我們先不考慮視覺部分,先只看語音部分。在一個語音電話里,收到語音后首先做停頓檢測,發現用戶說話結束了,就把這一段音頻送到Whisper去做語音識別。停頓檢測比如人聲結束后等待0.5秒,然后Whisper語音識別大概需要0.5秒。
然后送到文本模型去做生成,用開源模型生成的速度其實非???,比如最近比較火的 Mixtral 8x7B MoE 模型,輸出第一個 token 只需要 0.2 秒,每秒輸出 50 個 token 不是問題,那么第一句話假設有 20 個 token,就需要 0.4 秒。第一句話生成完了,就交給語音合成模型去合成語音,VITS 只需要 0.3 秒。
加上0.1秒的網絡時延,這樣端到端算下來只要1.8秒的延遲,已經比市面上的大多數實時語音電話產品好很多了。比如ChatGPT語音電話的延遲是5~10秒。而且我們的方案中,停頓檢測和語音識別部分的延遲還有優化空間。
我們再看 Google Gemini 演示的視頻理解場景。
因為我們現在的多模態模型輸入的基本都是圖片,而不是流式視頻,所以首先需要把視頻變成圖片,截取關鍵幀。比如每0.5秒截取一幀,這里面就有平均0.3秒的延遲。圖片可以直接送進MiniGPT-v2或者Fuyu-8B這樣的開源多模態模型。但是由于這些模型比較小,實際用起來效果并不是很好,跟GPT-4V差距比較大。
因此我們可以采取傳統CV與多模態大模型相結合的方案,用 Dense Captions 這個技術識別出圖片中的所有物體及其位置,并且用 OCR 識別圖片中的所有文本。再把 OCR 結果,Dense Captions 的物體識別結果作為原始圖片的補充文字,都輸入到 MiniGPT-v2 或者 Fuyu-8B 這種多模態大模型里面。對于菜單、說明書一類的圖片,OCR 的作用是非常大的,因為單靠多模態大模型經常識別不清楚大塊文字。
這個識別圖片中物體和文字的步驟增加了額外的 0.5 秒延遲,但是我們看一下延遲分解,就會發現視頻部分根本不是瓶頸,只有 0.9 秒,而語音輸入部分反而是瓶頸,需要 1.1 秒。在 Google Gemini 這個演示場景中,從看到視頻到AI文字開始輸出只要1.3秒,從看到視頻到AI語音開始播放只要1.8秒,雖然沒有演示視頻的 0.5 秒這么酷炫,但也足夠完爆市面上的所有產品了。這里面用的還全部都是開源模型,一點訓練都不需要做。如果公司自己有一些自己訓練和優化模型的能力,想象空間就更大了。
Google Gemini 演示視頻分為兩種任務:生成文本/語音和生成圖片。在生成圖片的時候,可以根據文本,調用 Stable Diffusion 或者最近新出的 LCM 模型,只要 4 個 step 甚至 1 個 step 就可以生成圖片,圖片生成的延遲可以做到 1.8 秒,那么從看到圖到生成圖的端到端時間就只有 3.3 秒,也是非??斓牧恕?/p>
好看的皮囊:多模態生成能力
語音克隆是制作名人或者動漫游戲角色的重要技術,目前 ElevenLabs 做得是最好的,但是 ElevenLabs 的 API 很貴。XTTS v2 之類的開源方案合成語音的相似度不高。
我認為要想語音克隆效果好,還是要靠大量的語音數據來做訓練。但是傳統語音訓練所需的數據一般對質量要求很高,必須是錄音棚里面錄制的口齒清晰的語音數據,因此采集語音數據的成本很高。但我們不可能要求名人到錄音棚里去給我們專門錄制語音,只能用YouTube等公開視頻的語音做訓練。YouTube 語音往往是訪談形式,里面有多個人說話,而且有背景噪聲,名人說話的過程中也可能有結巴和口齒不清。如何用這樣的語音訓練語音克隆呢?
我們搭建了一套基于VITS搭建的語音克隆流水線,可以自動把視頻中的人聲從背景噪聲中區分出來,拆分成句子之后,識別出有哪幾個說話人,針對我們想要的人的語音,篩選出其中信噪比較高的語音,然后識別出文字,最后這些清洗過的語音和文字送去做批量微調。
微調過程也是很有技術含量的。首先,微調的基礎語音需要是比較相似的語音,比如一個男生的語音用一個女生的語音作為基礎去微調,那效果肯定不好。如何從語音庫里找到相似的語音來做微調是需要一個音色相似度檢測模型,類似聲紋識別的模型。像ElevenLabs的基礎語音模型中就已經包含了大量不同音色人的高質量數據,因此在語音克隆的時候,很多時候能夠從語音庫中找到很相似的語音,這樣不需要做微調就能zero-shot生成不錯的語音。
其次,VITS訓練過程中不能根據簡單的loss判斷收斂,以往都是要靠人耳朵去聽哪個epoch的效果最好,這樣就需要大量的人工成本。我們開發了音色相似度檢測模型和發音清晰度檢測模型,可以自動判斷語音的微調結果哪個更好。
(注:這個報告是2023年12月做的,目前GPT-soVITS的路線比VITS更好,可以實現zero-shot語音克隆,不再需要收集大量高質量語音做訓練。開源模型可以合成的語音質量終于逼近ElevenLabs的水平了。)
很多人認為不需要自研語音合成模型,直接調用 ElevenLabs、OpenAI 或者 Google Cloud 的 API 就行了。
但是 ElevenLabs 的 API 非常貴,如果走零售定價,每 1K 字符需要 0.18 美金,按照一個 token 4 個字符計算,相當于 $0.72 / 1K tokens 了,這是比GPT-4Turbo都要貴24倍的。ElevenLabs 雖然效果好,但是如果 to C 產品大規模使用,這個價格是真的燒不起。
OpenAI 和 Google Cloud 的語音合成 API 不支持語音克隆,只有那幾個固定的聲音,這樣就沒法克隆名人語音了,只能做一個冷冰冰的機器人播報。但即使這樣,成本也是比 GPT-4 Turbo 貴 1 倍的,也就是成本的大頭不是花在大模型上,而是花在語音合成上。
大概也是因為語音不好做,很多 to C 的產品都選擇只支持文字,但實時語音交互的用戶體驗明顯是更好的。
雖然基于 VITS 很難實現 ElevenLabs 級別質量的語音,但基本可用是沒有問題的。自己部署 VITS 的成本只要 $0.0005 / 1K 字符,是 OpenAI 和 Google Cloud TTS 價格的 1/30,ElevenLabs 價格的 1/360。這個 $2 / 1M tokens 的語音合成成本也跟自己部署開源文本大模型的成本差不多,這樣文本和語音的成本就都降下來了。
因此如果真的打算把語音作為一個用戶體驗的重大加分項,基于開源自研語音模型不僅是必要的,也是可行的。
我們知道圖片生成現在已經比較成熟,視頻生成會是2024年一個非常重要的方向。視頻生成不僅僅是生成素材這么簡單,更重要的是讓每個人都能輕松成為視頻內容的創作者,更進一步,讓每個 AI 數字分身都有自己的形象,可以用視頻的方式來交流。