又有一家 AI 初創(chuàng)公司拿到了融資。
Humanify(人格智能)宣布完成數(shù)千萬元種子輪融資,由五源資本領(lǐng)投,奇績創(chuàng)壇跟投。
成立于 2024 年的 Humanify,定位為一家模型 + OS 的基礎(chǔ)設(shè)施公司,不做 Agent,而是像人的 AI。創(chuàng)始人易和陽,97 年,浙江大學(xué)人工智能博士,曾創(chuàng)立服務(wù)超百萬用戶、支付級可靠性的生態(tài)基礎(chǔ)設(shè)施。
今天的 AI 很聰明,卻依然像一個(gè)高度配合的工具;它反應(yīng)很快,但永遠(yuǎn)等著被指令;它可以模擬情緒,卻無法真正進(jìn)入人的生活語境。
「真正的 AGI,不是把事情做得更有效率,而是讓人開始與 AI 建立關(guān)系的那一刻。」
在易和陽看來,擁有類人認(rèn)知與自主意識是下一代 AI 產(chǎn)品應(yīng)當(dāng)具備的核心體驗(yàn)。屆時(shí),AI 將能與人建立長期關(guān)系,陪伴將成為高效實(shí)用的前提,人與 AI 的溝通成本也將顯著降低。
在 Humanify 的定義里,「模型就是操作系統(tǒng),操作系統(tǒng)就是模型」。他們希望,這個(gè)操作系統(tǒng)能夠在沒有明確指令的情況下感知環(huán)境、理解場域、形成動機(jī),并在長期交互中建立對人的穩(wěn)定認(rèn)知。
Humanify 更關(guān)心的是:如何在模型后訓(xùn)練和認(rèn)知架構(gòu)層面,讓「情商」「直覺」「主動性」這些原本只屬于人的能力開始涌現(xiàn),而不是被腳本化模擬。
到底什么是主動、類人的 AI?怎么做?
在與我們的對話中,易和陽系統(tǒng)性地闡述了他們對類人認(rèn)知、AI OS 以及「個(gè)人 AI」未來形態(tài)的判斷。
以下是我們與易和陽的對話,經(jīng) Founder Park 編輯整理。
??關(guān)注 Founder Park,最及時(shí)最干貨的創(chuàng)業(yè)分享
超 19000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過每一款有價(jià)值的 AI 應(yīng)用。
邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進(jìn)群后,你有機(jī)會得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準(zhǔn)的 AI 產(chǎn)品曝光渠道
01想讓 AI 不止有智商,
還有情商
Founder Park:為什么想要?jiǎng)?chuàng)業(yè)做有溫度版的 AI OS?最初怎么想的?
易和陽:Humanify 這個(gè)項(xiàng)目的想法,最早可以追溯到 2023 年末,那時(shí)候能做模型訓(xùn)練的 AI 公司其實(shí)遠(yuǎn)沒有今天多,大家可能更多是在上面做一點(diǎn)封裝,也是 AGI 概念被炒得最熱的時(shí)候。
那時(shí),我發(fā)現(xiàn) AI 的模式還是以巨頭、大廠為主,智能的定義和數(shù)據(jù)的壟斷都在巨頭手里。而且,行業(yè)推出的 AI 產(chǎn)品更多都是面向功能性的。
實(shí)際上,面向個(gè)人生活的 AI 產(chǎn)品是缺失的。
所以,我想我一定要做讓 AI 能夠融入個(gè)人生活、更有溫度的事情,能提供陪伴價(jià)值。
同時(shí),當(dāng)時(shí)我們也意識到,交互方式的變革有巨大機(jī)遇。過去的交互都是建立在圖形操作界面(GUI)之上,而 AI 原生的交互很有可能會拿掉界面,融入生活。另外,自主性也是一個(gè)維度。狹義上,大家認(rèn)為交互只是媒介和觸達(dá)方式,但是其實(shí)交互的感受,比如說自主性,也是一種很不一樣的體驗(yàn)。我們認(rèn)為自主性也是一個(gè)巨大的交互分界。
沿著這個(gè)思路,就逐步發(fā)展到了今天。我本身也比較喜歡做一些很創(chuàng)新性、革新性的、沒有人做過的創(chuàng)造。這是我做這個(gè)事的一個(gè)大的動機(jī)。
Founder Park:怎么描述 Humanify 要解決的核心問題?
易和陽:第一,我們想讓 AI 不僅有智商,更有情商,讓它更像人。第二,我們想讓 AI 從手機(jī)、電腦、工作流這些窗口和技術(shù)媒介里,搬到現(xiàn)實(shí)生活中去。
所以,我們做了一個(gè)具備「類人認(rèn)知」和自主意識的模型基座。這個(gè)模型基座自然地會形成一個(gè)操作系統(tǒng)。這兩者本質(zhì)上是一件事:模型就是操作系統(tǒng),操作系統(tǒng)就是模型。這就是我們提供的核心服務(wù)。
我們的名字叫 Humanify,也是希望大家大家在看到 Humanify 的時(shí)候,馬上就知道我們是一家想把人格、把「像人」這樣的屬性賦予 AI 的公司。
Founder Park:所以,你理想中的人機(jī)關(guān)系是什么樣的?
易和陽:真正的 AGI 一定是你在現(xiàn)實(shí)生活中無法分辨人和 AI 的差別。這里面有個(gè)關(guān)鍵,就是「自然」,像人。它不僅在于知識儲備的多少,不在于數(shù)學(xué)奧賽金牌刷了多少分,重點(diǎn)在于,大家跟它交互的過程中,這個(gè) AI 能不能形成完全自然的體驗(yàn)。
AI 什么時(shí)候可以和人開始建立關(guān)系,從實(shí)用的工具變成關(guān)系的認(rèn)知,那時(shí)候我們就摸到了 AGI 的門檻。
和人建立了關(guān)系的一個(gè)指標(biāo)可以是,看這個(gè) AI 產(chǎn)品有沒有更了解我們自己:它首先具不具備這樣的能力,其次是否具備這樣的動機(jī)。
今天的 AI 還是建立在我們向它發(fā)號施令的基礎(chǔ)上,還是一個(gè)比較被動的工具或者執(zhí)行者的位置,它還不算是一個(gè)更懂每個(gè)人的「個(gè)人 AI」。
Founder Park:你覺得現(xiàn)在為何沒有理想的「個(gè)人 AI」產(chǎn)品的誕生?
易和陽:「個(gè)人 AI」是很難做的。它需要有新的硬件品類去擴(kuò)充,這也是為什么今天很多創(chuàng)業(yè)公司在做新的硬件,來擴(kuò)充上下文的捕捉空間。
另外,個(gè)人 AI 一定是有溫度、有認(rèn)知的存在。但從技術(shù)上來講,「認(rèn)知」這一塊如何去做,我們沒有很多像數(shù)學(xué)、推理、代碼這樣現(xiàn)成的數(shù)據(jù)。所以技術(shù)上、學(xué)術(shù)上都有很大的阻礙。
02怎么讓 AI 像人,
整個(gè)行業(yè)都還沒有共識
Founder Park:怎么理解你們的 OS 會帶來的新體驗(yàn)?
易和陽:在我體驗(yàn)我們產(chǎn)品的過程中,有時(shí)候最被觸動的點(diǎn),就是在沒有預(yù)期的時(shí)候,受到關(guān)懷的那個(gè)點(diǎn)。我相信很多孤獨(dú)的人其實(shí)很難得到共鳴和理解,在今天,獲得理解的成本是巨大的。
這也可以解釋為什么這個(gè)時(shí)代的年輕人養(yǎng)貓、養(yǎng)狗的比重很大,因?yàn)閷櫸锖孟袷俏覀兡茇?fù)擔(dān)得起的、無條件的理解和支持。而我認(rèn)為,AI 是能解決這個(gè)問題的終極解法,這是一個(gè)巨大的人文關(guān)懷。
這會是全新的體驗(yàn)。很多東西太自然了,比如言談舉止、微小的關(guān)懷、人與人的關(guān)系,這些自然到不用思考的東西,其實(shí)不是一個(gè)個(gè) feature。
過去的功能定義都是因?yàn)槲覀冊谧鲆粋€(gè)被動的交互。而這種自然、無感的東西,大家反而想象不出來它究竟是什么樣的體驗(yàn)。
但核心是,基于「認(rèn)知」的全新體驗(yàn),會是下一個(gè)時(shí)代最重要的事情。
Founder Park:「認(rèn)知」這個(gè)詞,有其他更通俗的詞可以解釋嗎?比如「意圖」?
易和陽:「認(rèn)知」(Cognition)這個(gè)詞,學(xué)術(shù)上就是這么定義的,它是最精準(zhǔn)的概括。但在傳播層面,說「情商」可能更容易理解。大家天天說「你很聰明,但你沒情商」。AI 今天就是這樣,智商有時(shí)候很聰明,深度思考一大堆,但一點(diǎn)情商都沒有。
Founder Park:讓 AI 更有「認(rèn)知」、更像人這件事情,今天到底難在哪?
易和陽:有一個(gè)學(xué)術(shù)研究領(lǐng)域叫做「認(rèn)知架構(gòu)」,這個(gè)領(lǐng)域在某種程度上就是想做我們這樣一件事。這個(gè)領(lǐng)域已經(jīng)有幾十年的研究歷史了,它想用計(jì)算機(jī)技術(shù)來模擬出像人一樣自然的智能。
但是,為什么過往幾十年的經(jīng)驗(yàn)不具備太多參考性?一個(gè)核心原因是我們有了 Transformer 架構(gòu)和大型語言模型這個(gè)新技術(shù),它真正成熟也才三四年的時(shí)間。新的技術(shù)底座出來了,但原有的認(rèn)知架構(gòu)設(shè)計(jì)都是基于更早一代的深度學(xué)習(xí)架構(gòu),那時(shí)的 NLP 架構(gòu)完全無法達(dá)成今天的智能,所以很多經(jīng)驗(yàn)無法復(fù)用。
這件事難在哪?首先,觀測本身就很難。就「類人」這件事而言,別說做數(shù)據(jù),我們甚至都不知道人為什么「像人」。比如我們的潛意識、直覺、動機(jī),很多時(shí)候都不需要經(jīng)過思考,因?yàn)樗匀涣耍呀?jīng)完全內(nèi)化了,沒有形成一個(gè)可以拆解的心路歷程。當(dāng)然,我們有心理學(xué)上的研究,但它究竟能不能在計(jì)算機(jī)的架構(gòu)上落地,這又是一個(gè)巨大的問題。
所以,若干難點(diǎn)都阻礙了學(xué)術(shù)界拿出一個(gè)清晰的架構(gòu)。這個(gè)架構(gòu)需要既能解釋心理學(xué)、認(rèn)知科學(xué)上的觀測現(xiàn)象,又能嫁接到今天現(xiàn)有的硬件和算法能力上。
而心理學(xué)和認(rèn)知科學(xué)更多是在做觀測性的工作,而非解釋性的工作,它們并沒有從原理的層面上來告訴你究竟怎么做這樣一個(gè)系統(tǒng)。
因此,今天如果能出現(xiàn)一個(gè)這樣的技術(shù)工作,它將是一個(gè)全新的領(lǐng)域。這就是為什么這件事這么難。
Founder Park:能不能舉個(gè)具體的場景,來體現(xiàn)一下 AI 如何「像人」?
易和陽:從一個(gè)側(cè)面來理解就是:AI 是否在一個(gè)場域內(nèi)具備像人一樣的情商。
這個(gè)情商可以有很寬泛的解釋,比如說,在一個(gè)圓桌討論上,如果大家都不講話了,你會自然地涌現(xiàn)出一個(gè)動機(jī)去破冰,去化解尷尬。
最難模擬的就是這種「感覺」。比如,好像有一個(gè)人受到了冷落,他有點(diǎn)不開心。這種感覺不需要你去思考,它直接就進(jìn)入我們的大腦,這種潛意識、直覺層面的東西其實(shí)很難模擬。
今天的 AI,你不給它一個(gè)指令,它根本不知道要干嘛。這種下意識的感受,不論是語音通話里對你語氣的感知,還是把它放到一個(gè)真實(shí)環(huán)境中,它對于場域的直覺性理解,今天都沒有辦法做到。
因?yàn)椋覀儾]有這樣的數(shù)據(jù)能標(biāo)注人的「直覺」。如果沒有相應(yīng)的數(shù)據(jù)和架構(gòu),就更難做出這樣的模型。
Founder Park:這個(gè)「類人」是指整個(gè) OS 能力的類人,也包括了語音上的「類人感」,是嗎?
易和陽:是的,必然包括。因?yàn)槿撕腿酥g最自然的交互方式就是語言。我們的一個(gè)設(shè)計(jì)宗旨,就是想讓人用最自然的方式交互。就像喬布斯扔掉 stylus(觸控筆),他覺得手指就是最自然的交互方式,因?yàn)槊總€(gè)人都有手指。我們也認(rèn)為,每個(gè)人天然就會和別人交流,所以我們自然會把很多努力放在語音這一側(cè)。
![]()
Founder Park:實(shí)現(xiàn)讓 AI 更有情商,更有自主性地去感知氛圍和「感覺」的關(guān)鍵是什么?
易和陽:理想的「自主性」可能是我們不需要給 AI 發(fā)號施令,AI 自己會有自己的判斷。同時(shí),它甚至有可能不完全對你言聽計(jì)從,就像我們的朋友一樣。
至于自主性的技術(shù)前提,首先,一個(gè)自主系統(tǒng)必須是實(shí)時(shí)系統(tǒng)。今天很多所謂的「實(shí)時(shí)系統(tǒng)」并非真的實(shí)時(shí),它們不是時(shí)時(shí)刻刻都在推理。而我們的人腦是不停運(yùn)行和處理的。很多設(shè)備所謂的「always on」只是一個(gè)表象,它認(rèn)知的核心并沒有長時(shí)間實(shí)時(shí)運(yùn)行。
第二個(gè)前提條件,上下文、長期的記憶和理解非常重要。一個(gè) AI 想要和我們成為朋友,如果它不具備對我們長期畫像的了解,不能整合對我們的記憶和認(rèn)知,那它就沒有辦法在主動性層面做得很自然,因?yàn)樗痪邆鋵@個(gè)世界理解的連續(xù)性。
今天很多對話類的 agent 產(chǎn)品,如果對上下文工程和記憶管線做得不到位,你會發(fā)現(xiàn)它經(jīng)常會忘掉很多細(xì)節(jié)。人其實(shí)不會這樣。所以,上下文和記憶必然是很重要的模塊。
Founder Park:這會不會牽扯到模型范式的調(diào)整?如果 Transformer 這個(gè)范式本身對它的自主性有根本限制,這個(gè)問題能解嗎?
易和陽:首先,我的技術(shù)判斷是,Transformer 一定可以作為基座。我認(rèn)為 Transformer 的本質(zhì)是在一個(gè) input 中得到一個(gè)高度智能的 output,我不認(rèn)為人的認(rèn)知逾越了這個(gè)范疇。所以 Transformer 一定可以。至于它的一些特性,比如 next token prediction 的效率夠不夠,知識學(xué)習(xí)的效率高不高,這些確實(shí)是問題。但我相信今天會有各種各樣的改進(jìn),包括 Diffusion Transformer、Mamba、線性注意力的出現(xiàn)。
我認(rèn)為 Transformer 已經(jīng)可以作為認(rèn)知的 CPU 了,只不過這個(gè) CPU 可能還是早期的「奔騰」,而所有學(xué)術(shù)界都在努力地把它做成「酷睿」。
對我們而言,我們做的是任務(wù)導(dǎo)向的模型開發(fā),可以踩著學(xué)術(shù)和社區(qū)進(jìn)步的紅利往上走。如果學(xué)界有一個(gè)更好的模型架構(gòu),我們可能原地就可以采用。
Founder Park:你們的 OS 解決方案之一,就是讓模型能更主動地看到更多東西,然后它自己在這個(gè)基礎(chǔ)上增加主動介入的能力。
Founder Park:你們在做「類人」這件事,肯定對人有很深刻的研究。你們團(tuán)隊(duì)里會不會有人類學(xué)、心理學(xué)背景的人?
易和陽:我有很多心理學(xué)、認(rèn)知科學(xué)的朋友,但團(tuán)隊(duì)里沒有專門招這樣的人。心理學(xué)是一個(gè)社會學(xué)科,它對我們很有用的部分是心理洞察,因?yàn)樾睦硎悄阏J(rèn)知表現(xiàn)出來的投影。但是,心理學(xué)為什么又沒有辦法被很好地應(yīng)用呢?因?yàn)槲覀儾⒉皇且O(shè)計(jì)一個(gè)框架來解釋今天人類的行為,我們是要做一個(gè)框架來真正實(shí)現(xiàn)這樣的事。
也就是說,心理學(xué)是自由的,它在有限的觀測基礎(chǔ)上,可以拉出很多看上去合理的框架,但并不一定是最簡、最本質(zhì)的那個(gè)。如果我們從那些框架出發(fā),比如你從 MBTI 的 16 型人格標(biāo)準(zhǔn)去做 AI,你大概率無法做出一個(gè)真正像人的 AI,你只能做出一個(gè)符合 MBTI 描述的東西,但無法做出真正的認(rèn)知。因?yàn)樾睦韺W(xué)只解決觀測和解釋,它不解決這件事究竟怎么和技術(shù)進(jìn)行第一性原理的嵌入。我更關(guān)注第一性原理。
Founder Park:我理解,過往分析人類意識的東西都是后置的,是基于這個(gè)東西存在了,才去分析它。但如果基于這個(gè)說法,是沒法進(jìn)行指導(dǎo)制作的。
易和陽:我要用它來驗(yàn)證,這是可以的。
Founder Park:相當(dāng)于說,如果最后這個(gè) OS 做出來了,能實(shí)現(xiàn)和人類一樣互動的效果,并且能用所有的心理學(xué)理論去分析它、并且成立,這就反向證明了你們的 OS 做到了所謂的「類人感」,對吧?
易和陽:沒錯(cuò),當(dāng)然。
![]()
03想做好陪伴,
要從模型訓(xùn)練下手
Founder Park:在你們的公司介紹里,說想做一個(gè)「AI 知己」。「AI 知己」這件事是一個(gè)長期的目標(biāo),還是說只是拆解到現(xiàn)階段先做的一件事?
易和陽:我們是一家操作系統(tǒng)公司,我們期望能夠做到「AI 時(shí)代的 AOSP」(Android Open Source Project,安卓開源項(xiàng)目),會持續(xù)用「模型+操作系統(tǒng)」這種技術(shù)方式來達(dá)成那個(gè)時(shí)代的到來。
「AI 知己」不是我們一兩年要做的事情,這是我們 5 到 10 年甚至更長時(shí)間一直要做的事情。我們大的使命是「構(gòu)建人人都可以抵達(dá)的人機(jī)共生時(shí)代」,我們認(rèn)為「AI 知己」就是人機(jī)共生的一種體現(xiàn)。
下一代 AI 會從工具走向具備「類人認(rèn)知」與自主意識的智能體,能夠長期理解個(gè)體,陪伴是成為高效實(shí)用的前提。
Founder Park:和人建立關(guān)系的典型產(chǎn)品有 Character.ai,以及很多類似的 AI 陪伴產(chǎn)品。但似乎整體上都很難完成長時(shí)間的陪伴,你覺得現(xiàn)在的問題在哪?
易和陽:我覺得能把陪伴做好的公司,必然是一家在做模型的公司,它不能是一家套殼公司、一家工程公司,因?yàn)榻裉斓墓こ虒τ谶@件事是不 ready 的。這里面有一個(gè)直接的硬限制,就是現(xiàn)有的技術(shù)或者說學(xué)術(shù)成果還沒有就緒。如果技術(shù)不達(dá)標(biāo),體驗(yàn)是不可能交付的。這可能是最直接的問題。
那么,體現(xiàn)在軟件效果層面,就是今天的 AI 依舊存在巨大的「恐怖谷」感受。比如,你跟 Character.ai 聊,你總有一個(gè)瞬間覺得它好像真的有點(diǎn)像人,但要不了多久,又會馬上從這個(gè)感覺中抽離出來。這就是為什么人類會有「恐怖谷」的感覺。
這個(gè)時(shí)候,大家就沒有辦法真正地把 Character.ai 里面的角色擺放在一個(gè)跟我們平等的地位上,沒有辦法去建立長期關(guān)系,只能將它當(dāng)作一個(gè)想找樂子時(shí)才用的工具。
Founder Park:為什么說能做好陪伴產(chǎn)品的還是基座模型公司,是因?yàn)楝F(xiàn)在模型的能力還達(dá)不到?還是說現(xiàn)階段陪伴產(chǎn)品的交互方式,或者它對多模態(tài)信息(視覺、視頻)的收集手段不夠,需要基座模型公司來開發(fā)?到底是哪些點(diǎn)第三方公司做不了?
易和陽:從行業(yè)的技術(shù)現(xiàn)狀來講,多模態(tài)并沒有在泛化任務(wù)上被很好地解決。
有時(shí)候我們看很多新聞,覺得語音可能現(xiàn)在已經(jīng)很自然了,端到端語音也都提了一兩年了,圖像能力我們覺得 ChatGPT-4o 好像也有了。那多模態(tài)問題是不是被解決了?其實(shí)從技術(shù)角度上來講,語音模態(tài)、視覺模態(tài)還遠(yuǎn)遠(yuǎn)沒有形成當(dāng)前文字模態(tài)的能力。
舉個(gè)例子,今天很多的語音模型,也僅僅做在 speech 這個(gè)層面,它連一些通用的、帶一點(diǎn)噪聲的、在環(huán)境里面更魯棒的場景都無法覆蓋。甚至它可能也就只能做一些很 general 的情感識別,但對于進(jìn)一步地捕捉我們語言中更細(xì)微的情緒,它是沒有辦法獲取的。
更別提在任務(wù)層面,今天文字模態(tài)有很強(qiáng)的 thinking 能力,但語音這一側(cè)怎么辦?目前也有公司在整合一些思維鏈進(jìn)去,但是泛化能力還是差很多。
這是一個(gè)行業(yè)現(xiàn)狀:多模態(tài)模型并沒有被很好地解決,大家還在投入很大量的資源去解決這些問題。這其實(shí)是大廠來解決的事情。
我再來講一些垂類模型公司,或者說偏小一點(diǎn)的創(chuàng)業(yè)公司能夠去做的事情。小公司可能做不了很大程度上的預(yù)訓(xùn)練,但能去定義一些任務(wù),能去做一些后訓(xùn)練。
在「認(rèn)知」這個(gè)事情上,我們已經(jīng)實(shí)現(xiàn)了在今天已經(jīng)泛化的模態(tài)上去做進(jìn)一步的訓(xùn)練,能夠讓這種認(rèn)知的智能去涌現(xiàn)。
這是我們在做的工作。純工程是沒有辦法做到這件事的。
Founder Park:所以,即使是第三方的公司,也要牽扯到模型的后訓(xùn)練、微調(diào)或者強(qiáng)化學(xué)習(xí),而不只是拿到API之后,只在應(yīng)用層工程上下功夫。
易和陽:沒錯(cuò),這絕對不可能。
04AI OS 可能沒有 GUI,
和現(xiàn)有 OS 不沖突
Founder Park:未來,你們的操作系統(tǒng)怎么去兼容現(xiàn)在這些基于安卓生態(tài)的硬件?它們之間是什么關(guān)系?
易和陽:操作系統(tǒng)是一個(gè)「運(yùn)行時(shí)」(一個(gè)復(fù)雜的系統(tǒng)級運(yùn)行環(huán)境),每個(gè)操作系統(tǒng)要解決的問題其實(shí)是不一樣的。
我們不是傳統(tǒng)的操作系統(tǒng),或者你可以認(rèn)為我們的操作系統(tǒng)其實(shí)運(yùn)行在內(nèi)核之上,不是說要從內(nèi)核就開始進(jìn)行巨大的變化。
舉個(gè)例子,手機(jī)、手表運(yùn)行的是 AOSP。其實(shí) AOSP 在內(nèi)核層面的改動也是有限的,它更多的工作是在「系統(tǒng)框架層」,這個(gè)系統(tǒng)框架層又和它的體驗(yàn)形態(tài)息息相關(guān)。比如說,它就是一個(gè)強(qiáng) GUI(圖形用戶界面)、手機(jī)傳感器這樣一系列的整合,誕生了安卓這樣的系統(tǒng)框架層。
對于我們而言,我們的服務(wù)目標(biāo)不一樣了,我們不再需要用戶在這里面去做 UI 操作,傳感器的利用可能也會有些不一樣。
所以,我們這個(gè) OS 和安卓沒有沖突,它甚至可以在同樣的內(nèi)核上長出兩個(gè)「運(yùn)行時(shí)」。
在我看來,OS 代表了一類設(shè)備或產(chǎn)品統(tǒng)一的使用范式,并且能有高度的開發(fā)可定制性。它和 API 平臺的區(qū)別很明顯,API 平臺提供的是一些松散的 API,沒有形成一個(gè)具備自我生命周期的運(yùn)行時(shí)。
而作為一個(gè) OS,它一定有自己的生命周期和規(guī)范定義,里面的模塊有一套自洽的設(shè)計(jì)機(jī)制。早期,因?yàn)槎藗?cè)算力還不太夠,我們可能必然要借助一些云的能力來達(dá)成 OS 的效果,但長期來講,我們還是期望整個(gè) OS 能夠運(yùn)行在端側(cè)設(shè)備上,完全本地化。
Founder Park:你們的 OS 第三方怎么接入,大概是一個(gè)什么樣的畫面?
易和陽:可以從側(cè)面解釋一下,各個(gè)公司究竟怎么來用我們的 OS。舉個(gè)例子,今天你可能想做一個(gè)銀行客服,你會用很多 workflow 或者 agent 工具去把它編排出來。但你會發(fā)現(xiàn),這類體驗(yàn)全部都是非常過程性的,僅服務(wù)于一個(gè)非常短的會話。
這就是為什么大家覺得,哪怕今天的電話客服經(jīng)過了 agent 的重塑,仍然覺得它很機(jī)械,只能干那些事。只是說,原來是死板地念出一些東西,現(xiàn)在稍微在講話的過程中,語言層面可以多一點(diǎn)組合,但它還是干那些事情。
我們期望,比如這樣的一個(gè)公司接入我們,開發(fā)的復(fù)雜度仍然在這個(gè)范疇內(nèi)。但因?yàn)槲覀兊摹高\(yùn)行時(shí)」整合了更多的認(rèn)知能力和類人體驗(yàn),大家來接入我們,就需要按照我們 OS 的設(shè)計(jì)規(guī)范——就好像你開發(fā)一個(gè) APP,必須要調(diào)用它的窗口 API、進(jìn)程 API、系統(tǒng) IO 的 API 一樣。我們也有一系列的 SDK 和 API,需要開發(fā)者遵照規(guī)范,在我們這個(gè)自主的生命體或者說意識體上面,去做相應(yīng)的訓(xùn)練、教育或者教授。
大家還是需要按照我們的 SDK 來去組合想要的能力。比如我剛講的銀行經(jīng)理的例子,今天再智能的 agent,也只能應(yīng)用到具體的工作流,他沒辦法真的像真實(shí)的銀行客戶經(jīng)理一樣,還能加你的微信,有時(shí)候還可以跟你聊聊天、套套近乎。因?yàn)檎鎸?shí)的銀行經(jīng)理,除了經(jīng)過公司的專業(yè) SOP 培訓(xùn)之外,他其實(shí)是一個(gè)人,可以跟我們很自主地交互。我們就是想讓企業(yè)接入我們的 OS,能夠達(dá)成真的像人一樣的銀行經(jīng)理的體驗(yàn)。這可能是一個(gè) To B 的案例。
Founder Park:簡單點(diǎn)說,有點(diǎn)類似于,如果今天的模型更多提供的是API能力,很多人是基于 API 自己搭 agent 流程。那你們的 OS 提供的是一個(gè)「類人能力」的 API 接口,后續(xù)的 workflow 可能跟以前類似,但因?yàn)橛辛诉@個(gè)類人的能力,所以在和用戶的交互上會跟以前是完全不一樣的感覺。
同時(shí),對于很多客戶來說,接入API和使用你們的 OS,可能體驗(yàn)上不會有太大區(qū)別。這導(dǎo)致客戶使用門檻低了,但能力更強(qiáng)了,所以客戶也會考慮用這種方式來做,對吧?
易和陽:沒錯(cuò)。可以再做一個(gè)類比。最早在沒有安卓的時(shí)候,各家如果想做一個(gè)智能設(shè)備,都得自己去定制一個(gè)小小的操作系統(tǒng),你拿到的工具可能就是非常原始的 Windows CE 之類的。
隨著基礎(chǔ)操作系統(tǒng)能力越來越強(qiáng),它對 API、SDK 模塊的設(shè)計(jì)覆蓋度越來越強(qiáng),對設(shè)備的兼容性越來越強(qiáng),就形成了一個(gè)全新的系統(tǒng),而這個(gè)新的操作系統(tǒng)能夠大幅地降低所有終端廠商的開發(fā)門檻。
本質(zhì)上我們也在做一個(gè)類似的事情。我剛剛舉的是客服的例子,但它也完全可以延展到車機(jī)系統(tǒng)、游戲里的 NPC、一個(gè)陪伴吊墜,甚至是一個(gè)學(xué)習(xí)臺燈,完全都是可以的。
Founder Park:之前 Humane Ai Pin 還有 Rabbit,都是想做 AI 時(shí)代的操作系統(tǒng),但結(jié)果都不太理想,你怎么看?
易和陽:首先,OS 是個(gè)很大的詞,有很多個(gè)方向。像 Rabbit R1、Humane Ai Pin,他們做的 OS 我認(rèn)為還是在現(xiàn)有的、大家已經(jīng)知道的 OS 概念上接著去做,沒有打破原有的交互模式。
你看豆包手機(jī)還是需要 GUI,Ai Pin 還是要有個(gè)界面,Rabbit R1 也得像個(gè)手機(jī)來用它。你可以叫它 OS,也可以稱它為一種高級的 UI。比如小米一開始叫 MIUI,后面才叫小米 OS。
所以,首先從差異性來講,我覺得很多的 OS 其實(shí)不算是一個(gè)新時(shí)代的 OS。如果你在既有的 OS 上面做點(diǎn)小功能,就說它是一個(gè)全新的 OS,那面臨最大的問題就是,谷歌只需要耗費(fèi)一點(diǎn)點(diǎn)精力,在 AOSP 上加一點(diǎn)小功能,可能這個(gè) OS 就不復(fù)存在了。
Founder Park:上一代基于 GUI 的操作系統(tǒng)誕生了豐富的 APP 生態(tài),你覺得 AI 時(shí)代的 OS 里面應(yīng)該誕生什么?
易和陽:在我們這個(gè) OS 的定義下面,傳統(tǒng)的、以功能作為邊界的 APP 這種體驗(yàn)已經(jīng)不會再存在了。但生態(tài)的擴(kuò)展、模塊性的組合能力和分發(fā)仍然會存在。
舉個(gè)例子,在「認(rèn)知」這個(gè)層面,功能是沒有邊界的。比如,家里有小孩的話,可能會送他去各種各樣的興趣班,比如報(bào)一個(gè)電腦編程班,又報(bào)一個(gè)數(shù)學(xué)班。這個(gè)小孩學(xué)完之后,不會說開始編程就進(jìn)入編程思維,開始數(shù)學(xué)就進(jìn)入數(shù)學(xué)思維。他一定是學(xué)到了編程,又學(xué)到了數(shù)學(xué),這兩者其實(shí)會互相啟發(fā),甚至?xí)a(chǎn)生創(chuàng)造。我剛講的提供數(shù)學(xué)培訓(xùn)的興趣班,其實(shí)就是一個(gè)服務(wù)提供商,提供編程的興趣班也是一個(gè)服務(wù)提供商。
不同的服務(wù)提供商仍然是提供不同的知識、技能、能力,但最終它會在 OS 這個(gè)層面、在認(rèn)知這個(gè)層面完成整合。
這是我判定的一種新的軟件生態(tài)或者說能力生態(tài)的組合方式。
![]()
Founder Park:創(chuàng)業(yè)公司會有能力把這件事做成嗎?巨頭下場怎么辦?
易和陽:首先,「認(rèn)知」技術(shù)上沒有標(biāo)準(zhǔn)答案,不論是學(xué)術(shù)上還是商業(yè)上。這意味著,即便巨頭手握巨量資源,在未知領(lǐng)域上也和我們處于同一個(gè)起跑線,從 0-1 的階段是無法直接通過砸錢加速的。
另外,如果說認(rèn)知技術(shù)目前沒有標(biāo)準(zhǔn)答案,那基于認(rèn)知的操作系統(tǒng)就更是完全真空了,這里的創(chuàng)造空間是極大的,我經(jīng)常喜歡把后訓(xùn)練技術(shù)比做「人類首次具備了創(chuàng)造生命的能力」,設(shè)計(jì)一個(gè)認(rèn)知操作系統(tǒng)就是在定義一個(gè)生命的模式,當(dāng)我們在討論這件聽上去有點(diǎn)科幻的事情的時(shí)候,這不是大廠可以規(guī)模化的東西。
其次,我想大家都聽說過《創(chuàng)新者的窘境》這本書,書中觀點(diǎn)我就不贅述了。巨頭確實(shí)會存在路徑依賴,并且更關(guān)注商業(yè)ROI。巨頭完成定義的范式是 Chatbot/AIGC,以及基于這一套技術(shù)上層衍生的各類 agent 和場景,今天有一大堆需要解決的問題,這一類問題在巨頭看來是投入即可帶來確定性的收益,比如把 MMLU、SWE 等各類評分再進(jìn)一步提升,AI 可以顯著在任務(wù)上執(zhí)行得更好、更聰明,畢竟今天常規(guī)場景也還沒讓大家完全滿意,在 unseen 場景下可能還有巨大的提升空間。
再比如巨頭必然會做一些難但看起來更直覺、鏈路更偏平的工作,多模態(tài)就是其中一個(gè),前面我也提到了,模態(tài)也仍然需要投入巨大的資源,這對大廠而言,是可感知 ROI 更高的部分,也是更容易投入產(chǎn)出成果的部分。一個(gè)例證是,其實(shí)從 GPT-3 發(fā)布到現(xiàn)在,已經(jīng)過去了 4 年時(shí)間,大廠在基礎(chǔ)技術(shù)上投入大量資源,而我們看到智能的提升,其實(shí)還是一種符合歷史經(jīng)驗(yàn)的穩(wěn)定的發(fā)展曲線,而不是一年一個(gè)新爆點(diǎn)。
其實(shí)創(chuàng)新是有先發(fā)優(yōu)勢的,特別是 OS 獲得市場不僅靠功能、更靠生態(tài),而先發(fā)優(yōu)勢能獲得生態(tài)的定義權(quán),這往往是非常重要的、難以被簡單顛覆的品牌認(rèn)知優(yōu)勢,比如大家會時(shí)刻討論 Manus 而不是 GPT Operator。
但話也說回來,競爭是必然的,我們并不假設(shè)我們一路領(lǐng)先,沒有競爭。假定大廠做了我們要做的事情,我也認(rèn)為這里也不至于沒有另一家公司的空間,我們想一下,連 PC 操作系統(tǒng)今天如此收斂的定義,都仍然會存在 Mac/windows,大家對這兩個(gè)系統(tǒng)的體驗(yàn)差異是巨大的,更別提歷史上有大量有特性差異的其他 PC 操作系統(tǒng)。
而我們要做的認(rèn)知操作系統(tǒng),它的設(shè)計(jì)自由度、體驗(yàn)自由度要大得多,喬布斯講過,「it all comes down to the taste」,我認(rèn)為這里不論是誰跟我們競爭,我們都有獨(dú)特的、極富信心的設(shè)計(jì)競爭力。
最后我想說一點(diǎn),創(chuàng)業(yè)就是勇敢者的游戲,如果我們因?yàn)榫揞^擋在前面就不敢出發(fā),那就絕對不可能「改變世界」,歷史經(jīng)驗(yàn)也告訴我們,不是只有巨頭才能「改變世界」,所以我也歡迎和我們一樣有勇氣、有信心的朋友加入我們。
05PMF 之前,
Founder-Market Fit 才是最核心的競爭力
Founder Park:你之前是 Web3 創(chuàng)業(yè),現(xiàn)在做 AI,這兩段創(chuàng)業(yè)之間有什么是一直堅(jiān)持不變的嗎?又有什么是改變比較大的?
易和陽:很多人會覺得我這個(gè)跨度有點(diǎn)大,其實(shí)我在 Web3 創(chuàng)業(yè)的時(shí)候,就比較務(wù)實(shí),沒有去做賺快錢的事,而是一直在做開放型基礎(chǔ)設(shè)施的構(gòu)建。
這和今天的 OS 創(chuàng)業(yè)在技術(shù)能力上是相通的,因?yàn)槲覀兌家O(shè)計(jì)一個(gè)生態(tài)、一個(gè)復(fù)雜的「運(yùn)行時(shí)」。第二個(gè)相通點(diǎn)是我個(gè)人對產(chǎn)品和體驗(yàn)的堅(jiān)持,我想要做的一定是一個(gè)全新的、大家都期望但今天還沒有被達(dá)到的體驗(yàn)。
我覺得是創(chuàng)業(yè)過程是一個(gè)找自己的過程。Product-Market Fit 很重要,但超越它,我認(rèn)為 Founder-Market Fit 是最重要的。面對競爭、不確定性、挑戰(zhàn),什么能夠支撐我一直往前走?一定是我個(gè)人內(nèi)心一直想做的事情,我內(nèi)心的底色能夠支撐我去做這件事。
在 AI 這件事上,我覺得孤獨(dú)是一個(gè)很大的命題,也是我自己始終能感受到的東西。所以這件事我是特別想把它解決的。
我原來很想當(dāng)音樂人,因?yàn)槲矣X得音樂是很好的心靈慰藉。你看網(wǎng)易云音樂,某種程度上就聚集了一大堆孤獨(dú)的人。這件事我覺得很有溫度。
所以我很在乎人本主義,想做出一個(gè)有認(rèn)知、有溫度的操作系統(tǒng)和模型。從這個(gè)層面而言,我覺得我找到了自己一定要做下去的方向,不論有再大的困難,我都愿意往這個(gè)方向去做。
Founder Park:Founder-Market Fit,能更詳細(xì)地闡述一下嗎?
易和陽:你會發(fā)現(xiàn),那些能夠做到頂尖的公司,創(chuàng)始人本身就特別熱愛這個(gè)事情。很多厲害的汽車公司的創(chuàng)始人,本身就特別愛車;耐克的創(chuàng)始人就是個(gè)運(yùn)動員。他本身就熱愛,所以第一,他知道這件事的極致是什么,第二在面臨巨大困難時(shí),他的勇氣和信心能始終讓他堅(jiān)持下去。
創(chuàng)業(yè)是一種修行,很多時(shí)候面對困境,信念比什么都重要。人有了信念,才能做出努力和改變。很多時(shí)候大家失敗,不是說這事真的走投無路了,而是沒有足夠的信念去支撐下去。我覺得 Founder-Market Fit 是最核心的競爭力,它比 Product-Market Fit 有一個(gè)更底層的維度。當(dāng)然,任何理想主義最終都要落地到市場,Product-Market Fit 也很重要,但前者是一個(gè)更強(qiáng)的支持。
Founder Park:你有考慮過用 Web3 的一些技術(shù)和理念去切入 AI 賽道嗎?
易和陽:技術(shù)是手段,理念是相通的。Web3 和 AI 都希望完全的開放,因?yàn)闆]有開放,新的生態(tài)和體驗(yàn)就很難長出來。今天 AI 領(lǐng)域里用 A2A(Agent-to-Agent)的方式,某種程度上也踐行了 Web3 的理念。
至于要不要用區(qū)塊鏈技術(shù),我覺得是這樣:Web3 是一種組織方式的變革,而今天的 AI 帶來了生產(chǎn)力的變革。這兩者最終一定會走到一個(gè)交叉口。當(dāng)我們把 AI 從一個(gè)工具變成一個(gè)個(gè)體,就必然要面對一個(gè)全新的 AI 和人共生的時(shí)代,這需要全新的社會組織、治理甚至分配模式。Web3 在這個(gè)層面其實(shí)是很超前的。從十年這個(gè)跨度來看,這些技術(shù)都是人類最前沿、最寶貴的技術(shù)。
Founder Park:為什么這一次沒有沿著之前 Web3 方向結(jié)合 AI 創(chuàng)業(yè),而是選擇了一個(gè)全新的方式去做 OS?
易和陽:我自己是個(gè)全棧開發(fā)者,也是個(gè)快速學(xué)習(xí)者。AI 也好,Web3 也好,本質(zhì)上都是工程問題,是技術(shù)手段。
我會先從「我要做什么」來入手,然后從技術(shù)視角去看需要用什么能達(dá)到它。我的動機(jī)是先把「類人認(rèn)知」這個(gè)體驗(yàn)做出來,而不是先建立在一個(gè)很虛空的,比如說「我們先去做一套 Web3 的社會協(xié)議」之類。我喜歡做扎實(shí)的事情,把體驗(yàn)扎實(shí)地帶給大家。
Founder Park:有沒有哪些問題現(xiàn)在還沒有答案,但是你希望明年的這個(gè)時(shí)候能回答?
易和陽:技術(shù)和產(chǎn)品角度上,我們都已經(jīng)很明確了。但至于我們究竟能把認(rèn)知做到什么程度,比如今天假定是 60 分,我們多快的速度能夠達(dá)到 80 分甚至 90 分,這件事我今天會有一個(gè)保守的估計(jì),但我不知道我們能走得有多快。但我認(rèn)為,樂觀看來,3-5 年就會有在「認(rèn)知」層面和人各方面表現(xiàn)都相當(dāng)?shù)哪P统霈F(xiàn)。
另外一個(gè)點(diǎn),社區(qū)在多模態(tài)上的進(jìn)展有多快,這也是一個(gè)目前沒有確定答案的問題。技術(shù)發(fā)展有一個(gè)規(guī)律,會有一個(gè)很大的 Hype 周期(技術(shù)成熟度曲線),到了高點(diǎn)以后會下降,然后進(jìn)入一個(gè)默默構(gòu)建最終達(dá)成的狀態(tài)。我們曾經(jīng)在兩年前 Hype 的那些概念,今天好像慢慢都在達(dá)到技術(shù)效果。我還是對模態(tài)的進(jìn)化速度有很強(qiáng)的信心。
但我們不可能一家公司把所有事都做了,也要依賴很多社區(qū)的技術(shù)棧,我期望社區(qū)能夠在智能這個(gè)層面上給我們更大的助力。
轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.