近日,由聯(lián)合國(guó)教科文組織國(guó)際創(chuàng)意與可持續(xù)發(fā)展中心及聯(lián)合國(guó)教科文組織東亞地區(qū)辦事處聯(lián)合主辦的第五屆“創(chuàng)意2030國(guó)際論壇”在北京舉行。論壇上,主辦方正式發(fā)布了2025“數(shù)字環(huán)境下保護(hù)與促進(jìn)文化表現(xiàn)形式多樣性示范案例”。
其中,由云南瀕危語(yǔ)言文化傳播有限公司申報(bào),智譯、上海壁仞科技股份有限公司聯(lián)合協(xié)作的“瀾湄國(guó)家跨境語(yǔ)言AI大模型”項(xiàng)目,憑借對(duì)區(qū)域語(yǔ)言難題的突破,為破解瀾湄流域國(guó)家長(zhǎng)期存在的交流障礙、經(jīng)濟(jì)發(fā)展滯后、跨境治理難等深層問(wèn)題,提供了數(shù)字化底層工具,成功入選。
緣起公益:
從哈尼村落出發(fā),關(guān)注少數(shù)民族的語(yǔ)言困境
這一項(xiàng)目的誕生,緣起于一場(chǎng)扎根深山的公益行動(dòng)。
2024年,智譯團(tuán)隊(duì)負(fù)責(zé)人劉暢源作為“夢(mèng)想行動(dòng)”志愿者,在云南省普洱市墨江哈尼族自治縣開(kāi)展閱讀推廣時(shí),發(fā)現(xiàn)當(dāng)?shù)亓羰貎和胀ㄔ挏贤芰Ρ∪酢⑸贁?shù)民族語(yǔ)言傳承困難等問(wèn)題,而相應(yīng)的數(shù)字化工具嚴(yán)重匱乏。為幫助當(dāng)?shù)貎和缭秸Z(yǔ)言溝通壁壘,哈尼語(yǔ)AI系統(tǒng)應(yīng)運(yùn)而生。與此同時(shí),鑒于眾多少數(shù)民族兒童面臨同類發(fā)展困境,項(xiàng)目逐步從云南哈尼族村落拓展覆蓋至整個(gè)瀾湄流域國(guó)家,最終落地形成瀾湄國(guó)家跨境語(yǔ)言AI大模型整體成果。
![]()
“瀾湄國(guó)家跨境語(yǔ)言AI大模型”項(xiàng)目入選2025“數(shù)字環(huán)境下保護(hù)與促進(jìn)文化表現(xiàn)形式多樣性示范案例”。
瀾滄江-湄公河依次流經(jīng)中國(guó)、緬甸、老撾、泰國(guó)、柬埔寨、越南,一江連六國(guó),語(yǔ)言種類繁多且互通性低,衍生出諸多亟待解決的區(qū)域發(fā)展難題。如,語(yǔ)言隔閡不僅造成民眾交往、社區(qū)溝通的壁壘,讓政策與數(shù)字公共服務(wù)難以有效觸達(dá)基層。
然而,在自然語(yǔ)言處理領(lǐng)域,研究重心均集中在英語(yǔ)、漢語(yǔ)等高資源語(yǔ)言,而瀾湄流域國(guó)家官方語(yǔ)言,例如泰語(yǔ)、緬甸語(yǔ)、老撾語(yǔ),以及少數(shù)民族語(yǔ)言,例如:苗語(yǔ)、傣語(yǔ)、哈尼語(yǔ)、景頗語(yǔ),多屬于低資源甚至極低資源語(yǔ)言,在大模型訓(xùn)練上是世界性難題,傳統(tǒng)的模型訓(xùn)練方法無(wú)法適配這類語(yǔ)言的語(yǔ)料特點(diǎn),相關(guān)技術(shù)研發(fā)長(zhǎng)期處于空白狀態(tài)。
攻堅(jiān)破局:
跨學(xué)科團(tuán)隊(duì)填補(bǔ)極低資源語(yǔ)言模型領(lǐng)域的技術(shù)空白
據(jù)了解,全球現(xiàn)存約7000種語(yǔ)言,接近一半處于瀕危狀態(tài),超6500種均為低資源語(yǔ)言。國(guó)內(nèi)雖有部分大模型企業(yè)在擴(kuò)充翻譯語(yǔ)言品類,但在少數(shù)民族語(yǔ)言領(lǐng)域的成果仍較為有限。海外市場(chǎng)中,Meta基礎(chǔ)人工智能研究實(shí)驗(yàn)室的開(kāi)源項(xiàng)目“不讓任何語(yǔ)言掉隊(duì)”(No Language Left Behind,簡(jiǎn)稱“NLLB-200”),是低資源語(yǔ)言研究的代表,涵蓋眾多被商業(yè)軟件忽視的小眾語(yǔ)種,如阿斯圖里亞斯語(yǔ)、盧干達(dá)語(yǔ)、烏爾都語(yǔ)以及眾多非洲本土語(yǔ)言。但業(yè)界當(dāng)前在瀾湄流域國(guó)家官方語(yǔ)言與少數(shù)民族語(yǔ)言的覆蓋上仍有欠缺。
為攻克這一難題,團(tuán)隊(duì)打造了一支語(yǔ)言學(xué)家與AI專家深度融合的跨學(xué)科、文理協(xié)同的研發(fā)隊(duì)伍,直面極低資源語(yǔ)言的研發(fā)痛點(diǎn)。
![]()
哈尼語(yǔ)翻譯界面。
據(jù)劉暢源介紹,極低資源語(yǔ)言的研發(fā)遠(yuǎn)比高資源語(yǔ)言更具挑戰(zhàn),核心面臨四大難題,包括發(fā)音人稀缺、標(biāo)注專家難尋、采錄設(shè)施運(yùn)輸不便、整體采集成本高昂。“比如講哈尼語(yǔ)白宏方言的老百姓會(huì)說(shuō)自己的語(yǔ)言,但是沒(méi)有方式把話語(yǔ)寫(xiě)下來(lái),然而要用于AI訓(xùn)練,就必須用符號(hào)系統(tǒng)進(jìn)行表達(dá)。我們耗時(shí)許久系統(tǒng)性整理了哈尼語(yǔ)白宏方言的詞匯、短句、長(zhǎng)篇語(yǔ)料,最終將國(guó)家標(biāo)準(zhǔn)哈尼文適配到白宏方言,才突破了這一核心障礙。”他還舉例道,僅一分鐘語(yǔ)料的標(biāo)注成本就高達(dá)千元,巨大的資金與精力投入,也是鮮有團(tuán)隊(duì)大力投入該領(lǐng)域的重要原因。
該項(xiàng)目團(tuán)隊(duì)歷時(shí)一年,終于完成29種瀾湄流域國(guó)家官方語(yǔ)言及少數(shù)民族語(yǔ)言的語(yǔ)料采集,其中包括云南普洱墨江白宏哈尼語(yǔ)、紅河綠春大寨哈尼語(yǔ)、西雙版納阿卡哈尼語(yǔ)、臨滄傣語(yǔ)、德宏景頗語(yǔ)等多種極低資源語(yǔ)言。目前,團(tuán)隊(duì)已經(jīng)成功開(kāi)發(fā)了哈尼語(yǔ)、苗語(yǔ)六大方言的AI文本翻譯與創(chuàng)作系統(tǒng),還初步研發(fā)出AI語(yǔ)音合成系統(tǒng)。接下來(lái),團(tuán)隊(duì)計(jì)劃推出“同源橋”系列商業(yè)產(chǎn)品,覆蓋AI翻譯、影視匯、旅游通、民心匯等多個(gè)應(yīng)用板塊,讓技術(shù)成果在更多場(chǎng)景實(shí)現(xiàn)落地。
算力護(hù)航:
壁仞科技,讓技術(shù)有“溫度”
項(xiàng)目的社會(huì)價(jià)值也得到了多家高校與企業(yè)的關(guān)注,北京大學(xué)、云南師范大學(xué)、浙江大學(xué)、壁仞科技等紛紛加入?yún)f(xié)作陣營(yíng),讓技術(shù)研發(fā)之路更具底氣。劉暢源介紹,團(tuán)隊(duì)與云南師范大學(xué)文學(xué)院共同打造瀾湄國(guó)家文學(xué)大模型,豐富模型的文學(xué)內(nèi)容維度,浙江大學(xué)則提供線上大模型教育與推廣平臺(tái),為模型的落地與普及搭建渠道。
壁仞科技則在合作中提供了關(guān)鍵性的國(guó)產(chǎn)算力技術(shù)支持,成為模型研發(fā)與落地的核心算力后盾。依托于壁仞科技GPU,團(tuán)隊(duì)正全力推進(jìn)瀾湄國(guó)家跨境語(yǔ)言AI大模型的國(guó)產(chǎn)解決方案,推動(dòng)國(guó)產(chǎn)算力在極低資源語(yǔ)言模型領(lǐng)域的落地應(yīng)用。據(jù)劉暢源介紹,該解決方案的應(yīng)用場(chǎng)景主要集中在娛樂(lè)傳播、文化旅游、跨境安防三大領(lǐng)域,真正讓技術(shù)成果賦能瀾湄流域各國(guó)的交流與發(fā)展。
具體來(lái)看,在娛樂(lè)傳播領(lǐng)域,依托模型的精準(zhǔn)翻譯能力,能夠以低成本實(shí)現(xiàn)瀾湄流域國(guó)家間多語(yǔ)言翻譯,讓中國(guó)文化更好地走向東南亞市場(chǎng);在文化旅游領(lǐng)域,模型可通過(guò)語(yǔ)音交互、故事講解等形式,讓游客沉浸式體驗(yàn)當(dāng)?shù)孛褡逦幕ξ穆卯a(chǎn)業(yè)發(fā)展;在跨境安防領(lǐng)域,多語(yǔ)言實(shí)時(shí)翻譯與溝通能力,能有效賦能各國(guó)政府的安防協(xié)作溝通系統(tǒng),提升跨境犯罪打擊、應(yīng)急響應(yīng)的效率,守護(hù)區(qū)域安全穩(wěn)定。
壁仞科技與項(xiàng)目團(tuán)隊(duì)的攜手,并非偶然,而是雙方在“技術(shù)平權(quán)”理念上的同頻共振。南都記者了解到,壁仞科技始終秉持“科技向善”的技術(shù)觀,在深耕技術(shù)研發(fā)的同時(shí),長(zhǎng)期投身社會(huì)公益項(xiàng)目,還將優(yōu)質(zhì)科技教育資源引入偏遠(yuǎn)地區(qū)的課堂,讓尖端科技走出實(shí)驗(yàn)室、走向普通大眾。
展望未來(lái),依托壁仞科技自主可控的國(guó)產(chǎn)算力底座,項(xiàng)目團(tuán)隊(duì)計(jì)劃搭建世界語(yǔ)言中心,開(kāi)發(fā)覆蓋全球更多種語(yǔ)言的世界語(yǔ)言AI大模型。“這一模型將持續(xù)記錄人類文明,致力于構(gòu)建覆蓋全球語(yǔ)言的普惠性知識(shí)庫(kù),讓不同語(yǔ)言、不同文化之間實(shí)現(xiàn)無(wú)障礙交流。”劉暢源說(shuō)道。
業(yè)績(jī)助力:
壁仞科技高質(zhì)量增長(zhǎng),行穩(wěn)致遠(yuǎn)
值得一提的是,作為國(guó)產(chǎn)通用GPU領(lǐng)軍企業(yè),壁仞科技在近期交出了2025年業(yè)績(jī)“成績(jī)單”。財(cái)報(bào)介紹,2025年,壁仞科技實(shí)現(xiàn)了旗艦通用GPU產(chǎn)品的規(guī)模化量產(chǎn)及交付、多個(gè)千卡智算集群的交付以及高質(zhì)量客戶群體的拓展。得益于此,其實(shí)現(xiàn)收入10.35億元,同比大幅增長(zhǎng)207.2%。另外,毛利也持續(xù)改善達(dá)5.57億元,毛利率增長(zhǎng)63個(gè)基點(diǎn)達(dá)53.8%。
研發(fā)投入則隨產(chǎn)品技術(shù)迭代顯著增強(qiáng),同比增長(zhǎng)78.5%至14.76億元,經(jīng)調(diào)整年內(nèi)虧損近8.74億元。從年報(bào)數(shù)據(jù)來(lái)看,壁仞科技在加大研發(fā)投入、為未來(lái)發(fā)展奠定基礎(chǔ)的同時(shí),商業(yè)化能力和經(jīng)營(yíng)效率正不斷提升。
從關(guān)注哈尼族留守兒童的語(yǔ)言困境,到攻克極低資源語(yǔ)言模型難題,再到立志打造覆蓋全球的語(yǔ)言AI大模型,技術(shù)進(jìn)步的成果不僅惠及“大眾”,也可幫扶“小眾”。這既是項(xiàng)目的價(jià)值所在,也是壁仞科技堅(jiān)持“科技向善”技術(shù)理念的生動(dòng)實(shí)踐。
采寫(xiě):南都N視頻記者 朱可軒
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.