網易首頁 > 網易號 > 正文申請入駐

MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場景創作

2026-03-20 17:17:16　來源: 機器之心Pro

河北舉報

分享至

想要快速制作一款網頁小游戲、交互式動畫或是教學演示，卻苦于復雜的代碼邏輯與多元素交互調試？盡管如今大語言模型或 AI Agent 能幫我們寫代碼、搭建交互場景，但在處理多元素交互時往往極易出錯，且純文本的交互方式讓人難以直觀地調整視覺效果。

近日，來自香港浸會大學、香港科技大學、香港城市大學及深圳大學的研究團隊共同提出了一款名為 MoGraphGPT 的創新系統。該系統結合了上下文感知模塊化大模型與直觀的圖形化和精確化控制，讓用戶通過自然語言和簡單的畫布涂鴉，就能零代碼快速搭建出邏輯復雜的 2D 交互場景。該研究成果最近已被計算機圖形學與可視化領域頂級期刊 IEEE TVCG 錄用。

論文作者包括：香港浸會大學傳理學院互動媒體系助理教授葉卉，香港科技大學肖楚烽，香港城市大學創意媒體學院博士生冷佳業，以及深圳大學計算機與軟件學院副教授徐鵬飛，通訊作者為香港科技大學藝術與機器創造力學部教授、代理系主任傅紅波。該團隊長期深耕于計算機圖形學、人機交互和計算機視覺的交叉方向。

論文標題：MoGraphGPT: Creating Interactive Scenes Using Modular LLM and Graphical Control
作者：Hui Ye (HKBU/HKUST), Chufeng Xiao (HKUST), Jiaye Leng (CityU), Pengfei Xu (SZU), Hongbo Fu (HKUST)
錄用期刊：IEEE Transactions on Visualization and Computer Graphics (TVCG) 2026
論文鏈接：https://ieeexplore.ieee.org/abstract/document/11410096

一、研究背景：

LLM 生成交互場景的四大痛點

使用 LLM/Agent 可以直接生成 2D 交互場景（比如游戲，動畫）或代碼，在實際操作中，創作者通常會面臨四個致命挑戰：

1.代碼質量堪憂：在處理多個元素（如主角、怪物、障礙物）的復雜交互邏輯時，LLM 容易生成不完整或存在錯誤的代碼。

2.缺乏獨立編輯性：LLM 的線性對話結構導致修改非常困難。比如只是想讓平臺移動，卻可能不小心把原本靜止的背景也帶跑了。

3.圖形控制缺失：僅靠文本很難精準描述空間信息。例如想讓物體沿著特定的 S 型曲線運動，用文字描述極其痛苦且不準確。

4.精確控制極其繁瑣：生成效果后，如果想微調速度、彈跳高度等參數，用戶必須反復修改提示詞進行盲盒式抽獎，極大地消耗耐心。

二、核心技術：

MoGraphGPT 如何破局？

為了解決上述痛點，研究團隊提出了 MoGraphGPT 的架構，帶來了兩項具有突破性的核心機制：

1. 上下文感知的 LLM 模塊化

MoGraphGPT 摒棄了將所有需求丟給單一 LLM 的做法，采用了自頂向下的分層管理結構：

專屬獨立模塊（Individual LLM Modules）：場景中的每個元素（如 “猴子”、“香蕉”）都有自己專屬的 LLM 會話。用戶可以獨立調整單一元素的行為，完全不用擔心破壞其他元素的代碼。
中心統籌模塊（Central LLM Module）：作為大管家，專門負責處理元素之間的交互（如 “猴子吃到香蕉加一分”）。各個獨立模塊會將其變量和函數精簡為上下文（Context）供中心模塊調用，實現了既獨立互不干擾，又能完美協同的優雅邏輯。

2. 無縫融合的圖形控制與 UI 精準微調

代碼生成不應該是純文本的黑盒，MoGraphGPT 賦予了用戶強大的可視化和精準掌控力：

指哪打哪的圖形代理：用戶可以在系統畫布上直接標點、畫直線、畫曲線或圈出區域（P1, L1, C1, R1），然后在輸入提示詞時直接引用（例如：“讓平臺沿著 C1 曲線來回移動”）。系統會在底層自動將這些手繪圖形轉化為精確的坐標參數。
自動生成的控制滑塊：生成交互邏輯后，系統會利用專屬 LLM 自動解析代碼中的關鍵參數，并在界面右側動態生成滑動條。用戶想精確調整移動速度或重力大小？拖動滑塊即可，所見即所得。

三、效果與對比

為了驗證系統的實際表現，研究團隊與當前業界頂尖的 AI 編程助手 Cursor Composer 進行了對比實驗：

效率實現顯著提升：在完成同樣的交互場景還原任務時，MoGraphGPT 的平均耗時比 Cursor 縮短了約 73.8%。
極大降低試錯成本：用戶所需要輸入的提示詞數量和文本長度分別大幅減少了 68.4% 和 88.9%。在易用性、可控性與總體表現等主觀評分上也顯著提升。
告別致命 Bug：基于 LLM-as-a-Judge 及真實編譯環境的測試結果顯示，MoGraphGPT 生成的代碼在致命錯誤（Fatal）和嚴重錯誤（Major）數量上均遠低于基線工具。

開放式創作：釋放無界創意

在自由創作環節中，無論是完全沒有編程基礎的小白，還是經驗豐富的游戲開發者，都能在 10 到 30 分鐘內使用 MoGraphGPT 完整構建出各具特色的作品，涵蓋了雙人游戲、射擊游戲、教學演示動畫、學術論文動態插圖以及網頁交互 Demo 等多種應用。

四、總結與展望

MoGraphGPT 巧妙地在大語言模型代碼生成與可視化無代碼編輯之間架起了一座橋梁。其核心的模塊化 LLM 調度策略和圖形化操控不僅解決了復雜場景下的代碼耦合問題，也為未來多智能體協同生成復雜應用程序提供了一種全新的交互范式。

未來，團隊將進一步探索如何支持更龐大場景的交互式創作，探索代碼可見性分級，并驗證其在更多專業級引擎中的管線對接潛力。

想要體驗零代碼創造世界的樂趣嗎？歡迎閱讀原論文獲取更多技術細節！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.