桌推,很多安全員一提這兩個字就皺眉。有人說形式主義,有人說考的都是嘴皮子功夫,還有人干脆一句話:這玩意兒沒用。
我不這么看。
桌推當然有問題,而且問題不少。但要說它完全沒價值,那也有點情緒化了。
桌推的價值里我覺得有一個是目前其他考核替代不了的:
在具有心理壓力的環境下,逼你開口說“法言法語”。
在民航系統里干久了就知道,一個人懂不懂規則,很多時候不是看他腦子里有沒有,而是看他嘴里能不能說出來。真正的突發事件現場,沒有時間給你慢慢翻手冊。
判斷—表達—指令。
這三件事幾乎是同步發生的。而桌推其實練的就是這個能力。
但今天不聊桌推考核這事本身,這個話題太有爭議性,能寫一萬字都停不下來。我想聊的是另一件事。
桌推的評分方式。
現在的評分模式,說白了很傳統。
兩三個考官,一群考生。
考生回答,考官打分。
看起來很正常,但里面有問題。
人類的評分是不穩定的
不是因為考官不專業,而是因為人類的大腦本來就不適合干這種高強度重復評分的活。
心理學有個很經典的數據。在人連續做同一種判斷任務,45分鐘以后,人類判斷準確率平均下降20%左右。如果任務復雜一點,下降幅度會更大。
桌推考試什么場景?
考官一坐就是一整天,幾十個考生輪流說,同樣的題型反復聽。
哪怕再敬業的考官,注意力都會波動。這是神經系統決定的,不是態度問題。
更現實一點,一天如果考60個人。5人一組每次回答20分鐘。考官至少要聽240分鐘。
不是純聽,還要判斷,還要記分。差不多至少四個小時高強度認知任務。
你覺得評分會穩定嗎?
希望不大。
人類的評分天然有主觀性
哪怕評分表寫得再細。比如一個典型的桌推題,得分點可能是五個。
是否性質判斷準確
是否引用對了法條
是否完整提出了處置措施
是否符合流程
表達是否清晰
問題來了。
考生如果回答順序亂一點呢?或者說話不太流利呢?或者用了不同表述呢?
有的考官會給分,有的不會。這不是誰對誰錯,是人腦在做“語義匹配”。而人腦做語義匹配,本質上是模糊算法。所以每次桌推考試之后,總會有一些聲音。
“這分怎么打的?”
“為什么他能過我不能?”
“是不是看人下菜?”
很多時候其實不是有壞人在里面,只是評分系統本身不穩定。
還有一個很有意思的現象
其實有不少考官是在幫考生找得分點。不是故意放水,是人的共情機制在起作用。
當你面對一個緊張的考生,看著他努力表達,你的大腦會自動去理解他的意思。于是就會出現一個現象。
考生說了一大堆,考官在腦子里翻譯:
“哦,他其實是想表達這個。”
然后給分。
這叫善意解釋原則,法律界很常見。但在考試里,這就會帶來一個奇怪的副作用。
考生開始“掃射式回答”。
不管題目問什么,先把自己知道的都說一遍。法條、程序、職責、注意事項。
像機關槍一樣掃一圈,賭一個概率。只要踩中兩個得分點,就不虧。于是考試慢慢變成了一種策略游戲。
誰會說,誰會拖時間,誰會堆答案。
有時候反而得分比真正理解問題的人還高。
這事兒你要說完全沒有。
那是自欺欺人。
解決方案是AI
問題說完了,解決方案其實也不復雜。
AI評分。
桌推用AI評分的技術門檻其實不高,桌推考試評分本質上只有兩件事。
語音識別+語義識別。
現在的語音識別準確率是多少?普通話環境下,主流模型識別率已經在95%以上。再配個行業詞庫,像“非法干擾行為”“客艙失壓”“應急處置程序”這種術語之后,識別率更高。
語義識別更簡單,因為桌推的答案其實是結構化的。
一個題目,對應幾個關鍵語義節點。
舉個例子。
題目:發現旅客攜帶疑似危險物品。
關鍵語義節點可能是:
報告機組
控制現場
防止擴散
依法處置
引用相關法規
AI只需要做一件事,判斷這些語義有沒有出現,出現幾個,順序對不對,邏輯是否沖突,然后打分。
AI會不會誤判?
當然會。
但關鍵不是“有沒有誤差”,關鍵是誤差是否穩定。人類評分的誤差是隨機的。
今天高,明天低。這個考官松一點,那個考官嚴一點。
而AI的誤差是可量化的。
模型訓練一萬次,測試一千次。誤差率多少,一清二楚。而且還能不斷優化。
這就是算法的優勢,穩定。
再說一個很多人忽略的點
其實好的點子很多,但不一定都能落地。
因為你要改變一個事物的時候,背后會牽扯出很多千絲萬縷的利益和現有資源的配置問題。這些都會影響你點子到底能不能落地執行。
但AI評分這事其實很好落地,就是因為它只是優化了考核方式,而不會去觸碰其他更復雜的東西。
現在考官在桌推里的角色是兩個:監考+評分。
如果引入AI評分,監考依然需要考官。
而關于評分,考官會退到第二道防線,成為現場異議的最終裁決者。
如果考生對AI評分有異議,可以申請復核,由考官進行最終判斷。
這其實更合理,人類更適合做復雜判斷,不適合做重復勞動。
從系統角度看,這件事還有個好處
數據沉淀。
每一場桌推考試都會產生大量語音數據。如果全部結構化存儲,幾年下來會形成一個巨大的訓練庫。
能干什么?能干很多。
比如分析考生的表達結構,分析常見錯誤,優化題庫設計。甚至可以反過來改進培訓。
這才是系統思維。
考試不是終點。
是數據入口。
當然,現實一定會有阻力
有人會說:
AI不懂現場,AI沒有經驗,AI不理解語境。
聽起來很有道理,但邏輯上有個漏洞。
桌推本來就不是現場。它本來就是一個結構化表達考試。如果一個答案需要靠“理解語氣”才能得分,那說明評分標準本身就有問題。
考試應該測能力。
不是測考官的理解力。
現在很多行業都在做AI評分。雅思口語,托福口語,客服質檢。這些系統每天處理的語音量,比桌推考試大幾個數量級。技術早就成熟了,民航如果連這種規模的應用都不敢嘗試。
那就有點保守過頭了。
最后說句可能不太討喜的話
很多制度之所以幾十年沒變。不是因為它最優,只是因為改它的人需要承擔責任。
而不改,是沒有責任的,這叫制度慣性。
但技術一旦成熟,這種慣性遲早會被打破。桌推評分這件事,其實就是個小切口。它不改變培訓體系,不改變考試結構,甚至不改變人員配置。
只是把評分這一步,從人腦換成算法。優化一個節點,系統效率就會提升一截。
說了這么多,其實核心就一句話。
讓機器干機器該干的事,讓人干人該干的事。
全文完,如果覺得不錯請關注與三連。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.