隨著機器人在靈巧度及其他物理能力方面不斷進步,人類與機器人並肩工作的可能性也越來越高。若真如此,機器人的情感能力需要如何提升,才能成功地與人類協作?
在最近一項研究中,研究人員訓練協作型機器人解讀人類情緒,不僅考慮臉部表情,還將互動中的情境因素納入考量。透過與 40 名志願者進行實驗,研究人員評估了機器人解讀人類情緒並調整其行為的能力,如何反過來影響人類對機器人及其協作能力的看法。這項研究結果顯示,機器人的情感能力對人類而言仍有其極限,並已於 5 月 18 日發表在《IEEE Robotics and Automation Letters》期刊上。
這項研究由澳洲墨爾本大學的 Seung Chan Hong 在其大學畢業論文期間主導。他指出,儘管機器人物理能力的進步備受矚目,但這只是問題的一部分。他表示:「我們不僅需要在機器人的物理能力上創新,也需要在它們與人類實際互動方面進行創新。」
這促使他深入探討人機互動中的情感層面。首先,Hong 和他的合著者決定使用視覺語言模型(VLM)來訓練機器人解讀人類情緒,VLM 類似於 ChatGPT 等大型語言模型,但也能處理視覺輸入。
為了訓練 VLM,研究人員讓志願者觀看機器人向人類遞送物品(成功程度各異)的影片,並描述人類所表達的情緒。重要的是,標記這些影片的志願者能夠考量互動中更多的情境因素,而不僅僅是影片中人類的臉部表情。例如,一個人皺眉停下來思考,可能只是專注於手邊的任務,不一定是在生氣。輕敲手指、抿嘴或其他行為等情境因素,才能指出一個人皺眉的真正原因。
接著,研究人員將他們的 VLM 與一種傳統的 AI 系統進行比較,後者依賴於人機互動中使用的標準臉部分析和物體追蹤。他們發現 VLM 的表現優於傳統方法。在一個從 0(與人類志願者識別的情緒意義無相似性)到 1(意義完美匹配)的評分標準中,傳統 AI 系統獲得 0.77 分,而 VLM 則達到 0.86 分。
Hong 表示:「我認為 VLM 能夠更好地與人類觀察者所看到的保持一致,因為它不僅僅是短暫地看著人的臉,而是看到了整個場景——這個人在哪裡、他們在做什麼,以及他們如何與機器人互動。」
在第二項實驗中,研究團隊要求 40 名志願者與使用 VLM 的機器人互動,但故意將機器人程式設計成會犯錯。隨後,機器人必須提供兩種道歉方式:一種是考量人類對錯誤的感知反應而做出情感適應性的道歉,另一種則是預先寫好的口頭道歉。
參與者絕大多數偏好情感適應性的回應,40 人中有 31 人選擇這種方式,而非制式化的道歉。
然而,他們的問卷調查結果強調,情感適應性遠不如機器人的功能性重要。在與一個任務失敗的機器人協作後,許多參與者對機器人的信任度降低,無論機器人如何為其錯誤道歉。Hong 表示:「個人化的道歉可以作為一種社交潤滑劑,但它無法修復因機器人未能完成物理任務而失去的信任。」
有趣的是,VLM 對其人類合作夥伴情緒的分類,與從第三方視角觀察互動的人類志願者相似。然而,當 VLM 的評估與第二項實驗中人類自我報告的情緒(最能準確描述其真實情緒)進行比較時,其準確預測情緒的能力顯著下降。
Hong 說:「雖然 VLM 是外部社交線索的良好觀察者,但它並不是讀心術士。它與第三方人類觀察者的判斷非常吻合,但並不總是與用戶內部的自我報告感受一致。」
總體而言,這些結果表明機器人在解讀人類情緒方面並不完美。因此,儘管人們可能會欣賞它們的努力,但最終仍會希望擁有稱職的合作夥伴。
