運用視覺語言模型，機器人能辨識人類情緒

隨著機器人在靈巧度及其他物理能力方面不斷進步，人類與機器人並肩工作的可能性也越來越高。若真如此，機器人的情感能力需要如何提升，才能成功地與人類協作？

在最近一項研究中，研究人員訓練協作型機器人解讀人類情緒，不僅考慮臉部表情，還將互動中的情境因素納入考量。透過與 40 名志願者進行實驗，研究人員評估了機器人解讀人類情緒並調整其行為的能力，如何反過來影響人類對機器人及其協作能力的看法。這項研究結果顯示，機器人的情感能力對人類而言仍有其極限，並已於 5 月 18 日發表在《IEEE Robotics and Automation Letters》期刊上。

這項研究由澳洲墨爾本大學的 Seung Chan Hong 在其大學畢業論文期間主導。他指出，儘管機器人物理能力的進步備受矚目，但這只是問題的一部分。他表示：「我們不僅需要在機器人的物理能力上創新，也需要在它們與人類實際互動方面進行創新。」

這促使他深入探討人機互動中的情感層面。首先，Hong 和他的合著者決定使用視覺語言模型（VLM）來訓練機器人解讀人類情緒，VLM 類似於 ChatGPT 等大型語言模型，但也能處理視覺輸入。

為了訓練 VLM，研究人員讓志願者觀看機器人向人類遞送物品（成功程度各異）的影片，並描述人類所表達的情緒。重要的是，標記這些影片的志願者能夠考量互動中更多的情境因素，而不僅僅是影片中人類的臉部表情。例如，一個人皺眉停下來思考，可能只是專注於手邊的任務，不一定是在生氣。輕敲手指、抿嘴或其他行為等情境因素，才能指出一個人皺眉的真正原因。

接著，研究人員將他們的 VLM 與一種傳統的 AI 系統進行比較，後者依賴於人機互動中使用的標準臉部分析和物體追蹤。他們發現 VLM 的表現優於傳統方法。在一個從 0（與人類志願者識別的情緒意義無相似性）到 1（意義完美匹配）的評分標準中，傳統 AI 系統獲得 0.77 分，而 VLM 則達到 0.86 分。

Hong 表示：「我認為 VLM 能夠更好地與人類觀察者所看到的保持一致，因為它不僅僅是短暫地看著人的臉，而是看到了整個場景——這個人在哪裡、他們在做什麼，以及他們如何與機器人互動。」

在第二項實驗中，研究團隊要求 40 名志願者與使用 VLM 的機器人互動，但故意將機器人程式設計成會犯錯。隨後，機器人必須提供兩種道歉方式：一種是考量人類對錯誤的感知反應而做出情感適應性的道歉，另一種則是預先寫好的口頭道歉。

參與者絕大多數偏好情感適應性的回應，40 人中有 31 人選擇這種方式，而非制式化的道歉。

然而，他們的問卷調查結果強調，情感適應性遠不如機器人的功能性重要。在與一個任務失敗的機器人協作後，許多參與者對機器人的信任度降低，無論機器人如何為其錯誤道歉。Hong 表示：「個人化的道歉可以作為一種社交潤滑劑，但它無法修復因機器人未能完成物理任務而失去的信任。」

有趣的是，VLM 對其人類合作夥伴情緒的分類，與從第三方視角觀察互動的人類志願者相似。然而，當 VLM 的評估與第二項實驗中人類自我報告的情緒（最能準確描述其真實情緒）進行比較時，其準確預測情緒的能力顯著下降。

Hong 說：「雖然 VLM 是外部社交線索的良好觀察者，但它並不是讀心術士。它與第三方人類觀察者的判斷非常吻合，但並不總是與用戶內部的自我報告感受一致。」

總體而言，這些結果表明機器人在解讀人類情緒方面並不完美。因此，儘管人們可能會欣賞它們的努力，但最終仍會希望擁有稱職的合作夥伴。