超過一半的成年人會上網查詢健康資訊,其中三分之一會求助於人工智慧(AI)。然而,取得資訊不代表容易理解或正確解讀。簡而言之,在健康資訊領域中,AI 的「人為因素」仍是重要的研究課題,以幫助人們從更好的健康資訊中獲益。

這在皮膚科(皮膚、頭髮、指甲;為求簡潔,以下簡稱「皮膚」)領域尤其重要,因為人們在網路上尋找與其皮膚問題相關的正確資訊時常遇到困難。例如,你可能注意到「腿上有紅點」,但卻沒有足夠的背景知識來精確搜尋「可觸及的紫斑」。

多年來,我們已在此領域奠定技術基礎,包括開發用於鑑別診斷的 AI 模型、驗證模型的泛化能力,並發布如 SCIN 等資料集以協助臨床醫生和研究人員。然而,只有透過提供高品質資訊來支持有皮膚問題者的決策,才能實現最大的影響力。

要做到這一點,理解人類如何與 AI 互動以做出決策至關重要。先前的非 AI 工具評估研究顯示,儘管人們可能透過網路更善於識別疾病,但他們不一定更擅長決定下一步該怎麼做。我們需要確保隨著 AI 工具的普及,我們能仔細研究並改進人為因素,以支持人們做出更好的決策。

考量到以上幾點,今天我們將分享一些近期和過往關於消費者如何理解 AI 工具以解決其皮膚科相關問題的研究。這些研究包括一篇近期的大規模量化論文,該論文證明 AI 輔助能提升辨識病症的能力,並在決定下一步行動方面帶來一些好處。它還包括一項深入的混合方法研究,探討人們如何將這些工具應用於自身的皮膚問題,以及他們所獲得的理解與醫生對話所獲得的理解有何不同。

在本週發表於《JAMA Dermatology》的論文「消費者對 AI 資訊工具理解皮膚問題的程度」中,我們探討了結構化的 AI 輔助如何改變使用者識別病症和決定後續步驟的能力。我們向 2,345 名受訪者展示了回溯性、去識別化的皮膚病案例——包含圖像和結構化的病史——並要求他們想像這些案例是他們自己的。

受試者被隨機分為三組來研究這些案例:

(負)對照組:受試者使用他們熟悉的現有工具,例如標準的文字型網路搜尋。

AI 組:受試者使用一個原型 AI 工具(介面如上圖所示),該工具根據 AI 模型的預測,提供 3 到 7 種匹配病症的可滾動輪播,並附有教科書圖像以及症狀和治療的詳細資訊。

「奧茲巫師」(正)對照組:受試者使用相同的 AI 介面,但預測的病症實際上是由皮膚科醫生小組提供的「真實情況」鑑別診斷,模擬一個總是與真實情況相符的 AI。

我們發現,AI 輔助顯著提升了消費者的理解能力。使用 AI 工具時,受試者更願意嘗試說出所示病症的名稱(超過 62%),而使用標準搜尋工具的對照組則為 41%。

更重要的是,受試者猜測病症名稱的準確性大幅提高。AI 組的準確性(23%)幾乎是對照組(8%)的三倍。在「奧茲巫師」組中,準確性約高出四倍(36%),但仍未達到完美。擁有 AI「卡片」來顯示匹配病症,也顯著提高了他們對病症猜測的信心,並對搜尋結果和搜尋時間的整體滿意度更高。

為了避免過於武斷,我們研究中的 AI 設計旨在將圖像與可能的病症進行匹配,並依賴使用者自行解讀應採取的行動。我們的目標是讓使用者能有效率地搜尋,而不是提供處方或診斷。此外,所提供的治療和資訊是由皮膚科醫生根據權威來源撰寫,純粹基於病症名稱,並未針對該案例的具體嚴重程度進行客製化。

或許是因為資訊的普遍性,使用者在決定適當的醫療下一步時,例如使用家庭療法還是安排緊急門診,仍然面臨挑戰。我們的研究發現,雖然「奧茲巫師」組的下一步準確性略有提升(63.5% 對照組為 60%),但標準 AI 組並未顯示出統計學上的顯著改善。

此外,與對照組相比(30% 對 27%),AI 組的受試者略微傾向於建議比皮膚科醫生認為的較不緊急的下一步。這再次證明,僅僅識別病症往往是不夠的。在設計能更好地告知非專業人士最安全和最合適的下一步行動的工具方面,仍有進步空間。

雖然大規模的問卷調查對於理解普遍趨勢非常有價值,但我們也意識到需要了解人們在資訊直接與自身問題相關時如何解讀,而不是僅僅解讀他人的病症圖片。為了獲得更豐富、更細緻的回饋,我們直接從最能受益於這些工具的社群中尋求深入的定性見解。

在去年發表於 ACM Computer-Human Interaction (CHI) 會議的論文「AI 導航皮膚問題:多元社群中皮膚科應用程式的人本調查」中,我們與 Stanford Healthcare AI Applied Research Team (HEA3RT) 和 Santa Clara Family Health Plan (SCFHP) 合作。

SCFHP 為周邊社區的成員提供服務,其中許多人依賴醫療安全網 Medi-Cal。

我們的目標是研究具有活躍皮膚問題的多元、同意參與者,在真實世界環境中如何實際使用皮膚 AI 系統的資訊並做出反應。至關重要的是,我們希望確保我們是為這個社群而建構;由於參與者使用四種主要語言,因此 AI 應用程式被翻譯成他們各自的語言。現場也有精通相關語言的志工或工作人員,以促進溝通。

在這項真實世界的研究中,110 名同意參與者使用了該應用程式(並在之後立即諮詢臨床醫生以澄清任何疑慮)。與上述問卷調查研究類似,使用該應用程式提升了這些參與者辨識其病症的能力(增加了 260%,儘管正確猜測率整體較低)。

參與者高度依賴將教科書圖像與其病症進行視覺匹配,這突顯了擁有涵蓋各種膚色、病症嚴重程度和身體部位的圖像的重要性,以幫助他們進行「模式匹配」。研究中的臨床醫生認為,該應用程式的預測與他們對病症的評估大致(86%)一致。由於參與者可以在臨床醫生諮詢期間打開應用程式,臨床醫生也能將其作為討論的共同參考點,並促進醫病對話。臨床醫生表示該應用程式在 92% 的情況下都是有用的工具。

我們上述的研究著重於使用基於圖像的 AI 來幫助不同背景的個人更好地理解皮膚狀況。可能的改進關鍵發現包括提供更多「教科書」範例來引導使用者理解和模式匹配,以及納入更針對實際使用者查詢(而非僅限於病症)的可操作資訊。

此外,我們使用基於圖像相似性工具的研究支持,非專業人士更偏好圖像和文字(即多模態)的 AI 皮膚狀況資訊搜尋方法,而非單獨使用其中一種。當我們綜合審視所有這些研究時,一幅未來搜尋皮膚狀況資訊的潛在圖景浮現。

提供視覺化起點降低了入門門檻,而更個人化的 AI 指引可能會有助於導航複雜的醫療資訊。然而,建立高效工具需要持續以人為本的研究,以確保每個人都能有效解讀這些資訊,從而支持他們的醫療旅程。