研究
運用手語模型加速手語標註:克服資料稀缺挑戰

摘要
由於高品質標註資料的缺乏,AI 驅動的手語翻譯面臨挑戰。現有大型手語資料集因標註成本高昂而未能充分利用。為此,本研究開發了一套偽標註管線,能將手語影片和英文輸入,自動產生包含時間區間的詞彙、手語拼寫和手語分類器等潛在標註。
AI 驅動的手語翻譯受限於缺乏高品質的標註資料。儘管 ASL STEM Wiki 和 FLEURS-ASL 等新資料集包含專業手語譯者和數百小時的資料,但由於大規模標註成本過高,這些資料集仍僅部分標註,因此未能充分利用。在這項工作中,我們開發了一套偽標註(pseudo-annotation)管線,它以手語影片和英文作為輸入,並輸出一個包含時間區間的潛在標註排名集,內容涵蓋詞彙(glosses)、手語拼寫(fingerspelled words)和手語分類器(sign classifiers)。我們的管線利用來自稀疏預測的…
標籤
手語翻譯AI應用資料標註機器學習手語模型偽標註
以上為 AI 自動翻譯導讀。原文版權歸 Apple Machine Learning Research 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。