Data2Story 系統能將原始數據集轉化為可驗證的多模態網路文章,圖中展示的是一個關於 1,354 名受訪者卡片選擇的數據集。

作者們以 2026 年 FIFA 世界盃賽程這個鮮少被報導的數據集,來展示 Data2Story 系統。系統根據賽程和主辦城市,生成了一篇以氣候為主題並附有互動地圖的文章。

大約有四成的比賽預計在 FIFPRO 球員聯盟歸類為極高熱風險的地區舉行,其中濕度而非氣溫是主要驅動因素。作者們強調,這些是典型的氣候條件,並非對實際賽事的預測。

Data2Story 系統能從各種數據集生成報導,從世界盃體育場氣候、ArXiv 趨勢到人們的日常開銷,全程無需人工輸入。

「檢閱器」面板讓每項聲明都可追溯。

該系統的核心功能是「檢閱器」(Inspector),這是一個顯示每句話和每個資產結構化證據的面板。每個註釋的句子、圖表和互動元素都有自己的索引卡,顯示支持該聲明的確切程式碼行(及其背後的數據文件)或外部 URL。

檢閱器將每項聲明連結到外部來源,或是一個可從數據重新計算數值的可執行腳本。

這使得 93% 的可見聲明都能追溯其來源。研究人員強調,這不代表這些聲明是正確的,而僅僅是可驗證的。如果對某個數字有疑問,可以直接執行程式碼。相比之下,人工撰寫文章的可追溯性基準僅為 25%,部分原因是記者很少發布分析程式碼。研究人員聲稱,這個差距反映了新聞實踐中的一個不足,同時也凸顯了該系統的優勢。

七個代理,一個編輯工作流程。

每篇文章背後都有一連串由團隊稱為「虛擬新聞編輯室」的七個專業代理。其中,「偵探」(Detective)負責進行網路搜尋以獲取背景資訊,因為單憑表格很少能講述完整的故事。對於世界盃數據,它會將主辦城市與 FIFPRO 的熱風險評級和 Open-Meteo 氣候數據連結起來。

「分析師」(Analyst)負責執行程式碼而非猜測數字。「編輯」(Editor)選擇哪些發現來推動敘事。「設計師」(Designer)選擇合適的媒介,例如地理資訊用地圖,音樂則用音訊片段。「程式設計師」(Programmer)負責建構 HTML 頁面,「審計師」(Auditor)檢查版面錯誤,而「檢閱器」(Inspector)則將所有內容追溯到來源。

Data2Story 虛擬新聞編輯室中的每個代理角色,都負責從研究到版面設計的一個步驟。檢閱器將每項聲明追溯到其來源。

該系統的基礎模型是運行在 Claude Code 上的 Claude Opus 4.7。至於圖像、影片和音訊,系統則會調用 OpenRouter 的模型,例如 gpt-5.4-image-2、seedance-2.0 和 lyria-3-pro-preview。

53 位讀者評分:AI 代理文章優於人類原創。

研究人員將 18 個公開數據集與來自三個不同來源的人工撰寫原創文章進行配對。他們使用了《經濟學人》的簡潔簡報、The Pudding 精心設計的長篇報導,以及 TidyTuesday 的社群數據集。53 名招募來的讀者在視覺設計、敘事節奏、數據透明度、聲明可驗證性以及獲得的洞察力等五個類別中對兩種版本進行了評分。

Data2Story 在所有五個類別中均獲勝。其中在透明度方面的領先幅度最大,在七分制中高出 1.49 分。總體而言,74% 的讀者偏好 AI 代理文章,25% 偏好人類版本,2% 認為兩者不分軒輊。

根據來源的不同,結果有所變化。AI 代理在數據量大的《經濟學人》簡報和 TidyTuesday 文章中明顯勝出。然而,面對設計團隊常花數週時間精心製作的 The Pudding 報導,兩者則打成平手。AI 代理未能超越手工製作的精美呈現。

在 18 對文章中,Data2Story 涵蓋了大約一半的人類觀點,而記者只捕捉到 AI 代理約三分之一的觀點,在《經濟學人》的案例中尤為顯著。

在衡量人類撰寫文章中哪些聲明也出現在 AI 代理生成的文章中時,Data2Story 涵蓋了大約一半。反之,AI 代理文章中只有 35% 的聲明能在人類文本中找到。

AI 代理增加了許多自己的視角,但只部分捕捉到編輯核心。這種差距在簡短、公式化的《經濟學人》簡報中表現最為明顯,其中 AI 代理重現了 73% 的人類發現,這可能是因為這些文本與 AI 代理本來就會計算的標準統計數據非常吻合。

人類仍佔優勢的領域。

研究人員指出,人類作者在三個領域仍保持領先。在編輯觀點方面,記者能解釋數據無法呈現的內容。例如,一份維修咖啡館的報告將低維修率歸因於手機、汽車和拖拉機製造商刻意阻礙診斷工具和零件的取得。這是一個基於報導而非數據的理論。AI 代理能顯示哪些東西壞了,但「為什麼」卻隱藏起來。

人工報告解釋了維修失敗的原因。Data2Story 僅按產品類型繪製維修率圖表。

在創意設計方面,The Pudding 一篇關於脫口秀的文章將 Ali Wong 演出的完整逐字稿轉化為使用者介面。每行文字旁邊都有一個圓圈,其大小與笑聲的長度成比例。對於相同的內容,AI 代理僅嵌入一個靜態的 YouTube 縮圖。

The Pudding 團隊將整個逐字稿轉化為介面。Data2Story 則嵌入一個可點擊的縮圖。

在複雜的單一圖形方面,《經濟學人》一篇關於太空競賽的視覺化報導,將政府和商業供應商、成功率以及註釋疊加在一張圖片中。AI 代理將相同的數據分散到多個圖表中,導致重點迷失。

《經濟學人》將政府和商業發射數據以及註釋整合到一個圖形中。Data2Story 則將數據分散到互動視圖中,但沒有註釋。

協作者,而非替代品。

作者們將 Data2Story 定位為新聞編輯室的工具。人類帶來觀點和報導,而 AI 代理則負責運算、圖形和機器可驗證的來源。

對於新聞編輯室因能力不足而無法報導的主題,以及那些若無此系統便無法成為可讀故事的利基數據集,Data2Story 可能會非常有用。一個限制是 Data2Story 目前完全自動運行。未來的工作將考慮加入人工回饋的版本。該網站已上線於 data2story.github.io,程式碼則可在 GitHub 上找到。

機器可驗證性正是當前 AI 系統持續面臨挑戰的地方。北京大學最近的一項基準測試發現,領先的模型在文件分析中常能給出正確答案,但卻引用錯誤的來源,研究人員稱此問題為「歸因幻覺」。

另一項研究表明,AI 搜尋代理通常根本不進行研究,而主要是確認它們從訓練中已經知道的內容。Data2Story 試圖透過讓分析師使用可執行程式碼計算數字而非猜測,並讓檢閱器將每項聲明連結到其來源,來彌補這一差距。Perplexity 也採取了類似的策略,其「Search as Code」讓模型自行編寫網路搜尋,而非調用黑箱 API。