不到一年前,我加入了卓越的 Cohere 團隊。這家公司訓練大型語言模型(包括類 GPT 和類 BERT 模型),並以 API 形式提供服務(也支援微調)。其創辦人包括 Google Brain 的校友,其中不乏原始 Transformers 論文的共同作者。這是一個引人入勝的職位,我得以協助企業和開發者運用這些大型模型解決真實世界的問題。我很喜歡能分享開發者運用這些模型解決問題所需的直覺。儘管過去幾年我一直密切參與預訓練 Transformers 的工作(為了這個部落格和開發 Ecco),但我很享受使用託管式語言模型解決問題的便利性,因為它擺脫了模型載入/部署以及記憶體/GPU 管理的限制。以下是我在過去幾個月中與同事共同撰寫或合作的文章:Cohere 大型語言模型入門這是一篇針對大型語言模型新手的概括性介紹。它闡明了生成式(類 GPT)和表徵式(類 BERT)模型之間的差異,並舉例說明了它們的應用案例。這是我撰寫的第一批文章之一,內容摘錄自我為探索解釋這些模型應用時所使用的視覺語言而撰寫的一份更大型文件。提示詞工程視覺指南大型 GPT 模型開啟了一種新的程式設計方式。如果你以正確的方式建構輸入文本,就能為許多任務(例如文本分類、文案撰寫、摘要等)獲得有用且往往令人驚豔的結果。本文以視覺化方式展示了有效建立提示詞的四個原則。文本摘要這是一篇關於建立簡單摘要系統的逐步教學。它連結到一個 Jupyter Notebook,其中包含用於開始實驗文本生成和摘要的程式碼。這個 Notebook 的結尾展示了一個我未來想花更多時間探討的重要概念:如何從多個生成結果中進行排序/篩選/選擇最佳結果。語義搜尋語義搜尋無疑是句子嵌入模型最令人興奮的應用之一。本教學實作了使用句子嵌入和向量搜尋函式庫的「相似問題」功能。此處使用的向量搜尋函式庫是 Spotify 的 Annoy。市面上還有許多其他選擇,Faiss 被廣泛使用,我也實驗過 PyNNDescent。微調表徵模型微調通常能讓語言模型達到最佳效果。本文解釋了微調表徵/句子嵌入模型背後的直覺。我在 Twitter 討論串中添加了更多視覺化內容。這個領域的研究非常有趣,我非常喜歡像 Sentence BERT 和 Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval 這樣的論文。使用 top-k 和 top-p 控制生成這篇文章技術性稍高,它解釋了調整 GPT 解碼策略(即系統選擇輸出詞元的方法)所需的參數。使用嵌入進行文本分類一篇關於首次使用 BERT 的視覺指南,但使用的是 Cohere 的 API。你可以在 Cohere 的文件和 Notebook 儲存庫中找到這些文章和即將發布的文章。我還有許多實驗和有趣的工作流程想在未來幾週內分享,敬請期待!