深圳微信網站app拉新渠道
論文筆記-WSDM2025-Large Language Model Simulator for Cold-Start Recommendation
- ColdLLM:用于冷啟動推薦的大語言模型模擬器
- 摘要
- 1.引言
- 2.前言
- 3.方法
- 3.1整體框架
- 3.1.1行為模擬
- 3.1.2嵌入優(yōu)化
- 3.2耦合漏斗ColdLLM
- 3.2.1過濾模擬
- 3.2.2精煉模擬
- 3.3模擬器訓練
- 3.3.1LLM訓練
- 3.3.2耦合過濾模型訓練
- 3.4實現策略
- 3.4.1實際部署
- 3.4.2復雜性分析
- 4.實驗
- 4.1實驗設置
- 4.2模型性能
- 4.3消融實驗
- 4.4超參數實驗
- 4.5在線評估
- 5.總結
ColdLLM:用于冷啟動推薦的大語言模型模擬器
??這篇論文的前身是arXiv2024-Large Language Model Interaction Simulator for Cold-Start Item Recommendation(相關博客: 論文筆記-arXiv2024-LLM-InS ),可以移步查看LLM-InS。
論文: Large Language Model Simulator for Cold-Start Recommendation
代碼: 無
摘要
冷啟動商品僅依賴于內容特征,這限制了它們的推薦性能。目前的模型通過內容特征生成嵌入,但未能解決核心問題:缺乏歷史行為數據。
為了解決這個問題,本文引入LLM模擬器框架,該框架利用大語言模型模擬用戶與冷啟動商品的交互,從根本上解決了冷啟動問題。然而,僅使用 LLM 來遍歷所有用戶可能會在億級系統(tǒng)中引入顯著的復雜性。為管理計算復雜性,本文提出了一個用于在線推薦的耦合漏斗 ColdLLM 框架。ColdLLM 通過訓練的耦合過濾器有效地將候選用戶數量從億級減少到數百,從而使 LLM 能夠在過濾后的用戶集上高效運行。
1.引言
當前的模型通常利用冷啟動商品的內容特征生成嵌入。一類模型是生成模型,試圖訓練一個映射函數,以確保生成的嵌入接近行為嵌入。另一類模型是dropout 模型,通過結合生成的嵌入和行為嵌入進一步增強推薦模型的適應性。然而,現有的解決方案并未完全解決冷啟動的根本問題:冷啟動商品缺乏行為數據,這使得冷啟動商品與熱門商品本質上存在差異。這一根本差異造成以下三個限制:
- 內容-行為差距:合成嵌入仍然是基于內容特征生成的。這種方法導致合成嵌入與實際用戶行為和交互學習得到的嵌入之間存在顯著差異。
- 次優(yōu)的冷推薦性能:當前的冷啟動模型通常專注于將冷商品與熱門商品一起推薦,而對熱門商品的影響不大,未能顯著提升熱門商品的推薦性能。
- 內容推薦與行為推薦的混淆:現有的冷啟動模型通常進行混合推薦,即將內容特征嵌入和行為嵌入混合在一起。
大語言模型(LLMs)在解決上述限制方面顯示出潛力,因為LLMs能夠從內容特征中理解用戶偏好,并預測用戶對商品的意圖。然而,將 LLM 應用于冷啟動商品推薦面臨以下挑戰(zhàn):
- 冷啟動行為的模擬:在沒有實際交互數據的情況下訓練 LLM 以預測用戶對商品的意圖是一項挑戰(zhàn)。
- 模擬的效率:LLM 在推理效率上面臨約束。為大量用戶模擬冷商品的用戶行為會產生顯著的計算復雜性。
- 大規(guī)模推薦的可擴展性:目前缺乏成熟的框架利用 LLM 來解決大規(guī)模推薦系統(tǒng)中的冷啟動商品問題。
因此,本文提出了一種新穎的 LLM 模擬器框架,從根本上解決商品冷啟動問題。為了解決設計挑戰(zhàn),引入了 LLM 模擬器的定制結構,包括用戶上下文構建、提示設計和模擬過程。為了加速模擬過程,提出了用于在線推薦的 ColdLLM,它通過訓練的耦合過濾器有效地將候選用戶從數十億縮減到數百。該過濾器與 LLM 一起訓練,以支持其模擬。本研究的關鍵貢獻可以總結如下:
- 正式定義行為模擬問題,并提出了一種新穎的 LLM 模擬器框架,從根本上解決冷啟動推薦問題。
- 為模擬器提出一種定制的訓練策略和在線推薦應用策略。
- 廣泛的離線實驗證明模型在冷推薦性能上超越了現有解決方案 21.69%,為期兩周的 A/B 測試進一步驗證了 ColdLLM 的有效性。
2.前言
用戶集和商品集分別表示為 U U U 和 I I I。有歷史交互的商品稱為熱商品,記為 I w ? I_w? Iw??;沒有歷史交互的商品稱為冷商品,記為 I c ? I_c? Ic??。每個熱商品都有一個交互用戶序列 s i \mathbf{s}_i si?。對于冷商品 j j j,交互用戶序列為空集,即 s j = ? \mathbf{s}_j = \emptyset sj?=?。通過歷史交互的用戶-商品對,可以學習每個用戶和熱商品的行為嵌入向量,記為 e u ? \mathbf{e}_u? eu??。用 C C C 表示商品的內容,每個商品都有各自的內容特征,記為 c i ? \mathbf{c}_i? ci??。對于用戶,收集商品內容列表,記為 C u ? C_u? Cu??。
本文聚焦于最具挑戰(zhàn)性的嚴格冷啟動問題,從商品冷啟動的角度來看,冷商品缺乏任何歷史行為。在這種限制下,熱商品和冷商品的推薦方式有所不同。熱商品通過歷史用戶序列進行推薦,這些序列通常編碼為行為嵌入。正式地,熱推薦可以定義為:
其中 Emb c f ( ? ) \text{Emb}_{cf}(\cdot) Embcf?(?) 表示用于行為嵌入的協(xié)同過濾函數。冷商品的用戶序列集為空,這使得冷商品的推薦定義為:
3.方法
ColdLLM的框架圖如圖2所示:
3.1整體框架
傳統(tǒng)模型主要通過合成嵌入構建方法來解決冷啟動問題,這可能導致冷商品與熱商品之間存在自然差距。一種基本解決方案是為每個冷商品模擬用戶行為,然后通過行為嵌入優(yōu)化獲得冷商品的嵌入。
3.1.1行為模擬
行為模擬總結了所有歷史行為以及用戶和商品的信息,以模擬可能的用戶,這些用戶可以幫助更新冷商品的嵌入??紤]到這一點,本文利用 LLM 分析所有積極的歷史行為,作為生成冷商品用戶序列的模擬器。具體而言,ColdLLM 過程可以正式定義為:
在理想情況下,ColdLLM 可以訪問冷商品 c i \mathbf{c}_i ci? 的信息、整個用戶集 U U U、所有用戶的完整歷史交互 H H H 以及所有商品的內容細節(jié) C C C。
3.1.2嵌入優(yōu)化
通過為冷商品模擬用戶序列,這些商品被轉化為熱商品。通過模擬的行為,推薦系統(tǒng)利用現有的行為嵌入優(yōu)化結構,利用訓練好的用戶和熱商品嵌入來優(yōu)化冷商品的嵌入。在離線數據集中,這種模擬甚至可以豐富訓練數據,進一步增強用戶表示。對于在線大規(guī)模平臺,模擬的交互僅用于更新冷商品的嵌入。最終用于下游任務的冷嵌入可以正式表示為:
其中 Emb o p t ( ? ) \text{Emb}_{opt}(\cdot) Embopt?(?) 表示推薦系統(tǒng)的一般行為嵌入優(yōu)化器, e i ( c ) ? \mathbf{e}^{(c)}_i? ei(c)?? 表示冷商品 i i i 的嵌入, s i ( c ) ? \mathcal{s}^{(c)}_i? si(c)?? 是冷商品的模擬用戶序列。 E \mathbf{E} E 表示所有訓練好的熱嵌入,包括用戶和熱商品。
3.2耦合漏斗ColdLLM
與傳統(tǒng)的基于嵌入的模型相比,原始的 ColdLLM 不適用于十億規(guī)模的推薦。本小節(jié)提出了耦合漏斗 ColdLLM,以高效且有效地整合耦合過濾模型,并模擬冷啟動項目的行為。
3.2.1過濾模擬
過濾過程的目的是將億級數據集中潛在用戶減少到幾十到幾千個范圍。基于嵌入的過濾模型能夠有效地將用戶和項目嵌入到向量中,但在捕捉用戶的內容級意圖和項目的高級內容信息時遇到困難。為了解決這個問題,本文用 LLM 處理的嵌入增強過濾模型。
本文使用 LLM 提取項目的內容嵌入,然后應用匹配函數將該嵌入映射用于行為過濾,表示如下:
其中, f i ? f_i? fi??表示項目 i ? i? i?的過濾嵌入, F I ( ? ) ? F_I(\cdot)? FI?(?)?是映射函數, L L M e m b ( ? ) ? LLM_{emb}(\cdot)? LLMemb?(?)?是 LLM 嵌入讀取函數。
嵌入讀取函數的設計旨在從 LLM 中提取內容嵌入。具體而言,首先獲得最后一層的嵌入,該嵌入代表處理后的標記信息,然后應用均值池化以推導任何給定冷啟動項目的內容特征嵌入:
其中, E ( L ) ( c i ) [ j ] ? E^{(L)}(c_i)[j]? E(L)(ci?)[j]?表示 LLM 的第 𝐿 層的第 𝑗 個嵌入。這里, c i \mathbf{c}_i ci?代表項目的內容特征, c i [ j ] \mathbf{c}_i[j] ci?[j]指的是 c i \mathbf{c}_i ci? 中的第 j j j個標記, ∣ c i ∣ |\mathbf{c}_i| ∣ci?∣表示 c i \mathbf{c}_i ci?中標記的總數。
為了過濾出可能與冷啟動項目互動的用戶,同時考慮內容嵌入和行為嵌入。使用映射后的用戶嵌入和映射后的項目嵌入的點積來識別前 𝐾 個最高得分候選:
其中, F U F_U FU? 是用戶的映射函數。
3.2.2精煉模擬
過濾之后使用大型語言模型(LLMs)進行檢查和增強。在每次迭代中,將用戶的上下文和項目的內容輸入到 LLM 中,LLM 會輸出用戶是否會與該項目互動的預測,顯示“是”或“否”。精煉模塊考慮了三個技術細節(jié)方面:
(1)上下文構建:利用過濾過程中獲得的項目嵌入來篩選相關項目。
(2)設計prompt:包含三個部分,即固定prompt,用戶上下文和項目內容。
(3)精煉:遍歷過濾后的用戶集,僅保留被 LLM 模擬器預測為“是”的用戶。
3.3模擬器訓練
3.3.1LLM訓練
采用低秩微調策略,以確保 LLM 能夠捕捉推薦場景的數據分布。
3.3.2耦合過濾模型訓練
耦合過濾模型有兩個設計方案:1. 反映用戶與項目的行為;2. 與 LLM 結合。具體而言,利用兩對嵌入的組合來實現這一目的。
行為過濾的訓練
對于每個給定的用戶-項目對 ( u , i ) (u, i) (u,i),隨機選擇一個負對 ( u , j ) (u, j) (u,j)。這些對可以集合表示為三元組 ( u , i , j ) (u, i, j) (u,i,j)。行為過濾的輸出可以表達為: Y ^ u i ( B ) \hat{Y}^{(B)}_{ui} Y^ui(B)?。使用 BPR 損失來優(yōu)化行為過濾模型的推薦性能:
其中 σ ( ? ) \sigma(\cdot) σ(?) 是 sigmoid 函數。該損失鼓勵過濾模型將積極項目的排名高于消極項目。此外,本文還利用 ALDI 中的對齊損失來幫助行為過濾的訓練。
耦合 ColdLLM 過濾的訓練
對于耦合的 LLM 過濾,應用 Y ^ u i ( L ) \hat{Y}^{(L)}_{ui} Y^ui(L)?來過濾用戶。除了 BPR 損失,引入耦合的 ColdLLM 損失,以保持與耦合過濾模型中的 ColdLLM 的相似性:
3.4實現策略
3.4.1實際部署
如圖 3 所示,ColdLLM 框架由三個主要組件組成:(i) 在線服務;(ii) 在線訓練(嵌入更新);(iii) 離線模擬。
當新項目上傳到平臺時,首先利用ColdLLM模擬用戶交互以進行嵌入更新。這些模擬的用戶-項目對隨后被輸入到在線嵌入更新結構中。由于這些交互是模擬的而非實際用戶行為,僅更新冷項目的嵌入。最后,將更新后的冷項目嵌入傳送到在線推薦服務。
3.4.2復雜性分析
ColdLLM 的計算復雜性主要包括三個部分:耦合過濾復雜性、耦合精煉復雜性和嵌入更新復雜性。
(1)耦合過濾:利用類似 FAISS 的相似性索引框架,可以高效地將候選用戶從數十億縮減到數百,復雜度為O(1),大約耗時 60 毫秒。
(2)耦合精煉:使用微調的 LLaMA-7B 模型來精煉過濾后的候選,以識別 20 個合格用戶。該過程對于每個用戶-項目對大約需要 200-400 毫秒??偟膩碚f,LLM 精煉階段的時間不超過 8 秒。
(3)嵌入更新:在線嵌入過程利用模擬的交互在 120 毫秒內優(yōu)化冷項目的嵌入。
4.實驗
4.1實驗設置
數據集:CiteULike和ML-10M
基線:
-
基于 Dropout 的嵌入模擬模型:DropoutNet、MTPR 和 CLCRec
-
基于生成的嵌入模擬模型:DeepMusic、MetaEmb、GNP、GAR和 ALDI
-
行為模擬模型:UCC和MIGCN
為了進一步驗證 ColdLLM 的普遍性,在三個廣泛使用的推薦骨干網絡上驗證這些模型:MF、NGCF和 LightGCN。
評估指標:Recall@20 and NDCG@20
4.2模型性能
結論:
-
ColdLLM 在當前方法上實現了顯著的提升。從表中可以看出,ColdLLM 在不同的數據集和骨干網絡上均表現出優(yōu)勢。
-
基于生成的嵌入模擬模型在熱門和整體推薦中的表現通常優(yōu)于基于 Dropout 的嵌入模擬模型。這表明,通過相同的嵌入層強制熱門行為嵌入與冷內容嵌入對齊,可能會導致熱門項目推薦的性能下降。
-
現有的行為模擬模型在整體和熱門推薦中保持了相對良好的性能,但在冷推薦中表現不足。這可能是因為僅基于內容信息和深度神經網絡(DNN)進行的行為生成不足以準確模擬冷項目的行為。
4.3消融實驗
結論:
-
w/o LSF 和 w/o BF 的性能下降表明了過濾模擬的有效性。
-
w/o LSF & R 和 w/o BF & R 的模型表現出比 w/o LSF 和 w/o BF 更顯著的性能下降,表明了精煉階段的必要性。
4.4超參數實驗
結論:
-
過濾候選數量K的影響:從結果中可以看出,整體和熱門推薦的最佳結果是在適中的 K K K 值下實現的,例如 CiteULike 中的 K = 10 K=10 K=10。相反,對于冷推薦,較大的 K K K 更有利,其中 K = 50 K=50 K=50 在 CiteULike 中產生最佳結果。然而,過大的 K K K 可能會通過引入來自無關交互的噪聲而降低性能。
-
學習率的影響:從圖中可以觀察到,三種推薦任務在相似的最佳學習率下達到了最佳結果,這表明學習率的調整對所有三個任務均適用。
4.5在線評估
為了驗證 ColdLLM 在工業(yè)環(huán)境中的有效性,本文在一個大型電子商務平臺上進行了在線 A/B 測試。實驗持續(xù)了兩周,涉及每組 5% 的用戶。將 ColdLLM 與三種代表性基準進行比較:隨機推薦、MetaEmb和 ALDI。表 3 展示了這些在線 A/B 測試的結果。
結論:
在所有指標上的顯著提升突顯了 ColdLLM 在解決實際推薦系統(tǒng)中商品冷啟動問題的有效性。
5.總結
本文提出 ColdLLM,從根本上解決了大規(guī)模推薦系統(tǒng)中的冷啟動問題,顯著提高了性能和經濟效益。在線和離線實驗都驗證了 ColdLLM 的有效性?;谶@些觀察,ColdLLM 為在大規(guī)模在線推薦中利用大語言模型開辟了新的可能性。