本文是一篇電子商務論文,本文以音樂推薦系統長期以來以準確性為優化目標,通過收集用戶與歌曲的交互信息,構建用戶畫像,并以此為基礎設計推薦模型,為每位用戶生成最符合其音樂口味的歌曲推薦列表。但高準確度并不總是意味著高滿意度。
第一章 文獻綜述
第一節 音樂推薦系統
一、推薦系統簡介
在1992年,Goldberg等學者首次提出協同過濾(collaborative filtering)的概念,證明了我們可以利用用戶的顯性標注數據和隱性行為數據來生成千人千面的個性化過濾系統。自此,推薦系統迅速興起,伴隨著互聯網經濟浪潮走向商業化道路,并活躍在多個應用場景中,如電影、音樂、書籍、美食、新聞等,成為網站或者平臺應用中舉足輕重的一部分。
推薦系統依賴于用戶對商品(如上文所說的電影、音樂等)的偏好數據,包括顯性數據和隱性數據。用戶對商品的顯式評分被稱為顯性數據,而隱性數據往往通過監控用戶行為數據獲得,包括歌曲播放次數,網站瀏覽次數和時長,商品加購、收藏和下單行為等(Jawaheer, Weller and Kostkova, 2014; 王智圣等,2016)。部分推薦系統也會使用用戶基本數據,比如年齡、性別、地理位置等。推薦系統利用上述數據作為輸入來訓練算法模型,為每位用戶提供千人千面的推薦結果(Bobadilla et al., 2013; 朱揚勇、孫婧, 2015)。
在音樂領域,得益于音樂流媒體服務的迅速發展,我們可以通過各大音樂軟件接觸到海量音樂。但伴隨著音樂體量的增大,推薦便顯得越來越重要。于是在音樂推薦領域中涌現了兩種研究方向,一類與音樂本身的屬性強相關,稱為音樂信息檢索(Music Information Retrieval, MIR),該領域主要收集音樂的旋律、音調、樂器等元數據信息,用于歌曲風格分類、歌手識別、樂器識別等場景(李偉、李子晉、高永偉, 2018)。“聽歌識曲”便是音樂信息檢索的一種應用實例。音樂推薦領域的另一類研究方向則與用戶強相關,即音樂個性化推薦,屬于推薦系統的子領域。通過用戶與音樂的交互數據,音樂個性化推薦為每位用戶推薦其可能感興趣的音樂內容,滿足用戶對音樂的需求。本研究所說的音樂推薦指的是音樂個性化推薦。
第二節 偶然性
一、偶然性的定義和構成
用戶使用推薦系統的目的多種多樣,相比于尋找高準確度的推薦,用戶更追求探索(Zhang et al., 2012)。在探索的旅途中,用戶可以犧牲一定程度的準確性來獲取更多樣、更新穎的推薦結果,接觸到現有興趣圈以外的內容(Kotkov et al., 2016)。而現有的多數推薦系統往往給用戶推薦的是受多數人追捧的,或者與用戶歷史消費相似的商品。久而久之,用戶收到的推薦列表中陳列的總是與自身品味及其吻合的、相似度極高的、(即使沒有推薦系統的幫忙)自己也能找得到的商品,進而降低對推薦系統的評價,而這無疑是啟用推薦功能的平臺不愿意看到的(Kotkov, Veijalainen and Wang, 2020)。用戶需要的不只是準確的推薦,而是有所收獲的推薦。我們希望推薦系統能為用戶推薦更新穎、更令人驚喜的商品。為了解決這個問題,提升用戶對推薦系統的評價,基于偶然性的推薦成為當下推薦領域內的研究熱點。(Murakami et al., 2008; Kaminskas and Bridge, 2014; Gemmis et al., 2015; Kotkov et al., 2016, 2020)
偶然性(Serendipity)更貼切的中文釋義為“機緣巧合”,有“令人欣喜的新發現”的寓意。由于偶然性的概念非常主觀,以偶然性為導向的推薦就顯得相對困難。目前為止,已經有學者在一些應用領域內研究基于偶然性的推薦(Onuma et al., 2009; Said et al., 2013; Kaminskas and Bridge, 2014; Kotkov, Veijalainen and Wang, 2020),也提出了他們對于偶然性這一概念的定義和衡量方法,但學術界對于此并沒有達成共識(Kotkov et al., 2016)。表1-1列出了學者們對于偶然性概念和維度見解的幾種情況。
第二章 基于偶然性的優化方法設計
第一節 重排方法設計
一、反氣泡重排
本研究選擇ALS算法作為推薦基準,用以確保推薦結果的準確性。具體實現上,本研究使用Spark為Python提供的工具包PySpark來完成ALS推薦算法部署,對每位用戶逐一預測,生成對歌曲的相關性分數????????????????????,??,??,并倒序維護至相應的用戶列表中。
????????????????????,??,??=?????? ??,??(2?1)
由第一章的綜述可知,推薦系統現已十分擅長向用戶推薦他們一定會喜歡的歌曲,或者是用戶本身也會預料到的歌曲(即使沒有推薦系統的幫忙也能猜到的歌曲)。長此以往,用戶會對充斥著熟悉內容的推薦結果產生厭倦,這種推薦結果可能會對用戶體驗產生負面影響。
為了沖破基于準確性的推薦所帶來的“信息繭房”,我們構建了反氣泡重排方法(AntiBubble方法),結合初始推薦結果,為每位用戶生成最具驚訝性的推薦列表。
用戶之所以對基于準確性的推薦結果并沒有太多期待,可能是因為基于準確性的推薦所呈現的推薦列表與用戶的歷史畫像過于相似,用戶并不會因為被推薦了“稀松平常”的結果而感到驚訝。而如果一首歌曲與該用戶此前接觸的內容(用戶畫像)相去甚遠,出于好奇和探索心理,用戶可能會對這種意想不到的結果更感興趣。
第二節 離線評估方法
本研究綜合使用準確性指標和準確性以外的指標來對推薦結果進行評估。其中,準確性評估能反映推薦結果的相關性,準確性以外的指標則可以反映推薦結果的新穎和意外程度。綜合這三項指標,本文可以對推薦結果的偶然性表現做出評估。
一、基于準確性的評估指標
在本次研究中,由于準確度和召回率僅能反映本研究所提出的推薦方法在推薦前N首歌曲時的準確性,并沒有綜合考慮用戶的所有歷史歌曲記錄(測試集用戶的歷史畫像),也不符合本文研究場景,因此我們將采用平均排序分數指標(Average Rank Score)(Hu, Koren and Volinsky, 2009),用于衡量本研究的推薦方法對用戶所有歷史畫像所構建的預測模型的準確性。
為了預估本研究所提出的推薦列表的偶然性,我們從新穎和意外兩個維度對推薦列表進行評估。
一首歌于用戶而言是否新穎,理想情況下應該指的是:該用戶此前從未接觸過這首歌(不論是在目標系統里,還是目標系統外)。此處我們使用學者Zhu和Kuscik在2010年提出的新穎測量方法,該方法基于這樣一種假設:用戶能接觸到一首歌曲的概率,與該歌曲本身(廣義上的)熱度成正相關。該假設一定程度上模擬了理想情況下的新穎性。等式右邊的值越大,說明推薦結果中用戶此前并未接觸過的新穎歌曲越多,用戶的感知新穎性越高。
第三章 離線結果分析 ....................... 26
第一節 數據處理 ................................................ 26
一、分析工具 ......................................... 26
二、數據來源 ................................ 26
第四章 用戶實驗 .................................. 32
第一節 實驗設計與步驟 .............................. 32
第二節 實驗結果分析 ............................ 33
第五章 總結與展望 ............................. 37
第一節 研究結論 ............................................ 37
第二節 研究啟示 ............................... 38
第四章 用戶實驗
第一節 實驗設計與步驟
本研究面向在校大學生群體征集60名受試者,年齡在20歲到25歲區間范圍內,其中女性占比為65%。所有受試者在完整參與實驗后會獲得一定的現金作為回報。具體實驗步驟如下:
① 每位受試者在實驗正式開始前三天內以郵件形式闡述用戶畫像。受試者需在郵件中告知個人基本信息(性別、年齡)、最能反映個人音樂品味的10首歌曲、歌曲對應風格(用至少一詞描述,如古典)、發行年份、歌手和語種,其中歌曲的發行日期需不晚于2017年⑨。這些數據將用于構建受試者的用戶畫像,作為后續推薦列表生成的基礎;
② 對受試者用戶畫像數據進行預處理,使之與本研究所使用的離線數據集格式保持一致;
③ 將受試者隨機平均分為A、B兩組,每組30位用戶。利用Basic推薦方法,為A組中的每位受試者生成top10歌曲推薦列表(推薦列表包含歌曲名稱、歌手以及發行年份),B組中的每位受試者則會收到利用SerList方法生成的top10歌曲推薦列表。推薦方法對受試者隱藏,推薦結果以郵件形式反饋給受試者。
④ 收到反饋郵件的受試者通過各大音樂APP搜索被推薦歌曲,每首歌曲播放時間不少于30秒,通過郵件中附帶的用戶調查鏈接來反饋其對推薦結果的評價,包括用戶對每首推薦歌曲的喜愛程度(“1”:非常不喜歡,“5”:非常喜歡)、新穎性評估(“1”:之前已經聽過,“2”:名字眼熟,但沒有自己播放過,“3”:完全沒聽說過)、意外性評估(“1”:絲毫沒有,“5”:非常意外,想不到我會被推薦這首歌)、偶然性評估(使用“驚喜”一詞來顯式詢問用戶感受。“1”:毫無驚喜可言,我平常也聽這些,“5”:非常驚喜!感謝大數據幫我尋找寶藏歌曲),以及用戶對此次推薦列表的整體滿意程度(“1”:不喜歡,“2”:尚可,但不會再聽,“3”:一般,“4”:不錯,值得再聽,“5”:非常好!值得列表循環),并請用戶簡要寫下對此次推薦的評價(開放題)。
第五章 總結與展望
第一節 研究結論
音樂推薦系統長期以來以準確性為優化目標,通過收集用戶與歌曲的交互信息,構建用戶畫像,并以此為基礎設計推薦模型,為每位用戶生成最符合其音樂口味的歌曲推薦列表。但高準確度并不總是意味著高滿意度。對于平臺新用戶而言,準確的推薦能增加用戶對推薦的信任感,增加用戶使用時長和頻次;對于平臺老用戶而言,準確的推薦并不一定能夠帶來更高的滿意度,反而可能引起用戶的厭倦情緒,甚至造成用戶流失,影響平臺留存。為了緩解過度專業化問題,拓寬用戶興趣邊界,提高用戶對推薦列表的滿意程度,本研究以偶然性為優化方向,以期為用戶帶去煥然一新的推薦體驗。
通過文獻梳理,本研究認為偶然性這一概念由三種要素構成:相關性、新穎性和意外性,并在后文中以偶然性構成要素為優化目標來構造推薦方法。具體步驟如下:第一,相關性要求本研究在構造推薦方法時不能降低對準確性的要求。為了使結果具備相關性,本研究采用推薦重排方法,選用經典協同過濾算法ALS生成初始推薦列表,使結果的準確性得到保證;第二,為了使結果更新穎,本研究構造了Enrich重排方法,增加對初始推薦列表中信息豐富度更高的歌曲的偏好,同時對高流行度歌曲予以懲罰,使用戶能接觸到與自身音樂口味有相似點、但又從未聽說的歌曲;第三,為了使結果更具意外性,本研究構造了AntiBubble重排方法,通過比較初始推薦列表中各推薦歌曲與用戶已有歷史數據的距離,確定每首歌曲對于用戶而言的驚訝度,并增加對這些歌曲的偏好;最后,合并上述兩種子方法,形成SerList重排,通過觀察離線指標中準確性、新穎性和意外性的表現,確定權重系數取值,完成SerList的最終構建。離線評估顯示,基于偶然性計算的SerList重排方法以20 %準確度的下降換來了42%新穎性的上升,以及49%意外性的增加,如圖5-1所示。
參考文獻(略)
相關文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.