亚洲女同精品中文字幕-亚洲女同japan-亚洲女人网-亚洲女人天堂a在线播放-极品小帅哥连坏挨cao记-极品销魂一区二区三区

學(xué)術(shù)咨詢

讓期刊論文更省時、省事、省心

基于有效稠密序列提取的用戶評分?jǐn)?shù)據(jù)增強(qiáng)及二值評分轉(zhuǎn)換策略

時間:2021年12月31日 分類:推薦論文 次數(shù):

摘要:通過評分?jǐn)?shù)值提取反映每個用戶主要興趣特征的高興趣項目特征,并利用用戶高概率感興趣的項目內(nèi)容進(jìn)行評分?jǐn)?shù)據(jù)填充,形成用戶評分?jǐn)?shù)據(jù)的有效稠密序列,并進(jìn)一步按照二值視圖思想進(jìn)行用戶評分子序列的二值評分轉(zhuǎn)換。文中所提出的算法普遍優(yōu)于其他對比實驗算法,隨

  摘要:通過評分?jǐn)?shù)值提取反映每個用戶主要興趣特征的高興趣項目特征,并利用用戶高概率感興趣的項目內(nèi)容進(jìn)行評分?jǐn)?shù)據(jù)填充,形成用戶評分?jǐn)?shù)據(jù)的有效稠密序列,并進(jìn)一步按照二值視圖思想進(jìn)行用戶評分子序列的二值評分轉(zhuǎn)換。文中所提出的算法普遍優(yōu)于其他對比實驗算法,隨著最近鄰居數(shù)量的不斷增加,RMSE最優(yōu)值達(dá)到0.8988,準(zhǔn)確率和F值提高最為明顯,其中準(zhǔn)確度最高提高8.66%,F(xiàn)值最高提高33.96%。使用基于有效稠密序列提取的用戶評分?jǐn)?shù)據(jù)增強(qiáng)策略要比傳統(tǒng)協(xié)同過濾方法表現(xiàn)更為優(yōu)異,并且在表達(dá)用戶興趣特征的準(zhǔn)確性和一致性方面,使用二值評分?jǐn)?shù)據(jù)方法要明顯優(yōu)于原始評分?jǐn)?shù)據(jù)方法。

  關(guān)鍵詞:稠密序列;二值視圖;數(shù)據(jù)增強(qiáng);數(shù)據(jù)稀疏;推薦系統(tǒng)算法

數(shù)據(jù)工程

  推薦系統(tǒng)在日常生活中的應(yīng)用變得非常普遍,有學(xué)者據(jù)此斷言“我們正在離開信息時代,進(jìn)入推薦時代”[1]。目前,推薦系統(tǒng)已被廣泛應(yīng)用于人工智能[2]、電子商務(wù)[3]、數(shù)字圖書館[4]等應(yīng)用系統(tǒng)中,越來越多的網(wǎng)站和社交媒體的競爭開始逐漸轉(zhuǎn)變?yōu)閭性化推薦服務(wù)的競爭。推薦系統(tǒng)的目的正在于基于已有的用戶興趣歷史記錄來判斷用戶未來的可能興趣點(diǎn),以便推薦給用戶尚未關(guān)注到的潛在感興趣內(nèi)容。

  因此,如何根據(jù)用戶的瀏覽信息或者購買情況推薦更符合用戶興趣的項目是推薦系統(tǒng)面臨的一個重大挑戰(zhàn)。改進(jìn)推薦系統(tǒng)的算法不能完全建立在算法自身的完善上,而作為目前所有推薦系統(tǒng)算法的關(guān)鍵內(nèi)容———數(shù)據(jù)本身,卻并沒有受到人們過多的重視。這給現(xiàn)有推薦系統(tǒng)算法改進(jìn)提供了一個有益的研究思路,即如何有效選擇數(shù)據(jù),通過數(shù)據(jù)增強(qiáng)等方式來獲得更為準(zhǔn)確的用戶興趣模式的表達(dá)能力[5]。

  協(xié)同過濾是一種非常有效而且應(yīng)用廣泛的個性化推薦技術(shù)[6],它基于一個簡單的假設(shè),那就是用戶過去的興趣代表著未來的興趣。因此,通過分析已有的用戶興趣信息(這主要由用戶對項目的評分來體現(xiàn)),就可以對未來未知項目的評分做出預(yù)測。這個假設(shè)在一定程度上具有合理性,如有學(xué)者利用招聘信息網(wǎng)站上的用戶數(shù)據(jù)分析發(fā)現(xiàn),對于每個用戶,在過去14周內(nèi)平均有2/7的項目會被用戶在第15周再次點(diǎn)擊[7]。

  具體而言,協(xié)同過濾推薦方法是通過獲取和當(dāng)前用戶相似的其他用戶,來給當(dāng)前的用戶提供合適的意見或者項目。其優(yōu)點(diǎn)在于不需要了解項目的具體內(nèi)容信息,也可以為用戶推薦新的可能感興趣內(nèi)容。然而傳統(tǒng)的協(xié)同過濾算法也存在著很多的不足,比如傳統(tǒng)協(xié)同過濾算法中使用的評分是否可以有效表達(dá)用戶真實興趣并沒有得到準(zhǔn)確的驗證,再如傳統(tǒng)協(xié)同過濾算法無法處理過于稀疏的數(shù)據(jù),此時易于產(chǎn)生相似度計算不準(zhǔn)確的問題。因此,這些構(gòu)成了本文研究的兩個主要關(guān)注點(diǎn):

  (1)本文探究和驗證了如何在數(shù)據(jù)層面上獲取更為準(zhǔn)確表達(dá)用戶真實興趣的新方式。當(dāng)前大部分學(xué)者都認(rèn)為評分行為是一種非常有效的判斷用戶興趣的方式,現(xiàn)有的研究方法也大都基于這個假設(shè)。但是,用戶評價與否是否可以表征用戶的興趣,或者說相對于評分的具體數(shù)值,評分與否這種二值性(Binary)是否更有價值,這種問題也被稱為“二值視圖(Binaryview)”[8]。從用戶的動機(jī)角度來思考,用戶之所以在推薦的項目中有選擇地選擇部分項目而忽略其他項目,這本身就體現(xiàn)了一種用戶興趣的差異性。

  因此,用戶不去對項目進(jìn)行評價的過程本非隨機(jī)現(xiàn)象[9]。現(xiàn)有的評分因為都是用戶對自己想關(guān)注的項目進(jìn)行評價,通常評分更易于取得較高的數(shù)值,而且還會對很多基于評分的推薦算法本身產(chǎn)生不利的影響。有效地利用這些遺漏項目和進(jìn)一步理解現(xiàn)有打分?jǐn)?shù)據(jù),對于改善基于評分的各種推薦方法十分必要[10]。(2)本文探究了如何解決數(shù)據(jù)稀疏給協(xié)同過濾方法帶來的計算有效性問題。

  本文重點(diǎn)研究了基于有效稠密子序列的協(xié)同過濾推薦算法有效性的計算問題,即通過在已有的用戶評分記錄中合理選擇有效稠密子序列,增加有效數(shù)據(jù)的稠密度,減少了噪聲數(shù)據(jù)的不利干擾。考慮到這種改進(jìn)會帶來數(shù)據(jù)稀疏度問題,本文通過分析項目的屬性特征并結(jié)合用戶的有效時間區(qū)間識別用戶的高概率參與項目,對數(shù)據(jù)進(jìn)行填充。同時,本文還使用用戶興趣變化一致性來深入研究分析用戶評分信息與用戶是否評價來驗證用戶需求方面的效果,據(jù)此結(jié)合第一種方法的思路,提出了一種根據(jù)用戶是否評價的二值數(shù)據(jù)來替換傳統(tǒng)具體評分?jǐn)?shù)值的數(shù)據(jù)表達(dá)方法,實驗證明采用用戶是否評價的二值數(shù)據(jù)會取得更為優(yōu)異的實驗結(jié)果。

  1相關(guān)工作

  傳統(tǒng)的協(xié)同過濾算法主要包括3個重要步驟,分別為獲取數(shù)據(jù)、尋找最近鄰元素、預(yù)測推薦。在整個算法過程中,對結(jié)果準(zhǔn)確率影響最大的就是數(shù)據(jù)稀疏問題。丁少衡等[11]為解決協(xié)同過濾推薦系統(tǒng)數(shù)據(jù)稀疏帶來的問題,使用Sigmoid函數(shù)來實現(xiàn)數(shù)據(jù)稀疏狀態(tài)下用戶相似度計算中的用戶屬性和用戶評分信息平滑過渡,毛宜鈺等[12]也提出使用Sigmoid函數(shù)來處理用戶評分存在的數(shù)據(jù)稀疏性問題。

  錢刃等[13]提出用融合稀疏度進(jìn)行加權(quán)的協(xié)同過濾算法來解決稀疏性問題,該算法中重新定義了矩陣稀疏度計算方法,然后融合矩陣稀疏度對用戶相似度進(jìn)行加權(quán),并以此來改進(jìn)協(xié)同過濾算法。為了有效挖掘用戶興趣的變化趨勢,很多學(xué)者提出基于用戶興趣變化的協(xié)同過濾推薦算法,如于洪等[14]通過遺忘曲線來觀察用戶興趣以達(dá)到適應(yīng)用戶興趣變化的目的,賈偉洋等[15]利用用戶興趣貼近度對相似度結(jié)果進(jìn)行進(jìn)一步加權(quán)處理,得到的相似度結(jié)果中融合了用戶的興趣偏好信息。

  關(guān)于二值視圖問題,可以將用戶是否評價作為最為簡單的一種隱式信息,把用戶是否對項目產(chǎn)生過評分設(shè)定為一個二進(jìn)制值,據(jù)此來表示偽隱式評分(Pseudo⁃implicitrating)。由于用戶對于項目評價并非是一種隨機(jī)行為,評價行為本身就反映了一種用戶對項目的偏好信息[16]。即使這種信息并非很充分,但是和單純使用顯式用戶信息的方法相比,集成該隱式信息到現(xiàn)有顯式信息中可以增加推薦系統(tǒng)的預(yù)測準(zhǔn)確度[17]。

  對于不評價的項目既有可能是用戶不喜歡,更有可能是用戶根本沒看到,可以稱之為用戶曝光(Userexposure)問題[9]。比如不評分不能完全看成是項目的問題,也有可能來自于用戶的意愿,比如用戶只對特別喜歡和特別不喜歡的項目才去評價。在一定程度上,可以把這種用戶是否評價看成是一種隱式信息,它和評分信息具有一定的關(guān)聯(lián)性,加以有效利用可以提高傳統(tǒng)基于評分方法的推薦系統(tǒng)效果[18]。

  此時,評分矩陣(Ratingsmatrix)簡化為二值矩陣(Binarymatrix)。對于評分矩陣中缺失項目的理解和考慮已經(jīng)成為一種非常有效的方法[19],比如作為隱式的負(fù)反饋來訓(xùn)練推薦系統(tǒng)[20]。還有文獻(xiàn)對遺漏數(shù)據(jù)模型的低階特征(Lowranknature)進(jìn)行研究,并推導(dǎo)出系統(tǒng)性能的底線[21]。在無法從評分直接判斷用戶的喜好時,這些被經(jīng)常顯示的項目也被其他學(xué)者認(rèn)為應(yīng)該排在推薦列表的后面[22]。

  和這些已有的方法不同,本文所提出的方法主要在不改變現(xiàn)有原始數(shù)據(jù)的基礎(chǔ)上,通過有效的數(shù)據(jù)選擇,提取有效稠密數(shù)據(jù)子集,這也給現(xiàn)有推薦系統(tǒng)中數(shù)據(jù)稀疏問題解決提供了一種新的思路和可行性。本文從實驗驗證的角度,探索結(jié)合二值視圖數(shù)據(jù)在表達(dá)用戶真實興趣中的價值,并據(jù)此完成了現(xiàn)有推薦算法的改進(jìn)。同時,對于推薦系統(tǒng)應(yīng)用中的相似度問題,已有學(xué)者通過利用人口統(tǒng)計學(xué)信息實現(xiàn)用戶相似度的測度[23],還有學(xué)者利用模糊聚類方法實現(xiàn)項目聚類,得到潛在相似關(guān)系集合并分區(qū),最終以分區(qū)為單元實現(xiàn)相似度的并行計算[24]。本文根據(jù)二值評分?jǐn)?shù)據(jù)的特點(diǎn),探索基于二值評分?jǐn)?shù)據(jù)的相似度計算及項目評分預(yù)測方法。

  2二值評分轉(zhuǎn)換策略設(shè)計及應(yīng)用

  2.1用戶評分?jǐn)?shù)據(jù)的有效稠密序列

  通過觀察傳統(tǒng)的協(xié)同過濾算法,可以發(fā)現(xiàn)在用戶評分矩陣中,每個用戶都存在大部分未參與項目,這會導(dǎo)致數(shù)據(jù)變得異常稀疏,為了緩解這些難以避免的問題,本文提出利用有效稠密序列的方法進(jìn)行改進(jìn)。步驟分為兩步:第一步是對用戶的評分序列進(jìn)行篩選,過濾序列中用戶參與的不感興趣項,并以用戶存在潛在興趣且未參與的項目對數(shù)據(jù)序列進(jìn)行填充,形成新的用戶評分子序列,據(jù)此緩解數(shù)據(jù)稀疏問題;第二步是根據(jù)評分發(fā)生的有效時間區(qū)間,再次對用戶評分序列進(jìn)行子序列提取,用二值數(shù)據(jù)進(jìn)行轉(zhuǎn)換表示,并提出改進(jìn)后的用戶相似度方法。

  2.2二值評分?jǐn)?shù)據(jù)的有效性驗證方法設(shè)計

  前文已經(jīng)說明,用戶是否已經(jīng)評價的二值評分?jǐn)?shù)據(jù)可以被理解為一種潛在用戶興趣,即用戶在沒有給項目評分之前,完全憑借自己的興趣愛好選擇的項目就能代表用戶的潛在興趣。比如在現(xiàn)實生活中,人們看一部電影,往往不是因為聽別人說這部電影非常好看才去看,也不會因為這部電影的評分很高就去看,更多情況下是這部電影是自己喜歡的類型才會有選擇性地去看。

  正因如此,當(dāng)兩個人都是因為各自的潛在興趣去選擇同一部電影時,通過相互之間的分析,可以更準(zhǔn)確預(yù)測其他事物的結(jié)果。拿電影數(shù)據(jù)集來舉例,傳統(tǒng)協(xié)同過濾算法評分矩陣中的數(shù)據(jù)是用戶對電影的評分值,那么這個評分值是在用戶看完這部電影之后,給出的對這部電影的評價,如果評分為4分或者5分,可以認(rèn)為用戶喜歡這部電影,也可以認(rèn)為用戶是出于對這類電影的喜愛,又或者是用戶只是喜歡這部電影的主演而已,原因因人而異,想把眾多原因整合到一起,工作量非常巨大并且難以實現(xiàn)。

  因此,基于用戶是否評價的二值數(shù)據(jù)表達(dá),可以提供一種只研究用戶興趣的簡單方法,不需要關(guān)注用戶給一部電影打了多少分,也不需要關(guān)注用戶到底是基于什么原因給電影打分,只需要關(guān)注用戶有沒有看過這部電影,如果看過,則標(biāo)記用戶與電影之間的關(guān)系為“1”,否則為“0”。這種新型數(shù)據(jù)表達(dá)的思路需要實驗的驗證,為此設(shè)計如下驗證實驗。實驗方法:通過用戶過去與未來的評分項目類型相似度來比較二值數(shù)據(jù)與評分?jǐn)?shù)據(jù)對用戶興趣的表達(dá)有效性。

  實驗步驟:(1)每個用戶按評分時間先后順序?qū)⑵湓u價項目分成訓(xùn)練集和測試集,其中訓(xùn)練集中的數(shù)據(jù)為用戶過去評價的項目,測試集中的數(shù)據(jù)為用戶將來評價的項目;(2)訓(xùn)練集中每一個用戶的評價項目類型數(shù)目形成向量,同樣方式找到測試集中的序列形成向量,形成待比較的兩個向量;(3)將每個用戶得到的二值評分向量進(jìn)行相似度計算,相似度計算方法采用的是2.3節(jié)中的式(1),最終將所有用戶的相似度取平均值。

  2.3基于二值評分?jǐn)?shù)據(jù)的相似度計算及評分預(yù)測

  傳統(tǒng)協(xié)同過濾中常見的相似度計算方法無法進(jìn)行二值評分?jǐn)?shù)據(jù)向量的相似度比較,如使用余弦相似度去計算,就會造成分母為0的無意義情況,而使用調(diào)整余弦相似度和皮爾遜[25]相似度計算則不可避免地需要計算評分的平均值,對于二值數(shù)據(jù)而言,平均值沒有任何意義。

  3實驗與結(jié)果分析

  本文提出的改進(jìn)算法相比其他經(jīng)典算法,3個指標(biāo)普遍提高,其中準(zhǔn)確率和F值提高最為明顯,和其他方法相比,都取得更好的指標(biāo)值,其中準(zhǔn)確度最高提高8.66%,F(xiàn)值最高提高33.96%。召回率和部分方法相比有所下降。可見,本文所提方法更適合側(cè)重于準(zhǔn)確率指標(biāo)的海量數(shù)據(jù)推薦場景下推薦系統(tǒng)的服務(wù)應(yīng)用。

  4結(jié)束語

  本文通過提取用戶評分信息中的有效稠密序列和生成有效數(shù)據(jù)的方法來改進(jìn)傳統(tǒng)協(xié)同過濾算法,在此基礎(chǔ)上對比研究了用戶原始評分值和是否評分的二值評分?jǐn)?shù)據(jù)對用戶興趣表達(dá)的有效性。該方法綜合利用了用戶評分?jǐn)?shù)據(jù)的有效稠密序列提取方法和二值評分轉(zhuǎn)換方法,在此基礎(chǔ)上實現(xiàn)了相似度計算方法的改進(jìn),實驗證明方法有效。本文所提出的改進(jìn)協(xié)同過濾算法不僅利用稠密序列和數(shù)值填充等數(shù)據(jù)增強(qiáng)方式克服了數(shù)據(jù)稀疏性問題帶來的不利影響,同時還可以更準(zhǔn)確地識別用戶興趣特征。但是在本文改進(jìn)的算法中,使用用戶是否評分的二值數(shù)據(jù)相較于原始評分值的優(yōu)化改進(jìn)仍然還有很大的空間,同時在提高召回率方面也需要進(jìn)一步優(yōu)化,這些都構(gòu)成了本文后續(xù)研究的主要側(cè)重點(diǎn)。

  參考文獻(xiàn):

  [1]HITTMA.Thelongtail:whythefutureofbusinessissellinglessofmore[J].AcademyofManagementPerspec⁃tives,2011,21(2):83-85.

  [2]ZHANGS,YAOLN,SUNAX,etal.Deeplearningbasedrecommendersystem[J].ACMComputingSurveys,2019,52(1):1-38.

  [3]洪亮,任秋圜,梁樹賢.國內(nèi)電子商務(wù)網(wǎng)站推薦系統(tǒng)信息服務(wù)質(zhì)量比較研究:以淘寶、京東、亞馬遜為例[J].圖書情報工作,2016,60(23):97-110.HONGLiang,RENQiuyuan,LIANGShuxian.Acompara⁃tivestudyofinformationservicequalityofE⁃commercesites

  [4]馬曉亭.基于情景大數(shù)據(jù)的圖書館個性化服務(wù)推薦系統(tǒng)研究[J].現(xiàn)代情報,2016,36(4):90-94.MAXiaoting.Studyofpersonalizedservicerecommendationsystemforlibrarybasedoncontextualbigdata[J].JournalofModernInformation,2016,36(4):90-94.(inChi⁃nese)

  [5]XIEHS,CHAIWD,LINSF.Sequencedataenhancementmethodbasedonknowledgegraph[C]∥IEEEInternationalConferenceonParallel&DistributedProcessingwithAppli⁃cations,BigData&CloudComputing,SustainableComputing&Communications,SocialComputing&Networking(ISPA/BDCloud/SocialCom/SustainCom).2019:1359-1364.

  [6]邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計算機(jī)研究與發(fā)展,2007,44(2):296-301.XINGChunxiao,GAOFengrong,ZHANSinan,etal.Acollaborativefilteringrecommendationalgorithmincorporatedwithuserinterestchange[J].JournalofCom⁃puterResearchandDevelopment,2007,44(2):296-301.(inChinese)

  作者:崔北亮1,周小康2,李樹青2

主站蜘蛛池模板: 麻豆国产精品久久人妻 | 亚洲国产精品日本无码网站 | 强奷漂亮女老板在线播放 | 福利社影院 | 波多结衣一区二区三区 | 免费高清国产 | 日韩精品AV一区二区三区 | 男人脱女人衣服吃奶视频 | 中文字幕亚洲乱码熟女在线萌芽 | 久久三级网站 | 91久久综合精品国产丝袜长腿 | 国产亚洲精品久久精品6 | 国产在线精品亚洲观看不卡欧美 | 97成人碰碰在线人妻少妇 | 忘忧草在线社区WWW日本直播 | 久久亚洲这里只有精品18 | 伊人久久精品AV一区二区 | 久久99精品AV99果冻传媒 | 韩日美无码精品无码 | 欧美亚洲另类热图 | 最近中文字幕在线中文高清版 | 野花韩国高清完整版在线 | 欧美黑大炮18p | 国内精品久久久久久久999下 | 在线欧美精品一区二区三区 | 亚洲乱码中文字幕久久 | 北岛玲手机在线观看视频观看 | 亚洲欧美综合乱码精品成人网 | 狠狠色丁香久久婷婷综合_中 | 99精品视频在线观看免费 | 成人在线视频免费看 | 青青伊人影院 | 国产精品亚洲欧美 | 国产精品一区二区欧美视频 | 日韩一区二区三区视频在线观看 | 两性午夜色视频免费网站 | 帝王受PLAY龙椅高肉NP | 调教美丽的白丝袜麻麻视频 | 中文字幕久久熟女人妻AV免费 | a视频在线看 | 熟妇久久无码人妻AV蜜桃 |