你的位置:九游娱乐(中国)官方网站-登录入口 > 新闻中心 >

ag九游会网站由于本次所建议的算法和模子无关-九游娱乐(中国)官方网站-登录入口


发布日期:2024-04-23 06:47    点击次数:51

在保举系统界限的盘及第,一个中枢的盘考宗旨便是协同过滤(Collaborative Filtering)。

在保举系统中,有两个中枢的实体类别便是用户和商品,利用 ID 将不同的用户和商品进行编码。

图 | 模子灵验学习长距离用户相似度(着手: T heWebConf 2 024)

此后将用户历史的购物纪录通过“用户-商品 ID 对”的方式进行存储,并最终基于历史购物纪录进行用户购买活动的建模,则不错好意思满新商品的保举。

跟着比年来图神经收集(Graph Neural Networks)的发展,用户和商品的交互纪录不错通过交互图(Interaction Graph)的形状进行展现。

其中每一个节点暗示用户/商品,皆集节点之间的边即为用户和商品的交互。

图 | 用户商品交互图示例(着手:SIGIR 2023)

基于交互图利用图神经收集学惯用户和商品的特征向量,而况最终基于特征向量的相似度好意思满商品保举成为了一种高效的方式。

尽管“协同过滤基于图神经收集的方式”依然十分红熟,可是所有盘考范式依然无法跳脱出 ID-based 的法律解释。

也便是说具体到算法层面,用户和商品形成了一个个安闲的 ID,他们之间的交互仅仅一个 ID 对,莫得稀少其余模态的信息。

这会导致一些问题,举例用户的历史交互中可能存在有杂音(晚点击、并不可爱的购买、流行度偏差等)。

而这些信息无法从基于 ID 的交互对中体现出来,最终会影响模子的特征向量的质料,从而组成有杂音的表征学习流程。

基于此,香港大学博士生任旭滨和场所团队,通过表面推导发现淌若引入其他模态(举例文本模态)的高质料表征,就不错通过最大化模态之间互信息的方式,来自动去除基于 ID 所学习到的表征中的杂音,从而优化表征学习的流程。

图 | 任旭滨(着手:任旭滨)

当今,跟着空话语模子(Large Language Models)的发展,其浩瀚的话语表现和追想才略,匡助该团队针对数据集结的原始文本进行了过滤和去除杂音,以及追想出用户和商品的交互偏好,从而获取高质料的文本模态表征。

基于此,他们瞎想了一套用户/商品文本画像的生成范式,其能适用于不同的数据集,并能通过空话语模子进行文本生成和特征编码。

盘及第,课题组基于表面推导的末端,将文本表征和 ID 表征进行对皆,发现其能灵验增强协同过滤算法的性能,并展现出不少优异特质,举例针对杂音的健壮性等。

这让本次范式粗略适用于预覆按场景,并能增强模子的全局相似性学习,从而灵验缓解仅基于 ID 进行保举算法覆按时产生的负面末端。

图 | 基于大模子的保举算法优化框架(着手:TheWebConf 2024)

总的来说,本次所建议的范式粗略灵验利用空话语模子来捕捉用户偏好,而况提供高质料文本模态表征。

当今,该团队依然将这款算法在外部公司的业务场景上进行落地,解说其不错灵验地普及地业务商量。

具体来说,由于本次所建议的算法和模子无关,而况其中枢是增强已有模子的表征学习的流程。

因此,任何基于表征学习的算法,都不错基于近似的想路,来通过高质料的文本模态特征促进底本模子的学习流程,从而获取性能的普及。

改日,基于本次算法繁衍的近似想路,不但能在业界落地场景中进展功效,也能给学界带来一些新想路。

事实上,在的盘及第,数据中可能蕴含的杂音、以及寥落性的问题可谓存在已久。

一运转,课题组运筹帷幄通过引入自监督学习的方式(举例对比学习、生成学习),来从数据自己挖掘稀少的监督信号,以让模子粗略更好地学惯用户和商品的交互模式,从而建模用户的活动偏好。

尽管自监督学习粗略带来一定的性能普及,可是其仍然如故基于 ID 来寻找监督信号,并不周全都幸免数据原始杂音的影响。

而在其时该课题组依然运转想考是否粗略引入稀少模态的信息从而缓解这一形势,从而进一步校正现存模子的覆按范式。

基于这一想法他们进行了一定的数据分析,并决定从文本的角度启程点。原因在于:话语不错径直描写用户的购物偏好(举例用户可爱购买畅通类商品),同期也不错描写商品的受众群体(举例该商品容易被可爱珠宝类用户购买)。

淌若当然话语不错灵验地描写用户/商品的交互偏好,那么就不错被用于保举算法的增强覆按中,从而促进模子的表征学习流程。

可是,这么的高质料数据很难领有。从用户侧来说,现存的保举数据中一般仅在用户给购买事后的商品的反应(Review)中。

而在这些反应中可能存在有非皎皎的文本导致的噪声,同期基于这些反应去手动追想用户购买偏好,也会极端费时艰苦。

其后,跟着空话语模子的发展,他们发现其浩瀚的话语表现和追想才略,粗略很好地处置上述问题。

因此,该团队运转崇敬对待之前所建议的想法,并运转进行表面分析,构建了完好意思的表面框架,从而通过引入文本信号来优化模子的表征学习。

图 | 文中优化表征学习的表面模子(着手:TheWebConf 2024)

当表面框架完备之后,他们运转瞎想用户/商品画像的生成范式,而况利用空话语模子进行画像生成。

工夫,他们最初在一个一丝据集上头进行践诺,发现其关于性能的普及极端有末端。

于是,他们将算法欺诈到常用大数据集上,考证了本次算法的灵验性。同期,他们也在外部公司的真确业务数据进行测试,雷同得到了很好的末端。

日前,联系论文以《基于大型话语模子的保举暗示学习》()为题发在 TheWebConf 2024[1],任旭滨是第一作家。

图 | 联系论文(着手:TheWebConf 2024)

后续,他们将进一步探索怎样将空话语模子和图神经收集等算法进行长远勾通,从而研发更灵验、更实用、更智能的保举算法。

参考尊府:

1.X Ren,W Wei, L Xia, L Su, S Cheng, J Wang, D Yin, C Huang. Representation Learning with Large Language Models for Recommendation. arXiv:2310.15950(2023). https://arxiv.org/abs/2310.15950

https://github.com/HKUDS/RLMRec

运营/排版:何晨龙

01/

02/

03/

04/

05/



友情链接: