每当逛淘宝,京东的时候,线上AI机器人人就会自动保(bǎo)留你浏览(lǎn)的页面,推荐相似的产品给你,增加(jiā)人们的购买力,这(zhè)个推荐系统在线上新零售中扮(bàn)演的是什么(me)角色呢?
当人们讨论信息价值的(de)时候,讨(tǎo)论的不光是(shì)量和(hé)传播速度,还有信(xìn)息共享的范围,这一点其实和推荐(jiàn)系统中协同过滤有着密切关系(xì),即通(tōng)过共(gòng)享其(qí)他人或者物品的信息进行推荐,共的范围对信息价值所(suǒ)产生的影响最(zuì)大。
推荐系(xì)统(tǒng)
推(tuī)荐(jiàn)系(xì)统(tǒng)其实(shí)就(jiù)是(shì)给用户(hù)推荐物品或者预测(cè)喜好,当(dāng)然(rán)还包(bāo)括其他各(gè)方面的(de)东西(xī)。上图展示了(le)各种推(tuī)荐的场景(jǐng),主要由(yóu)用户和(hé)产品两部分组成,这种图模型也(yě)是推荐系统的一(yī)种解决方案(àn),比如图中两(liǎng)个物品的相识度就(jiù)可以使用图计算的方法进行(háng)量(liàng)化的解释。
国(guó)内在(zài)推荐系统方(fāng)面主要想做的是千(qiān)人千面,通过千人千面来实现增加点击,发掘长尾的(de)目标。
目前推荐系统常见的使用场(chǎng)景有电商、社交、影音(yīn)、资讯这(zhè)四个平台(tái)。
常见的推荐(jiàn)算法有基(jī)于内容、系统过滤、关联规(guī)则(zé)、基于效用以及(jí)基于知(zhī)识这几(jǐ)个。其中最主要(yào)的还是协同过滤,它又被分为两类:一(yī)类是基(jī)于用户,主要在资讯平台;一类是(shì)居于物品,这类很明显(xiǎn)是电商平台。
基于用户的算(suàn)法计算的是(shì)用户相似(sì)度,需要(yào)维护用户(hù)信息矩阵,更社会化,而(ér)基于物品的(de)算法(fǎ)计算的是物品相似度(dù),需要维护物品信息举证,更个性化。
上图是协同过滤的评分预测算法,ALS中评分由(yóu)两(liǎng)个向量的(de)乘积决定,SVD++认为评分不光(guāng)是有两个向量(liàng)乘积决定,个体(tǐ)差异同(tóng)样也会产(chǎn)生(shēng)影响。
推荐需要(yào)的数据一般(bān)分为三块,用户、物品、时间。时间用来关联(lián)用户和物品,用户数(shù)据主要是人(rén)口统计学数据、用户行为数据、用户(hù)标签,物品数据则是物品基本属性(xìng)、物品标(biāo)签(qiān)、物品效用(yòng)。
对于(yú)推荐结(jié)果的检(jiǎn)验分为准确率、召(zhào)回(huí)率、覆(fù)盖率、多样(yàng)性(xìng)、新(xīn)颖度/流行(háng)度。
上(shàng)图展示的为机器学习算法的5个流派(pài),其中联结主义(yì)可能是大(dà)家最熟(shú)悉的,所(suǒ)有的(de)神(shén)经网络的(de)算(suàn)法都属(shǔ)于这一类。最后的行为类推(tuī)其(qí)实就是推荐(jiàn)算法。随(suí)着后续的发展(zhǎn)这几个流派肯定会被结合起来。
新零(líng)售中的推荐
推荐系统中除(chú)了技术,还需要有(yǒu)很大程度(dù)的(de)业务支持。作为一个数据科学家(jiā)不光要有数据和计算机基础,还要专业知识,也就是对业务的理解。在新零售(shòu)行业很多时候都是(shì)以业务为主导。
新零售是2016年提(tí)出的概(gài)念,简单来说(shuō)就是线上加线下(xià)加物流,比较典型的有(yǒu)盒(hé)马(mǎ)生鲜、小米体(tǐ)验(yàn)店、微(wēi)信群(qún)营销等。从推荐的角度上来看,微信群营销其(qí)实也算作新零售。微信群虽然可(kě)以(yǐ)获取(qǔ)到很(hěn)多数据,但是(shì)和体验店一样客户无法确认。并且每个微信群都有针对人群,可(kě)以(yǐ)没有办法拿(ná)到除了头像(xiàng)和姓名之外的信息,用(yòng)户身份也无法(fǎ)获得认证,人员流动非常(cháng)频(pín)繁。这些特性与实体店非常相似,即(jí)使我们无法从单个用户的(de)角度来(lái)进(jìn)行推荐。
与互(hù)联网(wǎng)推荐的区别新零售推(tuī)荐与互联网推(tuī)荐最大的差(chà)异在于一(yī)个线上一(yī)个线下(xià),我们在做图书(shū)项目的时(shí)候(hòu)发现,用户在线上买书的行为喜(xǐ)好与线下很不一样。线上的卖书的店铺经常会有一些满减促销,它的折扣力度是(shì)很吸引人的,但是(shì)在(zài)线(xiàn)下很(hěn)少(shǎo)有超过(guò)5折(shé)的活动。
在互(hù)联网上(shàng)由于可以实施用户行为(wéi)采集(jí),所以可以实(shí)现千人(rén)千面(miàn),但是在(zài)线下只能通过门(mén)店的角度来进行推荐,无法具体到单独的个体上。因此新(xīn)零售所能实现的是千店千面,目标也转为了增加销量和信息(xī)共享(xiǎng),其实也就是信息(xī)扩缩的(de)过程。
上(shàng)图是(shì)我们项(xiàng)目中的(de)图书推荐界面,也是门店所使用的后台。可以看到(dào)这里包含了很多信息,比如书名、作者、出版日期、销量(liàng)等,每一列信息中(zhōng)都有很多的(de)业(yè)务(wù)背景需(xū)要了解。比如(rú)对(duì)于出版(bǎn)超过3年的书市(shì)场效果其实已经很容易看(kàn)出来(lái)了,并不需要我(wǒ)们再去(qù)做推荐。
之后(hòu)我们对(duì)该项目进行了总(zǒng)结。首先是可用信息少(shǎo),只能(néng)获取到行为信息以(yǐ)及物品信息(xī)。其次是需求不同,必须要以(yǐ)门店(diàn)为主(zhǔ),也就是基于用户的(de)协同过(guò)滤体系。而且图书行(háng)业每年新出版(bǎn)的(de)书可能有几十万,但真正(zhèng)有销量的一半都不到(dào),所以存在很多空值数据,没有办法做基于物品的协同过滤。最后是反馈周期长,对于图书这样的线下销售虽然每天都能拿得数据,但是反馈至(zhì)少是以周为单位,因(yīn)此(cǐ)对结果(guǒ)检验会产生影响。
推荐(jiàn)算法的应(yīng)用当算法上线(xiàn)的时候,一切才刚刚开(kāi)始,之后还会出现各(gè)种(zhǒng)问(wèn)题,接下来我们来看一些(xiē)典型(xíng)的场景。首(shǒu)先是强特征,有时会出现业务人员在与技术对接的后发现一些很重要(yào)的特(tè)征(zhēng)在(zài)库(kù)中不存在。其次特征(zhēng)不仅会(huì)增加还会消失(shī),比如对于我们来(lái)说,客户的产品信息(xī)有时会(huì)进行(háng)改版,数据库信息也(yě)会(huì)随之改变,而我们在不知情的情况下获取的信息就可能会不存(cún)在,这主要是因为客户觉得这类(lèi)信息不重要,而将它去除了(le)。
这张图是算法的数据处(chù)理流程。原始数据导(dǎo)入后会进(jìn)行数据清洗,之后通过不同的(de)算法模型或者业(yè)务规(guī)则生成(chéng)模型(xíng)和结果集,最后输出结果集,再使用不(bú)同的过(guò)滤规则(zé)得到结果。
上面的流程适(shì)用于离线(xiàn)或者无需实时(shí)更新的场景,而如果需要实时则(zé)要在图(tú)中的推(tuī)荐流程中添加召回(huí)模(mó)块(kuài)。打造实时推荐(jiàn)不意味着实(shí)时计算,因为数据量实在过于庞大,而(ér)是先对提前算好的结果进(jìn)行筛选,再由(yóu)一(yī)个特殊的(de)模块根据用户的实(shí)时行为做(zuò)出推荐(jiàn)。一般来(lái)说(shuō)计算时间要小于0.1秒。
最后给大家分享一些我们(men)在新零(líng)售推荐应用上的一些想法(fǎ):业务效果好的(de)算法并不(bú)一定是复(fù)杂的算法;做项目要(yào)比光看书(shū)的收获大(dà)得多;推(tuī)荐是个系(xì)统工程,算(suàn)法很重要(yào),但不是全部。