极端实验:推荐算法如何探寻我们的兴趣边界?

  • 时间:
  • 浏览:0
  • 来源:极速快3_快3诀窍_极速快3诀窍

声明:本文来自于微信公众号 已经 胖男的世界(ID:we_the_people),作者:柳胖胖,授权站长之家转载发布。

算法到底让大伙儿 的信息环境更闭塞,还是更多元?机器让推荐和送达更容易了,但大伙儿 比已经 懂了更多吗?你是什么 世界三种不是就像是一套算法,只提供我就还要的东西,这套算法三种不是也在进化?

新闻实验室的方可成老师在系统性地阅读了近年来发表在国外一流学术期刊上的研究后发现:使用社交媒体和算法推荐App的人,并不都后能 明显再次出现视野变窄的疑问图片,大多数人阅读的内容依然有相当的多样性。

“研究者们选折 了 21 个月的数据。大伙儿 将用户分为两组,一组是根据算法推荐选折 电影观看的,叫做“跟随组”;另一组是不理会算法推荐的电影,叫做“不理会组”。大伙儿 发现:算法向“跟随组”推荐的电影,经常要比向“不理会组”推荐的电影更加多元化。也却说说,根据算法的推荐选折 电影,否则进行打分,确实会让算法更好地学习到你的喜好,否则我就推荐更多样的片子;而可能不根据算法的推荐来看电影和打分,反而会让算法我就推荐更窄的片子。也却说说,在不使用算法推荐的请况下,用户的视野反而变窄得调慢。”

学术的研究结果当然值得参考,不过,可能是针对已经 非常极端的内容消费用户,推荐算法又会带给他什么呢?基于已经 严谨的产品工作者的好奇心和动手欲,以及对什么疑问图片的困惑,我买了已经 新手机号,找了一台不都后能 装过今日头条的廉价安卓测试机,已经 已经 开始英文了我的“反人类”探索之旅。

我的思路离米 是已经 的:在今日头条上只关注已经 从体量上来说极其小众的内容领域,逐步成为它的资深内容消费者,否则观察在你是什么 过程中,头条会怎样才能投喂我在你是什么 兴趣领域的偏好,以及最重要的,最终头条不是会用你是什么 领域的内容完整版淹没我,我就要不都后能 看后你是什么 领域的内容。

在第一次打开头条的已经 ,我是已经 空白未登录的请况,还不都后能 任何操作行为或关注任何账号,头条推荐页给我的内容也是比较随机的,相对以社会新闻和热点内容为主,或多或少类内容随机分布各一根绳子 绳子 。

却说,我先注册登录了一下,否则在推荐内容的“更多”里,我忽略了头条置顶给我推荐的娱乐,健康,科技,体育和历史五大分类,却说直接把列表拉到了最下方,关注了最小众的“收藏”领域。

同时,我还一次性关注了头条推荐的 20 个收藏类的内容创作账号。收藏你是什么 品类,主要中含的却说文物和古玩类的内容,包括诸如字画、钱币和邮票等等类似的都算,而我被委托人对你是什么 领域基本属于一无所知的请况。

关注完 20 人后,我还做了一件事,却说把收藏标签移到了最靠近推荐标签的位置,已经 内容阅读起来最方便,理论上,这也应该增强了系统判断给我推荐收藏类内容的权重。

今日头条App里默认进入的推荐页,前三位一般被国家重要新闻给处于了, 2 条是默认置顶, 1 条是人民网已经 的官媒发布的热点新闻,从位置上来说,从第四条已经 已经 开始英文才不是经过算法推荐展现我就看的内容。

在第一次的刷新中,头条似乎还不都后能 给我打上很强的"收藏爱好者“的标签,整个前 10 条就一根绳子 绳子 和收藏相关的,剩下 9 条里,除了两条社会新闻两条娱乐新闻,其它五类内容各一根绳子 绳子 。

在我第二次的刷新中,结果依然差太少,收藏不都后能 一根绳子 绳子 ,社会娱乐两条,其它随机的五类内容(与第一次的不同)各一根绳子 绳子 。

第三遍还是不都后能 。

我判断头条并可能我却说关注了一堆收藏类账号,就判断我只对收藏类的内容感兴趣了,可能我每次却说在推荐流里刷下来看标题,还不都后能 跟任何的收藏文章之间产生互动(转评赞),却说都后能 和或多或少类的内容有过互动,却说我的推荐流里经常保持了已经 的比例:10%的收藏类内容+不断更换的其它类内容。

不过确实内容流里收藏内容太少,否则在“大伙儿 也在用头条的”横向推人的流里,再次出现了不都后能 已经 请况,左右滑动的区域内一共还还要显示 10 个账号,其中含 9 个是收藏类账号。

从这里也还还要看出,对于荐人和荐内容,头条可能是采用分开的两套策略我猜测,账号推荐上,头条希望快速收拢以获取你的关注关系,增强它App内内外部的连接,却说直接我就推可能关注过的类似账号,但内容推荐上,头条还要你进一步有更多反馈数据后,才会逐步让某一类内容更多处于你的推荐流。

于是从新的一次下拉刷新已经 已经 开始英文,我做了不都后能 一件事:对头条在推荐流里给我的每一根绳子 绳子 收藏类内容,都点击进入文章,慢慢再慢慢地下拉到底部(当然我已经 字也没看进去),否则点赞,点收藏,评论(一般就几个字:真棒,好喜欢,不错,类似的)。

离米 从第五次刷新已经 已经 开始英文,收藏类内容的比例终于已经 已经 开始英文变多(我为什么在么在会么会要说终于),同时,推荐流里再次出现我未关注的收藏类账号发的内容,我会在内容互动后同时关注作者。

离米 从第 8 次已经 已经 开始英文,收藏类内容达到了400%的比例,而同时推荐流里还已经 已经 开始英文再次出现人文和历史类的内容。

我判断这两类内容会再次出现,是基于算法的“协同过滤”,可能想精通收藏的领域头上还要非常了解文化和历史类的知识,已经 才促使判断各种文物和古玩的价值,却说已经 “收藏爱好者”必然也得看文化和历史的内容。

(解释一下:常见的协同过滤算法有三种,三种是基于用户的(user-based),也即计算用户之间的类似性,可能A和B的兴趣相近,不都后能 A喜欢的电影,B也很有可能喜欢。另三种是基于物品的(item-based),也即计算物品之间的类似性,可能电影C和电影D很类似,不都后能 喜欢电影C的人,可能也会喜欢电影D。)

这里还还要看出,尽管收藏类内容不都后能 小众,但头条的算法依然找到了一批和我类似的“收藏爱好者”,并把大伙儿 同样爱看的“人文和历史”内容推到了我的头上(尽管比例还很小,各一根绳子 绳子 )。

(不过确实关注了收藏的人,很离米 率会关注文化和历史类的内容,但反之貌似离米 率太少,文化和历史爱好者太少对古玩钱币什么的有兴趣。否则对于头条的机器算法来说,更好的推荐策略肯定是,给已经 对文化和历史有兴趣标签的用户在推荐流里偶尔夹杂一根绳子 绳子 收藏类内容,视乎其反馈来决定不是推荐更多。头条算法架构师曹欢欢曾表示:“大伙儿 会留一部分比例流量,探索用户的兴趣,比如每几刷,或有一刷的位置却说探索用户的兴趣,推荐或多或少模型不确认用户是都在感兴趣,否则模型想探索一下,会有或多或少已经 的流量。”)

说回我的实验,我在刷新后“对每条收藏类内容给予重度反馈否则忽略其它一切内容”的行为调慢获得了算法的厚度重视,收藏类内容从比例来看快速升高,最多的已经 达到了每 10 条里有 6 条收藏强相关的内容,离米 1- 2 条人文可能历史的内容,剩下 2 条还是社会热点和娱乐新闻。

否则一般在前三条里,必有一根绳子 绳子 是直接关注账号发的收藏内容,剩下两条可能是相关人文历史领域的内容可能还未关注的账号发的收藏类内容。

最后,我把你是什么 “极端收藏爱好者”的身份坚持了两周左右,每天重复几个到数十次不等的刷新,否则只对收藏类内容进行点击阅读、评论、点赞、收藏和关注。

不过,最终头条给我的推荐比例却不都后能 继续增加,前 10 条里,除了广告比例提高(可能是确实老用户更能忍?),最多的已经 还是5- 6 条收藏类相关内容,少的已经 2- 4 条。其中,必有 2 条以上是收藏类强相关的内容(直接探讨收藏物三种),1- 2 两条收藏弱相关的文章(或我关注的收藏领域账号发布的其它领域内容),以及1- 2 条文化和历史强相关内容,而剩下还有4- 6 条则都在非收藏相关的内容。

看起来,推荐算法太少会再次出现 10 条里 9 条都在收藏类内容的请况。经过你是什么 十分极端(真实用户可能只在新闻资讯App里盯着收藏内容不放)但确实太少麻烦的实验已经 ,我整体的感受有以下几点:

1、推荐算法在做的并都在以某一根绳子 绳子 内容去压中你的兴趣,却说以“组”为单位(10- 20 条)来测试你(身份标签)、你可能会喜欢的内容(兴趣标签)和你当下的请况(环境标签),命不命中是已经 概率游戏;可能要条条命中、甚至单条命中确实很困难,但以组为单位去看压中过(1- 2 条)的概率,很有可能在90%以上。

2、却说纯以兴趣推荐为基础的产品,最难的是用户前三次使用的已经 ,可能流失率很高、印象很差,顶端基于用户在内容消费上的需求和行为为基础,使用离米 率会不都后能 顺。

3、资讯推荐类平台没可能最终只提供特定某一类内容我就看,可能这本质太少促使它被委托人的日活和时长,当你的今日头条完整版变成“收藏头条”后,也是已经 用户遗弃的已经 。

4、比如头条架构师曹欢欢曾提到:“聪明算法工程师都在希望被委托人的用户兴趣窄化,就像不都后能 已经 商场的经理,希望顾客每一次来到商场都只关注同一类别的商品。商场经理都希望顾客关注尽可能多的产品品类,算法工程师也希望用户尽可能的拓展被委托人的兴趣。”

“已经 喜欢鞋子的用户,假若每次来商场都能快速买到被委托人喜欢的鞋子,用户的单次消费就很开心,但最终用户会减少来你是什么 商场的消费次数(包括每次来商场逛的“用户时长),除非他又产生了买鞋子的需求。要把用户长期留存下来,就要穿透他的兴趣,拓展他的视野,我就衣服、饮食、看电影什么消费,都在商场里完成。”

5、要注意的是,传统上大伙儿 经常提到的“信息茧房”并都在三种理论(theory),却说三种假设(hypothesis),至今仍未得到数据量化和案例的证明。学术上更常见的是概念是“信息回音室(echo chamber)”和“过滤气泡(filter bubble)”:大伙儿 在或多或少社交和新闻类产品里更容易听到回声和信息被过滤,但这都在类似茧房的完整版束缚,却说代表“已经 人的信息获取不再多元”“意见被单一来源的信息左右”

6、相对算法推荐,过去报纸、杂志和门户网站更有可能造成“信息茧房”或多或少,可能大伙儿 的内容本质上是由一群天天泡在同时相互影响的编辑们推荐我就的。而大伙儿 圈的信息可能是最容易造成“信息茧房”的,前提都在你只通过大伙儿 来获得资讯和看法,但你是什么 疑问图片本质上这却说都后能 不是“社交偏食”而已,自古以来人总倾向于和被委托人喜欢的人多打交道和聊天;

7、从认知心理学的厚度来说,人类大众经常难以避免的是“确认偏见”(confirmation bias),也即更愿意相信被委托人可能认同的内容。

可能你只和被委托人聊得来的人交大伙儿 和聊天,且只看被委托人认同的内容,坚持相当长一段时间后(封闭环境不被打破),不都后能 他还真有可能无限接近信息茧房请况,只不过你是什么 茧房是三种作茧自缚。

但你是什么 已经 ,推荐算法反却说还还要帮你进行茧房穿透的武器之一,并对抗可能年岁增长而原因分析的好奇心的衰减。

比如在我作为已经 “极致的收藏爱好者”的数据反馈之下,头条并未给我推的都在收藏类内容,还是保持了社会热点新闻的比例,否则渐渐为我找到了文化和历史内容,并在后期持续测试我的兴趣边界,不断找到了可能和我作为已经 “收藏重度爱好者的用户画像”相匹配的内容(对分类分类整理有历史价值的物品、及其相关交易极度感兴趣、离米 率是男性、注重传统文化、年龄在估计在 40 岁以上),给我推荐了财经、科学、钓鱼和养生类相关的内容。

8、文初提到的方可成的学术研究里,还说到已经 原因分析解释了大伙儿 为什么在么在会么会会对“信息茧房”信以为真,那是可能大伙儿 的“心口不一”:大伙儿 会向研究人员过度报告被委托人常看的或多或少媒体(通常是和被委托人的态度相近的媒体),而不都后能 报告另或多或少被委托人也确实看后的媒体(和被委托人的意见相反的媒体)。比如你是已经 美国政治自由派,你平常可能既看自由派的媒体,也接触到了保守派的媒体,否则在向研究人员报告被委托人的媒体消费请况时,你只报告了自由派媒体,而隐藏了被委托人消费的保守派媒体。

大伙儿 喜欢宣称和坚持被委托人的人设,否则有时很慢正确回忆被委托人的行为,造成了类似“幸存者偏差“的效应。但整个世界确实经常在滚滚向着多元化的一面发展,用户和内容在多元化,算法确实也在多元化。

猜你喜欢

开源轻量级论坛 UseBB 安装图文教程

UseBB1.x最低运行环境要求为:PHP4.3.0、mysql3.23,一起去才能支持到PHP5.3和MySQL5.5,安装前请确认环境算不算达到最低要求。首先从本站下载Us

2020-02-19

老闆娘撐警 小店遭惡整 「選反對派將一片黑暗」

圖:李凱瑚擔心肯能由泛暴派主導香港社會及議會,香港將一片黑暗在鯉魚門經營銀龍咖啡茶座的老闆娘李凱瑚,因為撐警遭暴徒在網上發放惡意差評,暴徒又向政府部門作出無根據的投訴,她更曾一

2020-02-19

phpMyAdmin |phpMyAdmin v3.5.2.2 For Linux下载

下载首页最近更新下载排行软件分类源码报导模板下载网站资源论坛Asp源码.net源码PHP源码其它源码书籍教程服务器类网络软件应用软件系统工具图形图像多媒体类安全相关发布软件/源

2020-02-19

每天有10000+人教我写文章

张小龙那我说过,每天有十亿人教我做产品。当然我和张小龙之间还差了十万八千里,但每天也有一万人读我的文章。在这些 万的读者中,亲戚亲戚朋友来自不同的地方,有着不同的信念,有着不

2020-02-19

克雷塔罗VS内卡萨免费视频直播,克雷塔罗VS内卡萨比赛集锦,克雷塔罗VS内卡萨录像,克雷塔罗VS内卡萨首发阵容

首页新闻视频直播数据APP懂球号直播君广告合作协议协议克雷塔罗12-0111:05墨超2-3已现在现在开始了了内卡萨直播君|分析|集锦暂无数据近期比赛阿森纳英超4-0纽卡斯尔联

2020-02-18