t会增加但Nt(a)不会改变nt老虎机

2021-01-18 14:40:00
dcadmin
原创
31

无论有没有去过赌场,相信大多数人都不会对老虎机感到陌生。作为赌场里最常见的娱乐设备,老虎机不仅在现实中广受人们欢迎,它也频繁出现在电视电影乃至动画片中,连一些常见的APP里都有它的身影。 往机器里投入硬币后,玩家需要拉下拉把转动玻璃框中的图案,如果三个图案一致,玩家能获得所有累积奖金;如果不一致,投入的硬币就会被吞入累积奖金池。这个问题看似简单,但很多人也许都忽视了,其实它和围棋、游戏一样,也是个强化学习问题。  首先,我们要明确一点——老虎机问题是表格型解决方案工具的一种。之所以这么说,是因为我们可以把所有可能的状态放进一个表格中,然后让表格告诉我们需要了解的问题状态,继而为解决问题找出切实的解决方案。 假设我们有一台K臂老虎机,每根拉杆都能提供固定的一定数额的金钱,一次只能拉下一根拉杆,但我们不知道它们的具体回报是多少。在这个情景中,k根拉杆可以被视为k种不同的动作(action),拉下拉杆的总次数T是我们的总timestep。整个任务的目标是实现收益的最大化。  设在第t次拉下拉杆时,我们采取的动作是At,当时获得的回报是Rt。那么对于任意动作a,它的动作值(value)q∗(a)是: 这个等式表示的是无论何时,如果我们选择动作a,我们获得的实际回报就应该等于动作a的预期回报。  把上面这个句子再读三四遍,你觉得它行得通吗?如果我们事先已经知道拉下这个拉杆的最大收益是多少,那出于贪婪的目的,我们肯定每次都会选最好的动作,然后使最终回报最大化。但在强化学习问题中,贪婪算法并不一定等同于最优策略,这一步的贪婪可能会对下一步产生负面影响。  虽然很困难,但我们真的很想实现q∗(a),所以对于timestept,设Qt(a)是q∗(a)的近似值: 注:上文中的回报(reward)和动作值(value)不是同一个概念。回报指的是执行动作后的当场回报,动作值是一个长期的回报。如果你吸毒了,一小时内你很high,回报很高,但长期来看,你获得的动作值就很可怕了。需要注意的是,因为机只需要一个动作,所以这里的q∗(a)不是未来回报之和,只是期望回报,它和其他地方的q∗(a)也不一样(虽然有滥用符号之嫌,nt老虎机但还是请多包涵啦)。  函数Qπ(x,a)表示从状态x出发,执行动作a后再使用策略π带来的累计奖赏,称为“状态-动作值函数”(state-actionvaluefunction)。——周志华《机器学习》 上述等式看起来好像有什么说法,但它其实很简单——选择动作a时,我们获得的平均回报是多少。这个均值可以被视为q∗(a)的近似值,因为换几个符号,我们就能发现这就是强大数定律(SLLN)的表达式。 “贪婪者总是一贫如洗。”当面对巨大时,一些人会因为贪婪越过自己的底线,去吸毒,去犯罪,但他们在获得短暂快感的同时也失去了更多东西。强化学习中同样存在类似的问题,如果它是贪婪的,它会找出迄今为止最大的动作值: 并依据这个动作值去选择每一步动作。这样做的后果是智能体从头到尾只会选择同一套动作,而从不去尝试其他动作,在很多情况下,这样的策略并不是最优策略。  那么我们该怎么纠正它的贪婪?之前我们在《强化学习——蒙特卡洛方法介绍》一文中已经介绍过ε-greedy:对于任何时刻t的执行“探索”小概率ε  虽然当智能体“头脑发热”时,它还是会义无反顾地贪婪,但相比贪婪策略,ϵ-Greedy随机选择策略(不贪婪)的概率是ε/A(s)。  导致这种现象的主要原因是动作值会随时间推移发生变化,即之前我们研究的时静态地拉杆,而不是随机的、动态的拉杆。以动作值为例,比起我们之前假设的q∗(a),它更应该被表示成q∗(a,t)。 看起来SGD可以在这里发挥一些作用。如果它是平稳的,那q∗(a)收敛的概率就是100%;如果它不平稳,我们一般不会希望Rn=Rn-1,因为当前回报会影响当前的动作值。 这是一个指数平均值,它在几何上衰减之前回报的权重。设函数αn(a)是第n个timestep,也就是第n次拉下拉杆时某个特定奖励的权重。因为老虎机问题只需考虑动作a,所以这个函数也可以简化成α(a)。 上式表示对于任何初始值Q1∈ℜ,它都满足q∗(a)∈ℜ。这个条件要求保证timestep足够大,以最终克服任何初始条件或随机波动 这个式子表示这些timestep将“足够小以确保能收敛到一个小值”。简而言之,第二个条件保证最终timestep会变小,以保证收敛。  既然如此,我们之前为什么要设αn(a)=α∈(0,1]呢?它不是一个常数吗?这样的阈值会不会影响收敛?  这些猜想都是正确的,但(0,1]这个阈值也有它存在的价值。我们在之前的Qn+1=Qn+αn(Rn+Qn)上继续计算,最后可以获得一项α(1-α)n-iRi,因为α小于1,所以给予R的权重随着介入奖励次数的增加而减少。  到目前为止,我们必须非常随意地设定Q1(a)的初始值,它本质上是一组用于初始化的超参数。这里有个小诀窍,我们可以设初始值Q1(a)=C∀a,其中C>  q∗(a)∀a。  这样之后,因为Qn(a)比估计值偏高,这时智能体会积极探索其他动作,当它越来越接近q∗(a)时,智能体就开始贪婪了。换句话说,假设我们设当前拉杆的乐观回报是3,但智能体尝试一次后,发现回报只有1,低于预期值,于是它会把其他拉杆全部尝试一遍。虽然前期效率很低,但到后期,智能体已经掌握哪些拉杆会产生高值,效果就接近“贪婪”了。  这种方法时可行的,在某种程度上,如果时间充裕,这个过程也可以被看作是模拟退火。但从整体来看,乐观初始值前期的大量“exploration”是不必要的,它对于非平稳问题来说不是最好的答案。  在机器学习系统中,Bias与Variance往往不可兼得:如果要降低模型的Bias,就一定程度上会提高模型的Variance;如果要降低Variance,Bias就会不可避免地提高。针对两者间的trade-off,下面的式子是一个很好的总结: 置信上限(UCB)是一个非常强大的算法,它可以用类似Bias-Variance权衡的方法来解决不同的问题。在老虎机问题中,我们可以把timestept当成假设集大小M,因为随着t逐渐增加,an也会逐渐增加,相应的At就很难选择。 每选一次a,不确定项就会减少,分母Nt(a)增加;另一方面,每一次选择了a以外的行为,t会增加但Nt(a)不会改变,不确定评估值会增加。  截至目前,我们一直在努力估计q∗(a),但如果说这个问题还有除了行动值以外的解决方法呢?比如我们该如何学习一个动作的偏好?  设动作偏好为Ht(a),它和回报无关,只是一个动作相对于另一个动作的重要性。那么At应该符合gibbs分布(也就是机器学习的softmax分布): 对于这个式子,我们该怎么基于梯度计算最大似然估计?首先,我们对Ht(a)做梯度上升,因为它是我们的变量。我们想最大化E(Rt):  因为q∗(a,t)被包含在动作a的预期值内,它也可以被写成Rt。那等式里的Xt是什么?坦率地说,你想它是什么它就是什么,严谨起见,我们可以设Xt是Rt的平均值。  日前, 北京中软国际教育科技股份有限公司CEO田晓杉一行来访深圳芯火平台,深入了解了深圳微纳研究院的....  随着试管婴儿技术的发展,nt老虎机越来越多的不孕不育夫妇将其当作了最后的“救命稻草”。根据美国生殖医学学会20....  三九严冬 天寒地冻 即便在号称四季如夏的深圳 这几天也冻得瑟瑟发抖! 天这么冷除了抖腿还能做啥子嘛?....  一下是我附上的一个pid 控制程序例程(2407 的) ,请教高手,这里边ki 是Q31 格式的,....  针对无线传感器网络(WSN)中节点能耗不均衡和能量效率低而影响网络生命周期的问题,提出了基于环分块的....  疫情对数字经济的发展提出了更高的要求,也加速了数字经济的成长。数字经济深化发展为电力大数据发挥更大价....  上海科技创新资源数据中心副总经理李敏介绍:“新一代纳米孔测序的病原微生物检测与分析流程从开始测序到获....  每一种基于类似原理的测序方法,都存在这样的现象。而在使用不同化学反应的不同测序方法中,失相现象的特征....  将ModelComposer和System Generator forDSP完美结合的统一工具  该工具提供高级性能优化模块,并可通过系统级仿真验证功能正确性。此外,它还能将算法规范转换为有可产品化....  Unroll 指令在 for 循环的代码区域进行优化,这个指令不包含流水线执行的概念,单纯地将循环体....  本文主要介绍一下 CC3D 的两大飞行模式的原理:1. Rate 2. Attitude. 以及 P....  这是哈佛大学对计算机科学的知识型企业的介绍,适用于具有或没有基础编程经验的专业和非专业的编程艺术,教....  2020年12月中旬的上海,寒流初至。西北季风穿过街巷,催行人裹紧大衣。夜晚11点半,徐汇区漕宝路一....  日前,武汉库柏特科技有限公司(简称“库柏特”)成功完成近亿元人民币B+轮融资,由沸点资本投资。此前,....  AI工厂让人工智能生产正在从手工时代进入工业时代,新基建带动的市场空间则有可能为这一批量生产的算法产....  数字经济时代,看不见摸不到的算法时刻左右消费者的选择。近年来,随着互联网平台经济的快速发展,从网络购....  良好的心理健康是很重要的,早期的研究表明人工智能可能有助于诊断那些处于特别沉重压力下的人的健康状况。....  参数描述:基于覆盖的重定向算法启动开关。当该开关打开时,可进行盲重定向、基于测量的重定向、CSFB触....  ①位置式算法每次输出与整个过去状态有关,计算式中要用到过去偏差的累加值,容易产生较大的累计误差。而增....  概述 机器人运动系统式一套高复杂性、高耦合性、驱动力小于机体物理自由度的非线性系统,为了实现机器人在....  据中国消费者协会官网发布的消息,中消协召开 “网络消费领域算法规制与消费者保护座谈会”,会上指出,近....  自从有了大数据之后,杀熟这个问题日益严重,不论是外卖还是旅游购票,经常有网友反应自己被杀熟了,费用比....  无刷电机属于自换流型(自我方向转换),因此控制起来更加复杂。 BLDC 电机控制要求了解电机进行整流转向的转子位置和机制...  设备密集型重载铁路对轨道平顺状态预测技术十分重视,受限于数据挖掘分析技术,轨道检测车在养护维修计划决....  2019年6月,燧原科技宣布获得新一轮3亿人民币融资,由红点创投中国基金领投,海松资本、云和资本、腾....  卡尔曼滤波实质上就是基于观测值以及估计值二者的数据对真实值进行估计的过程。预测步骤如图1所示: 图1....  2020年12月31日,在中国东莞2020年全球存储教授论坛上,来自华为,中国工程院以及国内外大....  目前,全球每天发出的3000亿封电子邮件中,至少有半数属于垃圾邮件。邮件服务供应商的首要任务自然是过....  据外媒报道,很多女性有过在选择唇膏色号时犹豫不决的经历。Lip Factory则使用人工智能来确定-....  为解决这一问题,作者通过结合几何信息和语义信息,在 KITTI 数据集的基础上,构造一个显着性数据集....  在激光手持三维扫描仪的选择中,我们评判其好坏,主要看各项参数,特别是精度,但是参数表上的精度只是一部....  本书系统地阐述了星载合成孔径雷达(SAR)和逆合成孔径雷达(ISAR)二维成像的基本理论与技术、信号....  在驾驶人处于轻微疲劳时,就会换档不及时、不准确;当驾驶人处于中度疲劳时,操作动作呆滞,有时甚至会忘记....  1.北航博士研发踝关节外骨骼系统,师从MIT仿生假肢宗师Hugh Herr   34 岁 M....  有同学在学习图论算法的时候,发现这里有个 Tarjan 算法,那里有个 Tarjan 算法,而似乎 ....  我们号已经写了 动态规划算法,回溯(DFS)算法,BFS 算法,贪心算法,双指针算法,滑动....  为保证代码严谨性,文中所有代码均在 leetcode 刷题网站 AC ,大家可以放心食用。 皇上生辰....  2020年疫情爆发,开启了一场没有硝烟的战争。面对这难以对付的病毒,我们既看到了无数勇士的悲壮逆行,....  1、传统电梯调度算法 1.1先来先服务算法(FCFS) 先来先服务(FCFS-First Come ....  文 石塔西 源 夕小瑶的卖萌屋 尽管BERT为代表的预训练模型大肆流行,但是身处工业界才会知....  labview小白,看了一点书,也搜过很多,但是都没有这方面的。很多电子滤波器都是以巴特沃夫滤波器为主体滤波。但是如果不能用现成...  12 月 10 日 - 11 日,由浙江省委人才办、绍兴市委市政府、《麻省理工科技评论》主办的全球青....  密歇根大学的研究人员分析了近400名新冠患者的数据,并开发了一种算法,可以预测哪些患者的病情可能会随....  想必你永远不会想到,有一天你也会被自己的键盘出卖。 对,就是你每日敲击的键盘。当指尖在键盘上....  本文主要为你讲解常用的电机控制算法(包含 BLDC、AC 电机),以及两者分别在磁场矢量控制电路的基本结构,控制原理。 ...  “我们确实还有太多细节的工作没有做好。”外卖系统问题引发震荡三个月后,12月17日的骑士节上,饿....  不久前,labuladong大佬开源了他的算法刷题笔记在github上,很快席卷整个互联网,仅仅几个....  最近,GitHub 上开源了一个存储库,该库实现了机器人技术中常用的一些路径规划算法,大部分代码是用....  PLC脉冲量的控制目的主要是位置控制、运动控制、轨迹控制等。例如:脉冲数在角度控制中的应用。步进电机....  去年以来,越来越多的AR技术被用在各大互联网公司APP的营销场景中,其中最多的便是AR识别和追踪。但....  图像匹配 应用: 目标识别、目标跟踪、超分辨率影像重建、视觉导航、图像拼接、三维重建、视觉定位、场景....  【HarmonyOS HiSpark AI Camera试用连载 】移植自研AE算法到AI Camera第一步在配套官方SDK中跑通  本来想一步到位直接在harmony这个系统中直接将自研的自动曝光算法移植上去,但是3516dv300作为一款没有测试过的海思平台怕有太多...  一、概述 传统的手推车需要人工推着走到下一个目的,对于频繁变换地点来搬运货物的使用场景来说,非...  反向传播整个流程如下: (1)进行前向传播计算,利用前向传播公式,得到隐藏层和输出层的激活值。 (2)对输出层(第l层),计...  void Remote_Rx(uint8_t *RxMsg) { int ind = 0; //飞控接收机八通道算法 &nbs...  1、DIY STM32四轴飞控,含电路图、PCB、固件等资料 装好的四轴全套照片: 下载地址: 2、基于ST...  BLDC 电机控制算法 无刷电机属于自换流型(自我方向转换),因此控制起来更加复杂。 BLDC 电机控制要求了解电机进...  内存管理算法:对讨厌自己管理内存的人来说是天赐的礼物。 1、内存碎片 1) 基本原理· 产生原因:内存分配较小,...

文章分类
联系我们
联系人: nt老虎机