分类
欧洲杯

无惧雨雪风霜斯坦福找到一种更适应动态环境的强化学习方法

斯坦福人工智能实验室(SAIL)的研究人员最近设计了一种方法,能处理那些会随时间变化的数据和环境,性能优于一些领先的强化学习方法,它被命名为LILAC(Lifelong Latent Actor-Critic)。

这一方法使用了潜在变量模型和最大熵策略,以此利用过去的经验,在动态环境中获得更好的采样效率和性能。

郭凯:适度有两个含义,一个含义是总量上要适度,信贷的投放要和经济复苏的节奏相匹配。如果信贷投放节奏过快的话,快于经济复苏就会产生资金淤积,产生信贷资金没法有效使用的问题。第二个是价格上要适度,要认识到利率适当下行并不是利率越低越好,利率如果严重低于和潜在经济增长率相适应的水平,就会产生套利的问题,产生资源错配的问题,产生资金可能流向不应该流向领域的问题。

而且,如果同一时间节点的UP主和VUP虚拟人生直播总点赞数≥10000,将被准许在AVI宇宙加场;5组联盟队获得虚拟人生直播间总能量值NO.1的一组,将分别获得A站开屏一天和猴山惊喜礼包,对于新生UP主和VUP来说,奖励力度不可谓不大。

研究人员发现,与伯克利AI研究院(BAIR)于2018年推出的SAC(Soft Actor Critical)和加州大学伯克利分校(UC Berkeley)研究人员今年早些时候推出的SLAC(Rastic Potential Actor Critic)等顶级强化学习方法相比,LILAC在所有领域都能获得更高、更稳定的回报。

转载请注明央广天下财经

他们在一篇关于LILAC的论文中写道:

按照规则,组队结盟的UP主和VUP首先要各发布一支视频,在发布24小时内合计收到3999蕉以上,即可解锁UP主的虚拟人生直播show。与此同时,常驻猴山二次元的AC娘本体也会空降直播间,与二人搭台唱戏,带来意外惊喜。

阮健弘:广义货币供应量和社会融资规模的增速都明显高于去年,全社会的流动性是合理充裕。稳健的货币政策更加灵活适度,持续优化信贷结构,完善结构化货币政策工具体系,创新直达实体经济的货币政策工具,引导金融机构加大对实体经济特别是加大对小微企业和民营企业的资金支持力度。

郭凯:这1.5万亿元分三块,一块是利率的下行实现金融市场或者金融体系对实体经济的让利,包括贷款利率下行,包括债券利率的下行,包括通过再贷款、再贴现政策支持的这些优惠利率贷款的发放,所有这些东西加在一起通过引导利率下行,最终会实现大概约9300亿元的让利。第二块就是我们测算两项货币政策工具加上前期的延期还款付息政策工具大约让利2300亿的规模。第三块是通过银行减少收费3200亿元,包括前期已经减少的收费,后面全年还要继续减免的收费。

央行相关负责人昨天(10日)还对直达实体经济的货币政策工具,以及金融系统给实体经济让利1.5万亿等热点问题进行了回应。

近年来,虚拟偶像风潮似乎来得比以往更猛烈些,各路资本掀起追捧热潮,虚拟偶像市场百花齐放。不过,相较于其他虚拟偶像的形象设定,A站的VUP则更加接地气和人格化,跟用户之间走得也更近。而独特的活动运营策略,三次元UP主与VUP联动直播的新奇形式,无形中也扩展了A站布局虚拟偶像的边界,让VUP的发展空间有了更多可能性。

据悉,此次进行联动的VUP,也是“我的虚拟人生”代言人们:暗莉斯、营业型千岛、绛紫长酱紫的绛紫、竾颜音、挽什么挽。按照掉落的时空节点,Anna小鲍锯木头将与绛紫长酱紫的绛紫畅聊童年,菲林君与暗莉斯大谈少年,琼曼倪与营业型千岛说说成年,雪薇不是球与挽什么挽谈谈青年,亚历山大流浪狗则与竾颜音畅想老年时光,从而实现每位二维化的UP主未能实现的夙愿,并获取解锁能量。

雷锋网(公众号:雷锋网)雷锋网

初步统计,今年上半年社会融资规模增量累计为20.83万亿元,比上年同期多6.22万亿元。阮健弘说,上半年社会融资规模的增量明显高于去年同期,主要受两方面因素影响,一是金融机构对实体经济的信贷支持力度增强,二是金融市场对实体经济提供的债券、股票等直接融资的支持幅度大幅增长。

阮健弘:上半年金融机构对实体经济发放的人民币贷款新增量是12.33万亿元,这也是历史上最高的水平。上半年企业债的净融资是3.33万亿元,已经接近去年全年的水平,非金融企业的境内股票融资是2461亿元,几乎是比去年翻一番,比去年同期多增1256亿元。

今年上半年,广义货币(M2)、社融、人民币贷款增速相比于去年都呈现出明显回升态势。具体来看,6月末,广义货币(M2)余额213.49万亿元,同比增长11.1%,增速比上年同期高2.6个百分点;6月末社会融资规模存量271.8万亿元,同比增长12.8%,增速比上年同期高1.6个百分点;人民币贷款余额165.2万亿元,同比增长13.2%,增速比上年同期高0.2个百分点。

作者说,LILAC与终身学习和在线学习算法有相似之处。元学习和元强化学习算法也试图快速适应新的设置。

对于下一阶段货币信贷的走势,央行货币政策司副司长郭凯回应说,下半年信贷需求会比较平稳,央行稳健的货币政策将更加灵活适度,保持流动性合理充裕,推动贷款实际利率持续下行和企业综合融资成本明显下降,为经济发展和稳企业保就业提供有利条件。

今年6月1日,央行推出普惠小微企业贷款延期支持工具、普惠小微企业信用贷款支持计划两个直达实体经济的货币政策工具。央行货币政策司副司长郭凯说,政策实施一个多月以来,贷款延期支持工具起步顺利,信用贷款支持计划撬动信用贷款发放的作用较为明显。

3月25日,鉴于新冠疫情的发展,普京决定推迟举行修宪全民公投。6月1日,普京宣布7月1日举行修宪全民公投。为保障公民生命健康,俄公民可于6月25日至7月1日期间进行投票。

除了活动运营上的别具一格,A站在虚拟偶像领域的布局也是全方位的,透过AcFun虚拟直播工具自有形象上线、香蕉商城【VUP专属福利】皮肤模型定制服务上线等动作,可以看到A站正在打造完整的链路,助力虚拟主播和想成为虚拟主播的ACer快速解锁虚拟世界。尤其是近期,A站又全新推出的虚拟偶像社团扶持计划,官方流量的扶持也将吸引更多的虚拟偶像社团入驻。

“与这些方法不同,尽管在每一集中都会经历环境的持续变化,但LILAC却能推断出未来环境的变化,并在训练过程中稳步保持高回报。”

ACer可以为三次元UP主设计虚拟形象,也可以为已有形象的VUP设计新皮肤,所设计的形象若被猴山和UP主Pick,有望成为陪伴A站顶流UP主的真·虚拟形象;而且,所有符合要求的作品都默认获得《金龙奖》《寻找次元漫想家》两大活动的参赛资格,并将有同等机会获得参赛奖励。如此开脑洞的活动,自然是获得了大量ACer的追捧,也收获了许多质量颇高的作品。

据俄媒体报道,该草案突出了宪政制度和公民人权的重要性,主要包括扩大国家杜马权力、增加公民福利等内容。

雷锋网原创文章,。详情见转载须知。

在最近的其他强化学习新闻中,来自Google Brain、卡内基梅隆大学、匹兹堡大学和加州大学伯克利分校的AI研究人员最近又引入了一种新的域适应方法,即在强化学习环境中改变代理的奖励函数。与其他强化学习环境一样,该方法试图使模拟器中的源域更像真实世界中的目标域。

一篇上周发布的域适配论文指出,“行为主体会因为转换而受到惩罚,转换可以表明行为主体是在与源域还是目标域交互。”“在一系列控制任务上的实验表明,我们的方法可以利用源域来学习在目标域中运行良好的策略,尽管只观察到目标域的少数转换。”

7月2日,俄罗斯中央选举委员会在统计全部选票后公布了修宪全俄投票结果。结果显示,77.92%的选民投票支持修宪,21.27%的选民反对。

贷款延期支持工具起步顺利,金融系统将向企业让利1.5万亿元

信贷供需两旺,央行货币政策将更加灵活适度

作者在该动态强化学习环境中进行了四个测试,包括来自metaworld基准测试的Sawyer机器人、OpenAI Gym的Half-Cheetah和2D导航任务。

从活动策划不难看出,A站正在用二次元的原生语言讲述虚拟偶像故事。目前,活动已经步入第二阶段“次元WANNA DO”。该阶段解释了UP主们为何会掉落二次元世界?原来,正是“出道616”选出的ACE06使用夏阁艾迪剑(“下个ID见”的谐音)劈开AVI宇宙,才引发了一系列巨变。而拥有二次元皮肤的他们,将在AVI宇宙中开启自己的虚拟人生,并与掉落在同一时间节点的VUP自动组队结盟,通过发布视频、联动直播解锁本阶段的重重关卡。

值得一提的是,“我的虚拟人生”第一阶段的活动——“猴山次元制作人”也效果爆棚。它讲了这样一个故事:在猴子的帮助下,“出道616”六强中的5位三次元UP主拥有了量身定制的二次元皮肤,于是ACE06全体都拥有了二次元世界的身份通行证。而次元世界发生时空秩序混乱后,很多UP主苦于没有二次元皮肤,被牢牢困住并无法找到回家的路,因而引发了第一阶段的活动。活动猴号召ACer拯救他们心爱的UP主,为其绘制二次元形象。

“我的虚拟人生”系列活动,拥有一个兼具强科幻感、强脑洞、强二次元属性的设定:三次元UP主拥有二次元皮肤才能任意进出二次元世界,而全网首届UP主选秀出道活动“出道616”的胜出者得到了这一身份通行证。但是,有人触发技能时导致AVI宇宙发生时空维度混乱,三次元UP主都二维化了,并掉落到不同时间节点的AVI宇宙,二维化的UP主成为AVI宇宙探索者,想要恢复三次元状态需要和AVI宇宙原住民(即AVUP)展开一段有趣的冒险之旅。

除了设定一系列激励UP主和VUP的规则,身处三次元世界的ACer也有得到奖励的机会:只要发布带有#我的虚拟人生#的动态,即有机会获得@动画猴和@AVI猴的Pick。而且这项奖励是长期有效的,可见A站对发动用户长期参与AVI宇宙建设的意图。其次,无论是提名还是自荐前往AVI宇宙成为VUP的用户,都有机会获得AcFun正版周边。双重奖励机制,加上低门槛的参与方式,也大大提高ACer们参加活动的积极性。

央行调查统计司司长阮健弘认为,总体来看上半年金融总量充足,服务实体经济的效率较高,金融有效支持了疫情防控和经济社会的发展。

研究人员修改了奖励函数,使用分类器来区分源域和目标域的转换。他们在OpenAI Gym用三个任务来测试他们的方法。

郭凯:信用贷款截止到7月3日,约一个月期间我们支持了1598家地方法人银行,一共给109万户企业发放了普惠小微信用贷款160万笔,总共是1326亿元,所以撬动作用还是很明显的。这里很大的一块是互联网银行以及传统商业银行利用互联网技术、大数据发放的信用贷款,单笔的贷款很小,就是两、三万元,但是给尾部的客户提供了非常重要的支持。

“我们观察到,在具有显著非平稳性的各种连续控制任务中,与最先进的强化学习方法相比,我们的方法带来了实质性的改进。”例如,它能够更好地适应环境,机器人或自主车辆可以在天气条件变化较多(比如遇到雨雪环境)引入时运行这一方法。

上月,国务院常务会议提出,金融系统今年全年要向企业让利1.5万亿元,引发广泛关注,对于这一让利计划究竟如何实施,郭凯也进行了回应。