导语


北京大学人工智能研究院多智能体中心学术冬令营开始招募啦~


在这里,你不仅可以跟随中心的老师们进行项目的研究与学习,增加你的科研实践经历;更能丰富人生体验,提高你的独立自主能力和创新精神。


2022~就让北京大学人工智能研究院多智能体中心学术冬令营陪伴你开启新的一年吧~


北京大学人工智能研究院

WINTER CAMP

学术冬令营

时间:1月15日-2月21日

项目预计截止日期:5月31日




项目方向




基于合作型多智能体强化学习技术的双灵巧手控制

合作老师:杨耀东

课题:该课题将探索如何控制两只灵巧手进行的合作任务,例如端盘子,揉圆子,转魔方等。我们将探索如何使用多智能体强化学习技术进行对双灵巧手控制的建模,并且从合作博弈的角度出发设计算法。

参考文献:https://openreview.net/pdf?id=7uSBJDoP7tY   https://openreview.net/pdf?id=EcGGFkNTxdJ

技能要求:熟悉强化学习基本概念,有调试强化学习算法相关经验。编程能力出众可破格。

周期:6-12个月。

带有安全约束的多智能体强化学习算法设计与应用

合作老师:杨耀东

课题:符合安全性的强化学习技术具有着重要应用,例如无人驾驶,机械制造等等。本课题将研究如何在一个多智能体系统中设计具有安全性约束的强化学习过程。我们将探索满足安全性约束的强化学习框架, 并探索如何针对一个多智能体系统进行安全性的学习。

参考文献:https://arxiv.org/abs/2110.02793

技能要求:熟悉强化学习基本概念,有调试强化学习算法相关经验。编程能力出众可破格。

时期:6-12个月。

面向通用人工智能的元强化学习算法设计

合作老师:杨耀东

课题:面向通用人工智能,智能体往往需要能够有同时完成多个任务的能力。本课题从数学建模的角度,对元强化学习建模并且设计学习算法,其目标使用分层强化学习,内层代表一个智能体由自身奖励函数驱动的强化学习,外层代表跨任务的学习约束,从而达到让智能体拥有元学习不同任务的能力。

参考文献:https://arxiv.org/abs/2112.15400

技能要求:熟悉强化学习基本概念,有调试强化学习算法相关经验。编程能力出众可破格。

时期:6-12个月。

群体博弈

合作教师:李阿明

课题:从可观察到的鸟群、鱼群,到不易察觉的微生物群体,再到传感器、群体机器人协作系统等,多类自然与人造群体系统存在于我们周围。这些由多个简单个体组成的群体系统,展现了超乎想象的诸多类型的智能行为。近年来,随着交叉学科的迅速发展,群体智能相关研究得到了不同领域科学家的集中关注与深入探索。然而,随着高新技术的飞速发展和我们对高精度海量个体交互信息获取能力的不断提升,群体系统的结构分析、群体交互与智能决策这一科学问题面临重要挑战。本研究课题重点关注群体系统中个体交互博弈、策略演化、个体智能决策等方面的问题,探索复杂网络上群体交互博弈。课题组通过向学生介绍演化博弈论、网络科学等基础知识为出发点,进一步通过辅助阅读经典文献、激发提出科研问题、探索科研问题等方式,为学生提供探索群体智能相关问题的平台,优秀者可在短期科研训练结束后继续参与到课题组的研究之中,共同发表学术发现。

参考文献:
Li, A., Zhou, L., Su, Q., Cornelius, S. P., Liu, Y.-Y., Wang, L. & Levin, S. A. Evolution of cooperation on temporal networks. Nature Communications 11, 2259 (2020).

技能要求:数理基础扎实,掌握基本的计算机编程,对理论探索有兴趣。

时期:6个月以上

网络能控性

合作教师: 李阿明

课题:近年来,网络科学的迅速发展为我们理解、分析与控制多机器人协作、智能电网、智能交通等复杂系统提供了有效的切入点。虽然静态网络相关探索已取得突破性进展,但是实际系统中的网络往往是随着时间演化的时序网络,即网络中的节点与连边不总是处于被激活的交互状态。换言之,网络本身演化的时间尺度并不总是长于其上系统动力学相对应的时间尺度。本课题旨在分析时序网络在演化的同时,其对应系统能控性的变化,以及如何设计相应的外部控制输入,使得系统状态沿着期望方向演化。课题组将带领学生了解网络控制这一前沿领域的相关基础知识,研读领域经典文献,提出并探究具有创新性的科学问题,亲身体会时序网络控制对于各类重大工程技术系统设计的重要意义。优秀者可在短期科研训练结束后继续参与到课题组的研究之中,共同发表学术发现。

参考文献:
Li, A., Cornelius, S. P., Liu, Y.-Y., Wang, L. & Barabási, A.-L. The fundamental advantages of temporal networks. Science 358, 1042-1046 (2017).

技能要求:数理基础扎实,掌握基本的计算机编程,对理论探索有兴趣。

时期:6个月以上

不完全信息二人博弈的机器学习算法分析

合作教师:邓小铁

题目:实现不完全信息下博弈的简单系统框架、案例分析。

技能要求:坚实的计算机编程基础,数学基础,对理论探索感兴趣。

周期:按任务和工作量安排不同:1-3个月或者2-6个月或者3-9个月。

基于机器学习的机制设计研究

合作教师:邓小铁

题目:机制设计在互联网广告、拍卖、政策制订、区块链中扮演着核心角色。我们拟采用机器学习进行自动机制设计,并进行相关的理论分析。

参考文献:https://arxiv.org/abs/2110.06880

技能要求:扎实的数学基础,优秀的编程能力,有深度学习经验者优先。

周期:3-9个月,以NeurIPS/ICLR/AAMAS为投稿目标。

Grounding Language for Generalization in Reinforcement Learning

合作教师:卢宗青

题目:泛化性是强化学习中的重要问题也是难题,真正实现泛化性需要智能体对MDP具有抽象的表示能力,目前来看还很难做到这一点。但我们可以换一个角度思考。人类语言是高度抽象的表示,智能体能不能借助人类语言实现策略泛化性。本研究将探索结合自然语言实现强化学习策略泛化性,让智能体学会grounding manuals/instructions to MDPs,从而实现泛化性。

参考文献:https://arxiv.org/abs/2101.07393

技能要求:熟悉强化学习的基本概念,有调试强化学习算法的经验。

周期: 大于6个月。

非完美信息博弈中的强化学习算法设计与应用

合作教师:李文新

题目:许多传统游戏属于非完美信息博弈,如德州扑克、麻将、斗地主等,其最优策略需要考虑到非完美信息带来的不确定性。我们调研该领域的研究现状,并探索如何将强化学习算法应用到特定游戏环境中,减少随机性带来的训练不稳定问题,训出高水平的智能体。

参考文献:

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning


技能要求:熟悉强化学习的基本原理,有调试强化学习算法的经验,对游戏AI研究感兴趣。

基于风险度量的强化学习算法研究

合作教师:彭一杰

研究内容:经典的强化学习算法通常是围绕期望准则设计的,智能体在与环境的交互中追求期望回报的最大化。期望反映了智能体表现的平均水平,而对其分布尾部的极端表现没有约束。风险度量是一族考虑了系统在极端环境下表现水平的度量工具,在金融投资等领域的风险管理中已有广泛的应用。本课题尝试将不同的风险度量融入智能体的决策中,提出围绕风险准则迭代的强化学习算法,并向更复杂的多智能体训练场景拓展。不同的风险度量将放大人们所感兴趣的极端表现的重要性,使得智能体的总体表现更为稳健。

课题要求:熟悉经典强化学习算法理论;熟悉Python语言及Pytorch框架的使用。

参考文献

[1] Chow Y, Ghavamzadeh M, Janson L, et al. Risk-constrained reinforcement learning with percentile risk criteria[J]. The Journal of Machine Learning Research, 2017, 18(1): 6070-6120.

[2] Prashanth L A, Jie C, Fu M, et al. Cumulative prospect theory meets reinforcement learning: Prediction and control[C]//International Conference on Machine Learning. PMLR, 2016: 1406-1415.


周期:6-12个月。

基于似然比方法的机器学习算法研究

合作教师:彭一杰

研究内容:在现代机器学习算法中神经网络充当着重要的角色,对其梯度估计方法的改进将广泛影响机器学习的应用发展。目前主流的反向传播方法依赖于计算图和链式求导法则,其对计算图的连续性和已知性要求约束了网络形态的设计,也迫使梯度估计只能做到神经层内的并行。本课题尝试将似然比技巧应用到神经网络的梯度估计中,提出不受前述依赖制约的似然比梯度估计方法。似然比方法可以处理不连续的甚至未知的计算图,在以脉冲信号为输入的新一代神经网络中有着独特的应用前景;同时,该方法理论上还具有在整个神经网络中并行的潜力。

课题要求:熟悉机器学习算法的基本理论;熟悉Python或C++语言的使用;对并行化编程有经验者优先。

参考文献
[1] Peng Y, Xiao L, Heidergott B, et al. A new likelihood ratio method for training artificial neural networks[J]. INFORMS Journal on Computing, 2021.
[2] Tavanaei A, Ghodrati M, Kheradpisheh S R, et al. Deep learning in spiking neural networks[J]. Neural Networks, 2019, 111: 47-63.

基于动态仿真抽样的蒙特卡洛树搜索算法理论与应用

合作教师:彭一杰

研究内容:传统上蒙特卡洛树搜索采用机器学习领域的多臂老虎机问题中的UCT算法做节点选择,但该问题的假设与蒙特卡洛树搜索的结构并不吻合。多臂老虎机问题中每一步都可以获得回报,而蒙特卡洛树搜索中需要到终止节点才能获得回报;此外,UCT算法仅利用了节点估计的均值与节点被访问的次数,而未利用如节点估计的方差等其它信息。课题尝试将仿真优化领域的统计排序与选择问题的策略融入蒙特卡洛树搜索中,提出采用动态仿真资源分配策略做节点选择的高效蒙特卡洛树搜索算法,并在对弈游戏中应用;开发对弈游戏平台,便于开展算法研究。

课题要求:熟悉动态规划和强化学习算法;熟练使用Python/Matlab编程。

参考文献:
[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. nature, 2016, 529(7587): 484-489.
[2] Peng Y, Chong E K P, Chen C H, et al. Ranking and selection as stochastic control[J]. IEEE Transactions on Automatic Control, 2018, 63(8): 2359-2373.
[3] Li Y, Fu M C, Xu J. An Optimal Computing Budget Allocation Tree Policy for Monte Carlo Tree Search[J]. IEEE Transactions on Automatic Control, 2021.

基于强化学习算法的供应链管理实践

合作教师:彭一杰

研究内容:强化学习任务通常使用马尔科夫决策过程(Markov Decision Process,简称MDP)来描述,其包含两种最基本的元素:状态与动作,而在某个状态下执行某种动作,这便是一种策略。库存管理和物流交通管理是供应链管理中至关重要的两个部分,在库存管理中,因为库存量大,库存需求波动较大,库存补货速度缓慢等问题使得对其管理存在严峻挑战,现有研究表示:通过灵活设定状态、动作等要素,基于合理的强化学习算法选取最优策略,可以达到减少库存周转时间,降低库存成本等目的[1]。物流交通管理直观上是一个动态连续的过程,但通过合适的离散化处理以及函数逼近方法也能够使其适应强化学习的框架。本课题拟从上述两方面出发,研究设计出在大规模状态空间中,比现存算法更优的强化学习算法,并提炼出统一性的框架,使其成为解决该类问题的通用方法,从而提高问题解决能力,减少为类似大规模问题逐一精确设计启发式算法的时间。

课题要求:熟悉运筹学、动态规划和强化学习算法;熟练使用Python/Matlab编程。

参考文献
[1] Gijsbrechts, Joren, et al. “Can deep reinforcement learning improve inventory management? performance on dual sourcing, lost sales and multi-echelon problems.” Manufacturing & Service Operations Management (2021).
[2] Boute, Robert N., et al. “Deep reinforcement learning for inventory control: a roadmap.” European Journal of Operational Research (2021).

农地经营权抵押贷款信用风险评价

合作教师:彭一杰

研究内容:金融作为现代经济的核心,在乡村振兴多元投入格局中具有基础地位和支撑杠杆作用,其风险治理水平直接影响着新时期农业农村高质量发展的稳定性。十八大以来,中央政府多次强调防范化解重大风险,尤其是金融风险,并相继颁布了系列治理措施。近些年,农村金融产品与服务的创新步伐不断加快,农村金融改革创新进程中的潜在风险问题值得高度重视。作为农地“三权分置”制度框架下我国农村金融改革的重要创新,农地经营权抵押融资在解决农户贷款抵押难、担保难问题,盘活农村存量资产、活跃农村经济方面发挥了显著作用。与此同时,不容忽视的是,因受限于土地产权交易市场发展滞后、农业经营主体信用体系不完善、抵押物价值不稳定以及风险管理体系不健全等多重因素,农地经营权抵押贷款业务开展面临着风险与收益不对等的困境。前期试点地区的部分银行或信用社农地经营权抵押贷款供给存在规模收缩或基本停滞现象。在此背景下,系统开展农地经营权抵押融资风险评估,尤其是农地抵押贷款业务的核心风险——信用风险评价研究,对于破解农地经营权抵押贷款症结、提高农地金融市场有效性具有重要现实意义。梳理已有研究看,已有研究集中于农地抵押贷款风险分类、引致因素及防控措施的定性分析,仅有少量学者对农地抵押贷款的风险因素进行了识别和评价,另有个别研究运用Logistic回归分析农地抵押贷款信用风险影响因素并预测违约概率,同时依据CreditRisk+模型,对信用风险衡量进行了研究。然而,已有研究存在两方面的不足:一是农地抵押贷款信用风险的关键参数估计方法存在不足,运用Logistic回归预测违约概率往往存在“信用得分很高,但违约率较高”的悖论;二是现有的个体信用风险研究大多只是得出个体信用评分,尚不能实现在估算出金融消费者的信用得分基础上,进一步计算出贷与不贷的临界值。而这个临界值才是真正可以为金融机构提供贷款决策参考的依据。

研究目标:
(1)利用机器学习相关方法(如随机森林、深度森林等)优化信用风险的关键参数估计,以提高信用得分评价有效性;
(2)可以在信用评分基础上,估算出贷与不贷的临界值(可以用系统仿真进行模拟)。

课题要求:
(1)具有金融风险相关的研究基础 
(2)会运用机器学习、系统仿真相关方法

参考文献:
[1]吕德宏,张无坷.农地经营权抵押贷款信用风险影响因素及其衡量研究——基于CreditRisk+模型的估计,华中农业大学学报(社会科学版),2018(4):137-147.
[2] Milad Malekipirbazari, Vural Aksakalli. Risk assessment in social lending via random forests. Expert Systems with Application,2015,42:4621-4631.
[3] X. Ma, J. Sha, D. Wang, Y. Yu, Q. Yang, X. Niu, Study on A Prediction of P2P Network Loan Default Based on the Machine Learning LightGBM and XGboost Algorithms according to Different High Dimensional Data Cleaning, Electronic Commerce Research and Applications (2018), doi: https://doi.org/10.1016/j.elerap.2018.08.002




申请方式及其他




申请方式

请将简历发送至:cmar@pku.edu.cn
邮件标题:AI院多智能体中心学术冬令营+项目名称+合作教师姓名

一则招聘

什么?看了以上的项目信息,你不仅想参加中心的项目,还想加入北大与众多老师们一起从事研究?

光华思想力研究员招募啦~

光华思想力研究员属于光华管理学院院聘合同制员工,可短期(一年)或长期从事研究。要求为计算机相关专业的研究生,薪酬和福利面议,有意者请联系cmar@pku.edu.cn。

期待你的加入~