首页 > 工业AI

工程师使用 AI 进行更安全的现实世界学习

www.cechina.cn2023.01.16阅读 4227

  
       宾夕法尼亚州立大学的研究人员正在寻找一种更安全、更有效的方式来在现实世界中使用人工智能AI) 和机器学习ML)。
  他们使用模拟的高层办公楼,开发并测试了一种新的强化学习算法,旨在改善现实环境中的能源消耗和居住者的舒适度。
  宾夕法尼亚州立大学建筑工程助理教授Greg Pavlak近日在波士顿举行的美国计算机协会节能建筑环境系统国际会议(BuildSys)会议上介绍了他与人合著的论文《基于安全模型的强化学习的约束可微交叉熵方法》(Constrainted Differential Cross Entropy Method for Safe Model Based Reinforcement Learning)的结果。
  "强化学习代理探索他们的环境,通过反复试验来学习最佳行动。"Pavlak说。由于模拟现实世界的复杂性存在挑战,直接在现实世界中而不是在模拟中训练强化学习代理的趋势越来越明显。
  然而,研究人员表示,在真实环境中部署强化学习也面临着自身的挑战。
       
  "现实世界强化学习的两个关键要求是高效学习和安全考虑。"论文合著者Sam Mottahedi说,他在进行这项研究时是宾夕法尼亚州立大学建筑工程博士生。
  "一些强化学习系统需要数百万次交互和多年的时间来学习最佳策略,这在现实世界中是不切实际的。此外,他们有可能做出错误的决定,产生不良结果或导致不安全的结果。"他说。
  这种担忧促使研究人员提出了一个问题:我们如何开发算法,使这些类型的强化学习代理能够在现实世界中安全地学习,而不会做出导致机器损坏或人员受伤的非常糟糕的决定?
  研究人员使用现有的基于模型的强化学习方法来训练他们的模型做出决策。这个人工智能代理--控制算法--通过试错法与环境进行交互,对于他们的项目来说,环境就是一座建筑。
  "我们研究的安全关键因素是,不要破坏建筑物中的任何东西,并确保居住者始终舒适," Pavlak说,"虽然我们不必担心有人被汽车撞到,这是自动驾驶汽车强化学习的一个问题,但我们确实不得不担心建筑设备的操作限制。"
  研究人员希望在不违反热舒适性的情况下最大限度地减少能源使用,热舒适度从-3(太冷)到+3(太热)。如果控制算法完成的操作导致舒适度超出 -0.5/+0.5 范围,则需要及时调整。控制算法能够保持-0.5/+0.5,这是建筑行业可接受的标准。
  "例如,如果控制器设置为找到最佳能耗,它将因实现这种良好行为而获得奖励。"Pavlak说,"如果它做了一些增加能源消耗的事情,它将因不良行为而受到惩罚。这种试错法通过收集信息来加强学习,以便控制器可以决定下一步该做什么。"
  在这个项目中,研究人员模拟了芝加哥气候区的一座大型办公楼。在真正的 30 层建筑中,设备问题可能包括任何带有大型电机的设备,例如用于冷却建筑物的冷却器。
  大型电机不喜欢频繁的操作。例如,大型冷水机组可能每天打开一次,关闭一次,以避免损坏设备。如果AI代理行为导致一天内发生两次以上的冷水机组事件,将受到处罚。
  研究人员将他们基于模型的方法与其他常见的强化学习方法进行了比较,包括使用无模型算法。基于模型的代理可以计划其操作,因为它能够预测其奖励。无模型代理实际上需要执行操作才能从中学习。
  "无模型算法往往工作得很好,但违反了一些安全约束,"Pavlak说,"学习良好的行为也需要更多的时间,有时需要几年或几十年。"
  基于模型的学习速度比传统的无模型方法快50倍,在一个月内完成了另一种方法需要数年才能完成的工作。由于研究人员纳入了安全因素的方式,他们的模型对安全关键方面的违规行为更少,有时甚至为零。
  根据Pavlak的说法,增加安全约束使强化学习成为一种平衡利弊的算法。强化代理可以通过完全关闭电源来最大化能源消耗,这是一种良好的行为。但是,这样做会对居住者的舒适度产生负面影响,这是不良行为。
  展望未来,研究人员希望继续努力提高学习速度并减少整体学习时间。
  "当控制器从头开始时,它必须学习一切,"Pavlak说。"但是,一旦你为一栋建筑训练了控制器,你就可以在类似的建筑上试用它,或者在下一个项目中重复使用它的一部分。不用从头开始可能会带来更快的学习过程。"