强人工智能软件、人的奖惩系统(强化学习系统)
强人工智能软件、人的奖惩系统(强化学习系统)
奖惩系统是我的智能理论的核心,它对标学术界的强化学习系统,但有关强化学习系统的理论太过初级。
其实只要是我关于学习的文章都会提到奖惩系统,我写本文的目的是为了更系统、深入的讨论奖惩系统,使大家能够对奖惩系统能够有个更全面的认知,并为强人工智能的奖惩系统的编程提供坚实的理论支持。
结合《拟人智能的实现》这本书来看本文,能够更好的理解本文的相关论述。
《强人工智能软件、人的奖惩系统(强化学习系统)》这篇文章的链接如下:
https://www.scirp.org/journal/paperinformation?paperid=146949
https://www.oalib.com/articles/6876044
摘要:奖惩系统是人具有智能的根本原因之一,强人工智能软件要具有真正的智能,必须具有适当的奖惩系统。本文从编程与拟人角度讨论了强人工智能的奖惩系统的结构功能及一些重要的奖惩现象。并在此基础上,讨论了,根据我的理论编程获得的奖惩系统是如何在目的下处理刺激信息,如何通过奖惩学习使强人工智能软件的思想行为与环境相适应,并加快提高它学习适应环境的速度、能力。
前言
奖惩系统(与强化学习系统对应)是人和强人工智能软件获得智能的关键。适应是人的奖惩系统进化形成的根本原因,也是我们设计强人工智能软件奖惩系统结构功能的根本标准。
强人工智能是当今科学界的热点。强人工智能的关键是智能,而学习与适应是智能最重要的特点。奖惩中枢与学习【1】这篇文章证明了,智能实体要具有学习与适应环境的能力,它就必须有逃避惩罚与追求奖赏的能力,也就是说必须具有奖惩中枢及奖惩预期中枢。这里的奖惩学习与强化学习相对应,深度学习正因为引入了强化学习的概念,才使深度学习得到大的发展。但深度学习的强化理论相对于智能生物的奖惩学习就显得过于浅显了,还不足以实现真正的智能。这篇文章主要介绍的是如何模拟人脑的奖惩系统进行编程设计,并讨论了这样编程设计的奖惩系统的结构功能,及如何在这些结构功能的基础上实现智能的。
强人工智能的学习必须是奖惩学习【1】,奖惩系统就是与奖惩学习有关的一些“大脑”结构。强人工智能软件只有具有相对完善的奖惩系统,才能获得真正的智能。
本文是在《拟人智能的实现》【2】这本书的基础之上进行的理论探讨,亦为如何进一步编程获得完整强人工智能软件提供理论依据。本文关于强度中枢与奖惩预期的关系,奖惩预期并不需要“完全”客观的反应奖惩的认知及目的是如何涌现的讨论对我们理解智能是如何形成的至关重要。
《拟人智能的实现》这本书的第十一章(对环境的适应与产生智能的必要条件)从理论上证明了智能实体要实现真正的智能必须具有奖惩、奖惩预期、目的、注意力的分配这些功能及与这些功能相对应的相关结构。这些结构与功能就是本文讨论的奖惩系统的结构与功能。奖惩系统包含奖惩中枢、奖惩预期中枢、状态中枢、强度中枢等中枢。人脑的奖惩系统除了包含边缘系统中的大多数结构外,应该还包含大部分额叶皮质。
奖惩预期是思想行为的动力,人(强人工智能软件)的任何有意识的思想行为都存在奖惩预期。通过长期的奖惩学习,人(强人工智能软件)的思想行为模式最终是与环境相适应的思想行为模式。通过奖惩学习对“大脑”兴奋的选择、强化、抑制作用,最终,所有的有意识的思想行为都会与奖惩相关,本文只讨论一些我认为重要的奖惩问题。
本文对强度中枢、奖惩预期、目的地讨论相比《拟人智能的实现》这篇文章的讨论更深入一些,使我们对强度中枢的编程及奖惩预期、目的地实现能够更容易一些。
