强化学习本质上就是一种引导/胁迫学习,也即通过奖励函数/损失函数施加一种引导/胁迫力驱动动力系统往某方向运动,从这个角度来看所有包含奖励/损失函数的学习系统都是强化学习,人也包括在内。
训练ai的目的是想获得对于自然界的结构有更好的映射,那么这种引导/胁迫力的构造就很重要了,一般就是通过简单的结果好坏评价进行引导/胁迫,但是过于粗糙,很难学到一些细腻的层次化结构,必须形成层次化的引导/胁迫力组合并结合过程奖励分发才能获得理想的结果,主要就是算力胁迫下的简化/理想化倾向、可信度估计及倾向、非平凡性估计及倾向、高价值估计及倾向、遇到无法解释的现象的解释获取倾向(好奇)等等。
如何实现?有一种高效的方法,即cot引导/胁迫,参考人类使用一些信条引导/胁迫自己的行为,ai一样可以,不过需要让ai先学会可信度估计和高价值估计,这样ai才能把高可信度高价值的cot放在学到的关联空间的重要位置。可信度估计和高价值估计本质上是一种思维方法/模式,通过大量任务训练并设计方案引导ai进行估计就能实现好的估计。不过要想实现低幻觉高质量的估计还得先有好的图像、触觉等其他模态直觉。
如何获得好的图像、触觉等模态直觉?这需要精确细腻的对齐和精确细腻的本模态层次化结构搭建。精确细腻的对齐需要大量高质量数据投喂,以及统一表示空间。本模态细腻精确的层次化结构搭建一样需要大量的数据投喂,另外就是算法设计,比如图像直觉需要通过三维重构和图像推理实现空间想象力,通过视觉感知模块收集图像素材和好的图像特征感知。
总的来看,目前算法数据算力三大要素最缺的就是数据,尤其是图像数据缺少大量层次化结构的数据(即一镜到底式的视角不断变化的等于视网膜分辨率的视频数据),算法主要是图像、触觉等模态缺一些。后续通过虚拟空间模拟和大量多样的高质量图像视频信息采集来获得图像数据。
训练ai的目的是想获得对于自然界的结构有更好的映射,那么这种引导/胁迫力的构造就很重要了,一般就是通过简单的结果好坏评价进行引导/胁迫,但是过于粗糙,很难学到一些细腻的层次化结构,必须形成层次化的引导/胁迫力组合并结合过程奖励分发才能获得理想的结果,主要就是算力胁迫下的简化/理想化倾向、可信度估计及倾向、非平凡性估计及倾向、高价值估计及倾向、遇到无法解释的现象的解释获取倾向(好奇)等等。
如何实现?有一种高效的方法,即cot引导/胁迫,参考人类使用一些信条引导/胁迫自己的行为,ai一样可以,不过需要让ai先学会可信度估计和高价值估计,这样ai才能把高可信度高价值的cot放在学到的关联空间的重要位置。可信度估计和高价值估计本质上是一种思维方法/模式,通过大量任务训练并设计方案引导ai进行估计就能实现好的估计。不过要想实现低幻觉高质量的估计还得先有好的图像、触觉等其他模态直觉。
如何获得好的图像、触觉等模态直觉?这需要精确细腻的对齐和精确细腻的本模态层次化结构搭建。精确细腻的对齐需要大量高质量数据投喂,以及统一表示空间。本模态细腻精确的层次化结构搭建一样需要大量的数据投喂,另外就是算法设计,比如图像直觉需要通过三维重构和图像推理实现空间想象力,通过视觉感知模块收集图像素材和好的图像特征感知。
总的来看,目前算法数据算力三大要素最缺的就是数据,尤其是图像数据缺少大量层次化结构的数据(即一镜到底式的视角不断变化的等于视网膜分辨率的视频数据),算法主要是图像、触觉等模态缺一些。后续通过虚拟空间模拟和大量多样的高质量图像视频信息采集来获得图像数据。