加载头像
<BTC> 网络
<ETH> The DAO、反思、美链
<ETH> GHOST、难度调整、权益证明
RLHF(二):偏好数据采集
RLHF(一):LLM post-training
强化学习系列(五):Policy Gradient
强化学习系列(四):DQN算法
强化学习系列(三):Model-Free Control
avatar
status
这里是Peter的个人博客,记录生活点滴,分享平时的学习心得。欢迎交流学习~
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體