YEY Blog

Life is a long long journey.

人工智能自动规划 10:更高效的强化学习:回报设计和 Q-函数逼近

墨尔本大学 COMP90054 课程笔记

Lecture 10 更高效的强化学习:回报设计和 $Q$-函数逼近 主要内容: 动机 $Q$-函数逼近 回报设计和初始化 $Q$-函数 总结 1. 动机 1.1 学习成果 给定一些已知特征,手动应用线性 $Q$-函数逼近来求解小规模 MDP 问题。 选择合适的特征,设计并实现 $Q$-函数逼近,以实现无模型强化学习技术,从而自动求解中等规模的 MDP 问题...

人工智能自动规划 09:无模型强化学习:Q-学习 和 SARSA

墨尔本大学 COMP90054 课程笔记

Lecture 09 无模型强化学习:$Q$-学习 和 SARSA 主要内容: 动机 强化学习 $Q$-学习 SARSA 总结 1. 动机 1.1 学习成果 识别在哪些情况下,无模型强化学习适用于求解 MDP 问题。 解释无模型规划与基于模型规划之间的差异。 应用 $Q$-学习 和 SARSA 手动解决小规模 MDP 问题,并编写 $Q$-学习 和 ...

人工智能自动规划 08:蒙特卡洛树搜索:利用和探索的权衡

墨尔本大学 COMP90054 课程笔记

Lecture 08 蒙特卡洛树搜索:利用和探索的权衡 这节课我们将学习 蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)。蒙特卡洛树搜索是一种用于解决强化学习问题的新方法。 MCTS 通常用于 在线决策(online decision) 或者 在线学习(online learning)。 与之相对的被称为 离线学习(offline learning),在离...

人工智能自动规划 07:马尔可夫决策过程(MDP)

墨尔本大学 COMP90054 课程笔记

Lecture 07 马尔可夫决策过程(MDP) 不同于之前基于搜索的规划,从这节课开始,我们将学习基于强化学习的规划。我们将从基础的 马尔可夫决策过程(Markov Decision Process,MDP) 开始学习,它是所有强化学习的基础模型,我们可以利用它解决一些强化学习问题。马尔可夫过程松弛了很多之前的经典规划中的假设,之后,我们将学习一些强化学习方法,它们松弛的假设要更多。 ...

自然语言处理 13:形式语言理论和有限状态自动机

墨尔本大学 COMP90042 课程笔记

Lecture 13 形式语言理论和有限状态自动机 在接下来的两周,我们将学习 句法(syntax)相关内容。和目前为止我们学过的内容相比,这部分内容会比较偏理论。 1. 形式语言理论 1.1 什么是语言? 目前为止,我们见过了一些处理单词、句子和文档等符号序列的方法: 语言模型 隐马尔可夫模型 循环神经网络 但是,这些模型都没有涉及到语言的本质,因为它们可以用于处理任...