Document Details

Uploaded by Deleted User

北京师范大学

2024

于恒

Tags

高级人工智能 人工智能 机器学习 计算机科学

Summary

这份文档包含高级人工智能课程的复习资料,涵盖了人工智能的基本概念、图灵测试、达特茅斯会议等内容。资料内容主要介绍人工智能的概念性定义,包括机器智能、类脑智能和群体智能,以及不同时期的人工智能发展,例如1950年代行为学派、符号学派等。

Full Transcript

高级人工智能 于恒 北京师范大学 人工智能学院 2024.10 什么是人工智能? · 概念性定义 一 机器智能:使机器具备计算和“判别”的行为能力 ·Artificial intelligence(AI) is the branch of computer science concerned with making computers intelligent,just like people. 一 类脑智能:仿...

高级人工智能 于恒 北京师范大学 人工智能学院 2024.10 什么是人工智能? · 概念性定义 一 机器智能:使机器具备计算和“判别”的行为能力 ·Artificial intelligence(AI) is the branch of computer science concerned with making computers intelligent,just like people. 一 类脑智能:仿生智能,让机器像人或生物一样思考 ·AI is the multidisciplinary study of human intelligence through attempts to artificially model it. 一 群体智能:社会智能的机器重现与利用、涌现智能 ·Intelligenceemerged from collective behaviors of lots of agents without or with little intelligence if God can make natural life,man can make artificial life 构建人工智能是人类孜孜不倦的追求 图灵测试 A.M.Turing,Computing Machinery · 图灵问题 and Intelligence,Mind,59:433-460, 1950. -Can Machine Think? 阿兰 · 图灵 (1912-1954) 现代计算机之父 · 模仿游戏 图 灵 测 试(Turing Testing) 一个人(C) 在完全不接触对方 (A 和B) 的情况下,和 对方进行一系列的问答,如果在相当长时间内,他无法 根据这些问题判断对方是人 (B) 还是计算机(A), 那么,就认为该计算机具有同人相当的智能,(即计算 机是能思维的) 图灵预言:到2000年,机器可以做到5分钟内以30%的可能性 让普通人分辨不出其是机器还是人 ChatGPT能做到吗? 第一章人工智能概述  简述题:被誉为人工智能起点的会议是什么,为什 么说它是起点? 达特茅斯会议 · 1956年在达特茅斯学院发起 · 发起人 约翰 ·麦卡锡 (1927-2011) 一约翰 · 麦卡锡(人工智能之父,Lisp语言发明者,1971年获图灵奖) 一马文 ·明斯基(1969年获图灵奖,首个获图灵奖的人工智能学者) 一克劳德 ·香农(信息论之父) 一纳撒尼尔·罗彻斯特(IBM700系列计算机首席工程师,发明了首个汇编语言) · 会议成就 DARTMOUTH 一首次提出了“人工智能”一词 一 会议三大亮点 · 明斯基的Snare ·麦卡锡的α-β搜索法 · 西蒙和纽厄尔的“逻辑理论家” 第一章人工智能概述  简述题:请简要画出人工智能的发展路线图 人工智能路线图 1951年 1990s初 2010s 明斯基提出 多智能体 强化学习 行为学派 “智能体” 研究兴起 兴起 1956年 1965年 1990s 符号学派 西蒙和纽厄尔提出 费根鲍姆设计了第一个 AI和DB融合催生 “逻辑理论家” “专家系统” “知识库系统” 1950s 1975年 2010s 计算学派 卡拉克等人提出 韦伯斯提出 脑科学、深度学习 人工神经网络 感知机”和BP算法 研究兴起 1950s 1960s 1970s 1980s 1990s 2000s 2010s 1956年 达特茅斯会议 人工智能的 人工智能的 人工智能的 提出“人工智能” 发展期 寒冬期 复 兴 第二章 人工神经网络 2.2 几种典型的激活函数 激活函数——执行对该神经元所获得的网络输入的变 换,也常称为激励函数、活化函数:o=f(net) f(net)=k*net+c o c net o 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 2.2 几种典型的激活函数 γ if net≥θ f(net)= k*net if |net|0为一常数,被称为饱和值, γ 为该神经元的最大输出。 -θ θ net -γ 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 2.2 几种典型的激活函数 o β if net>θ f(net)= -γ if net≤θ β βγθ均为非负实数,θ为阈值。 二值形式: 1 if net>θ f(net)= 0 θ net 0 if net≤θ 双极形式: 1 if net>θ -γ f(net)= -1 if net≤θ 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 2.2 几种典型的激活函数 不同的作用函数,可构成不同的神经元 模型。 非对称型Sigmoid函数:简称S型作用函数,是可微的,用下式表示: 如图(a)和(b) 1 1 f ( x)  x 或 f ( x )   x 0 1 e 1 e 图 2-2-3 (a)  1 (b)  2 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 对称型 Sigmoid 函数 是可微的,用下式表示:如图(a)和(b)  x 1 e x 1  e f (x)  或 f (x)   x ,  0 1 e x 1 e x  x e  e 或 f ( x )  x  x , 0 e  e 图 2-2-3 (c)  1 (d)  2 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 对称型阶跃函数 图(e),用下式表示:  1 , x0 f ( x)    1 , x0 用阶跃作用函数的神经元,称阈值逻辑单元。 2024-09-13 北京师范大学 人工智能学院 于恒 * 第二章 人工神经网络 高斯函数: 是可微的,分一维和高维,用下式表示:如图(a)和(b) ( net   )2 ( xi  i )T ( xi  i )    2 j 2 f (net )  e f (X )  e 2 2 一维 二维 2024-09-13 北京师范大学 人工智能学院 于恒 * 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 M:100 K: 3 C-In: 256 C-out:256 时间复杂度= =100*100*3*3*256*256 = 5898240000 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 第一次卷积: M:100 K: 1 C-In: 256 C-out:64 时间复杂度 1 = =100*100*1*1*256*64 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 第二次卷积: M:100 K: 3 C-In: 64 C-out:256 时间复杂度 2 = =100*100*3*3*256*64 总时间复杂度= 时间复杂度1+时间 复杂度2= 1638400000 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 M:100 C-In: 256 空间复杂度 =100*100*256 = 2560000 例题 对于一个输入为100 × 100 × 256的特征映射组, 使用3 × 3的卷积核, 输出为100 × 100 × 256的特征映射组的卷积层, 求其时间和空间复 杂度. 如果引入一个1 × 1卷积核, 先得到100 × 100 × 64的特征映 射, 再进行3 × 3的卷积, 得到100 × 100 × 256的特征映射组, 求其 时间和空间复杂度 M1:100 M2:100 C-In1: 64 C-In2: 256 空间复杂度 =100*100*256+100*100*64 = 3200000 例题 解答 1.100 × 100 × 256 使用3 × 3的卷积核输出100 × 100 × 256 计算次数: 100 × 100 × 256 * 3 × 3 × 256 = 5898240000 空间:100 × 100 × 256 1.100 × 100 × 256 使用1 × 1的卷积核输出100 × 100 × 64 再使用3 × 3的 卷积核输出100 × 100 × 256 计算次数: 100 × 100 × 64 * 1 × 1 × 256 + 100 × 100 × 256 * 3 × 3 × 64 = 1638400000 空间:100 × 100 × 64 + 100 × 100 × 256 说明 计算 W × H × C 使用M × N的卷积核输出W' × H' × C' 计算次数 则显然有 卷积核的维度为C,个数为C' 考虑输出的特征图每一个像素点都是由卷积核进行卷积得到 每个卷积操作计算次数为: M × N × C 故总计算次数 = 特征图像素数 × 每次卷积计算次数 = W' × H' × C' × M × N × C 回顾:自注意力 基于自注意力的全连接神经网络 连接权重 由注意力机制动态生成 也可以看作是一种全连接的图神经网络 回顾:自注意力示例 图片来源:http://fuyw.top/NLP_02_QANet/ QKV模式(Query-Key-Value) Thinks Machines Thinks Machines Thinks Machines 图片来源:http://jalammar.github.io/illustrated-transformer/ 多头(multi-head)自注意力模型 图片来源:http://jalammar.github.io/illustrated-transformer/ Transformer 知识表示的发展 语义网络 知识抽取的典型案例 结构化知识: 百科知识抽取 知识抽取的典型案例 结构化知识: 百科知识抽取 知识抽取的典型案例 无结构化知识: 从自然语言中抽取 知识抽取的典型案例 无结构化知识: 实体识别 知识抽取的典型案例 无结构化知识: 关系抽取 知识抽取的典型案例 无结构化知识: 事件抽取 知识融合 知识表示学习 知识表示学习 知识表示学习 博弈案例 田忌赛马 □(田)忌数与齐诸公子驰逐重射。孙子见其马足不甚相 远,马有上、中、下辈。于是孙子谓田忌曰:“君弟重 射,臣能令君胜。”田忌信然之,与王及诸公子逐射千 金。及临质,孙子曰:“今以君之下驷与彼上驷,取君 上驷与彼中驷,取君中驷与彼下驷。”既驰三辈毕,而 田忌一不胜而再胜,卒得王千金。 第一场 第二场 第三场 获胜方 齐威王 0 田忌 齐王 上 中 下 田忌1 上 中 下 齐王 第一场 田忌2 上 下 中 齐王 第二场 田忌3 中 上 下 齐王 中等马 田忌4 中 下 上 齐王 第三场 田忌5 下 上 中 田忌 田忌6 下 中 上 齐王 纳什均衡 纳什均衡 定义:如果一个局势下,每个局中人的策略都是相对其 他局中人当前策略的最佳应对,则称该局势是一个纳什 均衡 纳什均衡就是博弈的一个均衡解 是一个僵局 即给定其他人不动,没有人有动的积极性 谁动谁吃亏 纳什均衡 纳什均衡 定义:如果一个局势下,每个局中人的策略都是相对其 他局中人当前策略的最佳应对,则称该局势是一个纳什 均衡 纳什均衡就是博弈的一个均衡解 是一个僵局 即给定其他人不动,没有人有动的积极性 谁动谁吃亏 纳什均衡 例子:囚徒困境 纳什均衡:双方都坦白 一方保持策略不变(坦白),另一方如果改变策略(抗拒), 其效用会降低(从-3变成-10) 囚徒B 抗拒 坦白 囚徒 A 抗拒 -1,-1 -10,0 坦白 0,-10 -3,-3 纳什均衡 例子:剪刀-石头-布 不存在纯策略的纳什均衡 玩家二 剪刀 石头 布 玩家 一 剪刀 0,0 -1,1 1,-1 石头 1,-1 0,0 -1,1 布 -1,1 1,-1 0,0 社会最优 帕累托最优 以意大利经济学家维尔弗雷多· 帕累托的名字命名 对于一组策略选择(局势),若不存在其他策略选择使所 有参与者得到至少和目前一样高的回报,且至少一个参与 者会得到严格较高的回报,则这组策略选择为帕累托最优 社会最优 使参与者的回报之和最大的策略选择(局势) 社会最优的结果一定也是帕累托最优的结果 帕累托最优不一定是社会最优 社会最优示例 囚徒困境案例 囚徒B 抗拒 坦白 囚徒 A 抗拒 -1,-1 -10,0 坦白 0,-10 -3,-3 帕累托最优的决策组合一共有3个,分别是(坦白,抗拒),(抗拒,坦白) 和(抗拒,抗拒),纳什均衡策略组合(坦白,坦白)不是帕累托最优,社 会最优策略组合是(抗拒,抗拒) 社会最优示例 案例 从源点s到目标点t有两条通路,第一条的代价恒为1,第 二条的代价和选择该路径的人数呈正比 C(x) = 1 s t C(x) = x 纯策略 所有人选择第一条路径:总代价为1 所有人选择第二条路径:总代价为1 混合策略 以概率 选择第一条路,以概率1 − 选择第二条 期望代价: + 1 − 2 = 2 − + 1 最优策略是: = 1/2 机制设计的失败案例 案例3 C(x) = x u C(x) = 1 C(x) = x u C(x) = 1 s t s C(x) = 0 t C(x) = 1 C(x) = x C(x) = 1 C(x) = x v v 左图的情形 期望代价是:1/2+1 x* (x+1) + (1-x) (1+1-x) => 2x^2-2x+2 在u和v之间修一条代价为0的高速路,会提高社会效用吗? 社会最优解:以概率1/2走路径s u t,以概率1/2走路径s v t, 以概率0走路径s u v t ,此时的期望代价为1/2+1 纳什均衡解:以概率1走路径s u v t,此时的期望代价为2 课堂思考题 海盗分金币 问题描述:有5个海盗抢到了100个金币,经过激烈争 论,就如何分配达成以下协议: 抽签决定每个人提分配方案的顺序 抽到1号签的海盗首先提出自己的分配方案,然后所有人 表决(包括方案提出者) ,当且仅当半数或超过半数以上 的人同意的时候,才按照他提出的方案执行,否则他会被 扔进海里 1号海盗的方案如果未被通过,那么2号海盗提自己的方案, 规则和上述一样,直到某个方案通过 给出最终的分配方案 提示:从后往前回滚 海盗分金币 从后向前回滚 如果前三个海盗都死了,只剩最后两个海盗,那么4号 海盗可以提出分配方案(100 ,0),他自己同意,满 足规则,所以会执行 4 (100,0) 海盗分金币 所有的海盗都知道这一点,因此第三个海盗会给 出如下策略 □如果前两个海盗死了,第三个海盗为了使自己的方案通 过,并使自己获得最大的利益,那么他的分配方案即为 (99,0,1),3号和5号肯定会同意。因为5号这样至 少还能得到1个金币 3 (99,0,1) 不同意 同意 结束 4 (100,0) 海盗分金币 同理,可以推出2号海盗的分配方案为(99,0, 1,0) 2 (99,0,1,O) 同意 不同意 结束 3 (99,0,1) 同意 不同意 结束 4 (100,0) 海盗分金币 最 终 , 1 号 海 盗 的 方 案 ( 9 8 , 0 , 1 , 0 , 1 ) (98,0,1,0,1) 同意 不同意 结束 2 (99,0,1,0) 同意 不同意 (99,0,1) 结束 3 同意 不同意 结束 4 (100,0) maxmin 策略示例 性别大战 解得 妻子的maxmin 策略 □ 1/3概率选择韩剧,2/3概率选择体育 同理,丈夫的maxmin 策略 □ 2/3概率选择韩剧,1/3概率选择体育 强化学习 强化学习:Reinforcement learning 目标:学习从环境状态到行为的映射,智能体选择能够 获得环境最大奖赏的行为,使得外部环境对学习系统在 某种意义下的评价为最佳 区别于监督学习 监督学习是从标注中学习 Learning from a training set of labeled examples provided by a knowledgeable external supervisor Focusing on generalization capacity 强化学习是从交互中学习 Learning from interactions with environment 4 强化学习的要素 Environment 主体:智能体和环境 □状态、行为和奖励 State Action Reward Agent 要素 □策略:policy 状态到行为的映射,包括确定策略和随机策略两种 □奖励:reward 关于状态和行为的函数,通常具有一定的不确定性 □价值:value 累积奖励或长期目标 □环境模型:model of environment 刻画环境对行为的反馈 9 蚁群寻食过程分析 假设蚂蚁每经过一处所留下的信息素为一个单位,则经过36个时间单 位后,所有开始一起出发的蚂蚁都经过不同路径从D点取得了食物, 此时ABD的路线往返了2趟,每一处的信息素为4个单位,而 ACD的路 线往返了一趟,每一处的信息素为2个单位,其比值为2:1。 寻找食物的过程继续进行,则按信息素的指导,蚁群在ABD路线上增 派一只蚂蚁(共2只) ,而ACD路线上仍然为一只蚂蚁。再经过36个 时间单位后,两条线路上的信息素单位积累为12和4 ,比值为3:1。 若按以上规则继续,蚁群在ABD路线上再增派一只蚂蚁(共3只), 而ACD路线上仍然为一只蚂蚁。再经过36个时间单位后,两条线路上 的信息素单位积累为24和6 ,比值为4:1。 若继续进行,则按信息素的指导,最终所有的蚂蚁会放弃ACD路线, 而都选择ABD路线。 闭卷考试时间: 11月22日 18:00 - 20:00

Use Quizgecko on...
Browser
Browser