type
status
date
slug
summary
tags
category
icon
password
能力模型
能力分类
省赛
全球总决赛
学习进度
中国总决赛
2024人工智能期末考试内容:
全部以PPT+实验为主,不超过这个范围
部分需要理解的概念可以上网查资料进行理解
📝 主旨内容
课件1-绪论
1.人工智能的概念(1956)
学术界于1956年正式提出“人工智能”。
目前主要的流派:思维理论、知识阈值理论、进化理论。
本课程中认为,智能是知识和智力的总和。
知识是一些智能行为的基础智力是获取知识并应用只是求解问题的能力“智能”的特征:感知能力、记忆和思维能力、学习能力、行为能力。
目前并没有权威的定义,一些学者的定义如下(不考):
- 人工智能是那些与人的思维相关的活动,诸如决策、问题求解和学习等的自动化。
- 人工智能是一种计算机能够思维,使机器具有智力的激动人心的新尝试。
- 人工智能是研究如何让计算机做现阶段只有人才才能做得好得事情。
- 人工智能是那些使知觉、推理和行为成为可能的计算的研究。
- 广义地讲,人工智能是关于人造物的智能行为,而智能行为包括知觉、推理、学习、交流和在复杂环境中的行为。
- 把已有的一些人工智能定义分为4类:像人一样思考的系统、像人一样行动的系统、理性的思考的系统、理性的行动的系统。
2.机器智能的检验——工程化思想
- 图灵测试(基于功能效果判定):图灵测试是由数学家和逻辑学家艾伦·图灵在1950年提出的一个思想实验,用于判断机器是否具有智能。在这个测试中,如果一个人(评判者)在与机器和另一个人进行交流时,无法区分哪个是机器,那么这台机器就可以被认为是具有智能的。图灵测试强调的是机器的外部行为和其与人类交流的能力。
- 中文屋子假设(约翰·西尔勒用以反驳强人工智能)(基于“心理级”判定):屋子和屋子里的人完全不懂中文,但按照图灵测试,可以判定屋子里有智能。塞尔认为即使被试者最终完美地骗过了屋外的人,使屋外的人认为他是懂中文的,但是实际上被试者对于中文是完全不理解的,在这个实验中可以将被试者看作计算机,规则书就是操作计算机的程序,计算机只是遵从程序,它对于它所在进行的工作并不理解,所以塞尔提出这个论证用来反驳强人工智能的观点。中文房间假设强调的是理解的本质,即是否仅仅通过模拟行为就能获得真正的理解。
- 两种测试的区别
- 目的:图灵测试旨在判断机器是否能够展现出智能行为,而中文房间假设质疑机器是否能够真正理解语言和思维。
- 焦点:图灵测试关注的是外部行为和交流能力,中文房间假设则关注的是内部理解和意识。
- 哲学立场:图灵测试支持功能主义,即认为智能可以由行为来定义;中文房间假设则支持认知主义,认为理解需要内在的认知过程。
3.强、弱人工智能
- 弱人工智能:仅能通过图灵测试的AI
- 强人工智能;像人一样思考
4.人工智能的诞生
- 四位学者在1955年提出了人工智能这一术语及研究范畴@达特茅斯学院(1956年开会)
- 让机器能像人那样认知、思考和学习,即用计算机模拟人的智能。
- 人工智能是以机器为载体所展示的人类智能,因此人工智能也被称为机器智能。
- 孕育期(1956年之前)——>形成期(1956-1969)——>发展期(1970-)
5.人工智能的研究方法分类及各自特点
智能的物理层面分类
- 脑智能:属于个体智能
- 群智能:属于社会智能
研究方法分类(三种方法论)
1.符号主义——心理模拟、符号推演。
- 心理学派、逻辑学派或叫符号主义。
- 擅长实现人脑的高级认知功能,如推理、决策。
- 用规则学。
- 如知识库、知识图谱。用于定理证明、问题求解、机器博弈。
- IBM“沃森”的推理。
2.连结(联结)主义——生理模拟、神经计算。
- 生理学派、连接(联结)主义。
- 擅长实现人脑的低级感知功能,如图像、声音的识别。
- 数据驱动的机器学习。深度学习,神经网络。
- 用大数据学(有监督)。
3.行为主义——行为模拟、控制进化。
- 行为主义、进化主义或叫控制论。
- 从经验中学习。
- AlphaGo带火的强化学习。
- 用问题引导(反馈牵引)。
4.其他
- 群体模拟,仿生计算。
- 博采广鉴,自然计算。
- 着眼数据,统计建模——SML。
5.三种主流方法对比‣
方法 | 学习模式 | 说明 | 优势 | 不足 | 例子 | ㅤ |
符号主义 | 用规则教 | 符号主义人工智能为核心的逻辑推理 | 与人类逻辑推理相似,解释性强 | 难以构建完备的知识规则库 | 知识图谱,IBM | ㅤ |
联结主义 | 用数据学 | 数据驱动为核心的机器学习 | 直接从数据中学 | 以深度学习为例:依赖于数据,解释性不强 | 识别,深度学习,神经网络 | ㅤ |
行为主义 | 用问题引导 | 探索与利用为核心的强化学习 | 从经验中进行能力的持续学习 | 非穷举式搜索而需更好策略 | AlphaGo | ㅤ |
6.人工智能的研究内容和领域
基本研究内容(生活生产有哪些人工智能)
1.知识表示:将人类知识形式化或者模型化
2.机器感知:使机器具有类似人的感知能力
3.机器思维:对通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理
4.机器学习:研究如何使计算机具有类似人的学习能力,使它能通过学习自动地获取知识。
5.机器行为:计算机的表达能力,即“说”、“写”、“画”等能力。
研究领域(标题)
- 自动定理证明
- 博弈
- 模式识别:研究对象描述和分类方法的学科。
- 机器视觉:用机器人代替人眼进行测量和判断。
- 自然语言处理:研究如何让计算机理解人类语言。
- 智能信息检索
- 数据挖掘与知识发现
- 专家系统
- 自动程序设计
- 机器人
- 组合优化问题
- 人工神经网络
7.新一代人工智能的研究领域(方向)初步了解
- 大数据智能:从人工知识表达技术到大数据驱动知识学习。
- 群体智能:从聚焦研究“个体智能”到基于互联网络的群体智能。
- 跨媒体智能:从处理单一类型媒体数据到跨媒体认知、学习和推理。
- 混合增强智能:从追求“机器智能”到迈向人机混合的增强智能。
- 智能自主系统:从机器人到智能自主系统。
- 其他
- 数据驱动的机器学习系统:端云协同进化。
- 人机物协同增效。
- 科学计算:科学第三级。
课件2.1-机器学习概述(概念)
1.人工智能、机器学习、深度学习三者的关系
机器学习=找一个函数的能力
总结来说,人工智能是一个广泛的领域,机器学习是其子领域,而深度学习则是机器学习的一个特定类型。这三者之间的关系是层层递进、相互依存的。
内容 | 定义 | 差异 |
人工智能 | 人工智能是一个广泛的领域,涵盖了模拟人类智能的所有技术和算法。机器学习是人工智能的一个重要分支,专注于利用算法让机器从数据中学习并做出预测或决策。 | |
机器学习 | 机器学习(Machine Learning,简称ML)是人工智能的一个子领域,致力于构建和开发能够从数据中自动提取知识、学习规律并进行预测的算法。机器学习的应用十分广泛,例如分类、聚类、回归等。 | 机器学习的应用广泛,涵盖了分类、聚类、回归等多个方面。而深度学习的应用则主要集中于图像识别、语音识别、自然语言处理等领域。 |
深度学习 | 深度学习是机器学习的一个子领域,利用深度神经网络进行学习。深度神经网络具有多个隐藏层,能够自动提取数据的层次特征,适用于大规模数据和高维数据处理。 |
2.机器学习的三个步骤(如果包括step0就是四个)
- step0:what kind of function do you want to find?你想寻找怎样的函数?
- 在这个阶段,你需要明确你的任务是回归、分类、生成等,是深度学习还是神经网络
- step1:define a set of function.定义一系列的函数
- 这里指的是定义一组候选的模型或函数族。这些可以是不同的机器学习算法,比如线性回归、决策树、支持向量机、神经网络等。每个算法都可以视为一种尝试解决特定问题的函数形式。
- step2:goodness of function.函数的优点
- 在这个阶段,你需要评估每个候选函数的优点。这可能包括它们的表达能力、训练速度、对过拟合的抵抗力、对噪声的鲁棒性等。这通常涉及到对算法的理论分析和实验评估。
- step3:pick the best function.选择最好的函数
- 根据Step 2中的评估,选择最适合当前问题和数据集的函数或模型。这个选择可能基于多个因素,包括模型的预测准确性、训练时间、资源消耗等。
3.了解常见的机器学习任务及其区别(回归、分类、生成等)。
‣
‣
回归(函数)
- 回归是有监督学习的主要任务之一,它旨在预测连续的值。在回归任务中,我们希望找到输入数据和目标变量之间的最佳拟合线或曲面。回归算法有很多种,如线性回归、决策回归树和支持向量回归等。
- 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间互相依赖的定量关系的一种统计分析方法。
- 根据自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
- 其中线性回归分析可分为一元线性回归和多元线性回归。
分类(分界点和分界线)
- 分类是监督学习的主要任务之一,它旨在将输入数据划分为不同的类别。在分类任务中,我们通常拥有带有标签的训练数据,这些标签是我们希望预测的目标变量。通过训练模型,我们可以使用它来对新的未知数据进行分类。分类算法有很多种,如逻辑回归、支持向量机、朴素贝叶斯和决策树等。
二元分类:yes\no
多类别分类:cat\dog\monkey
聚类(划分成组)
聚类是无监督学习的主要任务之一,它旨在将相似的数据点聚集在一起。在聚类任务中,我们通常没有标签数据,而是希望将相似的数据点归为一组。聚类算法有很多种,如K-means、层次聚类和DBSCAN等。
生成
- 产生有结构的复杂东西。
- 无监督学习中的生成模型,包括PixelRNN、VAE和GAN。
- VAE:VAE全称Variational Autoencoder,可变自动编码器。
- GAN:对抗生成网络,是近两年非常流行的神经网络,基本思想就像是天敌之间相互竞争,相互进步
- ‣
机器学习任务 | 定义 | 分类 |
回归 | 对数值型连续随机变量进行预测和建模的监督学习算法。 | 线性回归(正则化);回归树(集成方法) |
分类 | 对离散型随机变量建模或预测的监督学习算法。 | Logistic 回归(正则化);分类树(集成方法) |
聚类 | 一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群) | ㅤ |
生成 | 产生有结构的复杂东西,无监督学习中的生成模型,包括PixelRNN、VAE和GAN | ㅤ |
降维 | 降维是减少数据的维度,对数据进行降噪、去冗余,方便计算和训练;
|
如数据预处理,减少一些对模型准确率影响很小维度,可以提高计算效率。再如图表可视化,我们进行数据分析时,通常会将高维模型降为三维或二维图表,便于直观分析 |
其他
迁移学习(Transfer Learning)
迁移学习是一种机器学习技术,它允许模型将在一个任务上学到的知识应用到另一个相关任务上。这种方法特别适用于数据较少或计算资源有限的情况。以下是迁移学习的一些关键点:
- 目标:迁移学习的目标是提高学习效率,减少所需的数据量和计算资源。
- 应用场景:当新任务的数据量不足,或者获取新数据成本高昂时,迁移学习特别有用。
- 方法:通常涉及预训练模型(在一个大型数据集上训练的模型)和微调过程(在特定任务上进一步训练模型)。
- 例子:在图像识别领域,使用在ImageNet上预训练的深度神经网络,并在特定类型的图像数据集上进行微调。
强化学习(Reinforcement Learning)
强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。智能体通过执行动作并接收奖励或惩罚来学习。以下是强化学习的一些关键点:
- 目标:强化学习的目标是学习一个策略,使得智能体能够最大化长期累积奖励。
- 应用场景:强化学习适用于需要决策和长期规划的任务,如游戏、机器人控制、资源管理等。
- 方法:智能体通过探索(尝试新动作)和利用(选择已知的最佳动作)来学习最优策略。
- 算法:包括Q-learning、SARSA、深度Q网络(DQN)、策略梯度方法等。
课件2.2-监督学习
1.机器学习的分类(半监督、无监督、强化学习等的特点与区别)
- 监督学习:数据有标签,一般为回归或分类等任务。
- 无监督学习:数据无标签,一般为聚类或若干降维任务。
- 强化学习:序列数据决策学习,一般为从环境交互中学习。
分类 | 特点 | 区别 | 适用场景 | 应用场景 |
有监督学习 | 在有监督学习中,我们有一个输入数据集和对应的输出数据集,也就是标签。通过训练,模型将学会从输入数据中预测输出数据。 | 基于标记的数据进行训练。 | 有监督学习依赖于大量的标记数据,适用于需要精确预测的场景。 | 分类、回归和异常检测 |
无监督学习 | 在无监督学习中,模型通过学习输入数据的内在结构和关系来发现数据的特征和模式。 | 无监督学习没有预先标记的输出数据。 | 监督学习适用于探索数据内在结构和关系的问题。 | 聚类、降维和关联规则挖掘 |
半监督学习 | 这种方法结合了有监督学习和无监督学习的优点,可以在缺乏大量标记数据的情况下取得较好的效果。 | 介于有监督学习和无监督学习之间,它利用部分标记的数据和大量未标记的数据进行训练 | 半监督学习则适用于标记数据不足但又有一定标记数据的场景。 | 常见的半监督学习算法包括标签传播和自训练等。 |
强化学习 | 在强化学习中,智能体通过与环境互动,不断试错,学习如何最大化累积奖励。 | 关注的是如何基于环境的反馈来选择或优化行为的问题。 | 而强化学习关注的是智能体的行为选择和优化,适用于需要智能体与环境交互的场景。 |
- 监督学习的重要元素:
- 标注数据:标识了类别信息的数据——学什么
- 学习模型:如何学习得到映射模型——如何学
- 损失函数:如何对学习结果进行度量——学到否
2.损失函数(概念、作用、常见种类等)
- 概念:用于衡量模型预测结果与真实结果之间的差异或误差。它是一个数值评估指标,通过对模型输出和真实标签之间的比较,提供了对模型性能的度量。
不同任务常用的损失函数
- 回归任务
- 均方误差
- 均方根误差
- 平均绝对误差
- 二分类任务
- 二元交叉熵(Binary Cross-Entropy, BCE):用于逻辑回归等模型。
- 合页损失(Hinge Loss):用于支持向量机(SVM)。simoid函数
- 多分类任务
- 交叉熵损失(Categorical Cross-Entropy Loss):用于softmax分类器。
- 多类别合页损失(Multiclass Hinge Loss):用于多类SVM。
- 作用
- 衡量模型性能:损失函数用于评估模型的预测结果与真实结果之间的误差程度。较小的损失值表示模型的预测结果与真实结果更接近,反之则表示误差较大。因此,损失函数提供了一种度量模型性能的方式。
- 参数优化:在训练机器学习和深度学习模型时,损失函数被用作优化算法的目标函数。通过最小化损失函数,可以调整模型的参数,使模型能够更好地逼近真实结果。
- 反向传播:在深度学习中,通过反向传播算法计算损失函数对模型参数的梯度。这些梯度被用于参数更新,以便优化模型。损失函数在反向传播中扮演着重要的角色,指导参数的调整方向。
- 模型选择和比较:不同的损失函数适用于不同类型的问题和模型。通过选择合适的损失函数,可以根据问题的特性来优化模型的性能,并对不同模型进行比较和选择
- 常见种类
3.三种风险
- 经验风险:训练集中数据产生的损失。经验风险越小说明学习模型对训练数据的拟合程度越好。(拟合程度)
- 期望风险:当测试集中存在无穷多数据时产生的损失。期望风险越小,学习所得的模型越好。(泛化能力)
- 期望风险是模型关于联合分布期望损失,经验风险是模型关于训练样本集平均损失。
- 根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。
- 结构风险:结构风险最小化,为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或惩罚项:在最小化经验风险与降低模型复杂度之间寻找平衡。
4.过拟合与欠拟合
经验风险小 | 期望风险小 | 泛化能力强 |
经验风险小 | 期望风险大 | 过拟合 |
经验风险大 | 期望风险大 | 欠学习 |
经验风险大 | 期望风险小 | “神仙算法”“黄粱美梦” |
5.线性回归(一元):懂原理、会计算
- 分析不同变量之间存在的关系叫做回归分析,刻画不同变量之间关系的模型被称为回归模型。
- 回归模型:y=ax+b
- 最小二乘法求解
6.逻辑斯蒂回归基本原理(对数几率回归)
逻辑斯蒂回归,也称为逻辑回归,是一种用于解决分类问题的监督学习算法。它的名称源于其使用的逻辑函数,该函数将线性回归的结果转换为概率形式,使得输出结果在0到1之间。这一特性使得逻辑斯蒂回归非常适合解决二分类问题,因为它可以给出某一类别的概率估计。
逻辑斯蒂回归基于对数线性模型,通过使用Sigmoid函数将线性模型的结果压缩到[0,1]之间,使其具有概率意义。换句话说,逻辑斯蒂回归可以将任何输入映射到[0,1]区间,实现从值到概率的转换。这一特性使得逻辑斯蒂回归在处理分类问题时具有很大的优势。
7.决策树:懂原理,会计算
- 决策树是一种通过树形结构来进行分类的方法。
- 在决策树中,树形结构中每个叶子结点表示对分类目标在某个属性上的一个判断,每个分支代表基于该属性做出的一个判断,最后属性结构中每个叶子结点代表一个分类结果,所以决策树可以看做是一系列以叶子结点为输出的决策规则。
- 属性的顺序选择是关键。
- 信息熵,在均匀分布时,不确定性最大,因此熵最大。
课件2.3-补充英文课件
1.KNN基本原理
- KNN 算法,或者称 k最邻近算法,是 有监督学习 中的 分类算法 。它可以用于分类或回归问题,但它通常用作分类算法。
- 工作原理:利用训练数据对特征向量空间进行划分,并将划分结果作为最终算法模型。存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。
- ‣
2.multiclass svm loss:懂原理,会计算
‣(用的都是一个PPT呢hhh)
多分类SVM损失函数
- SVM损失:在一个样本中,对于真实分类与其他每各个分类,如果真实分类所得的分数与其他各分类所得的分数差距大于或等于安全距离,则真实标签分类与该分类没有损失值;反之则需要计算真实分类与该分类的损失值; 真实分类与其他各分类的损失值的总和即为一个样本的损失值
- ‣
- ‣
3.softmax分类器基本原理
- 将原始分类器分数解释为概率。
- 在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。
- Softmax函数是用于多类分类问题的激活函数,在多类分类问题中,超过两个类标签则需要类成员关系。对于长度为K的任意实向量,Softmax函数可以将其压缩为长度为K,值在[0,1]范围内,并且向量中元素的总和为1的实向量。
- Softmax函数与正常的max函数不同:max函数仅输出最大值,但Softmax函数确保较小的值具有较小的概率,并且不会直接丢弃。我们可以认为它是arg max 函数的概率版本或“soft”版本。Softmax函数的分母结合了原始输出值的所有因子,这意味着Softmax函数获得的各种概率彼此相关。
- ‣
- Softmax损失函数的最小值是0,最大值是正无穷大。最小值0表示模型完全正确地对样本进行分类,而最大值正无穷大表示模型完全错误地对样本进行分类。对于模型的训练和评估,最小值和最大值都有重要的影响。在训练过程中,我们希望最小化Softmax损失函数,以使模型能够更准确地预测样本的类别。最小化损失函数可以通过梯度下降等优化算法来实现。在评估模型性能时,我们可以使用Softmax损失函数来衡量模型的准确性。较小的损失值表示模型对样本的分类更准确,而较大的损失值则表示模型的分类效果较差。总之,Softmax损失函数的最小值和最大值对于模型的训练和评估都具有重要意义,我们希望最小化损失函数以提高模型的准确性。
课件3.1-深度学习
1.深度学习的基本概念、特点
- 浅层学习 VS 深度学习: 分段学习 VS 端到端学习
- 深度学习:以端到端的方式逐层抽象、逐层学习
- 深度学习是机器学习的一个子领域,它基于神经网络模型,通过多层次的抽象和计算,实现对大量数据的分析和处理。深度学习的典型模型包括卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等。这些模型在图像识别、语音识别、自然语言处理等领域发挥了巨大作用。深度学习的算法主要包括反向传播算法、梯度下降算法以及一些优化算法等。这些算法可以自动学习数据中的特征,提高模型的准确性和泛化能力。
- 浅层学习是一种基于特征选择和决策树模型的机器学习算法。它的主要目的是在数据中找到最相关的特征,并根据这些特征对数据进行分类或回归。浅层学习的模型通常包括朴素贝叶斯、决策树和SVM等。这些模型通过对数据的线性分类或者最近邻方法,实现数据的分类或回归。相比之下,深度学习更注重从数据中自动学习特征和层次结构,而浅层学习更注重手工设计和选择特征。
- ‣
- ‣
2.神经元及其数学结构
- 神经网络使用非线性函数作为激活函数,通过对多个非线性函数进行组合,来实现对输入信息的非线性变换。
- 神经元是深度学习模型中基本单位,可以如下刻画神经元功能:
- 对相邻前向神经元输入信息进行加权累加:ln=∑(n,i=1)wi*ai
- 对累加结果进行非线性变换(通过激活函数):g(x)
- 神经元的输出:Out=g(In)
- 神经元的输入和输出:
- 输入:神经元接收来自前一层神经元的输出作为输入。这些输入通常表示为向量 𝑥=[𝑥1,𝑥2,...,𝑥𝑛]x=[x1,x2,...,xn]。
- 权重:每个输入信号都有一个与之关联的权重 𝑤=[𝑤1,𝑤2,...,𝑤𝑛]w=[w1,w2,...,wn],权重决定了输入信号对神经元输出的影响程度。
- 偏置(Bias):神经元通常还有一个偏置项 𝑏b,用于提供额外的灵活性,允许神经元在不同的点上进行激活。
- 加权求和:神经元将输入信号与其对应的权重相乘,然后对结果求和,再加上偏置项,得到 𝑧=𝑤1𝑥1+𝑤2𝑥2+...+𝑤𝑛𝑥𝑛+𝑏z=w1x1+w2x2+...+wnxn+b。
- 输出:最后,神经元通过一个激活函数将加权求和的结果 𝑧z 转换成输出信号 𝑎a,其中 𝑎=𝑓(𝑧)a=f(z),𝑓f 是激活函数。
3.损失函数
- 损失函数又称为代价函数,用来计算模型预测值与真实值之间的误差。损失函数是神经网络设计中一个重要组成部分。通过定义与任务相关的良好损失函数,在训练过程中可根据损失函数来计算神经网络的误差大小,进而优化升级网络参数。
- 两种最常用的损失函数
- 均方误差(MSE)损失函数
- 交叉熵(CE)损失函数
4.单层感知机、多层感知机基本原理、特点、区别
- 早期的感知机(20世界50年代)结合和MCP模型相似,由一个输入层和一个输出层构成,因此也被称为“单层感知机”。感知机的输入层负责接收实数值的输入向量,输出测过则能输出1或-1两个值。
- 单层感知机:用来区分线性可分数据.
- 多层感知机(MLP):多层感知机由输入层、输出层和至少一层的隐藏层构成。网络中各个隐藏层中神经元可接收相邻前序隐藏层中所有神经元传递而来的信息,经过加工处理后将信息输出给相邻后续隐藏层中所有神经元。
- 多层感知机能够学习更复杂的数据模式和非线性关系。
- 各个神经元接收前一级的输入,并输出到下一级,模型中没有反馈。
- 层与层之间通过“全连接”进行链接,即两个相邻层之间的神经元完全承兑连接,但层内的神经元不相互连接。
- 属于前馈神经网络。
- 单层感知机与多层感知机的区别:
<1>. 多层感知机在输入层与输出层之间多了一层隐藏层
<2>. 每层神经元与下一层神经元全互连
<3>. 隐藏层也有激活功能的神经元
5.梯度下降、BP算法基本概念、基本原理
梯度下降
- 梯度下降算法是一种使得损失函数最小化的方法。
- 在多元函数中,梯度是对每一变量所求偏导数组成的向量。
- 梯度的反方向是函数值下降最快的方向,因此是损失函数求解的方向。
BP算法(误差反向传播)
- BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法。
- 将误差从后往前传递,将误差分摊给各层所有单元,从而获得各层单元所产生的误差,进而依据这个误差来让各层单元负起各自责任、修正各单元参数。
- 信号是前向传播的,而误差是反向传播的。
- 基本原理
- 正向传播:输入数据通过网络,逐层计算直到输出层。
- 计算损失:使用输出和真实标签计算损失函数。
- 反向传播:从输出层开始,逆向通过网络,利用链式法则计算每层的梯度。
- 参数更新:使用梯度下降或其他优化算法更新网络参数。
- 梯度下降是一种优化算法,而反向传播是一种在神经网络中计算梯度的技术。在深度学习中,反向传播通常与梯度下降结合使用,以高效地训练复杂的神经网络模型。
- BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为BP算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行。正向传播时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,若实际输出与期望输出不相符,则转入误差的反向传播过程。误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有单元,以从各层获得的误差信号作为调整各单元权值的依据。通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。
- ‣
课件3.3-CNN补充
1.理解卷积、池化层的基本原理、作用
- 图像中像素点具有很强的空间依赖性,卷积就是针对像素点的空间依赖性来对图像进行处理的一种技术。
- 在图像卷积计算中,需要定义一个卷积核。卷积核是一个二维矩阵,矩阵中数值为对图像中卷积核同样大小的字块像素点进行卷积计算时所采用的权重。
- 卷积核中的权重系数wi是通过数据驱动机制学习得到,其用来捕获图像中某像素点所构成的特有空间模式。一旦从数据中学习得到权重系数,这些权重系数就刻画了图像中像素带你构成的空间分布不同模式。
- ‣
- 卷积层是卷积神经网络的核心,主要负责从输入数据中提取特征。它使用一种称为卷积的数学运算来扫描输入数据,识别不同的空间层次特征,如边缘、纹理和形状。卷积层能够保持数据的空间结构,并通过共享权重减少参数数量,从而提高学习效率和准确度。
- 池化层在卷积神经网络中的作用主要体现在缩小特征图大小、减少参数数量和提高模型鲁棒性。通过下采样操作,池化层有效地缩小了特征图的尺寸,提高了计算效率。同时,它也减少了模型的参数数量,提高了泛化能力,避免了过拟合现象。此外,池化层的下采样操作还可以去除图像的冗余信息,使模型更关注物体的主要特征,从而提高模型的鲁棒性。
- 全连接层在整个卷积神经网络中起到“分类器”的作用。它将学到的“分布式特征表示”映射到样本标记空间。在实际使用中,全连接层可由卷积操作实现,对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积,h和w分别为前层卷积结果的高和宽。然而,由于全连接层参数冗余较大,一些先进的网络模型如ResNet和GoogLeNet等采用了全局平均池化来替代全连接层,以融合学到的深度特征。这种做法通常能获得更好的预测性能。
层 | 目的 | 分类 | 特征 |
卷积层 | 卷积是为了提取图像特征,通过卷积层,可以自动提取图像的高维度且有效的特征 | 卷积按步长可分为单位步长和非单位步长;按填充可分为有0填充和无0填充 | 提取特征 |
池化层 | 池化主要是为了减少卷积层提取的特征个数,增加特征的鲁棒性或是为了降维 | 池化可分为平均值池化(Average Pooling)和最大值池化(Max Pooling) | 下采样 |
全连接层 | 对数据进行降维操作 | 全连接层将池化层的所有特征矩阵转化成一维的特征大向量,全连接层一般放在卷积神经网络结构中的最后,用于对图片进行分类 | 分类器 |
2.会计算卷积、池化后网络中各层的维度
Wout = Winput - Wkernerl + 2 * Padding / Strides + 1
Hout = Hinput - Hkernel + 2 * Padding / Strides + 1
课件3.4-RNN补充
1.了解RNN的应用场合,原理不做要求
- 循环神经网络是一类处理序列数据时所采用的网络结构。
- 其本质是希望模拟人所具有的记忆能力,在学习过程中记住部分已经出现的信息,并利用所记住的信息影响后续结点输出。
- ‣
- 基本概念
- 序列数据:RNN设计用来处理序列数据,例如时间序列、文本、音频等。
- 循环连接:RNN的核心特性是其循环连接,即网络的当前状态不仅依赖于当前的输入,还依赖于前一时刻的输出。
- 一对一(One-to-One):
- 这是最基本的序列建模任务,其中输入序列只有一个时间步,输出也只有一个时间步。
- 例如,在语音识别中,一个音频帧可能被转换成对应的音素或字母。
- 一对多(One-to-Many):
- 在这种任务中,单个输入序列被映射到多个输出。这里的“多”可以是序列,也可以是单个输出。
- 一个典型的例子是文本生成,其中给定一个文本序列(如一句话),模型生成一个更长的文本序列(如一段描述或故事)。
- 另一个例子是图像字幕生成,给定一张图片,模型生成描述图片内容的句子或段落。
- 多对一(Many-to-One):
- 这种任务涉及将多个时间步的序列作为输入,并预测单个输出。
- 例如,在文本分类中,模型接收一个句子或段落作为输入,并预测该文本的情感倾向或类别标签。
- 1. 语言建模(Language Modeling):RNN可以用于生成文本,预测下一个单词或字符。它可以学习语言的概率分布,从而生成连贯的文本。
- 2. 机器翻译(Machine Translation):RNN可以将一个语言的句子转换为另一个语言的句子。它可以通过学习源语言和目标语言之间的对应关系来实现翻译。
- 3. 文本分类(Text Classification):RNN可以对文本进行分类,例如情感分析、垃圾邮件检测等。它可以捕捉文本中的上下文信息,从而提高分类的准确性。
- 4. 命名实体识别(Named Entity Recognition):RNN可以识别文本中的命名实体,如人名、地名、组织机构等。它可以通过学习上下文信息来确定实体的边界和类型。
- 5. 语音识别(Speech Recognition):RNN可以将语音信号转换为文本。它可以学习语音信号的特征,并将其映射到对应的文本。
- RNN在时间序列预测中也有广泛的应用。以下是一些常见的应用:1. 股票价格预测:RNN可以根据历史股票价格数据预测未来的价格走势。它可以捕捉股票价格的时间依赖性和趋势。2. 天气预测:RNN可以根据历史天气数据预测未来的天气情况。它可以捕捉天气变化的季节性和周期性。3. 交通流量预测。
常见任务
RNN(循环神经网络)在自然语言处理中有许多应用。
课件4-聚类算法
1.聚类算法基本概念、聚类中类的界定
分类
- 有类别标记信息,因此是一种监督学习。
- 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。
- 分类具有广泛的应用,例如医疗诊断、信用卡的信用分级、图像模式识别。
聚类
- 无类别标记,因此是一种无监督学习。
- 无训练样本,根据信息相似度原则进行聚类,通过聚类, 人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系。
相关的研究领域
类的概念
在聚类分析中,"类"(Cluster)的概念是指将数据集中的样本根据相似性分组的过程,使得同一组(类)内的样本相似度高,而不同组之间的样本相似度低。
K均值聚类(K-means聚类)
- 流行和经典的聚类方法之一,比层次聚类法运算量小,适用于小到中大规模样本数据分析。
- 输入:n个数据(无任何标注信息)
- 输出:k个聚类结果
- 目的:将n个数据聚类到k个集合(也称为类簇)
2.Kmeans算法基本原理
- 视角一:将n个数据依据其相似度大小将它们分别聚类到K个集合,使得每个数据仅属于一个聚类集合。
- 初始化聚类质心
- 对数据进行聚类
- 更新聚类质心
- 继续迭代,直到满足条件
- 另一个视角:最小化每个类簇的方差,是的最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最小。
- 特点与不足
- K-means适用于发现球状簇。
- 需要事先确定聚类数目,很多时候我们并不知道数据应被聚类的数目——(层次聚类可以解决)。
- 需要初始化聚类质心,初始化聚类中心对聚类结果有较大的影响(不同初始值有可能导致不同结果)。
- 算法是迭代执行,时间开销非常大。
- 欧氏距离假设数据每个维度之间的重要性是一样的。
3.层次聚类基本原理
系统聚类法
聚合聚类算法
实验部分
1.不超出实验课的范围和难度
2.主要关注实验1,2
📎 其他
考试题型
单项选择题*10
判断题*5
简答题*40——概念*10
计算题*30
代码分析题*15——实验相关核心代码分析
简答题
1.人工智能的研究方法分类及特点
符号主义:用规则学——知识图谱、IBM
联结主义:用大数据学——深度学习、神经网络
行为主义:从经验中学习,用问题引导——Alpha
2.人工智能、深度学习、机器学习三者的特点
人工智能是一个广泛的领域,机器学习是其子领域,而深度学习则是机器学习的一个特定类型。这三者之间的关系是层层递进、相互依存的。
3.机器学习的三个步骤
你想要找怎样的函数
定义一系列的函数
函数的优点
选择最好的函数
4.常见的机器学习任务及区别
回归:连续型随机变量+有监督
分类:离散型随机变量+有监督
生成:产生有结构的复杂东西+无监督
5.机器学习的分类
- 监督学习:数据有标签,一般为回归或分类等任务。
- 无监督学习:数据无标签,一般为聚类或若干降维任务。
- 强化学习:序列数据决策学习,一般为从环境交互中学习。通过奖励和惩罚机制进行学习。
- 半监督学习:少量标记数据与大量未标记数据。
7.损失函数
用于衡量模型预测结果与真实结果之间的差异或误差。
不同任务常用的损失函数
- 回归任务
- 均方误差
- 均方根误差
- 平均绝对误差
- 二分类任务
- 二元交叉熵(Binary Cross-Entropy, BCE):用于逻辑回归等模型。
- 合页损失(Hinge Loss):用于支持向量机(SVM)。sigmoid
- 多分类任务
- 交叉熵损失(Categorical Cross-Entropy Loss):用于softmax分类器。
- 多类别合页损失(Multiclass Hinge Loss):用于多类SVM。
作用
- 衡量模型性能:损失函数用于评估模型的预测结果与真实结果之间的误差程度。较小的损失值表示模型的预测结果与真实结果更接近,反之则表示误差较大。因此,损失函数提供了一种度量模型性能的方式。
- 参数优化:在训练机器学习和深度学习模型时,损失函数被用作优化算法的目标函数。通过最小化损失函数,可以调整模型的参数,使模型能够更好地逼近真实结果。
- 反向传播:在深度学习中,通过反向传播算法计算损失函数对模型参数的梯度。这些梯度被用于参数更新,以便优化模型。损失函数在反向传播中扮演着重要的角色,指导参数的调整方向。
- 模型选择和比较:不同的损失函数适用于不同类型的问题和模型。通过选择合适的损失函数,可以根据问题的特性来优化模型的性能,并对不同模型进行比较和选择
8.三种风险
- 经验风险:训练集中数据产生的损失。经验风险越小说明学习模型对训练数据的拟合程度越好。(拟合程度)
- 期望风险:当测试集中存在无穷多数据时产生的损失。期望风险越小,学习所得的模型越好。(泛化能力)
- 期望风险是模型关于联合分布期望损失,经验风险是模型关于训练样本集平均损失。
- 根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。
- 结构风险:结构风险最小化,为了防止过拟合,在经验风险上加上表示模型复杂度的正则化项或惩罚项:在最小化经验风险与降低模型复杂度之间寻找平衡。
4.过拟合与欠拟合
经验风险小 | 期望风险小 | 泛化能力强 |
经验风险小 | 期望风险大 | 过拟合 |
经验风险大 | 期望风险大 | 欠学习 |
经验风险大 | 期望风险小 | “神仙算法”“黄粱美梦” |
9.逻辑斯蒂回归原理
- 应用逻辑函数(如Sigmoid函数)将线性回归的结果映射到0和1之间,用于二分类问题。
分类问题的监督学习算法
也称为对数几率
概率空间的逻辑斯蒂回归就是对数几率空间内的线性回归
通过使用Sigmoid函数将线性模型的结果压缩到[0,1]之间,使其具有概率意义。换句话说,逻辑斯蒂回归可以将任何输入映射到[0,1]区间,实现从值到概率的转换。
10.KNN基本原理K近邻法
有监督的分类算法
距离远近:距离度量
参考点数量:K值
服从多数:分类决策规则
11.softmax分类器基本原理
- 将样本特征通过线性函数映射,然后应用softmax函数将输出转换为概率分布。
- 具有多个输出的单层神经网络
- 输入——>线性输出——>通过softmax函数转化为预测概率y,且y的总和为1
- 很好的处理类别间的互斥问题,但是在增加新的类别时,会产生较高的成本。
12.浅层学习和深度学习
- 浅层学习 VS 深度学习: 分段学习 VS 端到端学习
- 深度学习是机器学习的一个子领域,它基于神经网络模型,通过多层次的抽象和计算,实现对大量数据的分析和处理。
- 浅层学习是一种基于特征选择和决策树模型的机器学习算法。它的主要目的是在数据中找到最相关的特征,并根据这些特征对数据进行分类或回归。
- 相比之下,深度学习更注重从数据中自动学习特征和层次结构,而浅层学习更注重手工设计和选择特征。
13.神经元
- 网络的基本单元,接收输入,计算加权和,通过激活函数进行非线性变换产生输出。
14.单层感知机与多层感知机
- 单层感知机:只有输入层和输出层,适用于线性可分问题。
- 多层感知机:包含一个或多个隐藏层,能够解决非线性问题。
- 单层感知机与多层感知机的区别:
<1>. 多层感知机在输入层与输出层之间多了一层隐藏层
<2>. 每层神经元与下一层神经元全互连
<3>. 隐藏层也有激活功能的神经元
15.梯度下降与BP算法
梯度下降
- 梯度下降算法是一种使得损失函数最小化的方法。
- 在多元函数中,梯度是对每一变量所求偏导数组成的向量。
- 梯度的反方向是函数值下降最快的方向,因此是损失函数求解的方向。
BP算法(误差反向传播)
- BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法。
- 将误差从后往前传递,将误差分摊给各层所有单元,从而获得各层单元所产生的误差,进而依据这个误差来让各层单元负起各自责任、修正各单元参数。
- 信号是前向传播的,而误差是反向传播的。
- 基本原理
- 正向传播:输入数据通过网络,逐层计算直到输出层。
- 计算损失:使用输出和真实标签计算损失函数。
- 反向传播:从输出层开始,逆向通过网络,利用链式法则计算每层的梯度。
- 参数更新:使用梯度下降或其他优化算法更新网络参数。
- 梯度下降是一种优化算法,而反向传播是一种在神经网络中计算梯度的技术。在深度学习中,反向传播通常与梯度下降结合使用,以高效地训练复杂的神经网络模型。
- BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为BP算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行。正向传播时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,若实际输出与期望输出不相符,则转入误差的反向传播过程。误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有单元,以从各层获得的误差信号作为调整各单元权值的依据。通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。
- ‣
16.CNN中卷积层和池化层
- 卷积层:提取局部特征,保留空间关系。
- 池化层:降低特征维度,提取主要特征。
17.分类与聚类
- 分类:已知类别,训练模型进行预测。有监督。
- 聚类:未知类别,将数据分组。无监督。
18.K均值算法
通过迭代选择簇中心和分配样本到最近的簇中心,以最小化簇内距离。
- 初始化聚类质心
- 对数据进行聚类
- 更新聚类质心
- 继续迭代,直到满足条件
19.层次聚类算法(系统聚类算法)
逐步合并或分裂样本点,形成层次嵌套的聚类结构。
计算题
1.一元线性回归
2.决策树
3.SVMloss
实验题
CNN计算
有关问题,欢迎您在底部评论区留言,一起交流~
- Author:Koreyoshi
- URL:https://Koreyoshi1216.com/article/8ae55b05-96d4-4315-b99f-833184d808b3
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!