fbpx

什么是机器学习?

分享到 facebook
分享
分享到 linkedin
分享
分享到 twitter
鸣叫
中间

什么是机器学习,它是如何工作的?
机器学习是计算机科学的一个分支,它试图教计算机如何学习和操作,而无需直接编程。特别是机器学习是一种数据分析方法,它需要创建和更新模型,使程序能够通过经验“学习”。机器学习需要创建改变模型的算法,以提高预测准确性。

根据卡内基梅隆大学计算机科学与机器学习教授 Tom Mitchell 的说法,如果计算机程序在 T 上的性能以 P 衡量,则可以说计算机程序从关于某些任务 T 和某些性能度量 P 的经验 E 中学习有经验 E. 如果一个程序通过经验在解决问题方面有所改进,则称其为使用机器学习。

机器学习最初是在 1950 年代使用和讨论的,并且在过去十年中其接受度大幅上升。图像识别、自然语言处理、人工智能设计、自动驾驶汽车技术以及谷歌的网络搜索算法都是机器学习应用的例子。

人工智能与机器学习

应该强调机器学习和人工智能之间的区别。机器学习是计算机科学的一个分支,专注于开发算法。使用这种算法设计方法可以创建和设计人工智能程序和计算机。

机器学习应用和示例

机器学习既是一个研究领域,也是一种解决问题的方法。机器学习技术也可以应用于广泛的应用。以下是一些如何使用机器学习策略和方法的示例:

自然语言处理

自然语言处理 (NLP) 是计算机科学的一个分支,研究计算机与自然(人类)语言的交互。语音识别、自然语言理解和自然语言生成都是自然语言处理的重要方面。这些部门中的每一个都可以从机器学习技术中受益。

保险理赔分析

机器学习正以多种方式用于保险业。最值得注意的是,一些组织正在使用机器学习算法来预测未来的索赔,然后用于设定保险费。此外,多家保险公司和银行公司正在使用机器学习来检测欺诈行为。

医学诊断和生物信息学

研究人员收集的生物数据量正在以惊人的速度增加。这导致数据存储和管理以及从中提取相关信息的能力出现问题。现在正在开发机器学习算法,以廉价有效地存储生物数据,以及从数据中智能地提取含义。

机器学习和模式识别技术也被应用于医学信息,试图对各种疾病进行分类和更好地理解。这些方法也有望通过识别最容易感染某些疾病的人群来帮助疾病诊断。

模式识别和图像处理

如果没有机器学习技术,使用计算机来识别照片、电影和其他媒体资产中的模式和对象显然不太可行。如果您必须为要识别的每个对象编写单独的代码,那么编写程序来检测图像中的对象将是不切实际的。

图像识别算法,也称为图像分类器,可以训练以根据其内容对照片进行分类。这些算法是通过分析大量先前分类的照片来磨练的。这些系统通过在每次处理新图像时升级模型来改进,基于他们处理过的先前照片的异同。深度学习是一种用于图像处理的机器学习,通常使用人工神经网络完成。

搜索引擎

深度学习也有利于网络搜索,因为它可以改善搜索结果并有助于更好地理解用户查询。像谷歌这样的公司可以通过根据查询和提供的结果评估用户行为来增强他们的搜索结果并了解特定查询的最佳结果集。机器学习技术还用于根据所有用户的汇总查询生成搜索建议和拼写更正。

金融市场分析

在金融市场,算法交易和市场分析已经成为机器学习和人工智能的普遍应用。基金经理现在正在使用深度学习算法来发现趋势甚至执行交易。利用这种自动技术来识别模式并执行交易的基金和交易员可以比使用人工方法更快地进行交易。

其他机器学习应用

机器学习的应用几乎无穷无尽,因为它本质上是一种解决问题的科学方法。除了上面列出的用途之外,机器学习技术还用于遗传科学的 DNA 序列分类、银行业务的欺诈检测、互联网广告的完美广告定位,以及更多行业以提高效率和数据处理技能。

什么是机器学习以及它是如何工作的?

如今,机器学习显然以多种方式得到应用。然而,它是如何投入使用的?这些程序究竟做了什么来帮助人们更有效地解决困难?这些方法与以前的问题解决方法有何不同?

如前所述,机器学习是计算机科学的一个分支,它试图让计算机在没有被明确教授的情况下进行学习。软件用来“学习”的方法或算法取决于它要解决的问题或任务的种类。
了解机器学习寻求解决哪些类型的问题,然后查看它如何尝试解决这些问题,是了解其工作原理的绝佳方法。首先,列出机器学习旨在解决的挑战:

机器学习任务有几种类型的机器学习任务

随着处理的数据集越来越多,机器学习算法会努力学习并提高其准确性。机器学习算法向系统提供的输入量是对它们完成的工作进行分类的一种方法。在某些情况下,计算机会获得大量标记的训练数据,这称为监督学习。在其他情况下,不提供标记数据,这称为无监督学习。最后,在半监督学习中提供了一些标记的训练数据,但大部分训练数据是未标记的。让我们仔细看看每种类型:

有监督的学习

最实用和最广泛使用的机器学习类型是监督学习。它需要开发一个数学函数,将输入变量连接到所需的输出变量。提供了大量带标签的训练数据集,作为计算机将要处理的数据的示例。

此外,监督学习任务可以归类为“分类”或“回归”问题。分类挑战使用统计分类方法生成分类,例如“热狗”或“非热狗”。另一方面,回归问题使用统计回归分析来获得数值结果。

半监督学习

半监督学习与监督学习类似,只是只有一小部分训练数据被标记。
半监督学习以图像识别为例。在这种情况下,我们可能会向系统提供一些包含我们希望它识别的项目的标记照片,然后在大量未标记的图像上对其进行训练。

无监督学习

无监督学习任务中的所有输入都是未标记的,算法必须根据输入自行构建结构。寻求发现输入数据集中分组的无监督学习任务被称为聚类问题(或聚类分析挑战)。股票数据或消费者趋势中的模式就是两个例子。无监督学习问题也经常使用神经网络解决。

问题解决算法和机器学习算法

算法是解决问题的方法,机器学习提供了多种方法来处理范围广泛的问题。下面列出了当今机器学习应用程序中使用的一些最流行和最有用的算法和方法。请记住,应用程序通常会结合使用其中许多方法来解决问题:

人工神经网络是人工神经网络的一种。

基于生物神经网络(例如人脑)的计算模型被称为人工神经网络。它通过一系列函数处理输入信号或文件,然后将其转换为所需的输出。该技术广泛应用于当今的图片识别、语言翻译和其他应用中。
从头开始学习

深度学习是一个术语,用于描述一组严重依赖人工神经网络的机器学习技术。 Jeff Dean 在 2016 年的 Google Tech Talk 中将深度学习算法描述为使用非常深的神经网络,其中“深度”是指层数,或输入和输出之间的迭代。随着处理能力变得越来越便宜,当今应用中的学习算法越来越“深入”。

聚类分析

聚类分析旨在将对象组织成比其他聚类中的项目更相似的项目“聚类”。事物相似的方式由计算机软件接收的数据输入决定。不提供培训,因为聚类分析最常用于无监督学习问题。

该程序将使用提供的任何数据点来表征每个输入对象,并将这些值与之前评估过的事物的数据进行比较。一旦分析了足够多的对象以发现数据点和对象中的组,该算法就可以开始对项目进行分组并发现集群。

聚类不是一个单一的过程;实际上,有多种方法可以进行聚类分析。在统计分析和数据挖掘中,这是一项常见的任务。

贝叶斯网络是变量及其关系的图形表示。机器学习算法可以使用贝叶斯网络来开发和表征他们的信念系统。例如,贝叶斯网络用于计算特定疾病概率的系统中。症状可用作输入,疾病可能性可用作输出。

通过强化学习

强化学习是机器学习的一个分支,其中系统以激励和惩罚的形式给出反馈,而不是明确告诉它是“对”还是“错”。当获得正确答案很重要时,这就会发挥作用,但快速找到它也很重要。

在“探索”和“利用”之间找到平衡是强化学习的重要组成部分。程序应该多久“探索”新信息而不是依赖已有的信息?计算机可以通过“奖励”学习代理的行为来优化其方法,以在探索和开发之间实现最佳平衡。

从决策树中学习

决策树学习是一种机器学习技术,它使用一系列类别来分析数据并产生输出或答案。通常,决策树或分类树产生离散结果;然而,回归树可以产生连续的结果(通常是实数)。

有规则的机器学习

基于规则的机器学习是一种机器学习,它创建用于分析模型的“规则”,在研究模型时应用这些规则,并更改规则以提高性能(学习)。该方法用于人工免疫系统和关联规则学习算法的开发,这将在接下来讨论。

学习关联规则

关联规则学习是一种机器学习,专注于弄清楚数据库中的变量是如何相关的。营销人员可以利用大量超市交易数据来发现不同产品购买之间的相关性,这是应用关联规则学习的一个例子。例如,“购买泡菜和生菜的顾客也倾向于购买切片奶酪”。关联规则学习可用于发现相关性或像这样的“关联规则”。

要理解归纳逻辑编程,首先要理解“逻辑编程”。逻辑编程是一种编程范式,其中程序被编写为一系列陈述事实或规则的表达式,有时以“如果这个,那么那个”的形式出现。我们可以通过理解“逻辑编程”是基于一组逻辑规则的应用来开始掌握归纳逻辑编程。

归纳逻辑编程是逻辑编程的一个分支,它同时采用了机器学习和逻辑编程技术。程序的背景信息作为 ILP 问题中的一组逻辑规则被记住,程序利用这些逻辑规则推导出解决问题的假设。

自然语言处理和生物信息学是当今使用归纳逻辑编程的两个领域。

向量支持机 (SVM)

支持向量机 (SVM) 是监督学习算法,常用于解决分类和回归问题。可以指示支持向量机计算机软件将输入分类为两个类别之一。每个类的训练示例将提交给程序,这些示例将表示为绘制在多维空间中的数学模型(维数是程序将评估的输入的特征数)。

该程序在多维空间中绘制每个类的表示,并确定分隔每个类的“超平面”或边界。检查时,新输入的输出将落在该超平面的一侧。输入的类别由输出位于超平面的哪一侧决定。支持向量机就是这个超平面。

通过表征学习

表征学习,也称为特征学习,是机器学习算法的集合,它允许系统自动生成事物的表征,以识别和检测特征,然后区分它们。结果,当系统检测到特征时,它们被用来进行分析。

特征学习在图像和其他媒体分类挑战中特别受欢迎。由于照片、视频和其他类型的数据并不总是具有数学上方便的模型,因此允许计算机程序开发自己的表示以进行下一级分析通常很有用。

比较学习

相似性学习是一种与分类和回归密切相关的监督学习方法。然而,相似度学习方法的目的不是简单地对对象进行分类,而是确定两个或多个事物的相似或不同程度。手机上的人脸识别、排名/推荐系统和语音验证只是当今应用的几个例子。

学习稀疏字典

字典学习与稀疏表示或稀疏编码的融合称为稀疏字典学习。计算机程序的目标是创建一个字典,它是所提供数据的表示。稀疏字典学习算法使用稀疏表示原理来保留最短的可行字典,同时有效地完成任务。

基于遗传和进化过程的算法

虽然机器学习已被证明在人类基因组和相关科学领域的研究中非常有用,但术语“遗传算法”是指一类机器学习算法及其所采用的解决问题的方法,而不是与遗传学相关的应用机器学习。自然选择是一种受遗传算法启发的生物过程。为了创建可能解决方案的多个排列,这些算法使用了变异、选择和交叉的数学等价物。

分享到 facebook
分享
分享到 linkedin
分享
分享到 twitter
鸣叫

相关文章

作者

IMG
汉娜
一个

关于 SCC

让所有学生在科技教育中获得乐趣和进步的重要性是我们的座右铭。我们希望我们的学生不仅为自己,也为社会创造更美好的未来。无论是为自己的电子游戏编程、为自己的卡通动画制作动画,还是构建机器人,我们的导师都可以通过我们的课程指导他们寻找更新的观点并探索未发现的发现。