机器学习-学习笔记-001-机器学习的理解

随着AlphaGo在围棋上战胜李世石,战胜柯洁,人工智能和机器学习的概念火遍全球。

那么究竟什么是机器学习呢?

最新的对于机器学习的定义来自卡梅隆大学的 Tom Mitchell,他提出:

一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。

我认为经验e 就是程序上万次的自我练习的经验而任务 t 就是下棋。性能度量值 p 呢,就是它在与一些新的对手比赛时,赢得比赛的概率。

机器学习有各种不同类型的学习算法,最主要的有两种类型:监督学习无监督学习

监督学习

简单的说就是我们教计算机去完成任务。其基本思想是我们给定一个数据集,我们知道数据集中的每个样本都是相应的”正确答案”,然后根据这些样本做出预测,预测出更多的数据。
监督学习又分为回归问题和分类问题

案例:

假设你经营着一家公司,你想开发学习算法来处理这两个问题:

  1. 你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你想预测接下来的三个月能卖多少件?
  2. 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过?
    那这两个问题,它们属于分类问题、还是回归问题?
    问题一是一个回归问题,因为你知道,如果我有数千件货物,我会把它看成一个实数,一个连续的值。因此卖出的物品数,也是一个连续的值。
    问题二是一个分类问题,因为我会把预测的值,用 0 来表示账户未被盗,用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过,把它们定为 0 或 1,然后用算法推测一个账号是 0 还是 1,因为只有少数的离散值,所以我把它归为分类问题。

无监督学习

简单的说就是让计算机自己去学习。无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。你无法从数据中找到某种结构吗?针对数据集,无监督学习就是能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

案例:

谷歌新闻每天都在收集非常多的网络新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。 这就是无监督学习。