机器学习-学习笔记-001-机器学习的理解

随着AlphaGo在围棋上战胜李世石，战胜柯洁，人工智能和机器学习的概念火遍全球。

那么究竟什么是机器学习呢？

最新的对于机器学习的定义来自卡梅隆大学的 Tom Mitchell,他提出：

一个程序被认为能从经验 E 中学习，解决任务 T，达到性能度量值P，当且仅当，有了经验 E 后，经过 P 评判，程序在处理 T 时的性能有所提升。

我认为经验e 就是程序上万次的自我练习的经验而任务 t 就是下棋。性能度量值 p 呢，就是它在与一些新的对手比赛时，赢得比赛的概率。

机器学习有各种不同类型的学习算法，最主要的有两种类型：监督学习 和 无监督学习

监督学习

简单的说就是我们教计算机去完成任务。其基本思想是我们给定一个数据集，我们知道数据集中的每个样本都是相应的”正确答案”，然后根据这些样本做出预测,预测出更多的数据。
监督学习又分为回归问题和分类问题

案例：

假设你经营着一家公司，你想开发学习算法来处理这两个问题：

你有一大批同样的货物，想象一下，你有上千件一模一样的货物等待出售，这时你想预测接下来的三个月能卖多少件？

你有许多客户，这时你想写一个软件来检验每一个用户的账户。对于每一个账户，你要判断它们是否曾经被盗过？
那这两个问题，它们属于分类问题、还是回归问题?
问题一是一个回归问题，因为你知道，如果我有数千件货物，我会把它看成一个实数，一个连续的值。因此卖出的物品数，也是一个连续的值。
问题二是一个分类问题，因为我会把预测的值，用 0 来表示账户未被盗，用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过，把它们定为 0 或 1，然后用算法推测一个账号是 0 还是 1，因为只有少数的离散值，所以我把它归为分类问题。

无监督学习

简单的说就是让计算机自己去学习。无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。别的都不知道，就是一个数据集。你无法从数据中找到某种结构吗？针对数据集，无监督学习就是能判断出数据有两个不同的聚集簇。这是一个，那是另一个，二者不同。是的，无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

案例：

谷歌新闻每天都在收集非常多的网络新闻内容。它再将这些新闻分组，组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件，自动地把它们聚类到一起。所以，这些新闻事件全是同一主题的，所以显示到一起。这就是无监督学习。