勾搭机器学习（一）：DSP背后隐藏的“黑盒子”是什么？

2014-07-28 19:16:13

很多技术咖们普遍认为：懂机器学习的人比不懂机器学习的人，办事效率要高出N倍。但不懂的人听后绝对不服气，小编出此文就是告诉你“不服气，没用！不信，往下看”。

“神啊，对于小编来讲，在没有‘机器学习’知识基础的情况下，看一本机器学习的小册子，那简直是天书”。而困扰小编的小册子就是最近“大石小A”家出的《Avazu DSP机器技术学习手册》。于是，小编各路寻找“机器学习”的通俗解释，某大咖回复我“这个真的没办法通俗理解，它就是个黑盒，对于DSP的作用就是优化，使广告投放向客户需求的方向上修正。”感谢他，至少解释了“机器学习”的作用和黑盒子的形象吻合。

不甘心，小编是花了接近2天学习，才开始写这篇极尽通俗、白话的对于机器学习的解说和感想。

生活中，机器学习离我们很近

苹果的siri、微软的小冰等应用，很多人使用过，对其深有体会，其强大的信息处理和反馈能力让很多人惊喜连连。另外，前不久美联社更是重磅推出机器人撰稿，虽然仅仅是撰写快讯，但也足以让小编感觉危机重重。这些应用的典型特征就是能够和人进行交互，拥有一定的智能，可以完成人的部分指令，某些方面甚至可以取代部分人工作，而这些人工智能，其核心其实就是“机器学习”。

举一个再白话点的故事，在北京感受最深的就是“租房”，以租房为例。比如60平米的房3500RMB/月，80平米的4500RMB/月，100平米的6000RMB/月，用座标画出来，横座标标记不同房源的大小，纵座标标记对应的价格，那么一般人能通过一些数据统计的分析，可以估算120平米房的租价。但是评估一个房的租价，还有小区的新旧、几室几厅、是否精装修等更多的维度，需要怎么去极近精准的预估其租房价格呢，这个时候，运用机器学习的“线性回归”算法，能够迅猛获得精准的市场估值。

那么，“机器学习”具体是什么？

历史上，机器学习起源很“早”

“1959年，Arthur Samuel将机器学习非正式定义为：在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域。”

Arthur Samuel在机器学习的历史上，做了一些非常酷的事情，他曾经做了一个西洋棋程序，让计算机自己跟自己下棋，下棋速度非常快，因此Arthur Samuel让他的程序自己和自己下了成千上万盘棋，逐渐的，程序开始慢慢意识到怎样的局势能导致胜利，怎样的局势能导致失败，因此它反复的自己学习“如果让竞争对手的棋子占据了这些地方，那么我输的概率可能更大”或者“如果我的棋子占据了这些地方，那么我赢的概率可能更大”所以渐渐的，Arthur Samuel的程序掌握了哪些局面可能会输，哪些局面可能会赢，因此奇迹出现了，他的程序的棋艺甚至远远超过了他自己。Arthur Samuel让他的程序比他自己更会下棋，但是他并没有明确的教给程序具体应该怎么下，而是让它自学成材。

1998年，由Tom Mitchell提出更为现代更加正式的对于机器学习的定义： “对于一个计算机程序来说，给它一个任务T，和一个性能测量方法P，如果在经验E的影响下，P对T的测量结果得到改进，那么就说该程序从E中学习。看，这不仅仅是一种定义。而且还很押韵。在刚才那个下棋程序例子中，经验E对应着程序不断和自己下棋的经历，任务T是下棋，性能测量方法P是它与人类棋手对弈的胜算率。

从手工广告到程序化广告的DSP“机器学习”勾搭法

“机器学习”作为一种“工具”可以应用于人类生活的各个领域，如市场营销、医疗、汽车、智能设备、航空等；“DSP”是广告投放需求方平台（Demand Side Platform），它的核心在于“自动化”和“精准”，结合起来即“智能”。而DSP和机器学习，是不同维度的工具，他们因为本质追求目标的一致性而勾搭在一起。可以说，DSP是广告领域不断向技术靠拢的产物，而机器学习是推进DSP发挥广告精准高效作用的内核，或者发动机，它是隐藏在DSP精准自动投放下的“黑盒子”。

一个真正优秀的DSP平台，必须拥有2个核心特征，一是拥有强大的RTB（Real Time Bidding）基础设施和能力，二是拥有先进的用户定向（Audience Targeting）技术。即首先DSP对数据运算技术和速度要求非常之高。从受众在浏览器中地址栏输入网址，到看到页面上的内容和广告，在这0.1秒之中，就发生了好几个网络往返（Round Trip）的信息交换；其次，基于数据的用户定向（Audience Targeting）技术，则是DSP的另一个重要核心特征。广告主的目标是通过媒体与潜在客户（即目标人群）进行有效广告沟通和投放。在什么位置、什么时候、投放什么样的广告能提高转化，是广告主最为关心的问题。传统的广告投放，会有专门的媒介人员做媒体策略的优化，但是人工优化算法，通常只能从三四个维度对广告效果进行追踪和优化，而机器学习算法，可以利用其“智能学习”进行更多维度的数据挖掘，再进行优化，以实现广告投放的极尽精准。

Avazu的算法：逻辑回归+深度学习

回归引发此文的事件本身，《Avazu DSP机器技术学习手册》除了对于DSP的解释，更多的是阐述“逻辑回归”和“深度学习”这两种算法的运用。

小编的白话理解：“逻辑回归”是机器学习中“监督学习”的一种，在数据样本中的某一个样本或者某些样本是具有准确答案的，而基于多个样本，推算出另外一个差异化条件下的结果。应用在DSP中，就是针对一个受众、多个标签和投放结果的收集，然后，对不同标签的受众在不同的网络环境下推算其广告投放效果。而“深度学习”，并不是每个DSP都会去运用，深度学习，属于神经网络的一种，即层数很多的神经网络。

那么，“逻辑回归”和“深度学习”对于DSP的支撑作用，以及DSP机器技术学习对广告行业将产生如何的影响，我们将放在“勾搭机器学习（二）”进行更全面的解释，敬请期待。

—————————————–

由Avazu艾维邑动携手China Joy联合主办的“中国游戏全球化大会”即将开幕，敬请关注：http://cggc.avazu.com/

新闻

勾搭机器学习（一）：DSP背后隐藏的“黑盒子”是什么？

资源

产品介绍

公司介绍