大数据理论与工程实践
上QQ阅读APP看书,第一时间看更新

序言

2017年年初,我参加北大组织的大数据人才交流论坛时,无论是从会上的嘉宾发言中还是从会下同仁的交流中,都很容易得出一个结论,那就是大数据人才是非常非常匮乏的,各大企业、院校及组织都不得不用互相挖角的方法寻找相关人才。2017年,大数据已经发展了十多年,相关书籍也是汗牛充栋,因此,出现这种人才匮乏的状态,确实有些令人疑惑。仔细想想,也许是以下这些原因导致的:首先,大数据的应用领域扩展太快,人才的培养速度跟不上;其次,大数据技能的学习周期比较长,进入门槛较高;最后,大数据本质上是一种工程应用,在不同领域哪怕使用相同算法,或者在相同领域使用不同数据,算法都需要一个调试和优化的过程,这就要求学习者领悟原理,而不能简单地照着葫芦画瓢,而领悟原理的要求又和工程应用的实用性需求有一定差异。

到了那年四五月份的时候,和刘振川先生、甘智峰博士讨论后,我们都觉得可以把我们多年相关工作和经验总结一下,写一本比纯粹的工程应用更理论一些、比纯粹的理论介绍更实用一些的书。这样的书面向大数据工程师,帮助受过基本训练的工程师开发出系统,达到实用目的。由于我们三人知识面有局限,便又邀请了周翊博士和金涬博士加入,他们在各自的领域都有很丰富的实战经验。

晚些时候,我又认识了在国内大数据领域做过很多工作和进行过投资的潘磊先生。潘总又给我介绍了国际数据管理协会(DAMA)中国分会资深顾问汪关盛先生,还有母润坤先生。通过和他们的沟通,我们才意识到我们原本的计划是不完备的。我们一直关注数据处理,可是在实际应用中,很多时候面临的不是如何处理已有的数据,而是如何管理和治理已有的数据。“数据过多就相当于没有数据”,这句话不仅仅指我们需要用算法发现大量数据背后的价值,同时也指我们需要去芜存菁,从更有价值的数据中以更小的代价发现更高的价值。从事大数据行业一段时间的人都会有两个感受:很多时候数据源比算法有价值,获得好的数据源总能得出有价值的结论;事后再看大数据分析出的结论,往往发现那些结论很直观。这些都体现出数据治理和项目实施管理的价值。汪总和母总为我们的计划补上了最后的拼图。

经过了差不多一年半的努力,我们终于完成了规划的小目标,结果发现好像已经错过了大数据图书的热卖期。后来,人民邮电出版社的缪永合先生对我们的努力给予了认可,并支持我们把这本书出版发行。我们在此也感谢本书的编辑团队。

书中关于高速缓存、集群总线、资源调度、用户画像和广告投放的实用内容都来自刘振川先生的实践。第6章数据治理的内容则来自汪关盛先生的长期经验。第7章大数据在人工智能领域的应用是周翊博士、甘智峰博士和金涬博士的专长,他们分别贡献了语音部分、视觉部分和博弈部分的内容。母润坤先生则将他多年来实际的大数据处理和实施方法总结在了第1章的相应部分。

由于作者团队一直在第一线工作,理论基础研究相对比较薄弱,为了让更多读者有更深入的收获,我们梳理、借鉴了很多经典的论文和网络资源。书中也对引用和借鉴的资料标明了来源,在此对相关资料的著作者表示感谢!

研究与实践都还在不断发展中,诚挚希望有关专家与专业人士给予宝贵的意见和建议,共同推动大数据事业的快速发展!

谢谢!

陆晟