找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[ Nosql与大数据 ] 【守望者 大数据】IT屌丝如何成为大数据专家?

2014-10-12 23:11| 发布者: watchmen | 查看: 1984 | 收藏

摘要: 对于不同职业经历和专业背景的IT人士来说,如何才能尽快转型,加入数据科学家的钻石王老五的行列呢?Ofer Mendelevitch近日在Hortonworks官方博客发表文章给出了自己的观点。Mendelevitch认为无论是Java程序员还是业 ...

对于不同职业经历和专业背景的IT人士来说,如何才能尽快转型,加入数据科学家的钻石王老五的行列呢?Ofer Mendelevitch近日在Hortonworks官方博客发表文章给出了自己的观点。
Mendelevitch认为无论是Java程序员还是业务分析师都有机会成为数据科学家,以下是他对不同人群给出的具体建议:

Java程序员
作为Java开发者,你对软件工程的规则已经了然于心,能够设计软件系统执行复杂任务。数据科学正是关于开发“数据产品”的一门科学,主要是基于数据和算法的软件系统。
对于Java程序员来说,第一步需要了解机器学习的各种算法:现在有哪些算法,都能解决哪些问题以及如何实现。另外还需要学习使用R和Matlab等建模工具,此外WEKA、Vowpal Wabbit和OpenNLP等库也为大多数常见算法提供了经过验证的实现方法。如果你还不太熟悉Hadoop,学习map-reduce、Pig、Hive和Mahout将很有帮助。

Python程序员
如果你是Python程序员,对软件开发和脚本编写一定很熟悉,也许已经在使用很多数据科学中常见的库例如NumPy和SciPy。
Python对数据科学应用的支持很好,尤其是NumPy/Scipy, Pandas, Scikit-learn, IPython 等用于探索性分析的库,以及可视化方面的Matplotlib。
在处理大型数据集方面,多学些Hadoop及其与Python的流式集成。

统计学家与应用科学家
如果你有统计学或者机器学习的背景,那么你很可能很多年前就开始使用诸如R, Matlab 或 SAS进行回归分析、聚类分析等机器学习相关任务。
R、Matlab和SAS是很强大的统计分析和可视化工具,对于很多机器学习算法都有很成熟的实现方法。
但是,这些工具通常被用于做数据勘探和模型开发,很少单独用来开发产品级的数据产品。在开发端到端的数据产品时,大多数情况下,你需要需要同时用到其他软件模块如Java、Python等,并与Hadoop等数据平台整合。
显然,熟悉一门或者多门现代编程语言,例如Python或Java是你的首要任务。此外,与有经验的数据工程师紧密合作将有助于更好地理解他们开发生产级数据产品所用到的工具和方法。

业务分析师
如果你的背景是SQL,那么说明你已经跟数据打交道很多年了,你很清楚如何通过数据获取业务分析结果。Hive能让你以你熟悉的SQL语言访问Hadoop上的大数据集,因此是你步入大数据殿堂的首选。
数据产品通常需要使用SQL无法胜任的高级机器学习和统计,因此对于业务分析师来说,进入数据科学领域的第二个重要步骤就是在理论层面深入了解此类算法(例如推荐引擎、决策树、NLP),并熟悉目前的实现工具如Mahout, WEKA,或Python的 Scikit-learn。

Hadoop开发者
作为Hadoop开发者,你一定已经了解了大数据集和集群计算的复杂性。你还可能熟悉Pig、Hive、HBase并有丰富的Java经验。
第一步,你需要深入了解机器学习和统计,以及这些算法面向大数据集的高效实现方法。Mahout是个不错的开始,可以在Hadoop上实现上述很多算法。
另外一个需要关注的领域是数据清理(data cleanup),很多算法在建模前都会为数据分配基本结构。但不幸的是,现实中数据大多很“脏”,清理这些数据是数据科学中一项很繁重的工作。Hadoop通常是建模前大规模数据清理和预处理的工具选择。

总结
通向数据科学殿堂之路不可能一帆风顺,你必须学习很多新规则、编程语言,更重要的是还要积累实战经验。这些都需要时间、精力和投入,但最终你会发现一切都物超所值。

会员评论  

已有0参与评论

推荐阅读

【守望者  j2se】ConcurrentHashMap原理分析
【守望者 j2se】ConcurrentHashMap原
集合是编程中最常用的数据结构。而谈到并发,几乎总是离不开集合这类高级数据
【守望者  j2se】双向链表模拟
【守望者 j2se】双向链表模拟
我们熟悉了java单向链表的模拟,现在我就必须开始双向链表的模拟的.1.基础结构
【守望者 高并发】现有高并发WEB服务器 lighttpd Apache Nginx比较
【守望者 高并发】现有高并发WEB服务器
lighttpd网络服务器基于的Lighttpd的网络服务器具有这样的特点:占用内存资源
【守望者 高并发】C10K/C500K与I/O框架
【守望者 高并发】C10K/C500K与I/O框架
C10K、C/500K问题C10K 的意思是10000并发请求,C500K意思是500 000并发请求,
【守望者  JMM】理解volatile内存语义
【守望者 JMM】理解volatile内存语义
理解volatile变量对写多线程程序还是很有帮助的,这样就会避免一上来就是syn这
【守望者  j2se】虚拟机各部分内存溢出情况
【守望者 j2se】虚拟机各部分内存溢出
通过简单的小例子程序,演示java虚拟机各部分内存溢出情况:(1).java堆溢出:
【守望者 高并发】使用CAS实现高效并发处理
【守望者 高并发】使用CAS实现高效并发
守望者:在并发处理应用中,一般使用锁的方式来解决竞争问题,但锁的效率比较
【守望者 大数据】Mahout学习路线图
【守望者 大数据】Mahout学习路线图
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Z
【守望者  j2se】吃透 java I/O 工作机制-1
【守望者 j2se】吃透 java I/O 工作机
I/O 问题可以说是当今互联网 Web 应用中所面临的主要问题之一,因为当前在这
【守望者 j2se】ConcurrentMap之putIfAbsent(key,value)用法讨论
【守望者 j2se】ConcurrentMap之putIfA
先看一段代码:public class Locale { private final static MapString, Lo
【守望者  javascript】判断IE浏览器世界上最短的代码
【守望者 javascript】判断IE浏览器世
最短的IE判定var ie=!-分析以前最短的IE判定借助于IE不支持垂直制表符的特性
【守望者 大数据】机器学习已成为大数据的基石
【守望者 大数据】机器学习已成为大数
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、
【守望者  j2se】多线程与并发知识点总结
【守望者 j2se】多线程与并发知识点总
对于多线程和并发编程这个比较大的技术模块,我们会整理一些帖子方便知识点的
【守望者  j2se】二叉树模拟
【守望者 j2se】二叉树模拟
接着我们就要写一个比较复杂的数据结构的,但是这个数据结构是很重要的,假如
【守望者 SRS  】SRS 源代码分析笔记(0.9.194)-分析服务器对端口的监听 ...
【守望者 SRS 】SRS 源代码分析笔记(
第一部分 分析服务器对端口的监听 端口监听与初始化(一)全局变量_srs_confi

行业聚焦  面试交流  职位推荐  开发视频   技术交流  腾讯微博  新浪微博

友情链接:课课家教育  阿里云  鲜果  W3Cfuns前端网  中国企业家  环球企业家  投资界  传媒梦工场  MSN中文网  Android开发者社区  cnbeta  投资中国网  又拍云存储  美通说传播  IT茶馆  网商在线  商业评论网  TechOrange  IT时代周刊  3W创新传媒  开源中国社区  二维工坊  Iconfans  推酷  智能电视网  FreeBuf黑客与极客  财经网  DoNews  凤凰财经  新财富  eoe移动开发者社区  i黑马  网易科技  新浪科技  搜狐IT  创业家  创业邦  腾讯财经  福布斯中文网  天下网商  TechWeb  雷锋网  新浪创业  和讯科技  品途O2O  极客公园  艾瑞网  抽屉新热榜  卖家网  人民网通信频道  拉勾网  创新派  简单云主机  

手机版|黑名单|守望者在线 在线教育 linux 高级程序设计 C/C++ 大数据 ( 蜀ICP备14029946号

成都守望者科技有限公司 © 2013-2016 All Rights Reserved