大数据开发分两个层次:
大数据开发通常有两层含义,一层是进行大数据平台自身的开发,这属于研发级开发任务,通常称作大数据平台开发。
比如说大数据平台Hadoop就是采用Java语言开发的。整个大数据平台还涉及到一系列产品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,开发和维护这些产品往往需要一个庞大的技术团队。
所以平台开发,通常是要行业当中颇具实力的头部企业去做。像Hadoop生态下的各种技术框架组件,托管在Apache旗下开源,除了研发团队,也会有很多的Contributor在出力维护。
通常来说,从事大数据平台开发的程序员往往需要具备丰富的开发经验,同时具备较强的研发能力,能够搭建出一个稳定的分布式计算体系。
什么是大数据
大数据(big data),是指需要通 过快su获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据,其规模往往达到了PB(1024TB)级。不同机构对大数据也有不同的定义。
大数据开发的另一层含义是在大数据平台下进行大数据应用开发,比如在Hadoop、Spark平台下进行具体的大数据应用开发,应用级开发难度要相对小一些,但是往往需要与具体的场景进行紧密的联系,需要开发者具备一定的行业背景知识。
具体来说,大数据应用开发主要的任务有两个,其一是进行已有软件产品的大数据改造;其二是针对于具体的大数据需求进行全新的大数据应用开发。在企业当中,大数据落地应用的初期,大数据改造的开发任务会相对多一些,而随着需求的不断变化,新的大数据开发任务会逐渐增加。
目前行业当中常说的大数据开发,其实更多是指数据研发偏ETL方向;大数据平台开发,则是指开发各种简化数据任务编程的平台,国内常见的有阿里的Dataworks、网易的猛犸等。
事实上,在企业招聘当中,大数据开发的岗位Title还有更多,具体命名不同,在企业当中所规划出来的岗位职责也不同,作为技术开发者,需要结合岗位技能需求来不断提升自己的技术水平实力。