发新话题
打印

Hadoop 中国2010云计算大会: 淘宝分布式数据处理实践(附演讲稿)

Hadoop 中国2010云计算大会: 淘宝分布式数据处理实践(附演讲稿)



       

       
       

请点击此处下载演讲稿



近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。我有幸代表淘宝在大会上分享了淘宝在分布式数据处理实践的内容,下面是ppt的一个节选:


淘宝的数据产品线


淘宝网目前有会员2亿左右,日均UV高达4000万,日交易量高达10亿元,每天产生大量的数据,所以部署了一系列不同规模的Hadoop集群。淘宝生产所使用的Hadoop集群为目前国内规模最大的Hadoo集群之一。在会议前一天,这个集群的规模是

1.总容量为9.3PB,利用率77.09%。

2.共有1100台机器。

3.每天处理约18000道hadoop作业

4. 用户数474人,用户组38个

5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个


然而就在这数天内,淘宝由于数据的快速增长,已经扩容至1300机器的规模,总容量达到14.1PB.


请点击此处下载演讲稿



TOP

发新话题
最近访问的版块