MapReduce - 精灵云海

标签 MapReduce 下的文章

mapreduce程序shell脚本运行跑多天数据

23 10 月, 2013
mapreduce程序shell脚本运行跑多天数据已关闭评论

vprun.sh

sh vprun.sh 20130101 20130102

说明：参数为开始日期和结束日期，如果开始日期和结束日期是一样的话，那就是跑一天的数据

#!/bin/bash
#Filename: vprun.sh
ct=0
date=`date -d "${1} ${ct} days" +%Y%m%d`
while [[ ${2} > ${date} ]] || [[ ${2} == ${date} ]]
	do
		hadoop jar /home/yda/tianhailong/vp-0.0.1-SNAPSHOT.jar com.youku.vp.userindex.day.calculators.TDVUserVideoJoin -libjars /home/yda/tianhailong/json-lib-2.3-jdk15.jar,/home/yda/tianhailong/ezmorph-1.0.6.jar,/home/yda/tianhailong/kfs-0.3.jar,/home/yda/tianhailong/redis-0.0.1.jar,/home/yda/tianhailong/jedis-2.0.0.jar,/work/yda/video_profile/dataUtil.jar /commons/common_data/user/hive/tudou:/commons/common_data/t_dlord_info/hive:/commons/common_data/t_vuser/hive:/commons/common_data/video/hive/tudou /commons/web/vuser-video/$date/tudou $date
	let "ct += 1"
	date=`date -d "${1} ${ct} days" +%Y%m%d`
	done

一般情况下，在输入源是文件的时候，一个task的map数量由splitSize来决定的，那么splitSize是由以下几个来决定的
goalSize = totalSize / mapred.map.tasks
inSize = max {mapred.min.split.size, minSplitSize}
splitSize = max (minSize, min(goalSize, dfs.block.size))
一个task的reduce数量，由partition决定。
在输入源是数据库的情况下，比如mysql，对于map的数量需要用户自己指定，比如
jobconf.set(“mapred.map.tasks.nums”,20)；
如果数据源是HBase的话，map的数量就是该表对应的region数量。
map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交map/reduce作业时应该在一个合理的范围内，这样既可以增强系统负载匀衡，也可以降低任务失败的开销。
1 map的数量
map的数量通常是由hadoop集群的DFS块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个Node是10~100个，对于CPU消耗较小的作业可以设置Map数量为300个左右，但是由于hadoop的没一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的，InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当InputFormat 决定了map任务的个数比mapred.map.tasks值小时才起作用。同样，Map任务的个数也能通过使用JobConf 的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。
2 reduece的数量
reduce在运行时往往需要从相关map端复制数据到reduce节点来处理，因此相比于map任务。reduce节点资源是相对比较缺少的，同时相对运行较慢，正确的reduce任务的个数应该是0.95或者1.75 *（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。同时需要注意增加reduce的数量虽然会增加系统的资源开销，但是可以改善负载匀衡，降低任务失败带来的负面影响。同样，Reduce任务也能够与 map任务一样，通过设定JobConf 的conf.setNumReduceTasks(int num)方法来增加任务个数。
3 reduce数量为0
有些作业不需要进行归约进行处理，那么就可以设置reduce的数量为0来进行处理，这种情况下用户的作业运行速度相对较高，map的输出会直接写入到 SetOutputPath(path)设置的输出目录，而不是作为中间结果写到本地。同时Hadoop框架在写入文件系统前并不对之进行排序。
http://blog.sina.com.cn/s/blog_4439f9310101bxss.html

Google的三大核心技术MapReduce、GFS和BigTable论文

19 2 月, 2013
Google的三大核心技术MapReduce、GFS和BigTable论文已关闭评论

Google的三大核心技术MapReduce、GFS和BigTable论文（中文翻译版）
MapReduce：
http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx
GFS:
http://blog.csdn.net/xuleicsu/archive/2005/11/10/526386.aspx
BigTale:
http://blog.csdn.net/accesine960/archive/2006/02/09/595628.aspx

雅虎计划重构 Hadoop-MapReduce，解决性能瓶颈

9 5 月, 2012
雅虎计划重构 Hadoop-MapReduce，解决性能瓶颈已关闭评论

最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候，Hadoop遭遇到扩展性的瓶颈，目前他们正准备开始对Hadoop进行重构。
Mapreduce面临的瓶颈
从集群大小和工作量中观察到的趋势是，MapReduce的JobTracker需要彻底改革，以解决其可扩展性，内存消耗，线程模型，可靠性和性能的几个缺陷。Mapreduce在过去5年框架不断的修复过程中发现成本在不断增加。目前Hadoop各个模块的紧耦合使得在现有设计的基础上继续改进变得举步维艰。这一点早已在社区内达成共识，所以他们正准备开始对Hadoop进行重构。不过从操作的角度来看，任何轻微的或修复Bug带来的巨大改动都会让Hadoop MapReduce强制进行全系统的升级。
下一代MapReduce构思
据该博客文章表示，新架构的主要思想是把原来JobTracker的功能一分为二：ResourceManager管理资源的分配，ApplicationMaster管理任务监控和调度。ResourceManager与原有的JobTracker类似，作为整个集群的控制中心；而ApplicationMaster则是每个application都有一个单独的实例，application是用户提交的一组任务，它可以由一个或多个job组成。每台slave运行一个NodeManager实例，功能类似于原来的TaskTracker。
1.层次化的管理
目前Hadoop的资源管理和任务调度都是在JobTracker中进行的，它需要复制所有task的资源分配和调度。而task是非常微观的调度单位，通常每个job都会产生成百上千个task，而系统同一时刻又会有大量的job同时运行，这让JobTracker的管理负担变得非常繁重。新架构将这一管理任务下放到各个ApplicationMaster，ResourceManager只管理每个application的资源分配。这样即使系统中存在很多application，ResourceManager的负担也能控制在一个合理的程度；这也是新架构最大的优势。
2.ApplicationMaster应该在Master还是Slave上运行？
新架构实际上将管理和调度的任务转移到ApplicationMaster上来，如果ApplicationMaster所在的节点挂掉，整个任务都需要重做。原来JobTracker可以跑在相对稳定的Master上，出错概率低；现在ApplicationMaster跑在好些Slave上，出错的概率就非常高了。而且新架构打破了原来简单的Master-Slave模型，节点之间的通讯和依赖关系变得更加复杂，增加了网络优化的难度。如果把ApplicationMaster全都放在Master上执行，则Master的负担会非常重（需要处理各种持续性的heartbeat和爆发性的如getTaskCompletionEvents这样的rpc请求），不过这个问题可以通过分布式的Master解决（Google已经实现）。
3.资源管理方式
原来单纯地以简单静态的slot作为资源单位确实不能很好描述集群的资源状况。新架构将更细粒度地控制CPU，内存，磁盘，网络这些资源。每个task都将在Container中执行，并只能使用其所分配到的系统资源。资源的分配可以用静态估计动态调整的方式实现。
4.支持其他编程模型
由于任务的管理和调度都由ApplicationMaster进行，ApplicationMaster又相对独立于系统的其他模块，用户甚至可以部署自己的ApplicationMaster，实现对其他编程模型的支持。这使得其他不大适合用MapReduce实现的应用程序也能在同一个Hadoop集群中运行。
可伸缩性实现
可伸缩性对当前的硬件发展趋势是非常重要的，目前MapReduce集群已经有4000台主机。然而2009年的集群中的4000台主机（8核心，16GB内存，4TB硬盘）只有2011年集群中4000台主机（16核心，48GB内存，24TB内存）一半的处理能力。此外，考虑到运营成本，迫使集群中运行6000台主机，以后可能会更多。
可用性实现
ResourceManager —— ResourceManager使用Apache的ZooKeeper实现故障转移。当ResourceManager失败时，可以通过Apache的ZooKeeper迅速恢复集群状态。在故障转移后，所有队列运行的应用程序都会重新启动。
ApplicationMaster —— MapReduce的NextGen支持为ApplicationMaster应用进行特定的检查。MapReduce的ApplicationMaster可以从失败中恢复，通过自身恢复到HDFS保存的状态。
兼容性实现
MapReduce的NextGen使用Wire-兼容协议（wire-compatible protocols）来允许不同版本的服务器和客户端进行信息交换。在未来的版本中，这一特性将一直保留，以保证集群升级后仍然兼容。
集群实现
MapReduce NextGen Resource使用常规的概念调度并将资源分配给各个应用程序。集群中的每台机器概念上都是由资源组成的，如内存，I/O带宽等。
支持其他的编程模型
MapReduce的NextGen提供了一个完全通用的计算框架，以支持MapReduce和其他范例。
该架构最终允许用户能够实现自定义ApplicationMaster，它可以要求ResourceManager的资源利用他们。因此，它支持多种编程，如MapReduce，MPI，Master-Worker以及Iterative models在Hadoop上。并允许为每个应用使用适当的框架。这对于应用程序（如K-Means, Page-Rank）在自定义框架外运行MapReduce。
结论
Apache的Hadoop，特别是Hadoop的MapReduce是一个非常成功的开源的处理大数据集的项目。我们建议Hadoop的MapReduce提高可用性、提高集群使用，并提供范式的编程架构以及
实现快速的发展。Yahoo将和Apache基金会一起将Hadoop在处理大数据的能力提高到一个新水平。

Hadoop的那些事儿

8 5 月, 2012
Hadoop的那些事儿已关闭评论

在说Hadoop之前，作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎，它还创造了几项革命性的技术：GFS，MapReduce，BigTable，即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码，但它发表了详细的设计论文，这给业界带来了新鲜气息，很快就出现了类似于Google三驾马车的开源实现，Hadoop就是其中的一个。

关于MapReduce

Hadoop说起来很简单，一个存储系统（HDFS），一个计算系统（MapReduce）。仅此而已。模型虽然简单，但我觉得它的精妙之处也就在这里。目前，通过提高CPU主频来提升计算性能的时代已经结束了，因此并行计算、分布式计算在业界发展了起来，但是这也往往意味着复杂的设计与实现，如果能找到一种方法，只需要写简单的程序就能实现分布式计算，那就太好了。

我们可以回想下当初做的课堂作业，它可能是一个处理数据的程序，没有多线程，没有进程间通信，数据输入都是来自键盘（stdin），处理完数据之后打印到屏幕（stdout），这时的程序非常简单。后来我们学习了多线程、内存管理、设计模式，写出的程序越来越大，也越来越复杂。但是当学习使用Hadoop时，我们发现又回到了最初，尽管底层是一个巨大的集群，可是我们操作文件时就像在本地一样简单，写MapReduce程序时也只需要在单线程里实现数据处理。

Hadoop就是这样一个东西，简单的文件系统（HDFS），简单的计算模型（MapReduce）。这其中，我觉得HDFS是很自然的东西，如果我们自己实现一个，也很可能是这样的。但是仔细琢磨下MapReduce，会发现它似乎是个新奇事物，不像HDFS的界面那样通俗易懂老少皆宜。MapReduce虽然模型简单，却是一个新的、不广为人所知的概念。比如说，如果说要简化计算，为何要做成Map和Reduce两个阶段，而不是一个函数足矣呢？另外，它也不符合我们耳熟能详的那些设计模式。一句话，MapReduce实在太另类了。

Hadoop的思想来源于Google的几篇论文，Google的那篇MapReduce论文里说：Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages。这句话提到了MapReduce思想的渊源，大致意思是，MapReduce的灵感来源于函数式语言（比如Lisp）中的内置函数map和reduce。函数式语言也算是阳春白雪了，离我们普通开发者总是很远。简单来说，在函数式语言里，map表示对一个列表（List）中的每个元素做计算，reduce表示对一个列表中的每个元素做迭代计算。它们具体的计算是通过传入的函数来实现的，map和reduce提供的是计算的框架。不过从这样的解释到现实中的MapReduce还太远，仍然需要一个跳跃。再仔细看，reduce既然能做迭代计算，那就表示列表中的元素是相关的，比如我想对列表中的所有元素做相加求和，那么列表中至少都应该是数值吧。而map是对列表中每个元素做单独处理的，这表示列表中可以是杂乱无章的数据。这样看来，就有点联系了。在MapReduce里，Map处理的是原始数据，自然是杂乱无章的，每条数据之间互相没有关系；到了Reduce阶段，数据是以key后面跟着若干个value来组织的，这些value有相关性，至少它们都在一个key下面，于是就符合函数式语言里map和reduce的基本思想了。

这样我们就可以把MapReduce理解为，把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取出key和value，也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后，在Reduce阶段看到的都是已经归纳好的数据了，在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初，终于知道MapReduce为何要这样设计。

Hadoop, More and More

Hadoop/MapReduce的Job是一个昙花一现的东西，它仅仅是一个计算过程而已，所有数据都是从HDFS来，到HDFS去。当最后一个Reduce完成之后，整个Job就消失了，只在历史日志中还保存着它曾经存在的证据。

Hadoop中的节点是对等的，因此每个节点都是可替代的。也因此，JobTracker可以把任务分配到任何一个节点执行，而不影响最后的产出结果。如果不是这样，就破坏了Hadoop的对等性。对等性可以说是Hadoop扩展能力、容错能力的基础，它意味着计算不再局限于单个节点的能力。当然事情总有两面性，对等性造成的结果是，如果我们想让某些节点做特殊的事情，会发现很困难。

就像很多分布式系统中的文件、对象一样，Hadoop对数据的操作是原子性的，一个Job跑完之后，最终的数据是在一瞬间呈现的，如果Job失败了，则什么都没有，连部分数据也得不到。由于Job中的task都是并行的，因此这里适用于木桶理论，最后一个完成的那个task决定了整个Job完成的时刻。所以如果Hadoop发现某些Task特别慢，会在其它节点运行这些Task的副本，当其中某个副本完成后，Hadoop将Kill掉其余的副本，这也是基于对等性的一个应用，使得那些慢的节点不会拖慢Job。如果某个task在重试若干次之后仍然失败了，那么整个Job宣告失败。

Hadoop包括HDFS、MapReduce，此外还有Hbase、Hive等，普通的应用大概是存储海量的数据，并进行批量的处理、数据挖掘等，不过也有些比较巧妙的实际应用，比如用Hadoop搭建HTTP下载服务器，或FTP服务器等，还有人用Hadoop搭建视频点播服务器。我觉得Hadoop对这些应用的最大价值是可以降低硬件成本，以前也许需要购买昂贵的硬件，现在购买廉价的服务器就可以实现。不过，做这些应用都需要对Hadoop做定制，修改代码啥的，似乎还没有整体的解决方案。

Hadoop是Java写的。可能有不少人会想，如果Hadoop是用C或C++写的，会不会更快些？关于这个问题网上也有不少讨论，简单地说就是，不会更快。而且我觉得需要强调的一点是，当面对Hadoop要面对的问题域时，编程语言不是首先要考虑的问题，或者说，依赖于具体的实现方案。Hadoop要处理的是大批量数据，它强调的是吞吐量，当整个集群跑起来之后，系统的瓶颈往往是在磁盘IO和网络IO，这种情况下，用C/C++实现Hadoop不见得比Java实现性能更高。相反，由于Java语言的严谨、统一和一些高级特性，用Java实现Hadoop对开发者而言会更容易。一般来讲，无论是用C++写还是用Java写，当系统发展较成熟时，都已经经过了相当的优化，这时系统的瓶颈往往不在于软件了，而在于硬件的限制。当然，这并非意味着目前Hadoop已经实现得很好了，Hadoop还有很大的优化空间，它的开发进程依然火爆，很多人在优化Hadoop，还包括用C++来改写Hadoop的部分代码的。另外，对于超大的集群（比如几千台服务器），调度器的优化也很关键，否则它就可能成为整个集群的瓶颈。我想这就是Hadoop虽然已经广泛应用，但是版本号依然还是零点几的原因吧。

虽说Hadoop的模型很简单，但是开发Hadoop的Job并不容易，在业务逻辑与HadoopAPI之间，我们还必须写大量的胶水代码，这无异于在WindowsSDK基础上写一个画图板程序，或者在Linux系统调用基础上写一个支持多用户在线的聊天服务器，这些似乎都不难，但是比较繁琐，需要堆砌大量代码，写完一个之后，你大概不会再写第二个。我把这种情况称为用汇编语言写程序，也就是说，你面对的是业务问题，却必须不遗巨细与机器打交道。

面对上述困境，人们想出了很多解决办法，开发出高级语言来屏蔽底层的细节，让开发过程更加简单，我把这种情况称为用脚本写程序，可以很快的修改&调试。其中Facebook开发了Hive，这是类似于SQL的脚本语言，开发者基本上只要面对自己的业务数据，就能写出Hive脚本，虽然有一定的入门门槛，但是比起用HadoopAPI写程序，可以称得上是巨简单了。另外Yahoo开发了PIG-latin，也是类SQL的脚本语言，Hive和PIG都有很广泛的应用[http://wiki.apache.org/hadoop/Hive/PoweredBy]，[http://wiki.apache.org/hadoop/PoweredBy]。

http://www.searchtb.com/2010/11/talk-about-hadoop.html

云里雾里的云计算【4】-转载自邓侃博士的博客

11 4 月, 2012
云里雾里的云计算【4】-转载自邓侃博士的博客已关闭评论

【5】是云计算，还是云存储？
Gadgets的目标是方便大家建网站。但是单靠gadgets，建网站的工作还是不够方便。
通常网站有三个组成部分，1. 网页，2. 业务逻辑， 3. 数据存储。如果说网页相当于商店，那么业务逻辑相当于车间，而数据存储相当于仓库。商店，车间和仓库三者中，技术含量最高的，当属车间。
Manufacture in old time Courtesy http://www.atlantic-cable.com/Cables/1857-58Atlantic/Cable-Manufacture.jpg
车间管理可以大致概括为两件事，1. 工艺流程，2. 资源调度。工艺流程关心的是，先做什么，后做什么，才能生产一个完整的产品。资源调度的问题是，哪个工人，用哪台机器，在哪个时间，做什么。
网站的业务逻辑处理，大致来说也分业务流程和资源调度两部分。
流程的设计，每个网站不尽相同。譬如有两个网站，一个招聘人才，另一个销售图书，它们的业务流程非常不一样。但是销售图书的网站，与销售电器的网站，它们两者的业务流程相对比较接近。
流程设计千变万化，而资源调度却有章可循。所谓计算机资源，无非是这五种东西，1. CPU，2. RAM，3. Disk，4. RAM-Disk IO，5. Network。资源调度，无非是优化使用这五种资源，使之在最短的时间内，完成分配来的工作。
优化使用这五种资源，目标挺明确，实施起来却相当不容易。一日偶遇一仙人，谈到计算资源调度优化的问题，仙人说，他有一套五行八卦的优化办法，用中国古代智慧，解决当今科技难题。我把仙人的办法概括为以下几个要点，
1. 五行相生相克，系统优化不能偏执单一资源的优化。
2. 系统的总体效率需要一个测度，这个测度被称为“阴阳度”。
3. 阴阳度不是五种资源的简单加权和。阴阳度与五行的关系是非线性的，这种非线性关系可以参照河图洛书来确定，譬如规定五行中土的阴阳度为0，河图数零点的阴阳度为-5，洛书数零点的阴阳度为-10。
4. 时刻监控系统总体的阴阳度，阴阳度变化的正常模式可以分为太极，太虚以及太一三种。
5. 当阴阳度的变化偏离了正常的模式，就需要对系统进行调整。调整的办法参见“说卦”中的六种范式，即洛书逆式，先天八卦，后天八卦，神也者，洛书顺式，和乾坤六子。
仙人的办法听上去很有美感，但是操作起来却有难度。正在困惑之时，听到Google宣布，“我有办法解决资源调度问题，你们只须专注于业务流程”，确实为之感召。
Google的解决办法，是AppEngine。 Google AppEngine logo Courtesy http://img.genbeta.com/2008/04/google-app-engine.png
问题是，Google AppEngine真得能够优化任何业务流程的资源调度吗？
譬如有人想建一个人才招聘网站，招聘的业务流程如下图所示。Google打算劝说这个人把网站建在Google云计算平台上，做为技术支持，AppEngine应该提供哪些功能？
Recruiting process business logic Courtesy http://www.infoq.com/resource/articles/seven-fallacies-of-bpm/en/resources/job_application_process.jpg
猛一看，觉得很容易，流程清楚，算法简单。只需要把流程中诸多环节，归并成几个模块，即大功告成。
再看看，事情没那么简单。整个流程不是从头到尾一次走完，譬如interview会有好几次，然后过几天才会发offer。所以，应当把整个流程的每个模块独立出来，封装成服务，每个服务能够独立运行。召之即来，来之能战。平时不用，不占资源。
SOA（Service Oriented Architecture）还有一个好处，是便于重组业务流程。譬如系统上线以后，发现在面试（interview）以前，还需要添加一个电话约谈（phone screen）的环节。如果流程中每个服务都能独立运行，添加新的服务就很容易，不至于造成牵一发动全身的局面。
SOA的结构设计，有很多优点，但是仍然有遗留问题。如果同时有很多人使用这个招聘网，系统的吞吐量需要随之加大，怎么办？增加系统吞吐量的办法，有两条思路。
第一种办法是购置多台机器，每台机器上安装所有服务。当很多人同时使用招聘网的时候，把他们的需求均匀转发到各个机器上去，这样每台机器的负载都不大，但是整个系统的吞吐量增加。
第二种办法的效率更高，它可以用数量较少的机器，达到和第一种办法相同的吞吐量。或者，用相同数量的机器，在更短的时间内完成所有任务。这种办法首先分析每个服务耗费的资源，譬如CPU时间和RAM空间等等。然后给资源耗费量大的服务多分配几台机器，以免它们成为整个业务流程的瓶颈。
第二种办法虽然有很多好处，但是实现起来有些难处。首先是如何监控和分析每个服务的资源消耗，其次是如何自动把服务从一台机器转移到另一台机器去运行。
或许有人会问，为什么不提多线程的办法呢？所谓多线程是把多个任务交给多个线程去完成，这些线程交叉使用CPU，IO，Disk等等资源，减少使用这些资源前的排队时间。多线程的办法，关注的是每个服务的实现细节。而我们刚才讨论的，是服务与服务之间怎么整合的问题，所以，是不同层面的问题。
又有人问，为什么不提MapReduce之类并行处理的办法？与多线程一样，MapReduce关注的是每个服务的实现细节，是不同层面的问题。
回到前面的问题，如果Google打算劝说大家把网站建在Google云计算平台上，做为技术支持，AppEngine应该提供哪些功能？
1. 开放更底层的APIs，而不仅仅是Python的APIs。便于第三方开发人员，实现逻辑复杂，以及资源使用方式复杂的模块。
2. 提供IDE，方便第三方开发人员，把模块封装成符合Google云计算平台规范的服务。
3. 开发调度工具，用于监督各个服务资源消耗，分配合适的机器去负责各个服务运行等等。
4. 开发预警和修复工具。开放自己的平台，去运行第三方人员（外人）开发的服务。对于Google来讲，有理由提高戒备，预防云计算平台崩溃，万一崩溃了，能够迅速修复。
这四个功能，AppEngine目前都没有实现，所以云计算平台，对于第三方开发人员来说，暂时不是计算平台，而是存储平台。

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31