组件

谷歌对应用程序中断覆盖范围的覆辙

Anonim

最近中断影响谷歌应用程序收到了来自技术媒体的大量报道,导致对托管协作和通信套件稳定性的误解。

这是Google企业产品管理总监Matthew Glotzbach的观点他最近与IDG新闻服务部门聊过这个问题,他认为谷歌认为这个新闻网站已经超出了这个问题。

他在最近的一篇博客文章中概述的Glotzbach的观点是,可用性和性能的网络托管软件(例如Google Apps)受到更严格的审查,因为其中断事件是在互联网云中公开发生的。新闻报道对云应用程序的总体可靠性与内部软件的整体可靠性产生了错误认识。

例如,Gmail的可用性(以每个用户的平均正常运行时间为基础,根据服务器端错误率衡量)一直在99.9以北根据Glotzbach的数据,去年这个数字达到了每月10-15分钟的停机时间。根据最近的Radicati Group的统计,根据最近的Radicati Group的统计,电子邮件系统的平均意外停机时间比平均30到60分钟的时间要短,而这些电子邮件系统的购买,安装和维护成本要高于Google Apps。

在采访中,Glotzbach将Google的8月和10月的几次停机视为正确的观点,这让一些应用用户无法在24小时或更长时间内访问他们的Gmail服务。以下是对话的编辑版本。

IDG新闻服务:您想回顾一下您最近发​​布的关于Gmail和应用程序的可靠性和性能的博文中的要点吗?

Matthew Glotzbach:整体云的可靠性是在比一般企业IT系统可靠性更严格的审查下,这很好。我认为将云计算提高到更高的标准是很好的。然而,潜在的人们的看法可能相对于现实而言被夸大了。现在,当我们遇到可能影响少数人数最少的问题时,它会被挑选出来并讨论,好像它影响了很大一部分用户。我并不是说可以接受有[中断]。我意识到期望是100%的可靠性,这就是我们的目标:100%可靠,因此不存在任何讨论,因为它始终可用。这是我们通过Google.com获得的黄金标准,也是我们希望获得Google Apps的地方。

IDGNS:为什么在Gmail的Gmail中遇到24小时以上的停机?

Glotzbach:这是非常罕见的是任何一个用户在这段时间内都不在。即使有停电报告,如果停电总时间为24小时或12小时,无论情况如何,在此期间用户可能只会受到10分钟的影响,或者类似的情况非常普遍。

关于用户如何可能在几个小时内停机,这实际上取决于我们正在处理的故障情况。所有的用户都是双宿主,这意味着他们的数据来自两个独立的位置,所以他们的数据有一个冗余的实时副本。任何时候发生停电事故时,绝大多数人(99%以上的人)都不会遇到任何问题,因为我们会自动将他们转移到其他地点。

在出现问题的地方,无论出于何种原因,都无法将该用户置于[备份]位置 - 该帐户存在错误,或者主服务器和从服务器[副本]不同步。因此,在某些情况下,我们无法让用户失败,并且我们无法恢复该用户对服务的访问权限,直到我们恢复该物理位置。这是一个我们不断变得更好的领域,我们在过去几个月的学习中所做的一些事情解决了这个问题。

IDGNS:当我与受影响的应用程序管理员交谈时,许多人表示他们希望谷歌更清楚地知道Google Apps论坛上的问题,并提供更多详细信息。例如,Salesforce和Amazon有公共网站,他们可以实时报告其托管服务和应用程序的性能和可用性状态。

Glotzbach:我们一直在努力提高透明度,为用户提供各种形状和尺寸无论是消费者还是最大的[Apps Premier]付费公司和其中的所有人。在出现问题时,我们会在用户论坛上系统地公开发布帖子,并尽可能提供解决方法。

透明度所面临的挑战或问题之一是我们运行了大量服务,并且历史上我们尝试过将消息传递给它会影响的人,所以我们有Gmail,Google Docs等讨论论坛。我们肯定能够以非常透明的方式听取人们的意见并回应反馈意见,同时也看看我们是否需要像亚马逊和Salesforce这样的集中地点。然而,亚马逊和Salesforce都提供更低规模的服务。这并不意味着我们不尊重他们在做什么,但我们的经营规模更大。我们提供的信息与他们提供的信息一样或更透明。如果您访问Salesforce Trust仪表板,然后点击某个问题,则会显示“在这一天出现了两个小时的问题”。同样,我并不是说这还不够,但建议我们不要为我们的用户提供透明度[不正确]。

IDGNS:在八月份的Gmail中断后,您提供了服务级别对您的Apps Premier客户达成一致意见并概述计划以改善问题期间的沟通。那是怎么回事?

Glotzbach:我们已经在48小时内发布了事件报告,并与我们的总理版客户分享。您还可以通过现有渠道更系统,更及时地发布问题。实际的应用程序人员可以去[查看停机状态],正在开发中。

IDGNS:尽管如此,一些没有电话支持的应用程序管理员,尤其是标准版的管理员希望谷歌在官方应用论坛发布问题确认和详细信息的速度更快

Glotzbach:我们不断致力于改进服务,并在出现问题时提高响应速度并提供高质量数据。任何时候有人无法访问该服务,这都是值得关注的原因,并且我们对此非常敏感。[

] [但是]我会提请注意务实的比较,即人们的企业邮件系统发生故障的频率以及使用免费标准版的五人公司。他们的选择很有趣,他们可以从不同的提供商处为托管的商业邮件平台支付每个席位数百美元,或者支付数万美元来运行他们自己的服务器。即使他们这样做了,他们的正常运行时间保证也会低于他们从应用程序中看到的实际正常运行时间。

IDGNS:但是,当云计算提供商开始证明他们遇到的任何性能问题时,他们不会陷入滑坡通过指向不同的内部部署软件模型?人们选择云选项的一个重要原因是将软件安装和维护任务交给Google等人,他们可以更好地以更低的成本提供更好的服务。但我不认为他们预计会连续36小时下降,此时他们可能希望拥有邮件服务器。

Glotzbach:绝对如此。我们永远不会希望有人在任何数量的小时内下任何时间,或者在任何数目的时间内都不会有人下任。不幸的是,我们正在谈论边缘案件。我们的目标是保持100%的可靠性,并且我们每周都会越来越近。当你在处理数以亿计的活跃用户或账户时,不幸的是,直到你接近百分之一百的时候,即使你在99.

%的时候,也可能会遇到服务问题有一点。我的目标绝对是期望能够转向Google Apps和这种基于云的服务,并且我将体验到完美的正常运行时间和完全可靠的服务,我将对整体体验感到非常高兴。