Windows

Facebook的大数据计划包括仓库,更快的分析

亞馬遜 #Amazon 之逆襲,強攻全美實體超市【贏在美股 | #分析#應用】( 超市 Amazon prime Whole Foods Market #大數據)

亞馬遜 #Amazon 之逆襲,強攻全美實體超市【贏在美股 | #分析#應用】( 超市 Amazon prime Whole Foods Market #大數據)
Anonim

Facebook可能会珍惜其10亿多用户的广告回报数据,但一位工程师表示,该网站对这些数据所做的分析预计将在未来一年继续面临许多挑战。

Facebook面临的问题“比整个行业要早得多”,其中包括计算提供更有效的方法来处理用户在网站上的行为,如何更好地访问和整合Facebook多个数据中心的不同类型的数据,以及设计新的开源软件系统来处理这些数据,Ra管理Facebook分析基础架构的负责人Murthy说,“Facebook是一家数据公司,人们认为最明显的事情就是广告目标,”他在旧金山的一次行业会议上说,谈论Facebook的后端基础架构,数据分析和开源项目。

[进一步阅读:最好的电视串流服务]

“但它比这更深入,”他说。幕后工作与Facebook的分析基础设施有关,该基础设施旨在通过深入分析所有可用数据来加快产品开发并改善用户体验,无论它包括用户在网站上发布的操作,例如发布状态更新,还是Facebook在不同设备上使用的应用程序

Facebook目前使用几种不同的开源软件系统(称为Hadoop,Corona和Prism)来处理和分析其数据,该公司将专注于制作Murthy说,该公司的许多挑战都与Facebook所称的数据仓库有关,该数据仓库将来自多个来源的数据组合到可以分析用户活动的数据库中例如通过每日报告某个特定国家的照片数量,或者查看某个区域有多少用户使用了推荐给他们的网页。

分析旨在优化用户体验并找出用户喜欢和不喜欢的内容,但随着Facebook能够访问越来越多的用户数据,它也变得越来越重要,Murthy说。目前,Facebook仓库每天需要500太字节的新数据,或者500,000千兆字节。在过去的四年中,仓库的规模已经增长了近4000倍,“远远超过Facebook的用户增长,”Murthy说。“为了解决这些问题,Facebook开发了Prism软件系统,该系统旨在执行关键分析功能遍布全球的公司数据中心,并将分析分解为“块”,Murthy说。通过这种方式,对与用户新闻提要相关的一些指标进行分析不会更普遍地阻塞仓库。

“我们越来越多地考虑如何捕获这些数据,”他说。 “该公司还正在研究一种系统,该系统采用完全不同的方法来查询仓库,以在几秒钟内给出响应时间,”Murthy说。“Facebook不断改进的另一个领域是其”交易基础架构, “它处理比较基本的日常数据处理,比如喜欢,评论和状态更新,以保持社交网络的平稳运行。公司工程师和分析师正在研究的一些问题包括:如何预测这类数据的实际增长情况,以及Facebook真正应该分配多少计算量,Murthy说:“

“我们可以预测六个月后的情况吗?”他说,“同时,Facebook也参与了一项长期努力,使其物理服务器的效率更高。该公司于2011年开始开放计算项目,目标是设计模块化服务器,使客户能够更好地控制进入其服务器的网络,内存,电源和其他组件。它在1月份被扩展为包含ARM处理器。