How to Build and Install Hadoop on Windows
Hadoop数据处理平台的用户现在有两种工具可以帮助他们分类信息。
MapR的新M7发行版删除Hadoop JVM图层以提高性能Hadoop经销商MapR已将LucidWorks Search集成到其自己的发行版中。与此同时,Cloudera推出了第一个针对Hadoop的开源Impala SQL查询引擎完整版。
[进一步阅读:最佳电视流服务]“将搜索用作大数据的用户界面非常有趣。搜索非常适合利用很多不同类型的信息,特别是非结构化信息,“MapR首席营销官Jack Norris说。 “我们看到一些以搜索引擎为核心的非常有趣的应用程序,即使典型的用户不会认为它们是搜索引擎驱动的。”
LucidWorks Search是开源的Apache Lucene / Solr的商业版本文本搜索引擎。通过新的MapR集成,LucidWorks Search可以搜索Hadoop文件系统(HDFS)上的数据或其他文件系统上的文件。
LucidWorks Search提供快照和镜像以实现高可用性,并且消除了大量工作从头开始安装Lucene / Solr。它还为更多数据源,图形用户界面和安全框架提供本机支持。
搜索引擎可用于动态Web应用程序,以快速检索可用的照片,广告,产品建议和其他信息即时填充网站。 “这不是数据仓库的低成本替代品。这是关于利用新的数据源和做一些对业务有重大影响的事情,“Norris说。”自2011年以来,MapR和LucidWorks一直致力于配对他们的技术,当时他们形成了联合营销协议。今年早些时候,他们发布了一个连接器,可以很容易地将Lucene / Solr与MapR Hadoop发行版一起使用。
LucidWords Search可以与MapR最新发布的M7发行版一起使用。除了支持LucidWorks Search之外,M7版本已重新设计,以消除压缩或后台一致性检查,加速性能。
本周,Cloudera发布了Cloudera Impala 1.0版本,这是一款开源SQL兼容的查询引擎, Hadoop的。 SQL是关系数据库管理系统(RDMS)中使用的数据库接口语言,并且是数据库管理员熟知的。
Impala设计用于比Hadoop的Hive更快地执行查询,因为它不使用MapReduce框架,该框架需要搜索结果写入磁盘。相反,用户可以直接查询存储在HDFS和HBase中的数据。用户可以通过交互方式或通过批处理过程查询数据。
去年10月,Cloudera首次发布了该引擎的一个版本作为测试版。此后,该软件已通过37signals和Expedia等公司进行过测试。
Impala是Cloudera Hadoop平台的Cloudera Enterprise RTQ(实时查询)补充包的核心组件。 Impala可以免费下载
5月6日更新,以更正有关Cloudera Impala技术的信息