欢迎访问文传商讯!

文传动态

打造Hadoop发行版精品 - 星环TDH3.4新版概述

发布时间:2014-10-29 14:11


近日,星环信息科技(上海)有限公司(以下简称星环科技)在纽约召开的Strata Conference + HadoopWorld大会上发布了Transwarp Data Hub 3.4新版本Hadoop发行版软件。

今年的Strata Conference是近年来规模最大的大数据盛会,有5500多人参加这次大会,130多家厂商参展,门票在开会前就售罄。这么大规模的盛会标志着hadoop已经真正成为大数据处理技术的主流地位。这也是星环首次在美国-大数据的大本营-发布大数据最新产品。

Transwarp Data Hub (简称TDH) 3.4新版本大幅增强了Inceptor交互式分析引擎、Hyperbase实时数据库和Stream流计算引擎的功能和性能。

Inceptor 3.4 -更强、更快、更稳定

更完整的SQL支持:

• Inceptor 3.4比美国友商提供了更全的SQL支持,继支持SQL’99后,开始兼容SQL2003语法。最新版本已经包括了对常用数据类型DECIMAL,NUMERIC,VARCHAR的支持,支持WITH-AS定义子表, 以及支持在任意FROM/WHERE/SELECT/HAVING语句中嵌套子查询和相关子查询(Correlated Sub-query),支持窗口聚合函数, CUBE, ROLLUP等功能。

• Inceptor3.4支持SQL2003语法额外要求的功能,包括支持SQL2003要求的各种predicate(BETWEEN, LIKE, EXISTS等),并且支持在predicate中嵌套子查询(sub-query in comparison predicate, sub-query in IN predicates, correlated sub-query,etc),支持在子查询中嵌套table operator等。

• 支持部分PL/SQL语法,包括变量、函数、控制流、部分存储过程。

支持SQL的完整程度已经远超过美国友商的同类产品,包括Cloudera在StrataConference上发布的Impala2.0的SQL支持程度。

更快的性能:

Inceptor 3.4实现了更多的优化规则,并且自己研发了基于代价的优化器,性能比之前的版本有显著提高。在Cloudera最近公布的TPC-DS性能数据中,Impala 1.4比所有的其他产品(包括SparkSQL)快5倍以上。作为回应,在Strata Conference上,星环公布的TPC-DS的性能评测结果以及Inceptor 3.4与Impala 1.4的对比。

下图是所有TPC-DS测试集合的性能对比图. 图中纵坐标小于1表示测试案例的性能Impala超过Inceptor,而大于1表示Inceptor有更好的性能表现。对于Impala不能支持的SQL,我们就标记这个性能比为100。

从这个图中可以看到,在Impala目前支持的19个SQL中,有11个SQL在Inceptor上比Impala表现的更好, 只有8个SQL的Impala表现超过Inceptor。

另外,在和开源的Hive执行效率相比中,Inceptor 3.4能够带来10x~100x的性能提升。下图是TPC-DS的部分query在Inceptor和CDH Hive的性能提升倍数,其中最大的提升倍数竟可达到123倍。需要说明的是,这里用的Query跟Impala运行的相同。

更多详细的性能比较以及TPC-DS的测试配置和细节可以参考星环发布的性能白皮书。

更全的机器学习算法支持:

• Inceptor 3.4新版本提供了更多的统计和机器学习算法,在MLlib已有的算法(CF, SVM等)上也做了稳定性和精度的改进。下表是TDH3.4支持的算法列表:

其中一些算法已经成功运用在电商和网络电视的推荐系统中。

• Inceptor3.4提供了更完善的R语言支持,现在使用R语言进行数据挖掘的用户,可以在R语言中执行SQL语句,并把SQL的结果传给机器学习算法。多个机器学习算法的结果也可以继续传递给后续算法,可以组成一个pipeline,方便用户对数据进行多轮分析和挖掘。

更稳定可靠的Spark计算引擎,可处理GB到PB级别的大数据量:

• Inceptor 3.4的重大改进是提高了Spark引擎处理大数据的能力以及性能的稳定性,通过设计全新的内存换出机制并改造多个Spark操作原语,可以在大数据量上稳定地运行复杂的SQL,并且在大数据量上的运行性能全面超越Hive和Map/Reduce。

• 星环已经实现了大数据量复杂SQL算法的高性能和稳定性,并且已经成功替换Oracle/DB2和小型机的组合,运用在上海移动和广东移动的复杂经营分析场合。

Hyperbase3.4 - 更全的SQL支持和索引支持

Hyperbase 3.4的新功能主要包括了对Inceptor SQL的更好支持上,Hyperbase从3.4开始同步支持Inceptor的SQL语法,可通过SQL对Hyperbase进行单条记录的增删查改。

新版本提供了星环科技开发的一个新的专有ODBC驱动程序(windows版本),可以通过ETL 工具支持从现有关系数据库实时同步更新数据到Hyperbase,这个功能对实时数据仓库或者ODS来说是必不可少的,目前美国友商的相应Hadoop产品还只能支持批处理,不能和关系数据库进行实时同步。

Hyperbase 3.4提供了更好的索引支持,并且Inceptor SQL引擎可以充分利用Hyperbase的内建索引来加快查询速度。在有索引的情况下,查询的延时降到了百毫秒级别。为了支持更复杂的索引,Hyperbase 3.4充分利用了新设计的代价优化器,可以自动根据访问索引的代价选择最佳索引。

Stream 3.4 - 更快、更稳定、更安全

Stream 3.4流处理引擎进一步提高了读取Kafka分布式队列中数据的吞吐性能,并且为Kafka提供了安全认证和访问控制功能。Kafka的安全控制功能目前在开源版本或者友商的发行版中都不具备,也侧面说明了友商的Kafka或者流处理引擎目前没有实际部署。对跨地域分级部署的流处理集群而言,缺乏安全机制是致命弱点,特别是跟公共安全相关的应用,将导致系统由于安全原因无法实施。此外,Transwarp Stream 的稳定性也得到验证,最近在某省的全省交通指挥监控系统中上线并且能够7x24运行,端到端延时控制在了2秒以内,是目前国内在线运行的大规模流处理集群的少见案例。

总结

此次星环科技在美国纽约发布的新版本,在多项核心功能和性能指标中已经领先于美国友商,也吸引了多家金融客户的关注。

金联创 xinhua08 cacs takungpao China.com 和讯 财讯 C114.net 看商界 畅享网 中国能源网 证券之星 金融界 中金在线 天和网 中国金融网 中汽传媒 国际财经日报 中国环保网 今日亚洲新闻网 百歌新闻专线 亚洲商机 新华网能源频道 IT资讯网 中国智能卡论坛 广西物流网 品牌世家 汽车点评网 中国电子标签网 360教育在线 21世纪保险网 中国能源投资网 中国电子商业联盟 中国汽车咨询中心网 煤炭供应链 美国证券网 百奥知 CTI论坛 中国测控网 北极星电力网 能源财经网 福建之窗 智库在线 eeworld 电脑商情在线 中国电池网 赢商网 湖南信息港 赢在中国网 比邻星环保网 中国制造业门户 中国涂料在线 渝网 - 了解重庆第一站,重庆城市生活门户网站 中国云计算第一门户网站—中云网 投资界 i美股 天和财富网 太阳能信息网 爱中国能源网 世纪新能源网 中国新能源网 PVMate.com 环球外汇 橡胶网-hc360慧聪网 百年企业在线 IT168 米内 汽车工业网 第一车市汽车网 股市资讯 中国西部网 中原汽配网 科技在线 煤炭网 51招生网 教育人生 驴皮网 物流北京 51电池搜索网 大众医学 岭南医药网 5联网 股城网 BIT CNELC XXTLW 外汇通 供应链中国网 中国粘合剂网 中国储能网 家具迷 家居装修网 中華检测网 中国食品招商网 华东化工网 新疆第一汽车网 中国汽车用品交易网 大娱网 中国汽配网 山东化工网 960化工网 妈咪爱 塑胶五金网 慧聪电子网 迈点酒店网 火爆网 emcsino eetrend 绿色节能网 赤浪绿色新能源网 中国商业网 生物无忧 全球医疗器械网 贷商网 手机在线 汽车轻量化在线 中国汽车材料网 科易网 中国电子顶级开发网 中国POS机网 乐康家居 必修 国易网