HiveServer连接优化 - yurun

标签: hiveserver 优化 yurun | 发表时间:2015-02-05 17:48 | 作者:yurun
出处:

引言

 
数据平台目前通过Hive SQL的方式提供数据分析服务,系统使用多台HiveServer(JDBCServer)接收客户端连接请求,实际使用场景中频频出现HiveServer内存消耗过多导致机器Swap过高,需要重启HiveServer来缓解问题,但在某些任务比较集中的时间段往往会导致大量任务执行失败(我们配备了相应的任务重试机制,但也会带来一定的影响)。
 
在与运维同学的流通过程中,偶然提到是否可能某台HiveServer接收的连接请求过多,执行过程中负担过重引起的(暂不考虑其它可能因素),引出如下思考:
 
(1)目前平台内置两种HiveServer选择算法:随机选择器(通过随机数对HiveServer数目取余)、哈希选择器(通过UUID的哈希值对HiveServer数目取余),目前采用随机选择器;
(2)目前平台两个模块需要与HiveServer频繁交互:作业管理、数据查询,随着业务发展还会有其它逐步衍生其它模块;
 
问题:随机(哈希)选择算法仅仅考虑单个模块内连接的均衡,而且没有考虑HiveServer正在执行的语句条数(表示繁忙程度,粒度比较粗),在这样的场景下确实可能会出现某台HiveServer在特殊时段内负担相对较重。
 
思路
 
当需要与HiveServer建立连接时,应该有一个接口能够给出当前所有HiveServer各自的工作负载情况(根据当前正在执行的SQL语句条数判断),选择工作负载最低的HiveServer进行连接。
 
因为一次连接存在期间,可以执行多条SQL语句,而且多个模块的存在,在每个模块内置入代码是非常不方便的,因此考虑在HiveServer内部实现。
 
实现
 
要给出当前所有HiveServer各自的工作负载情况,就需要有数据源提供当前所有HiveServer各自正在执行哪些SQL语句(条数),因此HiveServer在执行语句之前、之后需要能够给出相应通知,并持久化到数据源,依据该数据源中的实时数据,即可计算工作负载。
 
假设数据源为MySQL,我们至少需要这样的一张表:
 
server HiveServer名称,同一台机器可以开启多个HiveServer实例
hook PRE_EXEC_HOOK、POST_EXEC_HOOK,分别表示语句执行开始之前、执行线束之后
queryId HiveServer内部语句唯一ID
queryStr 具体执行语句,可根据语句复杂度计算工作负载
jobName 平台自己设置,我们仅仅考虑会转化为MR任务的语句,jobName即为MR JobName
preTime 语句执行之前的时间戳
postTime 语句执行之后的时间戳
 
问题:HiveServer如何在执行语句之前、之后发出相应的通知?
 
我们使用Hive Hook机制,需要实出接口ExecuteWithHookContext,核心代码如下:
 
         QueryPlan queryPlan = hookContext.getQueryPlan();

HiveConf conf = hookContext.getConf();

String queryId = queryPlan.getQueryId();

if (StringUtils.isEmpty(queryId)) {
LOGGER.warn("queryId is null or empty, return");

return;
}

LOGGER.info("queryId: " + queryId);

String queryStr = URLEncoder.encode(queryPlan.getQueryStr(),
CharEncoding.UTF_8);

if (StringUtils.isEmpty(queryStr)) {
LOGGER.warn("queryStr is null or empty, return");

return;
}

LOGGER.info("queryStr: " + queryStr);

String jobName = conf.getVar(HiveConf.ConfVars.HADOOPJOBNAME);

LOGGER.info("jobName: " + jobName);

if (StringUtils.isEmpty(jobName)) {
LOGGER.warn("jobName is null or empty, return");

return;
}

String server = conf.get("hiveserver.execute.hook.server");

if (StringUtils.isEmpty(server)) {
LOGGER.warn("server is null or empty, return");

return;
}

LOGGER.info("server: " + server);

String rest = conf.get("hiveserver.execute.hook.rest");

LOGGER.info("rest: " + rest);

if (StringUtils.isEmpty(rest)) {
LOGGER.warn("rest is null or empty, return");

return;
}

Map<String, String> params = new HashMap<String, String>();

params.put("server", server);

params.put("hook", hookContext.getHookType().toString());

params.put("queryId", queryId);

params.put("queryStr", queryStr);

params.put("jobName", jobName);

params.put("timestamp", String.valueOf(DatetimeUtil.now()));

try {
HttpClientUtil.doPost(rest, params);
} catch (Exception e) {
LOGGER.error("do post error: "
+ ExceptionUtils.getFullStackTrace(e));
}

  

 
可以看出,该Hook同时可以用于PreHook与PostHook,而且为了保持代码的“轻量级”,并没有直接进行数据的持久化,而是通过Rest API交由外部模块处理。
 
此外需要在hive-site.xml文件中进行相应的设置,如下:
 
 
启动HiveServer时,需要指定该实例的名称与具体的Rest API地址,如下:
 
hive --service hiveserver --hiveconf hiveserver.execute.hook.server=localhost:10000 --hiveconf hiveserver.execute.hook.rest=http://localhost:8088/rest/hiveserver/send
 
总结
 
通过以上的机制可以获取到所有(指定)HiveServer当前(时段内)正在执行的语句条数(如果只有PreTime值,而PostTime值为Null,则表示该条语句正在执行),依此可以计算各自的工作负载,从而选取工作负载最小的HiveServer进行连接。
 
后期进一步优化时还可以充分利用JobName,平台每次执行查询任务时均会设置mapred.job.name属性,用以统计一次查询(可以有多条SQL语句)所处理的数据量、消耗的时间等信息,可以利用这些历史数据信息,用于估计当前正在执行的SQL语句的可能消耗时间,进行优化工作负载的计算。

本文链接: HiveServer连接优化,转载请注明。

相关 [hiveserver 优化 yurun] 推荐:

HiveServer连接优化 - yurun

- - 博客园_首页
数据平台目前通过Hive SQL的方式提供数据分析服务,系统使用多台HiveServer(JDBCServer)接收客户端连接请求,实际使用场景中频频出现HiveServer内存消耗过多导致机器Swap过高,需要重启HiveServer来缓解问题,但在某些任务比较集中的时间段往往会导致大量任务执行失败(我们配备了相应的任务重试机制,但也会带来一定的影响).

存储优化

- - CSDN博客推荐文章
定期对存储设备的固件和驱动程序做升级. 选择合适的磁盘阵列,RAID可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率,还能提供容错,冗余的功能,最常用的有raid10和raid5.. 使用主动多路径(Active Multipathing)技术.

mysql优化

- - 数据库 - ITeye博客
公司网站访问量越来越大,MySQL自然成为瓶颈,因此最近我一直在研究 MySQL  的优化,第一步自然想到的是 MySQL 系统参数的优化,作为一个访问量很大的网站(日20万人次以上)的数据库系统,不可能指望 MySQL  默认的系统参数能够让 MySQL运行得非常顺畅. 在Apache, PHP,  MySQL的体系架构中,MySQL对于性能的影响最大,也是关键的核心部分.

sql优化

- - 数据库 - ITeye博客
是对数据库(数据)进行操作的惟一途径;. 消耗了70%~90%的数据库资源;独立于程序设计逻辑,相对于对程序源代码的优化,对SQL语句的优化在时间成本和风险上的代价都很低;. 可以有不同的写法;易学,难精通. 固定的SQL书写习惯,相同的查询尽量保持相同,存储过程的效率较高. 应该编写与其格式一致的语句,包括字母的大小写、标点符号、换行的位置等都要一致.

ORACLE:plsql优化

- - CSDN博客数据库推荐文章
 1、登录后默认自动选中My Objects. 设置方法:Tools菜单--Brower Filters会打开Brower Filters的定单窗口,把“My Objects”设为默认即可. 同理,可以在Tools菜单--Brower Filters中把你经常点的几个目录(比如:tables Views Seq Functions Procedures)移得靠上一点,并加上颜色区分,这样你的平均寻表时间会大大缩短,试试看.

hive 优化 tips

- - CSDN博客推荐文章
一、     Hive join优化. 也可以显示声明进行map join:特别适用于小表join大表的时候,SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a join b on a.key = b.key. 2.     注意带表分区的join, 如:.

WebLogic 优化

- - 开源软件 - ITeye博客
WebLogic 配置文件(config.xml)包含了大量很直观的与性能有关的参数,能通过配置环境与应用程序得到很好的优化. 基于系统的需要调整这些参数不仅能改善单个点的性能,而且能提高整个应用程序性能的可衡量性. 试着采用下列WebLogic配置方法,或许能使你的系统达到最佳状态:. 一 修改运行队列线程数的值.

DOM优化

- - JavaScript - Web前端 - ITeye博客
1,Javascript语音与DOM操作就像孤岛. 他们之间的通行是要借助船的,而使用船是有很大成本的. 所以,要先做完一个再做另一个,最好不要交替进行. 如:添加1000个li时,先用一个字符串拼接好,最后一次追加到父节点,而不是向父节点追加1000次,一次追加一个. 如:添加1000个li时,先放到fragment,再添加到UL中.

底价优化

- - Koala++&apos;s blog
RTB中引入了修改后的Second-Price竞价模型,竞价成功的广告不需要向Ad-Exchange付他的出价,而只会付第二名的出价.          Second-Price的理论思想是这样的:假设我在卖莫奈的油画. 有许多人想竞得这幅油画,每个人心里都有一个最高出价,但问题是他不想付比能竞得这幅画的出价多一分钱.

MapReduce优化

- - 行业应用 - ITeye博客
相信每个程序员在 编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”. 同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题. MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化.