更新于:10-11 15:31

有关[优化]分类推荐

微博数仓数据延时优化方案

于06-30 12:48 - -
本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案. 关于这类问题的处理,有这么一种论调:我们认为正常情况下,. 缺失数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类….

Elasticsearch搜索中文分词优化 - 简书

于06-22 15:18 - -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.

elasticsearch 优化写入速度 | easyice

于05-24 18:09 - -
translog flush 间隔调整. 索引刷新间隔调整: refresh_interval. bulk 线程池和队列大小. 调整字段 Mappings. 对于 Analyzed 的字段禁用 Norms. index_options 设置. 基于版本: 2.x – 5.x. 在 es 的默认设置,是综合考虑数据可靠性,搜索实时性,写入速度等因素的,当你离开默认设置,追求极致的写入速度时,很多是以牺牲可靠性和搜索实时性为代价的.有时候,业务上对两者要求并不高,反而对写入速度要求很高,例如在我的场景中,要求每秒200w 条的平均写入速度,每条500字节左右.

优酷安卓短视频秒播优化

于05-16 11:58 - 阿里文娱技术团队 -
一、背景介绍,短视频关注秒播. 近几年,短视频一直处于流量的风口,各大平台纷纷涉足. 不同的业务形态对技术有不同的述求,传统长视频关注的是减少播放中的卡顿,降低用户 seek 的耗时;直播关注的是如何保证实时性;而短视频关注的是秒播. 一是因为短视频通常只有十几秒,一是短视频的消费带有很大的探索性和随机性.

es集群快速恢复(优化方案)_大数据_ClearloveXXX的博客-CSDN博客

于05-01 08:37 - -
2、关闭allocate,禁止shard做allocate. 5、等级集群变成yellow后开启allocate,允许shard做allocate. 调整集群恢复时的带宽,-1是指无限制 . 调整集群恢复时的单机并发度,最好是和磁盘块数一致 . 调整集群恢复时单个shard中同时恢复的小文件的个数.

Apache Flink OLAP引擎性能优化及应用

于04-25 10:06 - DataFunTalk -
导读:本次分享的主题为Apache Flink新场景——OLAP引擎,主要内容包括:. Apache Flink OLAP引擎. OLAP是一种让用户可以用从不同视角方便快捷的分析数据的计算方法. 主流的OLAP可以分为3类:多维OLAP ( Multi-dimensional OLAP )、关系型OLAP ( Relational OLAP ) 和混合OLAP ( Hybrid OLAP ) 三大类.

HBase最佳实践-列族设计优化 – 有态度的HBase/Spark/BigData

于04-22 18:15 - -
随着大数据的越来越普及,HBase也变得越来越流行. 会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单. 很简单,在保证系统稳定性、可用性的基础上能够用最少的系统资源(CPU,IO等)获得最好的性能(吞吐量,读写延迟)就是’用的好’. HBase是一个庞大的体系,涉及到很多方面,很多因素都会影响到系统性能和系统资源使用率,根据场景对这些配置进行优化会很大程度上提升系统的性能.

HBase最佳实践-读性能优化策略 – 有态度的HBase/Spark/BigData

于04-22 17:59 - -
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题. HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少. 总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大.

HBase最佳实践-写性能优化策略 – 有态度的HBase/Spark/BigData

于04-22 17:07 - -
上一篇文章主要介绍了HBase读性能优化的基本套路,本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能. 和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件.

HBase调优 | 写入阻塞问题与参数优化

于04-18 22:14 - -
一图胜千言,先来看下HBase数据写入流程:. 如上图所示,当数据写到服务端时,在持久化到磁盘之前,要经过三个重要过程:. 追加写WAL日志:数据会首先追加写入到WAL文件,用于故障恢复. 写入MemStore:然后写入所属Region的MemStore缓存中,此时客户端写入就算成功了. MemStore Flush:当MemStore达到一定阈值,或者满足一定条件就会Flush到磁盘,生成一个HFile文件.

RocketMQ 在使用上的一些排坑和优化

于04-09 23:15 - 挖坑的张师傅 -
RocketMQ 在我们的项目中使用非常广泛,在使用的过程中,也遇到了很多的问题. 比如没有多环境的隔离,在多个版本同时开发送测的情况下,互相干扰严重. RocketMQ 的投递可能会失败,导致丢失消息. 另外开源版本的 RocketMQ 不支持任意时间精度的延时消息,仅支持特定的 level. 在使用的过程中,我们做了一些针对性的优化,整理出了这篇文章.

HBase-scan简介及优化(缓存与批量处理) - 嘣嘣嚓 - 博客园

于04-09 10:29 - -
这种技术类似于数据库系统中的游标(cursor),并利用到了HBase提供的底层顺序存储的数据结构. 扫描操作的使用跟get方法非常类似. 由于扫描操作的工作方式类似于迭代器,所以用户无需调用scan方法创建实例,只需要调用HTable的getScanner方法,此方法在返回真正的扫描器(scanner)实例的同事,用户也可以使用它迭代获取数据.

聊一聊 webpack 的打包优化实践

于03-27 16:23 - AlienZHOU -
去年接触了公司内一个开发运行了两年多的项目,整体应用是基于 React 技术栈的,多个单页应用有构成了多页应用. 可以理解为比较独立的子业务之间是 MPA 形式跳转,而子业务内部则是 SPA 形式. 项目的构建使用了 webpack,发现存在较大问题:. 在生产环境上线编译大致需要 13 min+;.

高并发场景下的httpClient优化使用 - 后端 - 掘金

于03-11 17:45 - -
我们有个业务,会调用其他部门提供的一个基于http的服务,日调用量在千万级别. 使用了httpclient来完成业务. 之前因为qps上不去,就看了一下业务代码,并做了一些优化,记录在这里. 先对比前后:优化之前,平均执行时间是250ms;优化之后,平均执行时间是80ms,降低了三分之二的消耗,容器不再动不动就报警线程耗尽了,清爽~.

如何处理 Web 图片优化?

于12-19 16:04 - LeanCloud - 性能优化 前端 懒加载 cdn 高分屏
未优化的图片是影响网站性能的主要因素之一,尤其会影响初次加载. 取决于图像的分辨率和画质,图片可能占据整个网站流量的 70%.. 生产环境出现未优化的图片并显著影响初次加载速度的现象还是挺常见的. 缺乏经验的开发者通常没有意识到这一潜在问题,也不了解各种优化图片的工具和方法. 本文的目标是介绍优化 web 图片的主要工具和方法.

ElasticSearch 亿级数据检索深度优化

于12-02 00:00 - - dev
数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述. 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高.

总结4个方面优化Vue项目

于10-27 00:00 - - jianshu
1、使用v-if代替v-show. 两者的区别是:v-if不渲染DOM,v-show会预渲染DOM. 除以下情况使用v-show,其他情况尽量使用v-if. 2、v-for必须加上key,并避免同时使用v-if. 一般我们在两种常见的情况下会倾向于这样做:. 为了过滤一个列表中的项目. 比如 v-for="user in users" v-if="user.isActive".

如何优化大规模推荐?下一代算法技术JTM来了

于10-15 18:36 - 阿里技术 -
阿里妹导读:搜索,推荐和广告是互联网内容提供商进行价值创造的核心业务,在阿里巴巴的电子商务交易平台上,搜索,推荐和广告业务同样具有举足轻重的意义和价值. 现在,阿里推荐技术又双叒优化了,新的推荐技术,新的体验,一起来看. 搜索、推荐和广告看似业务形态不同,其实技术组成却是非常相通的. 从推荐的视角看,搜索可以认为是一种带query相关性约束的推荐,而广告则是叠加了广告主营销意愿(价格)约束的推荐,所以推荐技术的创新对推动搜索、推荐和广告业务技术的整体发展具有基础性的作用.

htmlunit爬虫优化方案

于10-10 08:25 - lyongq04 -
发现很多人搞爬虫会把python作为首选技术,理由是简单;但是本人最熟悉的还是java,所以对java内存浏览器技术htmlunit做了一次研究,发现原生的htmlunit的性能及对多线程的支持不是那么友好,特别是使用代理ip后,oom是很正常的,监控程序并查看源码总结问题原因:. 1、js执行器执行js是使用多线程执行,在关闭js执行线程的时候,使用com.gargoylesoftware.htmlunit.javascript.background.DefaultJavaScriptExecutor这个类的时候,有段代码.

HIVE 优化浅谈

于09-06 00:00 - - dev
作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解. 随着商务/运营同学执行的HQL越来越多,整体HIVE执行效率变低,本文从HIVE切入,分析HQL面临的问题和待优化部分,结合其他大数据框架来解决实际问题.

百度APP-Android H5首屏优化实践

于08-17 14:10 - 百度App技术 - android java html
百度App自2016年上半年尝试Feed流业务形态,至2017年下半年,历经10个版本的迭代,基本完成了产品形态的初步探索. 在整个Feed流形态的闭环中,新闻详情页(文中称为落地页)作为重要的组成部分,如果打开页面后,loading时间过长,会严重影响用户体验. 因此我们针对落地页这种H5的首屏展现速度进行了长期优化,本文会详细阐述整个优化思路和技术细节.

基于 Nginx 的 HTTPS 性能优化实践

于07-09 08:00 - -
分享一个HTTPS优化案例(文章稍长. 随着相关浏览器对HTTP协议的“不安全”、红色页面警告等严格措施的出台,以及向 iOS 应用的 ATS 要求和微信、支付宝小程序强制 HTTPS 需求,以及在合规方面如等级保护对传输安全性的要求都在推动 HTTPS 的发展. 虽然 HTTPS 优化了网站访问体验(防劫持)以及让传输更加安全,但是很多网站主赶鸭子上架式的使用了 HTTPS 后往往都会遇到诸如:页面加载速度变慢、服务器负载过高以及证书过期不及时更新等问题.

Apache Kylin 性能优化

于06-26 11:47 - hailong0707 -
聚合组 Aggregation Groups. Cube Designer 的 Advanced Setting 中可以配置 Aggregation Groups. 理论上 N 维度 Cube 会构建 2^N 个 Cuboid,随着维度的增多,Cuboid 数量会指数增长,存储空间占用增大,构建时间增长.

Android开发优化的几点建议

于06-18 21:46 - xiangzhihong - android
安卓开发大军浩浩荡荡,经过近十年的发展,Android技术优化日异月新,如今Android 9.0 已经发布,Android系统性能也已经非常流畅,可以在体验上完全媲美iOS. 但是,到了各大厂商手里,改源码、自定义系统,使得Android原生系统变得鱼龙混杂,然后到了不同层次的开发工程师手里,因为技术水平的参差不齐,即使很多手机在跑分软件性能非常高,打开应用依然存在卡顿现象.

Spark Streaming 的优化之路—从 Receiver 到 Direct 模式

于06-14 16:26 - jack -
作者:个推数据研发工程师 学长. 随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策. Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥作用.

前端性能优化不完全手册

于04-11 00:06 - Jerry谭金杰 - javascript node.js typescript css html5
性能优化是一门大学问,本文仅对个人一些积累知识的阐述,欢迎下面补充. 抛出一个问题,从输入 url地址栏到所有内容显示到界面上做了哪些事. DNS 服务器请求解析该 URL 中的域名所对应的. 2.建立 TCP连接(三次握手);. 3.浏览器发出读取文件( URL 中域名后面部分对应的文件)的 HTTP 请求,该请求报文作为.

Impala 在 Hulu 中的优化和改进

于03-31 00:00 - - dev
点击hadoop123 关注我哟. 知名的大数据中台技术分享基地,涉及大数据架构(hadoop/spark/flink等),数据平台(数据交换、数据服务、数据治理等)和数据产品(BI、AB测试平台)等,也会分享最新技术进展,大数据相关职位和求职信息,大数据技术交流聚会、讲座以及会议等. Impala是一个SQL on Hadoop的MPP查询引擎,由Cloudera主导开发并捐献给Apache软件基金会,在2017年底正式孵化成为Apache顶级项目.

做好用户留存,实现产品优化、迭代

于02-26 18:53 - DataHunter - 用户研究 2年 初级 用户留存
对于一个新产品而言,短时期内的大幅度获客可能不是一件难事. 但是,就长期而言,想要将这一大批的用户牢牢地锁在自己的领地里,却是一件难事. 用户留存率无疑是判定一个产品发展价值大小的重要标尺,那么如何更好地实现用户留存,再以用户使用数据反哺于产品的优化、迭代更新呢. 1月15日,多闪、马桶MT和聊天宝同时亮相,引发了“ 围剿微信”的热议,但个推大数据发布的一份数据报告显示:一个半月过去了,这三款应用的成绩都有些不理想.

YY视频直播体验优化实践

于02-16 09:49 - -
YY音视频算法中心负责人林绪虹在LiveVideoStackCon 2018音视频技术大会的演讲中介绍了YY如何实现全平台差异化直播能力,以及视频画质、流畅度、音视频同步、弱网条件下开播,连麦质量等直播体验核心技术指标的优化策略. LiveVideoStack对演讲内容进行了整理. 整理 / LiveVideoStack.

HBase写吞吐场景资源消耗量化分析及优化

于01-16 17:18 - 有赞技术 - 安全 人工智能
HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统. 网上关于 HBase 的文章很多,官方文档介绍的也比较详细,本篇文章不介绍HBase基本的细节. 本文从 HBase 写链路开始分析,然后针对少量随机读和海量随机写入场景入手,全方面量化分析各种资源的开销, 从而做到以下两点:.