更新于:04-06 09:44

有关[优化]分类推荐

告诉面试官,我能优化groupBy,而且知道得很深!

于05-02 14:18 - 谦虚的小叮当 -
当我们交友平台在线上运行一段时间后,为了给平台用户在搜索好友时,在搜索结果中推荐并置顶他感兴趣的好友,这时候,我们会对用户的行为做数据分析,根据分析结果给他推荐其感兴趣的好友. 这里,我采用最简单的SQL分析法:对用户过去查看好友的性别和年龄进行统计,按照年龄进行分组得到统计结果. 依据该结果,给用户推荐计数最高的某个性别及年龄的好友.

Hive优化之小文件问题及其解决方案_lavimer-CSDN博客

于04-14 16:18 - -
1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增. 2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的). 3.数据源本身就包含大量的小文件. 1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能.

详解低延时高音质:丢包、抖动与 last mile 优化那些事儿

于03-19 00:00 - - dev
本篇是「详解低延时高音质系列」的第三篇技术分享. 我们这次要将视角放大,从整个音频引擎链路的角度,来讲讲在时变的网络下,针对不同的应用场景,如何权衡音质和互动的实时性. 当我们在讨论实时互动场景下的低延时、高音质的时候,我们其实要面对的是从端到端整个音频引擎链路上的音质问题. 我们在第一篇文章中,简单的描绘过一条音频传输的过程,如果在该基础上再进一步细化,音频引擎的整个链路包含以下各步骤: 1.

“内源”文化优于中台思想 - Phodal | Phodal - A Growth Engineer

于03-01 07:29 - -
内源即将开源方法(最佳实践、协作方式、架构模式等)融入到组织的软件构建和发布方式之中,以在组织内构建类似开源的文化. 作为一个站在国内开源前线的开发者(GitHub 国内 Top 10),我本应该早点写一篇关于:『为什么应该选择内源,而非中台. 然而呢,中台一直在火,找不到合适的机会. 直到最近,因为拆中台,所以它又火了.

Docker镜像优化:如何从1.16GB优化到22.4MB

于02-17 22:16 - megrez -
图源  www.docker.com. Docker是软件开发者和系统管理员用容器构建、运行和共享应用程序的平台. 一个 容器是一个运行在隔离环境中、拥有自己的文件系统上的进程;这个文件系统是使用 docker镜像构建的. 镜像文件包括运行应用程序所需的一切(编译后的代码、依赖关系、库等). 镜像可以使用一个名为 Dockerfile的文件来定义.

MySQL海量数据优化(理论+实战) 吊打面试官

于02-02 09:12 - 消灭知识盲区 -
提示:下方有源代码地址,请自行拿取. 朋友们,又见面了,上篇文章咱们讲到MySQL分库分表的方法,这篇文章咱们就针对上一篇文章模拟在MySQL中海量数据的优化方法,文章干货较多,建议你点赞、评论、收藏、关注起来慢慢看. 提示:以下是本篇文章正文内容,案例仅供参考. 咱们建一张用户表,表中的字段有用户ID、用户名、地址、记录创建时间,如图所示.

优化无止境,爱奇艺中后台 Web 应用性能优化实践

于01-11 00:00 - - tuicool
爱奇艺视频生产智能云平台系统在今年进行了一次 重大升级,前端团队也趁此机会将 底层技术架构从三年前的 Arm.js(内部MVC框架)+ Java BFF + Velocity 模板完全切换到了 Vue.js + Node.js BFF 的技术栈. 新的前端应是一个拥有超过 十个业务模块的单页面应用,每个模块已经通过路由懒加载进行了拆分,同时公共的第三方依赖也拆分到了单独的 Vendor 文件.

Lucene 中的 Stored Fields 存储优化

于01-09 23:28 - Qunar技术沙龙 -
Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,在我们的使用场景中,由于召回和排序是作为两个单独的应用,当召回的文档数量比较多的时候,响应速度较慢,Young GC 也比较严重,导致并发量很难上去. 经过分析我们发现,主要的问题是因为需要获取大量文档的存储字段,造成反序列化比较多,所以影响速度,GC 也比较多.

弱网络环境下最优调度和优化传输层协议方案_justinjing的专栏-CSDN博客_网络较差用什么协议

于12-06 09:01 - -
与有线网络通信相比,无线网络通信受环境影响比较大(例如高层建筑、用户移动、环境噪音、相对封闭环境等等),网络的服务质量相对来说不是非常稳定,导致用户经常会在弱信号的网络环境下通信. 而当用户在这种网络环境下通信时,则存在较多的丢包、误码、超时、连接中断以及难以接入网络等情况. 通信除了受环境影响以外,网络覆盖和室分系统不完善、邻区漏配、导频污染、过载控制等原因也都会产生无线呼叫掉线、服务质量下降等问题.

服务注册中心 | 记一次 Consul 故障分析与优化

于11-22 03:52 - 爱奇艺技术 -
在微服务体系中,服务注册中心是最基础的组件,它的稳定性会直接影响整个服务体系的稳定性. 本文主要介绍了爱奇艺微服务平台基于 Consul 的服务注册中心建设方式,与内部容器平台、API 网关的集成情况,并重点记录了 Consul 遇到的一次故障,分析解决的过程,以及针对这次故障从架构上的优化调整措施.

webview的秒开优化的历程

于11-16 12:29 - this7714 -
实践hybrid其实是一个相互学习的过程,从一开始flag 用vue写出小程序的效果hybrid架构到实践后发现 hybrid架构和框架无关. weex有很好的框架指导方向,uniapp的生态为创业team又是不错的选择, 可是在一个成熟的公司而言是不会轻易考虑除小程序 RN flutter之外的技术 因为公司业务的类型多边形和多变形和一级变态性能需求,要的不仅仅是的打开和使用.

MySQL数据库优化二三事

于11-09 16:49 - -
平时在开发新项目时,有时因为工期紧张,经常会以实现功能为目标,不太注意效率问题,特别是在SQL语句上. 简单来说是加索引,重建结构,杀进程,杀DBA……如果在一个没有DBA的公司,上线一时爽,事后火葬场,卑微测试一不小心背黑锅. 测试人员也会和数据打交道,今天总结数据库的优化知识. 主要介绍可以从哪些方面优化数据库,提高数据库的执行效率.

对DevOps流水线设计的优化和改进实践(201014)

于10-14 20:28 - 人月神话 - 微服务架构
对于DevOps过程支撑平台,我在前面已经写过相应的文章. 在整个DevOps平台的建设过程中可以看到持续集成和持续交付始终都是平台的一个重要内容. 而在整个持续集成和交付过程中,流水线设计又是相对关键的一个内容. 通过流水线设计可以很灵活的通过可视化配置的方式,将我们软件持续集成中涉及到的编译构建,打包,部署,代码检查,测试,环境迁移等各种活动编排在一起,形成一个自动化执行的完成流程.

今日头条品质优化 - 图文详情页秒开实践

于09-24 11:22 - 字节跳动技术团队 -
作为一个内容类应用,看新闻读资讯一直是头条用户的核心需求,页面的打开速度直接关系到用户使用头条的核心体验,在头条中,为了更多的承载足够丰富的样式和逻辑下保持多端体验的统一,详情页的内容我们是通过 WebView 来承载的,但 WebView 本身的性能相比 Native 来说比较差,因此,今日头条技术团队一直致力于优化详情页的加载速度.

[译] ASP.NET Core 性能优化最佳实践

于09-19 00:00 - - dev
本文提供了 ASP.NET Core 的性能最佳实践指南. 译文原文地址: https://docs.microsoft.com/en-us/aspnet/core/performance/performance-best-practices?view=aspnetcore-3.1. 这里有一篇文档在多个部分中讨论了如何积极利用缓存.

今日头条品质优化:图文详情页秒开实践

于09-17 00:00 - - dev
作为一个内容类应用,看新闻读资讯一直是头条用户的核心需求,页面的打开速度直接关系到用户使用头条的核心体验,在头条中,为了更多的承载足够丰富的样式和逻辑下保持多端体验的统一,详情页的内容我们是通过 WebView 来承载的,但 WebView 本身的性能相比 Native 来说比较差,因此,今日头条技术团队一直致力于优化详情页的加载速度.

ClickHouse 在实时场景的应用和优化

于09-06 10:00 - 字节跳动技术团队 -
在介绍实时场景之前,我先简单讲一下早期的离线数据是如何支持的:. 在第一场分享中,技术负责人陈星介绍了 ClickHouse 在字节跳动内部最早支持的两个业务场景,用户行为分析平台和敏捷 BI 平台. 这两个平台的数据主要由分析师或者数仓同学产出,以 T+1 的离线指标为主. 考虑到 ClickHouse 并不支持事务,为了保障数据的一致性,我们在 ClickHouse 系统外实现了一套外部事务:.

MySql 日常指导,及大表优化思路(值得收藏)

于08-20 15:18 - 简爱w -
当MySQL单表记录数过大时,增删改查性能都会急剧下降(文末有福利). 除非单表数据未来会一直不断上涨,否则. 不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在. 而事实上很多时候 MySQL 单表的性能依然有不少优化空间,甚至能正常支撑. 尽量使用 TINYINT、 SMALLINT、 MEDIUM_INT 作为整数类型而非 INT,如果非负则加上 UNSIGNED.

MySQL性能优化,MySQL索引优化,order by优化,explain优化

于07-11 16:13 - IT老哥 -
今天我们来讲讲如何优化MySQL的性能,主要从索引方面优化. 下期文章讲讲 MySQL慢查询日志,我们是依据慢查询日志来判断哪条SQL语句有问题,然后在进行优化,敬请期待 MySQL慢查询日志篇.     name VARCHAR(24) NOT NULL DEFAULT "" COMMENT'姓名',.

微博数仓数据延时优化方案

于06-30 12:48 - -
本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案. 关于这类问题的处理,有这么一种论调:我们认为正常情况下,. 缺失数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类….

Elasticsearch搜索中文分词优化 - 简书

于06-22 15:18 - -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.

elasticsearch 优化写入速度 | easyice

于05-24 18:09 - -
translog flush 间隔调整. 索引刷新间隔调整: refresh_interval. bulk 线程池和队列大小. 调整字段 Mappings. 对于 Analyzed 的字段禁用 Norms. index_options 设置. 基于版本: 2.x – 5.x. 在 es 的默认设置,是综合考虑数据可靠性,搜索实时性,写入速度等因素的,当你离开默认设置,追求极致的写入速度时,很多是以牺牲可靠性和搜索实时性为代价的.有时候,业务上对两者要求并不高,反而对写入速度要求很高,例如在我的场景中,要求每秒200w 条的平均写入速度,每条500字节左右.

优酷安卓短视频秒播优化

于05-16 11:58 - 阿里文娱技术团队 -
一、背景介绍,短视频关注秒播. 近几年,短视频一直处于流量的风口,各大平台纷纷涉足. 不同的业务形态对技术有不同的述求,传统长视频关注的是减少播放中的卡顿,降低用户 seek 的耗时;直播关注的是如何保证实时性;而短视频关注的是秒播. 一是因为短视频通常只有十几秒,一是短视频的消费带有很大的探索性和随机性.

es集群快速恢复(优化方案)_大数据_ClearloveXXX的博客-CSDN博客

于05-01 08:37 - -
2、关闭allocate,禁止shard做allocate. 5、等级集群变成yellow后开启allocate,允许shard做allocate. 调整集群恢复时的带宽,-1是指无限制 . 调整集群恢复时的单机并发度,最好是和磁盘块数一致 . 调整集群恢复时单个shard中同时恢复的小文件的个数.

Apache Flink OLAP引擎性能优化及应用

于04-25 10:06 - DataFunTalk -
导读:本次分享的主题为Apache Flink新场景——OLAP引擎,主要内容包括:. Apache Flink OLAP引擎. OLAP是一种让用户可以用从不同视角方便快捷的分析数据的计算方法. 主流的OLAP可以分为3类:多维OLAP ( Multi-dimensional OLAP )、关系型OLAP ( Relational OLAP ) 和混合OLAP ( Hybrid OLAP ) 三大类.

HBase最佳实践-列族设计优化 – 有态度的HBase/Spark/BigData

于04-22 18:15 - -
随着大数据的越来越普及,HBase也变得越来越流行. 会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单. 很简单,在保证系统稳定性、可用性的基础上能够用最少的系统资源(CPU,IO等)获得最好的性能(吞吐量,读写延迟)就是’用的好’. HBase是一个庞大的体系,涉及到很多方面,很多因素都会影响到系统性能和系统资源使用率,根据场景对这些配置进行优化会很大程度上提升系统的性能.

HBase最佳实践-读性能优化策略 – 有态度的HBase/Spark/BigData

于04-22 17:59 - -
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题. HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少. 总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大.

HBase最佳实践-写性能优化策略 – 有态度的HBase/Spark/BigData

于04-22 17:07 - -
上一篇文章主要介绍了HBase读性能优化的基本套路,本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能. 和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件.

HBase调优 | 写入阻塞问题与参数优化

于04-18 22:14 - -
一图胜千言,先来看下HBase数据写入流程:. 如上图所示,当数据写到服务端时,在持久化到磁盘之前,要经过三个重要过程:. 追加写WAL日志:数据会首先追加写入到WAL文件,用于故障恢复. 写入MemStore:然后写入所属Region的MemStore缓存中,此时客户端写入就算成功了. MemStore Flush:当MemStore达到一定阈值,或者满足一定条件就会Flush到磁盘,生成一个HFile文件.

RocketMQ 在使用上的一些排坑和优化

于04-09 23:15 - 挖坑的张师傅 -
RocketMQ 在我们的项目中使用非常广泛,在使用的过程中,也遇到了很多的问题. 比如没有多环境的隔离,在多个版本同时开发送测的情况下,互相干扰严重. RocketMQ 的投递可能会失败,导致丢失消息. 另外开源版本的 RocketMQ 不支持任意时间精度的延时消息,仅支持特定的 level. 在使用的过程中,我们做了一些针对性的优化,整理出了这篇文章.