更新于:04-06 09:44

有关[分析]分类推荐

有赞保险业务的分析与架构设计

于09-13 15:54 - 晗大大 - 架构设计 退货包运费 保险
有赞微商城为商家提供了全行业全场景的电商解决方案,帮助商家在社交电商、直播电商等场景下快速布局. 在整个交易流程中,对退货时运费减免的支持已成为了电商场景的标配. 有赞也提供了 “退货包运费” 产品来满足消费者及商家在此场景下的诉求. 本文从“退货包运费”这个产品出发,分析保险业务的特征,介绍有赞保险业务系统的架构设计.

大规模视频内容理解:淘宝视频内容标签的结构化分析和管理

于09-10 09:38 - -
在这种亟需深入理解视频内容的大背景下,不同的表征形态涌现. 其中embedding表征常用的方法包括多模态预训练模型、基于用户行为的deep match模型等等,集团内在这方面有大量优秀的工作,使用embedding表征视频内容最大的问题在于不可解释性,只能完成机器对视频的理解. 使用标签对内容进行表征的优势在于,标签是一种高度概括的自然语言,不仅完成了机器对视频内容的理解,同时完成了人到视频内容的理解.

Doris 一种实时多维分析的解决方案

于03-12 00:00 - - dev
Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的. 本质上,Doris 的数据存储在类似 SSTable(Sorted String Table)的数据结构中. 该结构是一种有序的数据结构,可以按照指定的列进行排序存储. 在这种数据结构上, 以排序列作为条件进行查找,会非常的高效.

数据分析该知道的IP地址知识

于08-25 21:45 - 钱魏Way - 数据 术→技巧 IP
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址. 即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析. 最近在推进风控项目时又有遇到,所以抽时间把相关的知识点做下简单的整理. IP地址(英语:IP Address,全称Internet Protocol Address).

Clickhouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案

于08-23 09:14 - -
2021年,Clickhouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案. 原文作者:Anton Sidashin. 关于Clickhouse的文章,这段内容在互联网上仍然很流行,甚至被多次翻译. 现在已经过去两年多,同时 Clickhouse 的开发节奏.

Lenovo x DorisDB:简化数据处理链路,极大提升 BI 分析效率

于08-19 00:00 - - dev
整个数据分析体系,由数据采集、数据存储与计算、数据查询与分析和数据应用组成. 通过Sqoop读取RDBMS导入Hive. 用Flume来同步日志文件到Hive. 通过爬虫技术将网上数据爬取下来,存储到RDBMS,再由Sqoop 读取RDBMS,导入到Hive. 离线数据处理:利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作.

潜在语义分析LSA初探

于07-07 21:47 - 钱魏Way - 数据 术→技巧 法→原理 自然语言处理 语义分析
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支. 传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等. 潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考. 他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言.

记一次 .NET 某教育系统异常崩溃分析

于05-06 00:00 - - dev
这篇文章起源于 搬砖队大佬的精彩文章 WinDBg定位asp.net mvc项目异常崩溃源码位置,写的非常好,不过美中不足的是通览全文之后,总觉得有那么一点不过瘾,就是没有把当时抛异常前的参数给找出来. 为了能够让文章行云流水,我就按照自己的侦察思路吧,首先看一下现状:iis上的应用程序崩溃, catch 不到错误,windows日志中只记录了一个 AccessViolationException异常,如何分析.

知名网站热门排序算法分析

于04-15 19:19 - 钱魏Way - 产品 术→技巧 研发 排序算法
很多内容网站都会根据用户的交互信息等对内容进行排序. 这里整理了一些比较知名的内容网站的排序规则,每个网站都有不同,在此过程中,我们不仅仅要了解其排序规则(公式),更多的期望了解公式背后的逻辑. Hacker News 是一家关于计算机黑客和创业公司的社会化新闻网站,由 Paul Graham 的创业孵化器 Y Combinator 创建.

PostgreSQL 时序数据库插件 timescaleDB 部署实践(含例子 纽约TAXI数据透视分析) - PostGIS + timescaleDB => PG时空数据库 - Digoal.Zhou’s Blog

于03-30 14:13 - -
现实社会中,很多业务产生的数据具有时序数据属性(在时间维度上顺序写入,同时包括大量时间区间查询统计的需求). 例如业务的FEED数据,物联网产生的时序数据(如气象传感器、车辆轨迹、等),金融行业的实时数据等等. PostgreSQL的UDF和BRIN(块级索引)很适合时序数据的处理. 《PostgreSQL 按需切片的实现(TimescaleDB插件自动切片功能的plpgsql schemaless实现)》.

交互设计师怎样做竞品分析?

于03-08 08:00 - 设计 达人 - 交互设计 UE UI UX
前言:做竞品分析包含了太多方面,本文主要是针对交互设计师如何做竞品分析进行分享. 竞品分析的对象一般是和自家产品存在直接/间接竞争,或者用户人群、产品定位和功能存在重叠的产品. 作为交互设计师,我们研究竞品分析时需要从产品概况、功能、流程和交互等方面全方位的分析. 并从竞品中得到对应的启发,将其复用到我们自家的产品中,这也是竞品分析的意义所在.

设计师应该如何正确的做竞品分析?

于03-08 10:43 - 晴天 - 分析评测 2年 初级 竞品分析 设计师
导语:在我们的设计工作中,竞品分析是很重要的. 通过竞品分析可以帮助我们了解与验证我们的设计,为我们带来设计灵感与设计思考,辅助我们产出更好的设计策略与设计方案. 但是,竞品分析如果做的不正确,浪费时间的同时对于设计也不会有什么帮助. 那么,设计师应该如何正确的做竞品分析呢. 在平时的工作中,有拿不准的设计形式时我会请教我的导师,她经常会告诉我行业内的top级产品是怎么做的.

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

于02-24 06:50 - Flink_China -
本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容:. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.

竞品分析:百词斩 VS 墨墨背单词

于02-16 17:24 - 汪仔9776 - 分析评测 1年 初级 百词斩 竞品分析
导语:本文作者通过对百词斩和墨墨背单词这两款产品进行多维度的分析对比,了解其内在的产品逻辑,分析二者之间的差异性,对比它们的基础结构和功能特点,带大家深入了解了单词类APP未来的发展方向. 我国政府鼓励教育行业积极应用新技术,鼓励发展在线教育,加深科技与教育的融合. 近年来,随着我国国民经济的持续发展,居民可支配收入稳步上涨.

这些 Shell 分析服务器日志命令集锦,收藏好了~

于01-05 00:00 - - tuicool
自己的小网站跑在阿里云的 ECS 上面, 偶尔也去分析分析自己网站服务器日志,看看网站的访问量. 于是收集,整理一些服务器日志分析命令,大家可以试试. 1、查看有多少个IP访问:. 2、查看某一个页面被访问的次数:. 3、查看每一个IP访问了多少个页面:. awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file > log.txt sort -n -t ' ' -k 2 log.txt 配合sort进一步排序.

JVM 内存分析工具 MAT 的深度讲解与实践——进阶篇

于12-29 10:32 - Q的博客 -
注:本文原创,转发需标明作者及原文链接. 【0广告微信公众号:Q的博客】. 本系列共三篇文章, 本文是系列第2篇——进阶篇,详细讲解 MAT 各种工具的 核心功能、用法、适用场景,并在具体实战场景下讲解帮大家学习如何针对各类内存问题. JVM 内存分析工具 MAT 的深度讲解与实践——入门篇》 介绍 MAT 产品功能、基础概念、与其他工具对比、Quick Start 指南.

分析:借蚂蚁以一儆百 中国对监管指向清晰

于12-27 21:38 - -
中国金融监管部门再次约谈蚂蚁集团后,指这家互联网金融巨头存在“违规监管套利”等四大问题,要求集团“回归支付本源”,从五方面整顿改造. 分析认为,政府对互联网平台的监管指向日渐清晰,并通过向蚂蚁开刀以一儆百,让互联网金融业者为加速整改做好准备. 中国人民银行、银保监会、证监会和外汇局26日联合约谈蚂蚁集团,中国人民银行副行长潘功胜今天代表四部门对外介绍情况时指出,蚂蚁存在的四大问题:包括公司治理机制不健全;法律意识淡漠,藐视监管合规要求,存在违规监管套利行为;利用市场优势地位排斥同业经营者;损害消费者合法权益,引发消费者投诉等.

深度解析 Raft 分布式一致性协议

于12-17 09:15 - Q的博客 -
注:本文原创,转载请先通过公众号或掘金联系作者申请. 定期发送干货,实践经验、系统总结、源码解读、技术原理. 笔者期望通过一篇权威靠谱、清晰易懂的系统性文章,帮助读者深入理解 Raft 算法,并能付诸于工程实践中,同时解读不易理解或容易误解的关键点. 本文是 Raft 实战系列理论内容的整合篇,我们结合 Raft 论文讲解 Raft 算法思路,并遵循 Raft 的模块化思想对难理解及容易误解的内容抽丝剥茧.

分布式搜索引擎Elasticsearch的架构分析

于12-08 01:51 - vivo互联网技术 -
ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为传统关系型数据库的补充,提供了关系型数据库不具备的一些能力. ES最先进入大众视野的是其能够实现全文搜索的能力,也是由于基于Lucene的实现,内部有一种倒排索引的数据结构.

ClickHouse在手淘流量分析业务实践

于12-05 10:00 - DataFunTalk -
导读:本文主要介绍手淘流量分析业务发展过程中,实时性业务分析需求的产生,实时分析目标的设定,如何进行技术的选型,以及如何基于ClickHouse构建系统架构和未来的业务预期. 流量分析与业务背景:什么是流量分析,以及我们的业务背景"大数据"带来的难题:当你的数据量是守恒的时候,需要怎么处理你的数据技术选型与产品考虑:在以上背景下,我们在技术选择和产品考虑时,都做了哪些考虑,以及为什么最终选择ClickHouse,并给大家介绍一些技术解决方案.

服务注册中心 | 记一次 Consul 故障分析与优化

于11-22 03:52 - 爱奇艺技术 -
在微服务体系中,服务注册中心是最基础的组件,它的稳定性会直接影响整个服务体系的稳定性. 本文主要介绍了爱奇艺微服务平台基于 Consul 的服务注册中心建设方式,与内部容器平台、API 网关的集成情况,并重点记录了 Consul 遇到的一次故障,分析解决的过程,以及针对这次故障从架构上的优化调整措施.

数据分析的 5 种细分方法

于10-31 00:00 - - dev
在数据分析工作中,细分思维的重要性,我认为再怎么强调都不为过. 然而,很多人可能会采取一些「偷懒」的做法,浅尝辄止,不去寻找合适的细分方法,导致没有得出更有价值的分析结论. 下面我们通过一些示例,介绍 5 种常见的细分方法. 时间可以细分为不同的跨度,包括年、月、周、日、时、分、秒等等,不同的时间跨度,数据表现可能大不相同.

深入分析MySQL:事务+MVCC的实现原理!

于10-21 12:56 - 熬夜不加班 -
之前,我们分析了MySQL中索引的相关知识以及explain执行计划分析,想必大家对索引已经有了基本的认识,那么这一篇,我将为大家介绍一下MySQL中事务以及MVCC相关知识. 事务(Transaction)是由一系列对数据库中的数据进行访问与更新的操作所组成的一个程序执行单元. 在同一个事务中所进行的操作,要么都成功,要么就什么都不做.

索引失效底层原理分析,这么多年终于有人讲清楚了

于10-16 10:40 - 公众号_IT老哥 - java mysql mysql索引 mysql索引优化 索引
吊打面试官又来啦,今天我们讲讲MySQL 索引为什么会失效,很多文章和培训机构的教程,都只会告诉你,在什么情况下索引会失效. 比如:没遵循最佳左前缀法则、范围查询的右边会失效、like查询用不到索引等等. 但是没有一个人告诉你, 索引失效的原理是什么, 老哥今天就告诉大家,让你们 知其然,还要 知其所以然.

MYSQL logstash 同步数据到es的几种方案对比以及每种方案数据丢失原因分析。

于10-07 15:59 - -
MYSQL logstash 同步增量数据到ES. 最近一段时间,在使用mysql通过logstash-jdbc同步数据到es,但是总是会有一定程度数据丢失. logstash-jdbc无非是通过sql遍历数据表的所有数据,然后同步到es. 对于表里面的所有字段都需要查出来然后同步到es中去. 数据同步脚本分为全量同步与增量同步.

今日头条技术架构分析_一直在努力的小渣渣-CSDN博客_架构分析

于08-14 07:46 - -
​ ​ 今日头条创立于2012年3月,到目前仅4年时间. 从十几个工程师开始研发,到上百人,再到200余人. 产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线. ​ ​ 今日头条是为用户提供个性化资讯客户端. 下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合):. 2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿.

JVM的逃逸分析

于08-03 11:38 - 在谷歌上百度 - java
JVM通过逃逸分析,那些逃不出方法的对象会在栈上分配. EscapeAnalysis,逃逸分析,指的是虚拟机在 运行期通过计算分析将原本在堆上分配的对象改成在栈中分配,这样的好处是栈上分配的对象随着线程的结束而自动销毁,不依赖于GC,可以降低垃圾收集器运行的频率. JVM判断新创建的对象是否逃逸的依据有两个:.

趣头条基于Flink+ClickHouse打造实时数据分析平台

于07-26 21:37 - -
趣头条一直致力于使用大数据分析指导业务发展. 目前在实时化领域主要使用 Flink+ClickHouse 解决方案,覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略,整体响应 80% 在 1 秒内完成,大大提升了用户实时取数体验,推动业务更快迭代发展. Flink to Hive 的小时级场景.

HDFS+Clickhouse+Spark:从0到1实现一款轻量级大数据分析系统

于07-25 14:04 - 云加社区 -
导语 | 在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等. 这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数据分析模式难以满足. 本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题. 文章作者:数据熊(笔名),腾讯云大数据分析工程师.

HttpComponents分析之连接池实现 - jinspire - 博客园

于07-17 15:19 - -
早期的Http是这样的,一次http请求完成后,立即关闭连接. 如果请求的数据非常少而次数又极多,那么通讯效率是非常低的. 其实很简单,只需在建立连接后,完成通话先等待一段时间,看对方在这段时间内是否还有话说,如果有话说,那么继续通信,否则过了这段时间后就关闭连接. 这种解决方案在Http协议中也有体现,即keep-alive.