更新于:03-11 06:59
有关[分析]分类推荐
于04-02 18:00 - zhangshun - hive python
hive写入数据有2种模式,一种是insert into,一种是insert overwrite. 参考资料:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingdataintoHiveTablesfromqueries.
于03-24 11:20 - 挖坑的张师傅 -
我们有一个线上的项目,刚启动完就占用了使用 top 命令查看 RES 占用了超过 1.5G,这明显不合理,于是进行了一些分析找到了根本的原因,下面是完整的分析过程,希望对你有所帮助. Linux 经典的 64M 内存问题. 堆内存分析、Native 内存分析的基本套路. tcmalloc、jemalloc 在 native 内存分析中的使用.
于03-07 00:00 - - dev
先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸. 因为人们不是怕2.5%的波动,而是怕新冠. 所以:指标波动不可怕,指标波动代表的业务场景才可怕. 脱离业务场景谈指标波动就是耍流氓. 在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况.
于03-09 08:00 - -
信息安全体系构建中流量监听是一种常见的防护手段,从流量抓取到日志落地,从日志分析到威胁报警,相应产品基于流量分析模式,从最上层的处理逻辑来看是相近的,使用Suricata还是Snort处理流程类似接近,最粗放的方式去理解他们,这些系统都属于“大型字符串处理过滤系统”. 实际生产中可能会使多家厂商的产品配型开源产品使用,或自主开发,无论采用那种方案,我们都可抽象出一种共通的顶层流量数据处理模式,典型的流量过滤与日志分析处理流程.
于10-19 08:54 - -
产品经理的岗位职责之一是在市场中建立和维护产品的竞争优势,竞品分析是产品经理的一项常规工作,分析质量决定着决策质量,影响着对业务取长补短的效果. 但在竞品分析时,常遇到以下问题:. 没有养成日常习惯,分析时无从下手. 企图以此寻找需求或印证自己的观点. 由领导发起,找模板套公式,交作业. 分析维度杂乱浅显,结论无参考价值.
于09-13 15:54 - 晗大大 - 架构设计 退货包运费 保险
有赞微商城为商家提供了全行业全场景的电商解决方案,帮助商家在社交电商、直播电商等场景下快速布局. 在整个交易流程中,对退货时运费减免的支持已成为了电商场景的标配. 有赞也提供了 “退货包运费” 产品来满足消费者及商家在此场景下的诉求. 本文从“退货包运费”这个产品出发,分析保险业务的特征,介绍有赞保险业务系统的架构设计.
于09-10 09:38 - -
在这种亟需深入理解视频内容的大背景下,不同的表征形态涌现. 其中embedding表征常用的方法包括多模态预训练模型、基于用户行为的deep match模型等等,集团内在这方面有大量优秀的工作,使用embedding表征视频内容最大的问题在于不可解释性,只能完成机器对视频的理解. 使用标签对内容进行表征的优势在于,标签是一种高度概括的自然语言,不仅完成了机器对视频内容的理解,同时完成了人到视频内容的理解.
于03-12 00:00 - - dev
Doris 这类 MPP 架构的 OLAP 数据库,通常都是通过提高并发,来处理大量数据的. 本质上,Doris 的数据存储在类似 SSTable(Sorted String Table)的数据结构中. 该结构是一种有序的数据结构,可以按照指定的列进行排序存储. 在这种数据结构上, 以排序列作为条件进行查找,会非常的高效.
于08-25 21:45 - 钱魏Way - 数据 术→技巧 IP
第一次接触到IP,还是在十多年前使用统计系统时,当时的统计系统中有个指标是IP地址. 即记录每天有多少不同的IP访问您的网站,在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析. 最近在推进风控项目时又有遇到,所以抽时间把相关的知识点做下简单的整理. IP地址(英语:IP Address,全称Internet Protocol Address).
于08-23 09:14 - -
2021年,Clickhouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案. 原文作者:Anton Sidashin. 关于Clickhouse的文章,这段内容在互联网上仍然很流行,甚至被多次翻译. 现在已经过去两年多,同时 Clickhouse 的开发节奏.
于08-19 00:00 - - dev
整个数据分析体系,由数据采集、数据存储与计算、数据查询与分析和数据应用组成. 通过Sqoop读取RDBMS导入Hive. 用Flume来同步日志文件到Hive. 通过爬虫技术将网上数据爬取下来,存储到RDBMS,再由Sqoop 读取RDBMS,导入到Hive. 离线数据处理:利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作.
于07-07 21:47 - 钱魏Way - 数据 术→技巧 法→原理 自然语言处理 语义分析
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支. 传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等. 潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考. 他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言.
于05-06 00:00 - - dev
这篇文章起源于 搬砖队大佬的精彩文章 WinDBg定位asp.net mvc项目异常崩溃源码位置,写的非常好,不过美中不足的是通览全文之后,总觉得有那么一点不过瘾,就是没有把当时抛异常前的参数给找出来. 为了能够让文章行云流水,我就按照自己的侦察思路吧,首先看一下现状:iis上的应用程序崩溃, catch 不到错误,windows日志中只记录了一个 AccessViolationException异常,如何分析.
于04-15 19:19 - 钱魏Way - 产品 术→技巧 研发 排序算法
很多内容网站都会根据用户的交互信息等对内容进行排序. 这里整理了一些比较知名的内容网站的排序规则,每个网站都有不同,在此过程中,我们不仅仅要了解其排序规则(公式),更多的期望了解公式背后的逻辑. Hacker News 是一家关于计算机黑客和创业公司的社会化新闻网站,由 Paul Graham 的创业孵化器 Y Combinator 创建.
于03-30 14:13 - -
现实社会中,很多业务产生的数据具有时序数据属性(在时间维度上顺序写入,同时包括大量时间区间查询统计的需求). 例如业务的FEED数据,物联网产生的时序数据(如气象传感器、车辆轨迹、等),金融行业的实时数据等等. PostgreSQL的UDF和BRIN(块级索引)很适合时序数据的处理. 《PostgreSQL 按需切片的实现(TimescaleDB插件自动切片功能的plpgsql schemaless实现)》.
于03-08 08:00 - 设计 达人 - 交互设计 UE UI UX
前言:做竞品分析包含了太多方面,本文主要是针对交互设计师如何做竞品分析进行分享. 竞品分析的对象一般是和自家产品存在直接/间接竞争,或者用户人群、产品定位和功能存在重叠的产品. 作为交互设计师,我们研究竞品分析时需要从产品概况、功能、流程和交互等方面全方位的分析. 并从竞品中得到对应的启发,将其复用到我们自家的产品中,这也是竞品分析的意义所在.
于03-08 10:43 - 晴天 - 分析评测 2年 初级 竞品分析 设计师
导语:在我们的设计工作中,竞品分析是很重要的. 通过竞品分析可以帮助我们了解与验证我们的设计,为我们带来设计灵感与设计思考,辅助我们产出更好的设计策略与设计方案. 但是,竞品分析如果做的不正确,浪费时间的同时对于设计也不会有什么帮助. 那么,设计师应该如何正确的做竞品分析呢. 在平时的工作中,有拿不准的设计形式时我会请教我的导师,她经常会告诉我行业内的top级产品是怎么做的.
于02-24 06:50 - Flink_China -
本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理. 主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理. 文章主要分为 4 个部分内容:. 常见的 CDC 分析方案. 为何选择 Flink + Iceberg. 一、常见的 CDC 分析方案. 我们先看一下今天的 topic 需要设计的是什么.
于02-16 17:24 - 汪仔9776 - 分析评测 1年 初级 百词斩 竞品分析
导语:本文作者通过对百词斩和墨墨背单词这两款产品进行多维度的分析对比,了解其内在的产品逻辑,分析二者之间的差异性,对比它们的基础结构和功能特点,带大家深入了解了单词类APP未来的发展方向. 我国政府鼓励教育行业积极应用新技术,鼓励发展在线教育,加深科技与教育的融合. 近年来,随着我国国民经济的持续发展,居民可支配收入稳步上涨.
于01-05 00:00 - - tuicool
自己的小网站跑在阿里云的 ECS 上面, 偶尔也去分析分析自己网站服务器日志,看看网站的访问量. 于是收集,整理一些服务器日志分析命令,大家可以试试. 1、查看有多少个IP访问:. 2、查看某一个页面被访问的次数:. 3、查看每一个IP访问了多少个页面:. awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file > log.txt
sort -n -t ' ' -k 2 log.txt 配合sort进一步排序.
于12-29 10:32 - Q的博客 -
注:本文原创,转发需标明作者及原文链接. 【0广告微信公众号:Q的博客】. 本系列共三篇文章, 本文是系列第2篇——进阶篇,详细讲解 MAT 各种工具的 核心功能、用法、适用场景,并在具体实战场景下讲解帮大家学习如何针对各类内存问题. JVM 内存分析工具 MAT 的深度讲解与实践——入门篇》 介绍 MAT 产品功能、基础概念、与其他工具对比、Quick Start 指南.
于12-27 21:38 - -
中国金融监管部门再次约谈蚂蚁集团后,指这家互联网金融巨头存在“违规监管套利”等四大问题,要求集团“回归支付本源”,从五方面整顿改造. 分析认为,政府对互联网平台的监管指向日渐清晰,并通过向蚂蚁开刀以一儆百,让互联网金融业者为加速整改做好准备. 中国人民银行、银保监会、证监会和外汇局26日联合约谈蚂蚁集团,中国人民银行副行长潘功胜今天代表四部门对外介绍情况时指出,蚂蚁存在的四大问题:包括公司治理机制不健全;法律意识淡漠,藐视监管合规要求,存在违规监管套利行为;利用市场优势地位排斥同业经营者;损害消费者合法权益,引发消费者投诉等.
于12-17 09:15 - Q的博客 -
注:本文原创,转载请先通过公众号或掘金联系作者申请. 定期发送干货,实践经验、系统总结、源码解读、技术原理. 笔者期望通过一篇权威靠谱、清晰易懂的系统性文章,帮助读者深入理解 Raft 算法,并能付诸于工程实践中,同时解读不易理解或容易误解的关键点. 本文是 Raft 实战系列理论内容的整合篇,我们结合 Raft 论文讲解 Raft 算法思路,并遵循 Raft 的模块化思想对难理解及容易误解的内容抽丝剥茧.
于12-08 01:51 - vivo互联网技术 -
ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为传统关系型数据库的补充,提供了关系型数据库不具备的一些能力. ES最先进入大众视野的是其能够实现全文搜索的能力,也是由于基于Lucene的实现,内部有一种倒排索引的数据结构.
于12-05 10:00 - DataFunTalk -
导读:本文主要介绍手淘流量分析业务发展过程中,实时性业务分析需求的产生,实时分析目标的设定,如何进行技术的选型,以及如何基于ClickHouse构建系统架构和未来的业务预期. 流量分析与业务背景:什么是流量分析,以及我们的业务背景"大数据"带来的难题:当你的数据量是守恒的时候,需要怎么处理你的数据技术选型与产品考虑:在以上背景下,我们在技术选择和产品考虑时,都做了哪些考虑,以及为什么最终选择ClickHouse,并给大家介绍一些技术解决方案.
于11-22 03:52 - 爱奇艺技术 -
在微服务体系中,服务注册中心是最基础的组件,它的稳定性会直接影响整个服务体系的稳定性. 本文主要介绍了爱奇艺微服务平台基于 Consul 的服务注册中心建设方式,与内部容器平台、API 网关的集成情况,并重点记录了 Consul 遇到的一次故障,分析解决的过程,以及针对这次故障从架构上的优化调整措施.
于10-31 00:00 - - dev
在数据分析工作中,细分思维的重要性,我认为再怎么强调都不为过. 然而,很多人可能会采取一些「偷懒」的做法,浅尝辄止,不去寻找合适的细分方法,导致没有得出更有价值的分析结论. 下面我们通过一些示例,介绍 5 种常见的细分方法. 时间可以细分为不同的跨度,包括年、月、周、日、时、分、秒等等,不同的时间跨度,数据表现可能大不相同.
于10-21 12:56 - 熬夜不加班 -
之前,我们分析了MySQL中索引的相关知识以及explain执行计划分析,想必大家对索引已经有了基本的认识,那么这一篇,我将为大家介绍一下MySQL中事务以及MVCC相关知识. 事务(Transaction)是由一系列对数据库中的数据进行访问与更新的操作所组成的一个程序执行单元. 在同一个事务中所进行的操作,要么都成功,要么就什么都不做.
于10-16 10:40 - 公众号_IT老哥 - java mysql mysql索引 mysql索引优化 索引
吊打面试官又来啦,今天我们讲讲MySQL 索引为什么会失效,很多文章和培训机构的教程,都只会告诉你,在什么情况下索引会失效. 比如:没遵循最佳左前缀法则、范围查询的右边会失效、like查询用不到索引等等. 但是没有一个人告诉你, 索引失效的原理是什么, 老哥今天就告诉大家,让你们 知其然,还要 知其所以然.
于10-07 15:59 - -
MYSQL logstash 同步增量数据到ES. 最近一段时间,在使用mysql通过logstash-jdbc同步数据到es,但是总是会有一定程度数据丢失. logstash-jdbc无非是通过sql遍历数据表的所有数据,然后同步到es. 对于表里面的所有字段都需要查出来然后同步到es中去. 数据同步脚本分为全量同步与增量同步.