[分析]分类资讯

Python地理数据分析工具MovingPandas

于10-09 19:54 - 钱魏Way - 器→工具工具软件开源项目 GIS

MovingPandas 是一个用于分析轨迹数据的 Python 库. 它在处理和分析移动对象的时空数据方面非常强大，适用于地理信息系统（GIS）、时空数据分析和可视化等领域. 它是在热门的地理数据处理库 GeoPandas 的基础上构建的，GeoPandas 本身是建立在Pandas数据处理库之上的.

数据分析模式的演进

于11-19 16:44 - 数据智能老司机 -

数据分析是一个不断变化的领域. 稍微了解一下历史将帮助你欣赏到这一领域取得的进展，以及数据架构模式如何演进以满足不断变化的分析需求. 首先，让我们从一些定义开始：. 分析被定义为将数据转化为洞察的任何行为. 数据架构是使数据的存储、转换、利用和治理成为可能的结构. 分析及支持分析的数据架构已经走过了很长的路.

使用 LAL 收集并分析 Nginx access log

于11-03 16:58 - SkyWalking中文站 -

本篇文章演示如何将 Nginx access log 收集到 SkyWalking 中，并通过 LAL 进行指标分析. 本文由社区贡献者魏翔撰写, SkyWalking 社区帐号发表. Nginx access log 中包含了丰富的信息，例如：日志时间、状态码、响应时间、body 大小等.

【线上故障分析】深入理解缓存预热

于09-12 10:01 - 他是程序员 -

缓存不预热会导致系统接口性能下降，数据库压力增加，更重要的是导致我写了两天的复盘文档，在复盘会上被骂出了翔. 事情发生在几年前，我刚毕业时，第一次使用缓存内心很激动. 需求场景是虚拟商品页面需要向用户透出库存状态，提单时也需要校验库存状态是否可售卖. 但是由于库存状态的计算包含较复杂的业务逻辑，耗时比较高，在500ms以上.

Node.js 内存溢出OOM分析

于08-23 19:35 - -

Node.js 内存飙涨以及 OOM 的问题，只要业务流量稍微复杂，一般都会遇到. 如果是堆内内存，在 OOM 之前可以打一个 Heap Profiling 进行分析，如果是 OOM 之后，可以利用 llnode 对 corefile 进行分析，但如果是堆外内存飙涨呢. 这一块内存通过 Chrome Devtool 工具是分析不出来的.

【Redis故障排查】「连接失败问题排查和解决」带你深入分析一下Redis阻塞原因以及问题排查方案指南

于07-08 15:30 - 洛神灬殇 -

Redis阻塞原因以及问题排查. 尽管我们在日常工作中经常使用Redis作为数据库的缓存，以大大减轻数据库压力并提升用户体验，但Redis也可能出现阻塞情况，导致整个系统变慢，进而影响用户体验. 因此，在面对Redis阻塞的情况下，我们可以从以下七个方面进行全面的分析，以确定造成Redis阻塞的具体原因.

分析 Kubernetes Nodes ‘Not Ready’ 状态

于04-22 11:09 - -

节点是 Kubernetes 集群的重要组成部分，负责运行 pod. 根据您的集群设置，节点可以是物理机或虚拟机. 一个集群通常有一个或多个节点，这些节点由控制平面管理. 由于节点负责管理工作负载，因此您需要确保所有节点都正常运行. 该 kubectl get nodes命令可用于检查节点的状态.

java获取到heapdump文件后，如何快速分析？

于04-21 22:08 - 扣钉日记 -

原创：扣钉日记（微信公众号ID：codelogs），欢迎分享，非公众号转载保留此声明. 在之前的OOM问题复盘之后，本周，又一Java服务出现了内存问题，这次问题不严重，只会触发堆内存占用高报警，没有触发OOM，但好在之前的复盘中总结了dump脚本，会在堆占用高时自动执行jstack与jmap，使得我们成功保留了问题现场.

探索性数据分析详解

于04-18 22:54 - 钱魏Way - 数据术→技巧数据分析

探索性数据分析（Exploratory Data Analysis，简称EDA）是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法. 探索性数据分析（EDA）与传统统计分析（Classical Analysis）的区别：.

微服务架构项目落地过程中，开发人员一般都遇到过调用超时问题，大部分时候会出现在feign接口调用上，这是微服务与单体服务最大的区别，单体从来不用考虑服务之间调用因为网络、序列化等因素导致的额外时间损耗问题. 很多开发人员在微服务开发中通常会随手设置一个较长超时，原则就是别在feign接口调用超时，这个随手的超时时间可能是5分钟、10分钟，甚至1个小时不等，看似解决超时导致的问题，实际如果没有从整体微服务架构来考虑超时背后的因素，这样会导致给整个链路调用埋下隐患，可能会随机或者在高并发等情况下爆发.

从系统架构分析安全问题及应对措施

于03-04 13:58 - 京东云开发者 -

在日常生产生活中，我们常说，“安全第一”、“安全无小事”. 围绕着安全问题，在各行各业都有对各类常见安全问题的解决方案和突发安全问题的应急预案. 在互联网、软件开发领域，我们日常工作中对各类常见的安全问题又有哪些常见的解决方案呢. 在此，结合经典架构图做一个梳理. 下面，结合上述的经典架构图，对数据存储、微服务接口、外网数据传输及APP层可能出现的安全问题进行分析，并给出一些常见的应对措施.

这是我见过最好的用户增长分析模型

于03-02 16:05 - 接地气的陈老师 - 数据分析 2年初级用户运营

数据分析师在进行数据驱动增长分析时，不但要用AARRR呈现增长结果，更要量化展现增长决策的全过程，从而发现更深层的问题. 这篇文章通过围绕六个模块深入整个分析模型，数据分析师们快来学习学习吧. 数据驱动增长，是很多公司对数据分析师的要求，可具体到操作上，大家就开始纠结了. 虽然增长黑客上白纸黑字写了AARRR五个大字，可真到分析的时候，就总被吐槽：.

小程序是如何设计百亿级用户画像分析系统的？

于03-02 10:18 - 腾讯云开发者 -

导语 | We 分析是微信小程序官方推出的、面向小程序服务商的数据分析平台，其中画像洞察是一个非常重要的功能模块. 微信开发工程师钟文波将描述 We 分析画像系统各模块是如何设计，在介绍基础标签模块之后，重点讲解用户分群模块设计. 希望相关的技术实现思路，能够对你有所启发. We 分析是小程序官方推出的、面向小程序服务商的数据分析平台，其中画像洞察是一个重要的功能模块.

分布式数据库存储透析：B-TREE 和 LSM-TREE 的性能差别

于02-24 00:00 - - dev

宇文湛泉，现任金融行业核心业务系统DBA，主要涉及Oracle、DB2、Cassandra、MySQL、GoldenDB、TiDB等数据库开发工作. 最近一两年里，每次做分布式数据库的内容分享活动时，总是会提及现在数据库的两个重要的存储结构，B-TREE和LSM-TREE. 因为，我觉得作为数据库的存储根基，无论是要选型，或者是用好一个数据库，清楚这两的差别和各自特点，都特别重要.

Nginx日志分析常用脚本 |

于08-31 10:52 - -

IP相关统计统计IP访问量（独立ip访问数量）. 查看某一时间段的IP访问量(4-5点). 查看访问最频繁的前100个IP. 查询某个IP的详细访问情况,按访问频率排序. 页面访问统计查看访问最频的页面(TOP100). 查看访问最频的页面([排除php页面】(TOP100). 查看页面访问次数超过100次的页面.

用 Wireshark 分析 TCP 吞吐瓶颈

于08-17 23:24 - laixintao - 程序开发笔记 bbr congestion control cubic cwnd

Debug 网络质量的时候，我们一般会关注两个因素：延迟和吞吐量（带宽）. 延迟比较好验证，Ping 一下或者 mtr 一下就能看出来. 这篇文章分享一个 debug 吞吐量的办法. 看重吞吐量的场景一般是所谓的长肥管道(Long Fat Networks, LFN, rfc7323). 吞吐量没有达到网络的上限，主要可能受 3 个方面的影响：.

电商商品系统的演进分析

于07-14 13:25 - 大愚Talk -

好久没有给大家带来新的知识分享了，2022的第一篇（是的，你没看错. 第一篇）就给大家讲讲商品模型的演进过程吧. 希望对大家做的工作有所帮助~~. 我们来假设：现在需要从零开始做电商，毫无经验，也没有竞对可参考，你就是全球独一份. 站在技术的视角，要去做一个电商商品系统，毫无疑问你需要一个商品实体，同时为了方便用户在C端筛选浏览，继承自CMS思想（栏目-->文章模型），很容易想到给每类商品增加一个分类，把相似的商品归属到相同的类目下.

使用 curl 命令分析请求的耗时情况

于06-23 08:00 - - Blog Blog

最近工作中遇到一个问题，某个请求的响应特别慢，因此我就希望有一种方法能够分析到底请求的哪一步耗时比较长，好进一步找到问题的原因. 在网络上搜索了一下，发现了一个非常好用的方法， curl 命令就能帮助分析请求的各个部分耗时情况. curl 命令提供了 -w 参数，这个参数在 manpage 是这样解释的：.

hive insert模式分析

于04-02 18:00 - zhangshun - hive python

hive写入数据有2种模式，一种是insert into，一种是insert overwrite. 参考资料：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-InsertingdataintoHiveTablesfromqueries.

一次大量 JVM Native 内存泄露的排查分析（64M 问题）

于03-24 11:20 - 挖坑的张师傅 -

我们有一个线上的项目，刚启动完就占用了使用 top 命令查看 RES 占用了超过 1.5G，这明显不合理，于是进行了一些分析找到了根本的原因，下面是完整的分析过程，希望对你有所帮助. Linux 经典的 64M 内存问题. 堆内存分析、Native 内存分析的基本套路. tcmalloc、jemalloc 在 native 内存分析中的使用.

数据分析终极一问：指标波动多大才算是异常？

于03-07 00:00 - - dev

先举个例子，体温37.4度vs体温36.5度，只有2.5%的波动，可如果有人在测温点被发现体温37.4度，估计马上就被拉走做核酸. 因为人们不是怕2.5%的波动，而是怕新冠. 所以：指标波动不可怕，指标波动代表的业务场景才可怕. 脱离业务场景谈指标波动就是耍流氓. 在各种业务指标中，数据往往不是静止不变的，尤其是当一些核心的指标发生了变化、波动时，就需要判断这样的波动是否属于异常的情况.

流量威胁分析系统与Tenable生产实践

于03-09 08:00 - -

信息安全体系构建中流量监听是一种常见的防护手段，从流量抓取到日志落地，从日志分析到威胁报警，相应产品基于流量分析模式，从最上层的处理逻辑来看是相近的，使用Suricata还是Snort处理流程类似接近，最粗放的方式去理解他们，这些系统都属于“大型字符串处理过滤系统”. 实际生产中可能会使多家厂商的产品配型开源产品使用，或自主开发，无论采用那种方案，我们都可抽象出一种共通的顶层流量数据处理模式，典型的流量过滤与日志分析处理流程.

竞品分析7000字方法论——7个视角，50+维度，附赠竞品思维下的撩妹技巧

于10-19 08:54 - -

产品经理的岗位职责之一是在市场中建立和维护产品的竞争优势，竞品分析是产品经理的一项常规工作，分析质量决定着决策质量，影响着对业务取长补短的效果. 但在竞品分析时，常遇到以下问题：. 没有养成日常习惯，分析时无从下手. 企图以此寻找需求或印证自己的观点. 由领导发起，找模板套公式，交作业. 分析维度杂乱浅显，结论无参考价值.

有赞保险业务的分析与架构设计

于09-13 15:54 - 晗大大 - 架构设计退货包运费保险

有赞微商城为商家提供了全行业全场景的电商解决方案，帮助商家在社交电商、直播电商等场景下快速布局. 在整个交易流程中，对退货时运费减免的支持已成为了电商场景的标配. 有赞也提供了 “退货包运费” 产品来满足消费者及商家在此场景下的诉求. 本文从“退货包运费”这个产品出发，分析保险业务的特征，介绍有赞保险业务系统的架构设计.

大规模视频内容理解：淘宝视频内容标签的结构化分析和管理

于09-10 09:38 - -

在这种亟需深入理解视频内容的大背景下，不同的表征形态涌现. 其中embedding表征常用的方法包括多模态预训练模型、基于用户行为的deep match模型等等，集团内在这方面有大量优秀的工作，使用embedding表征视频内容最大的问题在于不可解释性，只能完成机器对视频的理解. 使用标签对内容进行表征的优势在于，标签是一种高度概括的自然语言，不仅完成了机器对视频内容的理解，同时完成了人到视频内容的理解.

Doris 一种实时多维分析的解决方案

于03-12 00:00 - - dev

Doris 这类 MPP 架构的 OLAP 数据库，通常都是通过提高并发，来处理大量数据的. 本质上，Doris 的数据存储在类似 SSTable（Sorted String Table）的数据结构中. 该结构是一种有序的数据结构，可以按照指定的列进行排序存储. 在这种数据结构上，以排序列作为条件进行查找，会非常的高效.

数据分析该知道的IP地址知识

于08-25 21:45 - 钱魏Way - 数据术→技巧 IP

第一次接触到IP，还是在十多年前使用统计系统时，当时的统计系统中有个指标是IP地址. 即记录每天有多少不同的IP访问您的网站，在后来是自己搭建统计系统时涉及到对IP地址省份、城市、区域的解析. 最近在推进风控项目时又有遇到，所以抽时间把相关的知识点做下简单的整理. IP地址（英语：IP Address，全称Internet Protocol Address）.

Clickhouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案

于08-23 09:14 - -

2021年，Clickhouse 在日志存储与分析方面作为 ElasticSearch 和 MySQL 的替代方案. 原文作者：Anton Sidashin. 关于Clickhouse的文章，这段内容在互联网上仍然很流行，甚至被多次翻译. 现在已经过去两年多，同时 Clickhouse 的开发节奏.

Lenovo x DorisDB：简化数据处理链路，极大提升 BI 分析效率

于08-19 00:00 - - dev

整个数据分析体系，由数据采集、数据存储与计算、数据查询与分析和数据应用组成. 通过Sqoop读取RDBMS导入Hive. 用Flume来同步日志文件到Hive. 通过爬虫技术将网上数据爬取下来，存储到RDBMS，再由Sqoop 读取RDBMS，导入到Hive. 离线数据处理：利用Hive高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作.

潜在语义分析LSA初探

于07-07 21:47 - 钱魏Way - 数据术→技巧法→原理自然语言处理语义分析

潜在语义分析（Latent Semantic Analysis），是语义学的一个新的分支. 传统的语义学通常研究字、词的含义以及词与词之间的关系，如同义，近义，反义等等. 潜在语义分析探讨的是隐藏在字词背后的某种关系，这种关系不是以词典上的定义为基础，而是以字词的使用环境作为最基本的参考. 他们认为，世界上数以百计的语言都应该有一种共同的简单的机制，使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言.

有关[分析]分类推荐