更新于:07-30 01:38

有关[分析]分类推荐

GitHub - hankcs/HanLP: 自然语言处理 中文词 词性标注 命名实体识别 依存句法 关键词提取 自动摘要 短语提取 拼音 简繁转换

于08-18 06:08 - -
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用. HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点. 基于互信息和左右信息熵的短语提取. 简繁分歧词(简体、繁体、臺灣正體、香港繁體). 基于神经网络的高性能依存句法分析器. CoNLL UA/LA/DA评测工具.

使用Flume+Kafka+SparkStreaming进行实时日志 - Trigl的博客 - CSDN博客

于08-17 15:09 - -

如何做财务? - 知乎

于07-28 03:49 - -
财务分析这个题目看似很简单,好像做财务的、或者与数据打交道的总能说出一些与分析的理论来;但真正要系统的、深入的做好分析,又感觉无从下手. 曾有幸在国内一家国企集团做过近三年的财务分析,与大家分享一下自己的感受. 个人理解,做好财务分析,需要明确四个方面,分析的对象、目的、素材和具体方法,以下就分别说下自己对这几个方面的理解.

唯品会海量实时OLAP技术升级之路

于07-17 11:56 - 小码哥 - 运维干货 OLAP OLAP升级 唯品会 大数据
本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成. 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作. 海量数据实时OLAP场景的困境.

情感计算是人机交互核心?谈深度学习在情感中的应用

于07-11 00:00 - - tuicool
除自然语言理解(NLU)外,情感计算(Affective Computing)也成为近年来 AI 领域热门的研究方向之一. 其中针对中文语境里人机交互中的情感、情绪识别与理解,竹间智能已经做了许多有益的探索,特别是如何利用情感、情绪分析,来帮助机器人实现对「对话意图」与「深层语义」的更好理解. 本文将梳理一下情感计算在人机交互中的价值,同时分享一些情感分析的工具与方法.

以滴滴出行为例,谈谈如何用户评论

于06-30 00:00 - - bigdata
任何2C的产品都避免不了海量的用户评论/反馈,这恐怕对普通用户来说,最直接的向产品表达看法的途径了. 如果能够正确地分析这些评论,发现关键问题,产品就不会走向歪路……不过可不容易. 很多产品对用户评论的重视度并不高,即便愿意花费精力去分析,即便分析了,使用的方法也是五花八门. 我以前实习的时候做过一种“打杂”的工作,就是回复用户反馈.

向IPO进发!日志管理平台Sumo Logic获7500万美元F轮融资

于06-27 15:36 - 顿雨婷 - 海外创投
6月27日,基于云计算的日志管理分析平台Sumo Logic宣布完成7500万美元的F轮融资,进入IPO之前的冲刺阶段. 此轮投资由Sapphire Ventures领投,Accel Partners、DFJ Growth、Greylock Partners、Institutional Venture Partners、红杉资本和Sutter Hill Ventures等跟投.

简单最新的联通混改消息

于06-23 06:19 - 付亮的竞争情报应用 -
路透社22日报道称,综合四名知情人士消息,阿里巴巴和腾讯将参与并领投对中国联通100亿美元左右的融资,百度决定退出. 中国联通计划在A股融资700亿元(约102.5亿美元),其中500亿元通过增发方式筹集,其余将通过出售一部分股票来填补. 除阿里巴巴和腾讯,中国联通接触的其他潜在投资者还包括中国其他一些主要互联网公司和国有机构,如国寿投资.

基于大数据的银行反欺诈的报告

于06-21 00:00 - - bigdata
在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例. 每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们. 于是,男人们在买啤酒的同时随手买尿片.

深入浅出解大数据Lambda架构 - 天善智能:专注于商业智能BI和数据、大数据领域的垂直社区平台

于06-20 09:17 - -
Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病. 随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算. 比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品.

线上存储服务崩溃问题记录

于06-19 08:59 - 那谁 - C++ 网络编程
上周我们的存储服务在某个线上项目频繁出现崩溃,花了几天的时间来查找解决该问题. 由于问题在线上发生,较难重现,首先想到的是能不能加上更多的信息,在问题出现时提供更多的解决思路. 首先,我们的代码里,在捕获到进程退出的信号比如SIGABRT、SIGSEGV、SIGILL等信号时,会打印出主线程的堆栈,用于帮助我们发现问题.

介绍7种问题的思维方法

于06-17 05:19 - -
很多麻烦、问题我们一时解决不了,是因为自己没有使用一些专业的,系统性的思维方法,等你熟练使用这些方法解决自己常遇到的问题,那时候会发现,很多困难都迎刃而解. 下面我们总结了的几个常见的,能够很快上手的一些思维方法,至于具体怎么使用,可以参见一些案例,很快就会掌握,且受益终身的,希望能给你带去一些启发~.

如何用Python做情感

于06-14 08:17 - shendao - 极客互联
商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地. 本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看. 如果你关注数据科学研究或是商业实践,“情感分析”(sentiment analysis)这个词你应该不陌生吧. 维基百科上,情感分析的定义是:. 文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息.

Java常见问题(内存溢出、内存泄露、线程阻塞等

于06-13 10:42 - lixuguang -
Java垃圾回收机制(GC) . 堆内存3代分布(年轻代、老年代、持久代) . ML(内存泄露) OOM(内存溢出)问题现象及分析 . IBM DUMP分析工具使用介绍. Java应用CPU、线程问题分析. Java垃圾回收机制(GC). 1.GC机制作用 . 1.1 JVM自动检测和释放不再使用的对象内存 .

Spark Shuffle过程:Map阶段处理流程

于05-26 15:13 - Yanjun - Spark 开源技术 Spark-2.0.0
默认配置情况下,Spark在Shuffle过程中会使用SortShuffleManager来管理Shuffle过程中需要的基本组件,以及对RDD各个Partition数据的计算. 我们可以在Driver和Executor对应的SparkEnv对象创建过程中看到对应的配置,如下代码所示:. 如果需要修改ShuffleManager实现,则只需要修改配置项spark.shuffle.manager即可,默认支持sort和 tungsten-sort,可以指定自己实现的ShuffleManager类.

使用Flume+Kafka+SparkStreaming进行实时日志

于05-24 11:14 - Trigl -
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码. 思考一下,正常情况下我们会如何收集并分析日志呢. 首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示:.

【WEO第一帖】微信搜一搜排名结果

于05-22 09:36 - 张亚楠 ' BLOG - 天意从来高难问 -
上周微信实验室开放了“搜一搜”功能,引起了轩然大波. 至此,微信的流量生态基本成型,小程序,公众号,公众号文章,将不再依靠苦逼的二维码和链接分享,也将会由搜索带来流量和用户. 继SEO,ASO之后,WEO也将慢慢产生,以下是对目前版本“搜一搜”搜索结果的分析. 搜一搜的搜索结果大概可以分为2个梯队.

教你认识Linux内存管理方式,Swap被程序占用情况

于05-20 11:06 - zhaoshijie -
关键字:教你认识Linux内存管理方式,分析Swap被程序占用情况. 一、先了解一下linux对内存的管理方式:. 在Linux里(别的系统也差不多),内存有物理内存和虚拟内存之说,物理内存是什么自然无需解释,虚拟内存实际是物理内存的抽象,多数情况下,出于方便性的考虑,程序访问的都是虚拟内存地址,然后操作系统会把它翻译成物理内存地址.

三类型CDN厂商对比 技术创新型独领风骚

于05-15 08:50 - 孙浩峰 - 业界
        随着视频直播的爆发、短视频的兴起、OTT电视的快速增长以及互联网视频的迅猛发展带来了CDN市场超过40%以上的增长速度,大家对于技术的需求也变得越加苛刻. 与此同时CDN技术切入门槛的降低,给厂商们带来了大举入局的机会,一时之间CDN市场群魔乱舞,好不热闹. 随着CDN市场逐渐趋于成熟状态,已呈现三足鼎立之局面.

考试后这样,才是学习进步的关键

于05-07 00:00 - - jianshu
考试的功能有两种:检验和选拔. 除了中考、高考、竞赛类考试以外,其余几乎都是检验学生对知识的掌握情况,从中发现问题,帮助学生查漏补缺、调整学习方法. 所以,考后试卷分析其实是考试的一部分,或者说,与分数的获得相比,考后试卷分析才是真正收获的手段. 我们的老师和家长如果能与孩子照做文章所讲述的方式分析试卷,孩子一定会有进步的.

人脸检测与识别的趋势与再

于04-22 00:00 - - dev
最近因为种种原因,这方面的知识有得到大家的认可和对其有很大的兴趣,所以今天想再一次分享这知识,让已明白的人更加深入理解,让初学者有一个好的开端与认知,谢谢大家的支持. 现在打开谷*公司的搜索器,输入 “face detect”,估计大家都能够想到,都是五花八门的大牛文章,我是羡慕啊. (因为里面没有我的一篇,我们实验室的原因,至今没有让我发一篇有点权威的文章,我接下来会写4张4A纸的检讨,去自我检讨下为什么.

[译] 使用 APK Analyzer 你的 APK

于04-21 00:00 - - dev
本文来自“天天P图攻城狮”公众号(ttpic_dev). 本文是对 《Analyze Your Build with APK Analyzer》 的翻译. Android Studio 2.2包含了APK Analyzer,通过它我们能够直观地看到APK的组成. 使用APK Analyzer不仅能够减少你花在debug上的时间,而且还能减少你的APK大小.

Android OOM案例

于04-14 19:07 - 美团点评技术团队 -
在Android(Java)开发中,基本都会遇到 java.lang.OutOfMemoryError(本文简称OOM),这种错误解决起来相对于一般的Exception或者Error都要难一些,主要是由于错误产生的root cause不是很显而易见. 由于没有办法能够直接拿到用户的内存dump文件,如果错误发生在线上的版本,分析起来就会更加困难.

[原]自学大数据:Hive基于搜狗搜索的用户日志行为

于08-29 14:58 - shifenglov -
”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的. 可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语. 很多朋友就想问,我想做大数据,但是没有这个条件,没有这个数据量,没有那么多业务场景,没有那多集群可以吗.

Flume+Spark+Hive+Spark SQL离线系统

于07-27 03:36 - ymh198816 -
前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark. 当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统也有很好的兼容性;Spark Sql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据;还提供了种类丰富的MLlib库方便用户做机器学习等等.

支付风控模型

于03-27 00:00 - - bigdata
接上一篇 支付风控数据仓库建设. 支付风控涉及到多方面的内容,包括反洗钱、反欺诈、客户风险等级分类管理等. 其中最核心的功能在于对实时交易进行风险评估,或者说是欺诈检测. 如果这个交易的风险太高,则会执行拦截. 由于反欺诈检测是在交易时实时进行的,在要求不能误拦截的同时,还有用户体验上的要求,即不能占用太多时间,一般要求风控操作必须控制在100ms以内,对于交易量大的业务,10ms甚至更低的性能要求都是必须的.

ElasticSearch聚合API

于04-11 03:18 - migrant620 - 搜索 Elasticsearch 分析 聚合
说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregations),聚合功能为ES注入了统计分析的血统,使用户在面对大数据提取统计指标时变得游刃有余. 同样的工作,你在hadoop中可能需要写mapreduce或hive,在mongo中你必须得用大段的mapreduce脚本,而在ES中仅仅调用一个API就能实现了.

[Java] Java 多线程案例

于03-19 10:48 - xsank -
现要从 hbase中导出 2016 年整年的,大约 10w只股票行情数据,数据总量约 100t. 汇总到 hdfs中供需求方使用. 已知数据量规模大概是 100t,那么单台机器处理肯定不是不行的,先不说大多数磁盘都没这么大,即便磁盘有这么大,单台机器处理对于内存和 cpu 要求也很高,所以我们将问题一般化,使用数量有限的低配机器.

追踪了783家创业公司五个月,了64.7万条数据,我们发现了10个有趣的现象

于03-10 08:36 - -
我们团队做了一个商业情报追踪和分析的工具,叫做NiucoData,中文名是纽扣数据. 在漫长的开发和测试中,我们先后添加了783家知名或半知名的创业公司用于测试数据(这是随机添加的小部分数据,只占我们我们数据库的0.001%,因此不具备广泛性,仅作参考). 从去年9月开始到今年2月,一共是5个月的时间,我们追踪到了大约六十万条信息.

常见邮件发送失败原因以及解决方法

于02-20 01:44 - 阿拉扫思密达 -
本文来自:http://www.maikongjian.com/style/info/shownews2.asp?id=439. 一.发到 sina.com 的邮件会被退回. 我发到 sina 的邮件会被退回,并提示"remote server said: 553 Spam Mail http://mail.sina.com.cn/FAQ.html";错误,怎么办.