更新于:12-15 23:30

有关[分析]分类推荐

Word2vec之情感语义分析实战(part3)--利用分布式词向量完成监督学习任务

于12-16 10:55 - u010665216 -
这篇博客将基于前面一篇博客 Part2做进一步的探索与实战. demo代码与数据: 传送门. 前面我们训练了单词的语义理解模型. 如果我们深入研究就会发现,Part2中训练好的模型是由词汇表中单词的特征向量所组成的. 这些特征向量存储在叫做syn0的numpy数组中:. 很明显这个numpy数组大小为(16490,300)分别代表词汇表单词数目及每个单词对应的特征数.

推荐系统之用户行为分析

于12-14 00:00 - - dev
基于用户行为的推荐,在学术界名为协同过滤算法. 协同过滤就是指用户可以齐心协力,通过不断地和网站互动,使 自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求. 用户行为在个性化推荐系统中一般分两种——显性反馈行为(explicit feedback)和隐性反馈 行为(implicit feedback).

如何开始数据分析

于12-11 12:06 - 精算狗 - IT技术 数据分析
菜鸟数据科学家、分析师,以及刚刚接触数据科学的管理人员,通常有这样的疑问. 他们的老板都在承受着压力,得证明花在系统上去收集、存储及组织资料的钱(更不用说还有那些花在数据科学家身上的钱)是有回报的. 他们偶尔很幸运——待解决的问题可能非常明确,而且被深入研究过(例如,预测哪个客户可能会取消手机合约).

集中式日志分析平台

于12-08 23:29 - -
传统的Web开发中,日志可能并不被重视,只有应用出现问题后,才会适时性的去看一眼. 而且日志的储存方式也很简单,直接写入一个文本文件或者扔到数据库中就了事了. 这样对于单机应用来说没有什么不可以的,可是当系统架构分布式后,官网、论坛、社交、交易等各个大大小小的子系统越来越多,再加上操作系统、应用服务、业务逻辑等等,日志的管理与查看就越发的麻烦,面对大量的日志数据而且又是分布在各个不同的机器甚至不同的机房,如果我们还是按照传统的方式登录到某一台机器上去查看日志,然后再汇总起来,再做个跨机房的排序,那这样感觉就太糟糕了.

App数据分析到底要分析什么

于12-07 00:00 - - bigdata
按大众化的分法,产品的生命周期(PLC, Product Lifetime Cycle)分为初创期、成长期、成熟期、衰退期,在产品的每个阶段,数据分析的工作权重和分析重点有所区别,下面按阶段结合案例来聊聊. 初创期的重点在于验证产品的核心价值,或者说验证产品的假设:通过某种产品或服务可以为特定的人群解决某个问题.

获取某微信公众号所有文章且进行分析 - 简书

于11-27 03:18 - -
获取微信公众号所有历史文章链接地址. 微信公众平台上面的公众号很多,里面各种文章都有,很多很杂乱. 不过在这些文章中,肯定是会存在自己所认为的. 所以如果我自己能够编写出一个程序,用来获取自己喜欢的. 某个微信公众号上的文章,获取文章的. 点赞量,然后加以简单的数据分析,那么最终得到的文章列表,肯定就会是比较好的文章了.

Spark Streaming 1.6 流式状态管理分析 - 简书

于11-26 01:25 - -
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升. 这篇文章会详细介绍Spark Streaming里新的流式状态管理. 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了. 而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合.

使用 Tensorflow 构建 CNN 进行情感分析实践 - 腾讯云社区 - 腾讯云

于10-18 09:21 - -
Web挖掘中的情感分析类问题,其实是一个分类问题. 而CNN可以用来处理分类任务,就是在最终的softmax函数计算属于各个类的概率,并归属到概率最大的类. 本次实验参照的是Kim Yoon的论文Convolutional Neural Networks for Sentence Classification.

Python做文本情感分析之情感极性分析 - 简书

于10-18 09:09 - -
「NLP」最为目前及其火热的一个领域,已经逐渐渗透进越来越多产业的各项业务中,不知死活的胖子决定对常用的应用功能挨个进行尝试,死活不论……. 「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程. 按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.

分析师:自动驾驶汽车或许能帮助降低房价

于10-10 09:55 - 小狐狸 - 资讯编译
【TechWeb报道】10月10日消息,据圣迭戈联合论坛报报道,近几个月来,加州议员们采取了各种各样的措施,以降低美国的住房成本,但效果有限. 一些分析人士预计,无人驾驶汽车或许能帮助降低房价. 圣地亚哥房地产分析师Gary London最近发布的一份报告显示,由GPS、雷达和传感软件控制的自动驾驶汽车可以通过限制停车空间需求来降低住房建设成本.

不学点数据分析怎么混

于10-08 06:49 - shendao - 极客互联
今天简单分享一下数据分析的学习心得. 何谓数据分析:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化的开发数据的功能,发挥数据的作用. 数据分析的目的是把隐藏在一批杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的规律. 数据分析分为:描述性数据分析,探索性数据分析,验证性数据分析.

运营支撑系统(BSS)在面向物联网IoT业务场景的模型简要分析和设计

于09-17 13:33 - lottons88 -
BSS运营支撑系统(主要指电信运营商),通常都是为了支撑个人客户的业务运营. 虽然在业务运营上也面向集团客户,但是总体上来说,业务的特性总结归纳为2C的业务场景. 而当前运营商在面向物联网的业务运营下,主要是以2B的业务场景. 运营商实际并不会直接面向最终的客户,而是通过其他业务的运营企业的合作或者买卖关系提供,即是一种B2B2C的场景.

Java程序内存分析:使用mat工具分析内存占用 - 王爵的技术博客

于09-01 01:09 - -
    MAT 不是一个万能工具,它并不能处理所有类型的堆存储文件. 但是比较主流的厂家和格式,例如 Sun, HP, SAP 所采用的 HPROF 二进制堆存储文件,以及 IBM 的 PHD 堆存储文件等都能被很好的解析. 下面来看看要怎么做呢,也许对你有用. 官方文档:http://help.eclipse.org/luna/index.jsp?topic=/org.eclipse.mat.ui.help/welcome.html.

GitHub - hankcs/HanLP: 自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换

于08-18 06:08 - -
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用. HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点. 基于互信息和左右信息熵的短语提取. 简繁分歧词(简体、繁体、臺灣正體、香港繁體). 基于神经网络的高性能依存句法分析器. CoNLL UA/LA/DA评测工具.

使用Flume+Kafka+SparkStreaming进行实时日志分析 - Trigl的博客 - CSDN博客

于08-17 15:09 - -

如何做财务分析? - 知乎

于07-28 03:49 - -
财务分析这个题目看似很简单,好像做财务的、或者与数据打交道的总能说出一些与分析的理论来;但真正要系统的、深入的做好分析,又感觉无从下手. 曾有幸在国内一家国企集团做过近三年的财务分析,与大家分享一下自己的感受. 个人理解,做好财务分析,需要明确四个方面,分析的对象、目的、素材和具体方法,以下就分别说下自己对这几个方面的理解.

唯品会海量实时OLAP分析技术升级之路

于07-17 11:56 - 小码哥 - 运维干货 OLAP OLAP升级 唯品会 大数据
本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成. 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作. 海量数据实时OLAP场景的困境.

情感计算是人机交互核心?谈深度学习在情感分析中的应用

于07-11 00:00 - - tuicool
除自然语言理解(NLU)外,情感计算(Affective Computing)也成为近年来 AI 领域热门的研究方向之一. 其中针对中文语境里人机交互中的情感、情绪识别与理解,竹间智能已经做了许多有益的探索,特别是如何利用情感、情绪分析,来帮助机器人实现对「对话意图」与「深层语义」的更好理解. 本文将梳理一下情感计算在人机交互中的价值,同时分享一些情感分析的工具与方法.

以滴滴出行为例,谈谈如何分析用户评论

于06-30 00:00 - - bigdata
任何2C的产品都避免不了海量的用户评论/反馈,这恐怕对普通用户来说,最直接的向产品表达看法的途径了. 如果能够正确地分析这些评论,发现关键问题,产品就不会走向歪路……不过可不容易. 很多产品对用户评论的重视度并不高,即便愿意花费精力去分析,即便分析了,使用的方法也是五花八门. 我以前实习的时候做过一种“打杂”的工作,就是回复用户反馈.

向IPO进发!日志管理分析平台Sumo Logic获7500万美元F轮融资

于06-27 15:36 - 顿雨婷 - 海外创投
6月27日,基于云计算的日志管理分析平台Sumo Logic宣布完成7500万美元的F轮融资,进入IPO之前的冲刺阶段. 此轮投资由Sapphire Ventures领投,Accel Partners、DFJ Growth、Greylock Partners、Institutional Venture Partners、红杉资本和Sutter Hill Ventures等跟投.

简单分析最新的联通混改消息

于06-23 06:19 - 付亮的竞争情报应用 -
路透社22日报道称,综合四名知情人士消息,阿里巴巴和腾讯将参与并领投对中国联通100亿美元左右的融资,百度决定退出. 中国联通计划在A股融资700亿元(约102.5亿美元),其中500亿元通过增发方式筹集,其余将通过出售一部分股票来填补. 除阿里巴巴和腾讯,中国联通接触的其他潜在投资者还包括中国其他一些主要互联网公司和国有机构,如国寿投资.

基于大数据的银行反欺诈的分析报告

于06-21 00:00 - - bigdata
在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例. 每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们. 于是,男人们在买啤酒的同时随手买尿片.

深入浅出解析大数据Lambda架构 - 天善智能:专注于商业智能BI和数据分析、大数据领域的垂直社区平台

于06-20 09:17 - -
Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病. 随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算. 比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品.

线上存储服务崩溃问题分析记录

于06-19 08:59 - 那谁 - C++ 网络编程
上周我们的存储服务在某个线上项目频繁出现崩溃,花了几天的时间来查找解决该问题. 由于问题在线上发生,较难重现,首先想到的是能不能加上更多的信息,在问题出现时提供更多的解决思路. 首先,我们的代码里,在捕获到进程退出的信号比如SIGABRT、SIGSEGV、SIGILL等信号时,会打印出主线程的堆栈,用于帮助我们发现问题.

介绍7种分析问题的思维方法

于06-17 05:19 - -
很多麻烦、问题我们一时解决不了,是因为自己没有使用一些专业的,系统性的思维方法,等你熟练使用这些方法解决自己常遇到的问题,那时候会发现,很多困难都迎刃而解. 下面我们总结了的几个常见的,能够很快上手的一些思维方法,至于具体怎么使用,可以参见一些案例,很快就会掌握,且受益终身的,希望能给你带去一些启发~.

如何用Python做情感分析?

于06-14 08:17 - shendao - 极客互联
商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地. 本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看. 如果你关注数据科学研究或是商业实践,“情感分析”(sentiment analysis)这个词你应该不陌生吧. 维基百科上,情感分析的定义是:. 文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息.

Java常见问题分析(内存溢出、内存泄露、线程阻塞等)

于06-13 10:42 - lixuguang -
Java垃圾回收机制(GC) . 堆内存3代分布(年轻代、老年代、持久代) . ML(内存泄露) OOM(内存溢出)问题现象及分析 . IBM DUMP分析工具使用介绍. Java应用CPU、线程问题分析. Java垃圾回收机制(GC). 1.GC机制作用 . 1.1 JVM自动检测和释放不再使用的对象内存 .

Spark Shuffle过程分析:Map阶段处理流程

于05-26 15:13 - Yanjun - Spark 开源技术 Spark-2.0.0
默认配置情况下,Spark在Shuffle过程中会使用SortShuffleManager来管理Shuffle过程中需要的基本组件,以及对RDD各个Partition数据的计算. 我们可以在Driver和Executor对应的SparkEnv对象创建过程中看到对应的配置,如下代码所示:. 如果需要修改ShuffleManager实现,则只需要修改配置项spark.shuffle.manager即可,默认支持sort和 tungsten-sort,可以指定自己实现的ShuffleManager类.

使用Flume+Kafka+SparkStreaming进行实时日志分析

于05-24 11:14 - Trigl -
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码. 思考一下,正常情况下我们会如何收集并分析日志呢. 首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示:.

【WEO第一帖】微信搜一搜排名结果分析

于05-22 09:36 - 张亚楠 ' BLOG - 天意从来高难问 -
上周微信实验室开放了“搜一搜”功能,引起了轩然大波. 至此,微信的流量生态基本成型,小程序,公众号,公众号文章,将不再依靠苦逼的二维码和链接分享,也将会由搜索带来流量和用户. 继SEO,ASO之后,WEO也将慢慢产生,以下是对目前版本“搜一搜”搜索结果的分析. 搜一搜的搜索结果大概可以分为2个梯队.