[学习]标签资讯

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

于02-20 13:56 - 超神经HyperAI - 算法机器学习人工智能深度学习数据挖掘

内容一览：本期汇总了超神经下载排名众多的 6 个数据集，涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大，经历人气认证值得收藏码住. 关键词：数据集机器翻译机器视觉. 数据集是机器学习模型训练的基础，优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来，为数据科学从业者提供了大量优质的公开数据集.

文字语义纠错技术探索与实践-张健

于12-21 15:10 - 达观数据 - MIT自然语言处理 NLP开源工具中文信息处理人工智能机器学习

文本语义纠错的使用场景非常广泛，基本上只要涉及到写作就有文本纠错的需求. 书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题. 在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况，包括上市公司在公开文书上把“临时大会”写成为“临死大会”，政府文件把“报效国家”写成了“报销国家”. 有关文本纠错的辅助工具能给文字工作人员带来较大的便利，对审核方面的风险也大幅降低.

知识图谱增强下的智能推荐系统与应用-于敬

于11-17 15:35 - 达观数据 - 人工智能推荐系统深度学习自然语言处理知识图谱

随着互联网技术的迅速发展，尤其是移动互联网的兴起，新产生的信息呈现爆炸式的增长. 为了更好地解决信息获取中的信息过载（Information Overload）和长尾问题（Long Tail），推荐系统应运而生，目前基本上已经成为了各种产品的标配功能. 推荐系统是信息过滤系统的一个分支，它可以自动地挖掘用户和物品之间的联系.

使用Excel搭建推荐系统

于11-13 23:06 - 钱魏Way - 器→工具工具软件数据术→技巧机器学习

在上一篇重新认识Excel的文章中，提到了Excel无所不能，然后就想到了曾经看到的这篇关于如何使用Excel搭建推荐引擎的文章. 于是找了出来做了下简单的翻译（只翻译了重点部分）. 在互联网上有无限的货架空间，找到你想看的东西可能会让人筋疲力尽. 幸运的是，与决策疲劳作斗争是 Netflix 的工作……而且他们很擅长.

探索人机深度融合的高可用性人工智能应用

于10-26 18:49 - 达观数据 - 自然语言处理深度学习

目前，人工智能技术在世界范围内热度极高，但却出现了“雷声大、雨点小”的现象. 一方面，随着近年来深度学习技术的不断发展，计算能力的不断提高，更深更复杂网络的普及使用，加上深度学习端到端的特性，看起来好像人工智能就是端到端的标注，不断地做数据清洗，增加标注数据，加深模型参数，就可以实现计算机像人类一样工作.

面向推荐的汽车知识图谱构建

于08-08 17:36 - 之家技术 - 深度学习人工智能神经网络机器学习算法

知识图谱的概念，最早由 Google 在2012 年提出，旨在实现更智能的搜索引擎，并在2013年之后开始在学术界和工业级普及. 目前，随着人工智能技术的高速发展，知识图谱已广泛应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人等多个领域. 知识图谱作为人工智能的核心技术驱动力，能缓解深度学习依赖海量训练数据、大规模算力的问题，它能够广泛适配不同的下游任务，且具有良好的解释性，因此，全球大型互联网公司都在积极部署本企业的知识图谱.

ComSec概念概述

于01-20 20:11 - - 学习笔记计算机安全

这学期选修了bintou老师的ComSec计算机安全课，上课期间觉得自己学的马马虎虎的，学习了一些计算机安全中的密码学算法和安全概念，但对这些概念都不是特别清晰，期末复习的过程中，对其中的一些算法和概念更理解了一些，趁着刚考完还没忘记，总结一波挂在博客，不当之处，欢迎指正. 公钥密码学也称为非对称密码学，与传统的对称密码学区别在于，加密和解密使用不同的密钥，也就是所说的 key，其中公开出来的密钥是公钥，另一个是私钥，由持有者严格保密.

数学建模信息收集

于10-19 07:26 - - 学习总结数学建模

其实我和大多数加入数学建模社团的人目的都一样，有些功利吧，想要通过参加数学建模竞赛整点综测分，但也有一些想要通过参加数学建模的比赛来提升数学和编程能力的想法. 和其他大多数加入数学建模社团的人一样我对数学建模并不是特别了解，在我没有查阅资料之前我对数学建模只有一些模糊的认识通过数学来解决实际问题并利用编程推广证明模型（我自己的认识当然不太准确）.

Mybaits缓存机制

于08-02 22:38 - - 学习 Mybatis 一级缓存二级缓存

我们知道 Mybatis作为常见的 Java数据库访问层的 ORM框架，其缓存分为一级缓存和二级缓存. 大多数情况下，我们使用的都是 Mybatis缓存的默认配置，但是 Mybatis缓存机制有一些不足之处，在使用中容易引起脏数据问题，形成一些潜在隐患. 今天，我们就来看下 Mybatis的缓存机制，了解其底层的一些原理，来方便我们排查、解决以后可能出现的由 Mybatis缓存引起的问题.

风险控制：信用评分卡模型

于01-27 20:13 - 钱魏Way - 器→工具开源项目数据术→技巧机器学习

评分卡模型又叫做信用评分卡模型，最早由美国信用评分巨头FICO公司于20世纪60年代推出，在信用风险评估以及金融风险控制领域中广泛使用. 银行利用评分卡模型对客户的信用历史数据的多个特征进行打分，得到不同等级的信用评分，从而判断客户的优质程度，据此决定是否准予授信以及授信的额度和利率. 相较资深从业人员依靠自身的经验设置的专家规则，评分卡模型的使用具有很明显的优点：.

机器学习之恶意流量检测的特征工程

于01-14 10:00 - 邹先生007 - WEB安全恶意流量机器学习特征工程

传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式，还可以通过定义不同维度的特征来做特征工程，这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力. 这种方法举个例子来说可以这样理解，我的输入是姚明，此时我在特征工程阶段需要将姚明转化为身高2.2米、体重400斤等等数值特征，再经过标准化等转化为机器可以识别的量纲单位进行学习预测.

支撑位和压力位的原理是什么？支撑位和压力位是怎么形成的

于12-13 14:19 - 后知后觉股市直播 - 学习类

常常听到一些大V或者是股市高手说支撑位压力位的相关词汇，那么这个支撑位和压力位一般是怎么形成的呢?它们的形成往往是蕴含着什么道理呢?请往下看. 　　支撑位和压力位的原理是什么?. 　　支撑位和压力位的形成往往是股市投资者的心理导致的，所以市场在这个位置发生的波动常常是有理可循的. 具体支撑位和压力位一般情况下都有以下几个依据：第一是筹码密集成交带;第二是均线的走势;第三是前高或者新低位置;第三就是顶部盘整地带和底部盘整地带.

Nimbus: Hulu的深度学习平台

于04-03 23:37 - Dong - 人工智能 AI 深度学习

Hulu是美国领先的互联网专业视频服务平台，目前在美国拥有超过2500万付费用户. Hulu的目标是帮助用户在任意时刻、任何地点、以任何方式查找并欣赏到高质量的电视剧、电影和电视直播. 实现这一目标离不开各个团队的努力，而AI在其中扮演者越来越重要的角色. 在Hulu, 我们拥有诸多的researcher团队，如广告团队，推荐团队，视频理解团队等ji等.

分享：个人是怎么学习新知识的

于04-09 22:09 - - 其他工作学习

挺多童鞋问我是怎么学习新知识的，干脆写篇文章总结一下，希望对大家有所帮助. 对照书、技术博客、极客时间等学习的方式我就不说了. 在15年及更早，由于知识储备少，基础偏弱，大致采取了如下的步骤：. 了解xx是什么，能解决什么问题. 例如个人学习Spring、Struts、Hibernate时，就是找了马士兵老师的视频.

机器学习的流程是怎样的呢？如何应用到实践中去呢？

于03-01 08:13 - 梦想在起飞 - AI人工智能 3年中级机器学习

机器学习是一种能够实现人工智能的技术，可以通过大量的数据，训练出来一个处理数据的模型. 本文笔者将与大家分享：机器学习的相关实践应用. 我所理解的机器学习是一种能够实现人工智能的技术，建立能从经验（数据）中进行学习的模型，从而使这个模型可以达到自行处理此类数据的能力. 也可以理解为：通过大量的数据，训练出一个能处理此类数据的模型.

KNN算法实战：验证码的识别

于02-15 12:25 - 标点符 - 数据机器学习算法

识别验证码的方式很多，如tesseract、SVM等. 前面的几篇文章介绍了 KNN算法，今天主要学习的是如何使用KNN进行验证码的识别. 本次实验采用的是CSDN的验证码做演练，相关的接口：https://download.csdn.net/index.php/rest/tools/validcode/source_ip_validate/10.5711163911089325.

文本分类中的一些经验和 tricks

于01-26 17:01 - - NLP 深度学习 NLP

最近在总结之前做的文本分类实验的一些经验和 tricks，同时也参考了网上的一些相关资料(见文末)，其中有些 tricks 没尝试过，先在这里记下，或者日后能用上. 这里的经验和 tricks 大概可分为两部分：预处理部分和模型部分，下面分别介绍. 文本更正，一些基本的操作包括：繁体转简体，全角转半角，拼音纠错等.

机器学习算法Boosting

于01-11 17:59 - 标点符 - 数据机器学习算法

机器学习通常会被分为2大类：监督学习和非监督学习. 在监督学习中，训练数据由输入和期望的输出组成，然后对非训练数据进行预测输出，也就是找出输入x与输出y之间的函数关系F：y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归，或者说是连续变量预测.

使用 Scikit-learn 的进行 KNN 分类

于12-19 09:59 - 标点符 - 数据 Python 机器学习

最近邻(KNN)是一种非常简单、易于理解、通用性强的机器学习算法，广泛应用于金融、医疗、政治、手写检测、图像识别、视频识别等领域. 在信用评级中，金融机构会预测客户的信用评级. 在贷款支付中，银行机构将预测贷款是否安全或有风险. 在政治学中，将潜在选民分为两类，要么投票，要么不投票. 上一篇《 K-近邻算法KNN学习笔记》主要讲解的是KNN的理论内容，今天主要学习怎么用KNN进行实战.

表面繁荣之下，人工智能的发展已陷入困境

于11-28 02:36 - DinK - 人工智能深度学习

《连线》杂志在其最近发布的12月刊上，以封面故事的形式报道了人工智能的发展状况. 现在，深度学习面临着无法进行推理的困境，这也就意味着，它无法让机器具备像人一样的智能. 但是真正的推理在机器中是什么样子的呢. 如果深度学习不能帮助我们达到目的，那什么可以呢. 文章作者为克莱夫·汤普森(@pomeranian99)，原标题为“How to Teach Artificial Intelligence Some Common Sense”.

CTR 预估模型简介--非深度学习篇

于07-15 21:53 - - 机器学习机器学习计算广告

本文主要介绍 CTR 预估中常用的一些模型，主要是非深度学习模型，包括 LR、GBDT+LR、FM/FFM、MLR. 每个模型会简单介绍其原理、论文出处以及其一些开源实现. LR + 海量人工特征是业界流传已久的做法，这个方法由于简单、可解释性强，因此在工业界得到广泛应用，但是这种做法依赖于特征工程的有效性，也就是需要对具体的业务场景有深刻的认识才能提取出好的特征.

CTR 预估模型简介--深度学习篇

于07-16 22:36 - - 机器学习机器学习计算广告

本文主要介绍 CTR 预估中一些深度学习模型，包括 FNN、Wide&Deep、PNN、DIN、 Deep&Cross等. 每个模型会简单介绍其原理、论文出处以及其一些开源实现. FNN 是伦敦大学于 2016 在一篇论文中发表的，模型的结构如下. FNN 假设输入数据的格式是离散的类别特征(表示为 one-hot 编码)，且每个特征属于一个 field，通过 embedding 层将高纬稀疏特征映射成低维稠密特征后，再作为多层感知机(MLP)的输入.

大规模机器学习框架的四重境界

于03-10 12:00 - - 机器学习分布式机器学习

文章为转载，原文链接见这里，作者是 carbon zhang. 这篇文章主要介绍了分布式机器学习中的若干重点概念和经典论文，包括数据并行和模型并行、分布式框架的流派、参数服务器以及同步协议的演进等，非常值得一看. 自从google发表著名的 GFS、MapReduce、BigTable 三篇paper以后，互联网正式迎来了大数据时代.

如何实现一个基本的微信文章分类器

于03-01 16:25 - fullstackyang - 朴素贝叶斯文本分类机器学习 java

本文源地址： http://www.fullstackyang.com/...，转发请注明该地址或segmentfault地址，谢谢. 微信公众号发布的文章和一般门户网站的新闻文本类型有所不同，通常不能用现有的文本分类器直接对这些文章进行分类，不过文本分类的原理是相通的，本文以微信公众号文章为对象，介绍朴素贝叶斯分类器的实现过程.

做 ML 有关的工作，需要哪些技能？

于01-30 23:08 - Agatha - IT技术机器学习

【导读】：有位网友在 Quora 上提问：做与机器学习有关的工作，需要些什么技能呢. 我是一个自学者，现在家中自学线性代数. 希望有天能在机器学习领域工作，但是我不太确定：. a) 这种工作/面试需要什么技术上的技能. b) 有没有什么（做这种工作）必须的相关工作经历. 比起空想，我至少开始行动了.

构建基于Spark的推荐引擎（Python）

于12-19 18:29 - NULL - 机器学习大数据 python spark

构建基于Spark的推荐引擎（Python）. 推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程. 在学习Spark机器学习这本书时，书上用scala完成，自己不熟悉遂用pyshark完成，更深入的理解了spark对协同过滤的实现. 在这里我们的推荐模型选用协同过滤这种类型，使用Spark的MLlib中推荐模型库中基于矩阵分解（matrix factorization）的实现.

Java使用google的thumbnailator工具对图片压缩水印等做处理

于11-07 16:37 - - Oracle学习总结

今天给大家分享一个非常好用的工具thumbnailator. Thumbnailator是一个非常好的图片开源工具. net.coobird thumbnailator 0.4.8 .

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

于09-17 22:42 - admin - 产品推荐系统搜索引擎数据挖掘机器学习

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题. 在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别. 正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计. 结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求.

用神经网络训练一个文本分类器

于08-10 21:05 - Anne90 - IT技术机器学习

理解聊天机器人的工作原理是非常重要的. 聊天机器人内部一个非常重要的组件就是文本分类器. 我们看一下文本分类器的神经网络（ANN）的内部工作原理. 我们将会使用2层网络（1个隐层）和一个“词包”的方法来组织我们的训练数据. 文本分类有3个特点：模式匹配、算法、神经网络. 虽然使用多项朴素贝叶斯算法的方法非常有效，但是它有3个致命的缺陷：.

人工智能复杂的商业需求，正促使博弈 AI 的崛起 | AI大师圆桌会

于07-29 10:20 - 吴宁川 - 钛媒体·国际AI大师圆桌会人工智能头条机器学习

卡耐基梅隆大学计算机系教授、德扑AI之父 Tuomas Sandholm. “人工智能时代，针对机器的算法是机器学习，针对人类的算法是博弈论. ”这是清华大学交叉信息研究院青年千人助理教授、博士生导师、计算经济学研究室主任唐平中，在2017年7月20日钛媒体与杉数科技联合举办的 “AI大师圆桌会之AI时代的博弈与行为分析”活动上提出的观点.

有关[学习]标签推荐