文章存档
人工智能&大数据
2018-12-24 22:45:33
什么是OCR?
OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。比如汉王OCR,百度OCR,阿里OCR等等,很多企业都有能力都是拿OCR技术开始挣钱了。其实我们自己也能感
2018-12-22 13:52:56
人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)
图一展示了人工智能研究的各个分支,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然
机器学习:一种实现人工智能的方法
机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和
2018-12-22 13:50:00
机器学习算法的广义分类大概有三种:监督式学习、无监督学习、强化学习。
监督学习由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。
无监督式学习没有任何目标变量或结果变量要预测或估计
2018-09-18 10:28:04
什么是全文检索?
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
* 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
* 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。
当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。
按照数据的分
2018-07-12 22:32:45
最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:
而对于刚接触这个领域的我来说,是这样的:
在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。
◆ ◆ ◆
什么是推荐系统
1. 什么是推荐系统?
2018-07-12 22:25:50
对于推荐系统,本文总结内容,如下图所示:
推荐系统.png
文章很长,你可以跳着看你感兴趣的部分。
一、什么是推荐系统
1. 为什么需要推荐系统
结论是,为了解决互联网时代下的信息超载问题。
看个数据:
据IDC
2016-03-15 16:37:58
Flume是Cloudera提供的一个分布式、可靠、高可用的海量日志采集、聚合和传输的日志收集系统。Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源收集数据。
Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平
2016-02-22 14:47:04
1 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。
上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。
1.2 机器学习的分类
机器学习分为监督学习(Supervised learning)、无监督学习(Unsupervise
2016-02-22 11:30:42
基于Spark的电影推荐系统 详见 http://www.php3.cn/a/180.html
1、简介
Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括协同过滤、聚类、分类等等。
Taste 是 Apache Mahout 提供的
2016-02-19 11:02:18
一、Mahout简介
查了Mahout的中文意思——驭象的人,再看看Mahout的logo,(就是他,骑在象头上的那个Mahout)
Apache Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类(Classificatio
2016-02-19 10:38:55
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,后续将给出基于 Apache Mahout 的协同过滤算法的高效实现。
推荐中的协同过滤算法简单说明下:
首先,通过分
2016-02-18 18:09:19
1、推荐算法的条件
推荐算法从92年开始,发展到现在也有20年了,当然,也出了各种各样的推荐算法,但是不管怎么样,都绕不开几个条件,这是推荐的基本条件
根据和你共同喜好的人来给你推荐
根据你喜欢的物品找出和它相似的来给你推荐
根据你给出的关键字来给你推荐,这实际上就退化成搜索算法了
根据上面的几种条件组合起来给你推荐
实际上,现有的条件就这些啦,至于怎么发挥这些条件