文章存档
人工智能&大数据
2015-11-12 21:26:10
在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。使用下面命令进行开启:
$HIVE_HOME/bin/hiveserver2
OR
hive -service hiveserver2 &
#注意,1.0版本以后,用的是hiveserver2
hive server 1的driver classname是org.apache.h
2015-10-28 20:24:12
今天我们再谈谈Hive中的三种不同的数据导出方式。
根据导出的地方不一样,将这些方式分为三种:
(1)、导出到本地文件系统;
(2)、导出到HDFS中;
(3)、导出到Hive的另一个表中。
为了避免单纯的文字,我将一步一步地用命令进行说明。
一、导出到本地文件系统
hive> insert overwrite local directory /home/wyp/wyp
>
2015-10-28 20:17:44
几种常见数据导入Hive表
这里介绍四种:
(1)、从本地文件系统中导入Hive表;
(2)、从HDFS上导入到Hive表;
(3)、从别的表中查询出相应的数据并导入到Hive表中;
(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。
LOAD DATA官方语法为:
LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] I
2015-10-28 14:45:30
1.什么是Sqoop
Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,是hadoop与关系型数据库的桥梁,它支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入。
Sqoop充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop
2015-10-27 11:01:22
这里用到的nginx日志是网站的访问日志,比如:
180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "http://www.iteblog.com/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) App
2015-10-10 11:05:52
1. Kafka集群partition replication默认自动分配分析
下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示:
(1)
(2)当集群中新增2节点,Partition增加到6个时分布情况如下:
副本分配逻辑规则如下:
在Kafka集群中,
2015-10-10 10:29:05
1. Broker主要配置
每个kafka broker中配置文件server.properties默认必须配置的属性如下:
broker.id=0
num.network.threads=2
num.io.threads=8
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
socket.request.max.bytes=
2015-10-10 09:23:13
Kafka文件存储机制
基础知识就不说了,详见 Kafka基本知识及安装配置
Kafka部分名词解释如下:
Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。
Topic:一类消息,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。
2015-09-29 16:32:02
Apache Kafka可以帮助你解决在发布/订阅架构中遇到消费数百万消息的问题。
Kafka是一个实时消息传输的解决方案,可处理大量实时信息,并把这些信息快速路由到各种消费者。Kafka提供了信息生产者和消费者之间的无缝集成,无需对生产者的信息进行阻塞,也无需告诉生产者那些消费者的位置。
Apache Kafka是一个开源、分布式的消息发布/订阅系统,其主要设计特性如下:
1)消息持久化
要从大数据中获
2015-03-20 14:37:33
1、创建HDFS目录
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class MakeDir {
public static
2015-03-17 15:39:37
一、前言
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Hive是由Facebook贡献给Apa
2015-03-17 11:14:53
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。
这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。
组件
Daemon
端口