全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

java 读写Parquet格式的数据的示例代码

本文介绍了java 读写Parquet格式的数据,分享给大家,具体如下:

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Logger;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.GroupFactory;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetReader.Builder;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.example.GroupWriteSupport;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;

public class ReadParquet {
  static Logger logger=Logger.getLogger(ReadParquet.class);
  public static void main(String[] args) throws Exception {
    
//    parquetWriter("test\\parquet-out2","input.txt");
    parquetReaderV2("test\\parquet-out2");
  }
  
  
  static void parquetReaderV2(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    Builder<Group> reader= ParquetReader.builder(readSupport, new Path(inPath));
    ParquetReader<Group> build=reader.build();
    Group line=null;
    while((line=build.read())!=null){
      Group time= line.getGroup("time", 0);
        //通过下标和字段名称都可以获取
        /*System.out.println(line.getString(0, 0)+"\t"+
        line.getString(1, 0)+"\t"+
        time.getInteger(0, 0)+"\t"+
        time.getString(1, 0)+"\t");*/
        System.out.println(line.getString("city", 0)+"\t"+
        line.getString("ip", 0)+"\t"+
        time.getInteger("ttl", 0)+"\t"+
        time.getString("ttl2", 0)+"\t");
        //System.out.println(line.toString());
    }
    System.out.println("读取结束");
  } 
  //新版本中new ParquetReader()所有构造方法好像都弃用了,用上面的builder去构造对象
  static void parquetReader(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
    Group line=null;
    while((line=reader.read())!=null){
     System.out.println(line.toString());
    }
    System.out.println("读取结束");
    
  }
  /**
   * 
   * @param outPath  输出Parquet格式
   * @param inPath 输入普通文本文件
   * @throws IOException
   */
  static void parquetWriter(String outPath,String inPath) throws IOException{
    MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        " repeated group time {\n"+
          " required int32 ttl;\n"+
           " required binary ttl2;\n"+
        "}\n"+
       "}");
    GroupFactory factory = new SimpleGroupFactory(schema);
    Path path = new Path(outPath);
    Configuration configuration = new Configuration();
    GroupWriteSupport writeSupport = new GroupWriteSupport();
    writeSupport.setSchema(schema,configuration);
    ParquetWriter<Group> writer = new ParquetWriter<Group>(path,configuration,writeSupport);
    //把本地文件读取进去,用来生成parquet格式文件
    BufferedReader br =new BufferedReader(new FileReader(new File(inPath)));
    String line="";
    Random r=new Random();
    while((line=br.readLine())!=null){
      String[] strs=line.split("\\s+");
      if(strs.length==2) {
        Group group = factory.newGroup()
            .append("city",strs[0])
            .append("ip",strs[1]);
        Group tmpG =group.addGroup("time");
        tmpG.append("ttl", r.nextInt(9)+1);
        tmpG.append("ttl2", r.nextInt(9)+"_a");
        writer.write(group);
      }
    }
    System.out.println("write end");
    writer.close();
  }
}

说下schema(写Parquet格式数据需要schema,读取的话"自动识别"了schema)

/*
 * 每一个字段有三个属性:重复数、数据类型和字段名,重复数可以是以下三种:
 *     required(出现1次)
 *     repeated(出现0次或多次) 
 *     optional(出现0次或1次)
 * 每一个字段的数据类型可以分成两种:
 *     group(复杂类型)
 *     primitive(基本类型)
 * 数据类型有
 * INT64, INT32, BOOLEAN, BINARY, FLOAT, DOUBLE, INT96, FIXED_LEN_BYTE_ARRAY
 */

这个repeated和required 不光是次数上的区别,序列化后生成的数据类型也不同,比如repeqted修饰 ttl2 打印出来为 WrappedArray([7,7_a]) 而 required修饰 ttl2 打印出来为 [7,7_a]  除了用MessageTypeParser.parseMessageType类生成MessageType 还可以用下面方法

(注意这里有个坑--spark里会有这个问题--ttl2这里 as(OriginalType.UTF8) 和 required binary city (UTF8)作用一样,加上UTF8,在读取的时候可以转为StringType,不加的话会报错 [B cannot be cast to java.lang.String  )

/*MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        "repeated group time {\n"+
        "required int32 ttl;\n"+
        "required binary ttl2;\n"+
        "}\n"+
        "}");*/
    
//import org.apache.parquet.schema.Types;
MessageType schema = Types.buildMessage() 
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("city") 
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ip") 
      .repeatedGroup().required(PrimitiveTypeName.INT32).named("ttl")
              .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ttl2")
              .named("time")
     .named("Pair"); 

解决 [B cannot be cast to java.lang.String 异常:

1.要么生成parquet文件的时候加个UTF8
2.要么读取的时候再提供一个同样的schema类指定该字段类型,比如下面:

maven依赖(我用的1.7)

<dependency>
  <groupId>org.apache.parquet</groupId>
  <artifactId>parquet-hadoop</artifactId>
  <version>1.7.0</version>
</dependency>

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


# java读写parquet文件  # java  # parquet  # 读写  # java写parquet文件  # java 序列化对象 serializable 读写数据的实例  # Java基于字符流形式读写数据的两种实现方法示例  # Java操作IO对象流进行数据的读写  # Java如何利用Socket进行数据读写  # 详解Java编写算法时如何加快读写数据速度  # 打印出来  # 会有  # 有个  # 两种  # 可以用  # 这个问题  # 我用  # 用了  # 自动识别  # 给大家  # 三种  # 报错  # 不加  # 新版本  # 大家多多  # 文本文件  # 再提  # 字段名  # 序列化  # logger 


相关文章: 整人网站在线制作软件,整蛊网站退不出去必须要打我是白痴才能出去?  如何在云指建站中生成FTP站点?  如何生成腾讯云建站专用兑换码?  佛山企业网站制作公司有哪些,沟通100网上服务官网?  手机网站制作与建设方案,手机网站如何建设?  怀化网站制作公司,怀化新生儿上户网上办理流程?  制作企业网站建设方案,怎样建设一个公司网站?  宝塔建站无法访问?如何排查配置与端口问题?  宠物网站制作html代码,有没有专门介绍宠物如何养的网站啊?  高防服务器如何保障网站安全无虞?  建站之星后台管理:高效配置与模板优化提升用户体验  如何通过网站建站时间优化SEO与用户体验?  装修招标网站设计制作流程,装修招标流程?  如何在万网ECS上快速搭建专属网站?  广州建站公司哪家好?十大优质服务商推荐  如何高效完成独享虚拟主机建站?  云南网站制作公司有哪些,云南最好的招聘网站是哪个?  详解jQuery中基本的动画方法  广州营销型建站服务商推荐:技术优势与SEO优化解析  如何在建站主机中优化服务器配置?  建站之星如何开启自定义404页面避免用户流失?  ,想在网上投简历,哪几个网站比较好?  建站之星手机一键生成:多端自适应+小程序开发快速建站指南  微网站制作教程,我微信里的网站怎么才能复制到浏览器里?  如何在Golang中实现微服务服务拆分_Golang微服务拆分与接口管理方法  学校免费自助建站系统:智能生成+拖拽设计+多端适配  高防网站服务器:DDoS防御与BGP线路的AI智能防护方案  如何确保FTP站点访问权限与数据传输安全?  枣阳网站制作,阳新火车站打的到仙岛湖多少钱?    建站之星伪静态规则如何正确配置?  制作网站的模板软件,网站怎么建设?  常州自助建站:操作简便模板丰富,企业个人快速搭建网站  新网站制作渠道有哪些,跪求一个无线渠道比较强的小说网站,我要发表小说?  定制建站策划方案_专业建站与网站建设方案一站式指南  如何在万网自助建站平台快速创建网站?  如何正确选择百度移动适配建站域名?  如何选择靠谱的建站公司加盟品牌?  如何高效利用200m空间完成建站?  ,怎么用自己头像做动态表情包?  Dapper的Execute方法的返回值是什么意思 Dapper Execute返回值详解  如何解决VPS建站LNMP环境配置常见问题?  学校建站服务器如何选型才能满足性能需求?  道歉网站制作流程,世纪佳缘致歉小吴事件,相亲网站身份信息伪造该如何稽查?  如何快速生成专业多端适配建站电话?  建站之星如何防范黑客攻击与数据泄露?  建站之星在线版空间:自助建站+智能模板一键生成方案  定制建站价位费用解析与套餐推荐全攻略  如何在Golang中使用encoding/gob序列化对象_存储和传输数据  建站主机空间推荐 高性价比配置与快速部署方案解析 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。