吉林省住房建設(shè)廳網(wǎng)站seo診斷工具有哪些
在上一篇文章:《在Hive/Spark上運(yùn)行執(zhí)行TPC-DS基準(zhǔn)測(cè)試 (ORC和TEXT格式)》中,我們介紹了如何使用 hive-testbench 在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測(cè)試,同時(shí)也指出了該項(xiàng)目不支持parquet格式。
如果我們想要生成parquet格式的測(cè)試數(shù)據(jù),就需要使用其他工具了。本文選擇使用另外一個(gè)開(kāi)源項(xiàng)目:https://github.com/kcheeeung/hive-benchmark,它和 hive-testbench 項(xiàng)目非常接近,操作方法也很類似,如果你熟悉 hive-testbench, 應(yīng)該會(huì)必要容易掌握這個(gè)工具。
備注:本文使用的Hive/Spark環(huán)境為AWS EMR,版本:6.11,未啟用Glue Data Catalog。本文操作須在EMR Master節(jié)點(diǎn)上執(zhí)行!因?yàn)槟_本中會(huì)使用到hdfs、beeline等命令行工具,此外,經(jīng)測(cè)試發(fā)現(xiàn):如果EMR集群使用的是Glue Data Catalog,腳本執(zhí)行過(guò)程中將會(huì)報(bào)錯(cuò):