中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

福州市建設(shè)廳網(wǎng)站谷歌搜索指數(shù)查詢

福州市建設(shè)廳網(wǎng)站,谷歌搜索指數(shù)查詢,網(wǎng)絡(luò)輿情報告,建設(shè)企業(yè)網(wǎng)站官網(wǎng)企業(yè)內(nèi)容目錄創(chuàng)建SparkSession對象從CSV文件中讀取從JSON文件中讀取從Parquet文件中讀取從數(shù)據(jù)列表中創(chuàng)建DataFrame從字典列表中創(chuàng)建DataFrame選擇一列選擇多列過濾年齡大于30的數(shù)據(jù)過濾名字為Alice的數(shù)據(jù)可以使用and、or、not等操作符進行組合查詢按照年齡分組并計算平均年齡和最大…

內(nèi)容目錄

  • 創(chuàng)建SparkSession對象
  • 從CSV文件中讀取
  • 從JSON文件中讀取
  • 從Parquet文件中讀取
  • 從數(shù)據(jù)列表中創(chuàng)建DataFrame
  • 從字典列表中創(chuàng)建DataFrame
  • 選擇一列
  • 選擇多列
  • 過濾年齡大于30的數(shù)據(jù)
  • 過濾名字為Alice的數(shù)據(jù)
  • 可以使用and、or、not等操作符進行組合查詢
  • 按照年齡分組并計算平均年齡和最大年齡
  • 將age列從整型改為浮點型

Spark的DataFrame是一種類似于表格的數(shù)據(jù)結(jié)構(gòu),可以進行各種數(shù)據(jù)處理操作。使用DataFrame可以很方便地處理結(jié)構(gòu)化數(shù)據(jù)(如CSV、JSON、Parquet等格式的數(shù)據(jù))。

DataFrame是Spark SQL中的概念,因此需要首先引入Spark SQL庫:

from pyspark.sql import SparkSession

創(chuàng)建SparkSession對象

spark = SparkSession.builder.appName(“example”).getOrCreate()
創(chuàng)建DataFrame
從文件中讀取
可以使用SparkSession的read方法從不同類型的文件中讀取數(shù)據(jù),例如:

從CSV文件中讀取

df = spark.read.csv(“file.csv”, header=True, inferSchema=True)

從JSON文件中讀取

df = spark.read.json(“file.json”)

從Parquet文件中讀取

df = spark.read.parquet(“file.parquet”)
直接創(chuàng)建
也可以使用SparkSession的createDataFrame方法直接創(chuàng)建DataFrame,例如:

從數(shù)據(jù)列表中創(chuàng)建DataFrame

data = [(“Alice”, 25), (“Bob”, 30), (“Charlie”, 35)]
df = spark.createDataFrame(data, [“name”, “age”])

從字典列表中創(chuàng)建DataFrame

data = [{“name”: “Alice”, “age”: 25}, {“name”: “Bob”, “age”: 30}, {“name”: “Charlie”, “age”: 35}]
df = spark.createDataFrame(data)
DataFrame的基本操作
顯示DataFrame
使用show方法可以將DataFrame中的數(shù)據(jù)顯示出來,例如:

df.show()
查看DataFrame的結(jié)構(gòu)
使用printSchema方法可以查看DataFrame的結(jié)構(gòu),例如:

df.printSchema()
選擇列
使用select方法可以選擇一列或多列,例如:

選擇一列

df.select(“name”).show()

選擇多列

df.select(“name”, “age”).show()
過濾數(shù)據(jù)
使用filter方法可以根據(jù)條件過濾數(shù)據(jù),例如:

過濾年齡大于30的數(shù)據(jù)

df.filter(df[“age”] > 30).show()

過濾名字為Alice的數(shù)據(jù)

df.filter(df[“name”] == “Alice”).show()

可以使用and、or、not等操作符進行組合查詢

df.filter((df[“age”] > 30) & (df[“name”] != “Alice”)).show()
分組聚合
使用groupBy方法可以對數(shù)據(jù)進行分組聚合操作,例如:

按照年齡分組并計算平均年齡和最大年齡

df.groupBy(“age”).agg({“age”: “avg”, “age”: “max”}).show()
DataFrame的類型轉(zhuǎn)換
更改列名
使用withColumnRenamed方法可以更改列名,例如:

df = df.withColumnRenamed(“name”, “person_name”)
df.show()
更改列類型
使用withColumn方法可以更改列的數(shù)據(jù)類型,例如:

from pyspark.sql.functions import col

將age列從整型改為浮點型

df = df.withColumn(“age”, col(“age”).cast(“float”))
df.printSchema()
DataFrame的持久化
DataFrame的持久化可以將數(shù)據(jù)緩存在內(nèi)存或磁盤中,避免重復(fù)讀取數(shù)據(jù),提高性能。

使用cache方法可以將DataFrame緩存在內(nèi)存中,例如:

df.cache()
使用persist方法可以將DataFrame緩存在磁盤中,例如:

df.persist()

http://m.risenshineclean.com/news/65847.html

相關(guān)文章:

  • 怎么做免費網(wǎng)站如何讓百度收錄資源最全的網(wǎng)盤搜索引擎
  • 國內(nèi)網(wǎng)站建設(shè)費用聯(lián)盟谷粉搜索谷歌搜索
  • 網(wǎng)站的表單關(guān)鍵字優(yōu)化用什么系統(tǒng)
  • 宣城市網(wǎng)站建設(shè)平臺推廣營銷
  • 網(wǎng)站開發(fā)工程師應(yīng)聘書范文1000有沒有永久免費crm
  • wordpress文章批量編輯器官網(wǎng)seo是什么意思
  • 門網(wǎng)站制作百度一下首頁登錄入口
  • 單位做網(wǎng)站需要準備什么女教師遭網(wǎng)課入侵直播錄屏曝光i
  • 能看的網(wǎng)站給我一個唄免費推客推廣平臺
  • python做流量網(wǎng)站分析網(wǎng)站
  • c語言做項目網(wǎng)站百度關(guān)鍵詞挖掘查詢工具
  • 小女孩做網(wǎng)站勞動局免費培訓(xùn)電工
  • 網(wǎng)站建設(shè)需要注意哪些問題商務(wù)軟文寫作
  • 網(wǎng)站怎么做有創(chuàng)意搜索引擎營銷策略有哪些
  • 鎮(zhèn)江唐唐網(wǎng)絡(luò)科技有限公司老鬼seo
  • 網(wǎng)站用圖怎么做文件小質(zhì)量高推廣自己產(chǎn)品的文案
  • 柳市最好的網(wǎng)站建設(shè)公司拉新推廣怎么做代理
  • 某市政府信息網(wǎng)站建設(shè)方案廈門人才網(wǎng)最新招聘信息網(wǎng)
  • 攀枝花移動網(wǎng)站建設(shè)百度做網(wǎng)站需要多少錢
  • 自己建網(wǎng)站花錢嗎網(wǎng)絡(luò)軟文廣告
  • 網(wǎng)站建設(shè)督查報告谷歌seo網(wǎng)站排名優(yōu)化
  • 電子商務(wù)網(wǎng)站開發(fā)代碼下載百度app
  • 網(wǎng)站前臺建設(shè)優(yōu)化大師電腦版官方
  • 南京百度網(wǎng)站推廣seo的英文全稱是什么
  • 公司網(wǎng)站建設(shè)北京安慶seo
  • wordpress站點轉(zhuǎn)移西安seo網(wǎng)站建設(shè)
  • 網(wǎng)站設(shè)計的靈感來源百度一下 你就知道官網(wǎng) 新聞
  • 微網(wǎng)站建設(shè)報價方案模板個人網(wǎng)頁制作成品
  • 網(wǎng)站建設(shè)用什么視頻播放器網(wǎng)絡(luò)推廣人員
  • 如何做jquery音樂網(wǎng)站自媒體營銷方式有哪些