中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

昆明seo網(wǎng)站建設(shè)濟(jì)寧百度競價推廣

昆明seo網(wǎng)站建設(shè),濟(jì)寧百度競價推廣,整合營銷英文,環(huán)球外貿(mào)文章目錄 一、什么是爬蟲?二、爬蟲的分類三、網(wǎng)址的構(gòu)成四、爬蟲的基本步驟五、動態(tài)頁面和靜態(tài)頁面六、偽裝請求頭七、requests庫介紹1. 概念:2. 安裝方式(使用鏡像源):3. 基本使用:4. response對象對應(yīng)的方…

文章目錄

  • 一、什么是爬蟲?
  • 二、爬蟲的分類
  • 三、網(wǎng)址的構(gòu)成
  • 四、爬蟲的基本步驟
  • 五、動態(tài)頁面和靜態(tài)頁面
  • 六、偽裝請求頭
  • 七、requests庫介紹
    • 1. 概念:
    • 2. 安裝方式(使用鏡像源):
    • 3. 基本使用:
    • 4. response對象對應(yīng)的方法:

一、什么是爬蟲?

通俗講:爬蟲就是解放人的雙手,去互聯(lián)網(wǎng)獲取數(shù)據(jù),保存數(shù)據(jù)到本地或者數(shù)據(jù)庫,保存格式如常見的txt、excel、csv、pdf、zip、jpg、mp3、mp4等等。

本質(zhì):爬蟲本質(zhì)是模擬瀏覽器,向服務(wù)器發(fā)送網(wǎng)絡(luò)請求,接受服務(wù)器放回的數(shù)據(jù),保存數(shù)據(jù)。

二、爬蟲的分類

  1. 通用爬蟲:比如百度、Google、搜狗等搜索引擎。
  2. 聚焦爬蟲:根據(jù)指定的目標(biāo)網(wǎng)址,獲取精準(zhǔn)的價值數(shù)據(jù),并保存數(shù)據(jù)。

三、網(wǎng)址的構(gòu)成

爬蟲既然是模擬瀏覽器對網(wǎng)址發(fā)起請求,那先給大家介紹一下網(wǎng)址的構(gòu)成。

以該網(wǎng)址為例:https://www.baidu.com/s?ie=UTF-8&wd=python

  • 協(xié)議部分:https為協(xié)議部分,全稱為超文本傳輸安全協(xié)議,與之對應(yīng)的還有http協(xié)議。兩者區(qū)別是http是明文傳輸、https是密文傳輸,后者安全性更高。
  • 域名部分:域名又稱為主機(jī)名,通過域名就可以找到對應(yīng)的這臺服務(wù)器或者主機(jī)。域名本質(zhì)是IP地址,比如訪問www.baidu.com,其實訪問的是某個IP地址。只是IP地址是一串?dāng)?shù)字,不便記憶,所以通過特殊的方式將IP地址轉(zhuǎn)換為域名。
  • 路徑部分:我們訪問某個服務(wù)器的信息,比如百度的服務(wù)器,其實就是拿到服務(wù)器上面某個文件夾里面的數(shù)據(jù)。類似于我們電腦一樣,服務(wù)器上面也有眾多文件夾,每個文件夾里面還有下級目錄,一層嵌套一層,這就稱為路徑部分。路徑在網(wǎng)址中是以“/”分隔開的,以上述網(wǎng)址為例:路徑就是/s。如果有多級目錄,就是多個/分隔。
  • 參數(shù)部分:參數(shù)就是我們訪問網(wǎng)站的時候傳遞的關(guān)鍵字,比如我們要訪問百度服務(wù)器中圖片里面的風(fēng)景圖片,那請求的時候就要帶上參數(shù)。參數(shù)和路徑之間用“?”隔開,如果傳遞多個參數(shù),每個參數(shù)之間用“&”地址符連接。如上網(wǎng)址中,ie=UTF-8和wd=python就是傳遞的兩個參數(shù),中間用“&”連接。

四、爬蟲的基本步驟

  1. 準(zhǔn)備網(wǎng)址:https://www.baidu.com/s?ie=UTF-8&wd=python。
  2. 請求網(wǎng)址:獲取網(wǎng)站數(shù)據(jù)。
  3. 解析數(shù)據(jù):解析價值數(shù)據(jù)。
  4. 保存數(shù)據(jù):數(shù)據(jù)保存。

五、動態(tài)頁面和靜態(tài)頁面

做爬蟲項目時,首先要做的就是查看當(dāng)前網(wǎng)站是靜態(tài)頁面還是動態(tài)頁面,因為靜態(tài)頁面的數(shù)據(jù)是在當(dāng)前頁面的源碼里面,而動態(tài)頁面數(shù)據(jù)不在當(dāng)前源碼,一般是在另外的JS文件中存放。那如何區(qū)分網(wǎng)頁是動態(tài)還是靜態(tài)頁面呢?

  1. 打開瀏覽器。
  2. 訪問網(wǎng)址。
  3. 網(wǎng)頁空白處右鍵點(diǎn)擊,查看頁面源代碼。
  4. 在網(wǎng)頁源代碼中搜索網(wǎng)頁所展示的部分,如果源碼中都有,則為靜態(tài)頁面,否則是動態(tài)頁面。

六、偽裝請求頭

多數(shù)網(wǎng)站對于爬蟲技術(shù)是有限制的,并不希望爬蟲去訪問他的數(shù)據(jù),一則是爬蟲訪問速率太快,容易造成網(wǎng)站負(fù)載超荷;二是爬蟲并不是真實用戶,對于網(wǎng)站經(jīng)營數(shù)據(jù)的分析和決策會造成干擾;因而網(wǎng)站會出臺各種手段限制爬蟲,而如果要使用爬蟲技術(shù),則就要突破這些限制,也就是反爬。常用反爬措施有:

  1. 瀏覽器標(biāo)識:我們訪問任何網(wǎng)站,一般都是通過電腦或者手機(jī),使用瀏覽器來訪問,這樣對方服務(wù)器就可以看到我們的設(shè)備型號以及瀏覽器型號,比如通過Windows系統(tǒng)的電腦上的谷歌瀏覽器去訪問某服務(wù)器,對方就可以檢測到我們的設(shè)備操作系統(tǒng)類型及瀏覽器版本類型等參數(shù),確定了是真實瀏覽器發(fā)送的請求才會給到數(shù)據(jù)。而爬蟲直接訪問的話,對方會檢測到,所以我們要將自己偽裝成瀏覽器發(fā)起請求,也就是將用戶代理(user-agent)的值改為瀏覽器型號。
  2. 反爬字段:上面我們說過,爬蟲是模擬瀏覽器直接請求網(wǎng)址的,也就是給到他指定的網(wǎng)址,就可以對該網(wǎng)址發(fā)起請求。比如我們訪問淘寶之后搜索某商品,然后點(diǎn)開其中一個商品,需要抓取這個商品相關(guān)的信息。那就將該商品頁面網(wǎng)址復(fù)制下來,然后用爬蟲請求。但是這樣是拿不到數(shù)據(jù)的,很簡單,因為正常人去看到這個商品頁面,肯定是首先打開淘寶,搜索商品之后,繼而點(diǎn)擊該商品才可以看到。而爬蟲直接就訪問了該網(wǎng)址,很明顯是反常的。所以網(wǎng)站有專門的反爬字段來檢測,這個字段是referer,也就是來源的意思,訪問的網(wǎng)址頁面是來源于哪里,比如該商品頁面是來源于淘寶,那就一定要攜帶referer字段,值為淘寶網(wǎng)址。如果不攜帶該字段,則拿不到數(shù)據(jù)。
  3. cookies:cookies就是用戶登錄后,服務(wù)器返回給用戶的標(biāo)識信息,在一定時間內(nèi),用戶再次訪問該網(wǎng)站,不需要登錄就可以看到登錄后的數(shù)據(jù)。比如我們訪問淘寶,要查看購物車中商品信息,則需要輸入用戶名和密碼登錄,登錄后則可看到購物車數(shù)據(jù)。登錄之后,一段時間內(nèi)不要再次登錄,也可以隨時看到購物車信息,因為我們之后的每次訪問都是攜帶了第一次登錄后,服務(wù)器返回給我們的cookies身份標(biāo)識,故而不用每次都輸入用戶名密碼登錄。做爬蟲項目時,我們也會經(jīng)常遇到需要登錄的網(wǎng)站,登錄一次之后拿到cookies值,將該cookies保存下來,之后每次訪問時候攜帶上即可。

注意:任何爬蟲項目都不得對網(wǎng)站運(yùn)營造成影響,否則等同于服務(wù)器攻擊。所以在寫爬蟲項目時,一定要對爬蟲抓取頻率和抓取數(shù)量加以限制。

七、requests庫介紹

1. 概念:

requests是非常強(qiáng)大的爬蟲請求庫,可以解決日常90%的爬蟲需求

2. 安裝方式(使用鏡像源):

pip install requests -i https://mirrors.aliyun.com/pypi/simple/

3. 基本使用:

  1. 導(dǎo)包:import requests
  2. 使用:response = requests.get(url, 反爬請求頭)
    注意:請求拿到的response是一個對象,不是網(wǎng)站原始數(shù)據(jù),response對象有眾多屬性和方法。

代碼示例如下圖所示:

在這里插入圖片描述

4. response對象對應(yīng)的方法:

  1. 獲取網(wǎng)頁源代碼,有兩種方法:A、text????B、content.decode()
    代碼示例如下圖所示:

在這里插入圖片描述

  1. 獲取二進(jìn)制數(shù)據(jù)【音樂、視頻、圖片】:response.content
    代碼示例如下圖所示:

在這里插入圖片描述

  1. 獲取響應(yīng)狀態(tài)碼【基本不用】:response.status_code,狀態(tài)碼是200表示請求成功
    代碼示例如下圖所示:

在這里插入圖片描述

  1. 獲取json數(shù)據(jù)【常用】:response.json(),網(wǎng)站數(shù)據(jù)很多都是json數(shù)據(jù),拿到數(shù)據(jù)需要將json轉(zhuǎn)化為字典
  2. 獲取請求頭headers:response.request.headers,可以查看我們發(fā)送給網(wǎng)站的請求頭信息
    代碼示例如下圖所示:
    在這里插入圖片描述
  3. 獲取響應(yīng)頭headers:response.headers,可以看到網(wǎng)站返回的響應(yīng)頭信息
    代碼示例如下圖所示:
    在這里插入圖片描述
http://m.risenshineclean.com/news/64181.html

相關(guān)文章:

  • 公關(guān)公司屬于什么行業(yè)北京網(wǎng)站seo設(shè)計
  • 建網(wǎng)站用什么發(fā)票創(chuàng)建軟件平臺該怎么做
  • pc網(wǎng)站建設(shè)需要提供哪些資料愛客crm
  • wordpress建站過程線上推廣的渠道有哪些
  • 十堰網(wǎng)站設(shè)計公司成都網(wǎng)多多
  • 新余網(wǎng)站制作關(guān)鍵詞seo優(yōu)化排名公司
  • 代理網(wǎng)頁游戲要多少錢福州seo網(wǎng)站管理
  • 青海網(wǎng)站建設(shè)公司軟文通
  • 網(wǎng)站開發(fā)名詞解釋百度問答兼職怎么做
  • matlab做網(wǎng)站爬蟲廣東疫情最新數(shù)據(jù)
  • 網(wǎng)站在線客服管理系統(tǒng)哈爾濱網(wǎng)站優(yōu)化
  • 網(wǎng)站的測試和網(wǎng)站上線宣傳渠道和宣傳方式有哪些
  • 廣州凡科公司是外包嗎seo免費(fèi)外鏈工具
  • 網(wǎng)站開發(fā)制做seo搜索引擎優(yōu)化工作內(nèi)容
  • 關(guān)于做問卷星網(wǎng)站的畢業(yè)論文安裝百度到手機(jī)桌面
  • wordpress u-degin優(yōu)化軟件刷排名seo
  • uc投放廣告網(wǎng)站要自己做嗎如何做網(wǎng)頁制作
  • 如何查到別人的網(wǎng)站做哪些競價詞國外網(wǎng)站制作
  • 臥龍區(qū)微網(wǎng)站建設(shè)百度手機(jī)助手app下載并安裝
  • 自己做視頻網(wǎng)站有點(diǎn)卡公司網(wǎng)站首頁設(shè)計
  • 公司的網(wǎng)站怎么做廣州網(wǎng)絡(luò)推廣公司有哪些
  • 西數(shù) 網(wǎng)站建設(shè)seo網(wǎng)站推廣優(yōu)化就找微源優(yōu)化
  • html5響應(yīng)式網(wǎng)站建設(shè)今日新聞?wù)畻l
  • 的網(wǎng)站建立seo方式包括
  • 嘉興網(wǎng)站制作建設(shè)國內(nèi)專業(yè)的seo機(jī)構(gòu)
  • 陜西建設(shè)信息網(wǎng)官網(wǎng)seo案例視頻教程
  • 新加坡網(wǎng)站后綴google推廣一年的費(fèi)用
  • 網(wǎng)站建設(shè)選擇什么操作系統(tǒng)酒店推廣渠道有哪些
  • vs網(wǎng)站開發(fā)實例百度知道小程序
  • 網(wǎng)站建設(shè)的行業(yè)分析整合營銷公司排名