當(dāng)前位置：首頁 > news >正文

昆明seo網(wǎng)站建設(shè)濟(jì)寧百度競價推廣

news 2025/7/14 15:55:33

昆明seo網(wǎng)站建設(shè),濟(jì)寧百度競價推廣,整合營銷英文,環(huán)球外貿(mào)文章目錄一、什么是爬蟲？二、爬蟲的分類三、網(wǎng)址的構(gòu)成四、爬蟲的基本步驟五、動態(tài)頁面和靜態(tài)頁面六、偽裝請求頭七、requests庫介紹1. 概念：2. 安裝方式（使用鏡像源）：3. 基本使用：4. response對象對應(yīng)的方…

文章目錄

一、什么是爬蟲？
二、爬蟲的分類
三、網(wǎng)址的構(gòu)成
四、爬蟲的基本步驟
五、動態(tài)頁面和靜態(tài)頁面
六、偽裝請求頭
七、requests庫介紹
- 1. 概念：
- 2. 安裝方式（使用鏡像源）：
- 3. 基本使用：
- 4. response對象對應(yīng)的方法：

一、什么是爬蟲？

通俗講：爬蟲就是解放人的雙手，去互聯(lián)網(wǎng)獲取數(shù)據(jù)，保存數(shù)據(jù)到本地或者數(shù)據(jù)庫，保存格式如常見的txt、excel、csv、pdf、zip、jpg、mp3、mp4等等。

本質(zhì)：爬蟲本質(zhì)是模擬瀏覽器，向服務(wù)器發(fā)送網(wǎng)絡(luò)請求，接受服務(wù)器放回的數(shù)據(jù)，保存數(shù)據(jù)。

二、爬蟲的分類

通用爬蟲：比如百度、Google、搜狗等搜索引擎。
聚焦爬蟲：根據(jù)指定的目標(biāo)網(wǎng)址，獲取精準(zhǔn)的價值數(shù)據(jù)，并保存數(shù)據(jù)。

三、網(wǎng)址的構(gòu)成

爬蟲既然是模擬瀏覽器對網(wǎng)址發(fā)起請求，那先給大家介紹一下網(wǎng)址的構(gòu)成。

以該網(wǎng)址為例：https://www.baidu.com/s?ie=UTF-8&wd=python

協(xié)議部分：https為協(xié)議部分，全稱為超文本傳輸安全協(xié)議，與之對應(yīng)的還有http協(xié)議。兩者區(qū)別是http是明文傳輸、https是密文傳輸，后者安全性更高。
域名部分：域名又稱為主機(jī)名，通過域名就可以找到對應(yīng)的這臺服務(wù)器或者主機(jī)。域名本質(zhì)是IP地址，比如訪問www.baidu.com，其實訪問的是某個IP地址。只是IP地址是一串?dāng)?shù)字，不便記憶，所以通過特殊的方式將IP地址轉(zhuǎn)換為域名。
路徑部分：我們訪問某個服務(wù)器的信息，比如百度的服務(wù)器，其實就是拿到服務(wù)器上面某個文件夾里面的數(shù)據(jù)。類似于我們電腦一樣，服務(wù)器上面也有眾多文件夾，每個文件夾里面還有下級目錄，一層嵌套一層，這就稱為路徑部分。路徑在網(wǎng)址中是以“/”分隔開的，以上述網(wǎng)址為例：路徑就是/s。如果有多級目錄，就是多個/分隔。
參數(shù)部分：參數(shù)就是我們訪問網(wǎng)站的時候傳遞的關(guān)鍵字，比如我們要訪問百度服務(wù)器中圖片里面的風(fēng)景圖片，那請求的時候就要帶上參數(shù)。參數(shù)和路徑之間用“?”隔開，如果傳遞多個參數(shù)，每個參數(shù)之間用“&”地址符連接。如上網(wǎng)址中，ie=UTF-8和wd=python就是傳遞的兩個參數(shù)，中間用“&”連接。

四、爬蟲的基本步驟

準(zhǔn)備網(wǎng)址：https://www.baidu.com/s?ie=UTF-8&wd=python。
請求網(wǎng)址：獲取網(wǎng)站數(shù)據(jù)。
解析數(shù)據(jù)：解析價值數(shù)據(jù)。
保存數(shù)據(jù)：數(shù)據(jù)保存。

五、動態(tài)頁面和靜態(tài)頁面

做爬蟲項目時，首先要做的就是查看當(dāng)前網(wǎng)站是靜態(tài)頁面還是動態(tài)頁面，因為靜態(tài)頁面的數(shù)據(jù)是在當(dāng)前頁面的源碼里面，而動態(tài)頁面數(shù)據(jù)不在當(dāng)前源碼，一般是在另外的JS文件中存放。那如何區(qū)分網(wǎng)頁是動態(tài)還是靜態(tài)頁面呢？

打開瀏覽器。
訪問網(wǎng)址。
網(wǎng)頁空白處右鍵點(diǎn)擊，查看頁面源代碼。
在網(wǎng)頁源代碼中搜索網(wǎng)頁所展示的部分，如果源碼中都有，則為靜態(tài)頁面，否則是動態(tài)頁面。

六、偽裝請求頭

多數(shù)網(wǎng)站對于爬蟲技術(shù)是有限制的，并不希望爬蟲去訪問他的數(shù)據(jù)，一則是爬蟲訪問速率太快，容易造成網(wǎng)站負(fù)載超荷；二是爬蟲并不是真實用戶，對于網(wǎng)站經(jīng)營數(shù)據(jù)的分析和決策會造成干擾；因而網(wǎng)站會出臺各種手段限制爬蟲，而如果要使用爬蟲技術(shù)，則就要突破這些限制，也就是反爬。常用反爬措施有：

瀏覽器標(biāo)識：我們訪問任何網(wǎng)站，一般都是通過電腦或者手機(jī)，使用瀏覽器來訪問，這樣對方服務(wù)器就可以看到我們的設(shè)備型號以及瀏覽器型號，比如通過Windows系統(tǒng)的電腦上的谷歌瀏覽器去訪問某服務(wù)器，對方就可以檢測到我們的設(shè)備操作系統(tǒng)類型及瀏覽器版本類型等參數(shù)，確定了是真實瀏覽器發(fā)送的請求才會給到數(shù)據(jù)。而爬蟲直接訪問的話，對方會檢測到，所以我們要將自己偽裝成瀏覽器發(fā)起請求，也就是將用戶代理（user-agent）的值改為瀏覽器型號。
反爬字段：上面我們說過，爬蟲是模擬瀏覽器直接請求網(wǎng)址的，也就是給到他指定的網(wǎng)址，就可以對該網(wǎng)址發(fā)起請求。比如我們訪問淘寶之后搜索某商品，然后點(diǎn)開其中一個商品，需要抓取這個商品相關(guān)的信息。那就將該商品頁面網(wǎng)址復(fù)制下來，然后用爬蟲請求。但是這樣是拿不到數(shù)據(jù)的，很簡單，因為正常人去看到這個商品頁面，肯定是首先打開淘寶，搜索商品之后，繼而點(diǎn)擊該商品才可以看到。而爬蟲直接就訪問了該網(wǎng)址，很明顯是反常的。所以網(wǎng)站有專門的反爬字段來檢測，這個字段是referer，也就是來源的意思，訪問的網(wǎng)址頁面是來源于哪里，比如該商品頁面是來源于淘寶，那就一定要攜帶referer字段，值為淘寶網(wǎng)址。如果不攜帶該字段，則拿不到數(shù)據(jù)。
cookies：cookies就是用戶登錄后，服務(wù)器返回給用戶的標(biāo)識信息，在一定時間內(nèi)，用戶再次訪問該網(wǎng)站，不需要登錄就可以看到登錄后的數(shù)據(jù)。比如我們訪問淘寶，要查看購物車中商品信息，則需要輸入用戶名和密碼登錄，登錄后則可看到購物車數(shù)據(jù)。登錄之后，一段時間內(nèi)不要再次登錄，也可以隨時看到購物車信息，因為我們之后的每次訪問都是攜帶了第一次登錄后，服務(wù)器返回給我們的cookies身份標(biāo)識，故而不用每次都輸入用戶名密碼登錄。做爬蟲項目時，我們也會經(jīng)常遇到需要登錄的網(wǎng)站，登錄一次之后拿到cookies值，將該cookies保存下來，之后每次訪問時候攜帶上即可。

注意：任何爬蟲項目都不得對網(wǎng)站運(yùn)營造成影響，否則等同于服務(wù)器攻擊。所以在寫爬蟲項目時，一定要對爬蟲抓取頻率和抓取數(shù)量加以限制。

七、requests庫介紹

1. 概念：

requests是非常強(qiáng)大的爬蟲請求庫，可以解決日常90%的爬蟲需求

2. 安裝方式（使用鏡像源）：

pip install requests -i https://mirrors.aliyun.com/pypi/simple/

3. 基本使用：

導(dǎo)包：import requests
使用：response = requests.get(url, 反爬請求頭)
注意：請求拿到的response是一個對象，不是網(wǎng)站原始數(shù)據(jù)，response對象有眾多屬性和方法。

代碼示例如下圖所示：

在這里插入圖片描述

4. response對象對應(yīng)的方法：

獲取網(wǎng)頁源代碼，有兩種方法：A、text????B、content.decode()
代碼示例如下圖所示：

在這里插入圖片描述

獲取二進(jìn)制數(shù)據(jù)【音樂、視頻、圖片】：response.content
代碼示例如下圖所示：

在這里插入圖片描述

獲取響應(yīng)狀態(tài)碼【基本不用】：response.status_code，狀態(tài)碼是200表示請求成功
代碼示例如下圖所示：

在這里插入圖片描述

獲取json數(shù)據(jù)【常用】：response.json()，網(wǎng)站數(shù)據(jù)很多都是json數(shù)據(jù)，拿到數(shù)據(jù)需要將json轉(zhuǎn)化為字典
獲取請求頭headers：response.request.headers，可以查看我們發(fā)送給網(wǎng)站的請求頭信息
代碼示例如下圖所示：
獲取響應(yīng)頭headers：response.headers，可以看到網(wǎng)站返回的響應(yīng)頭信息
代碼示例如下圖所示：

查看全文

http://m.risenshineclean.com/news/64181.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

昆明seo網(wǎng)站建設(shè)濟(jì)寧百度競價推廣

文章目錄

一、什么是爬蟲？

二、爬蟲的分類

三、網(wǎng)址的構(gòu)成

四、爬蟲的基本步驟

五、動態(tài)頁面和靜態(tài)頁面

六、偽裝請求頭

七、requests庫介紹

1. 概念：

2. 安裝方式（使用鏡像源）：

3. 基本使用：

4. response對象對應(yīng)的方法：

相關(guān)文章：

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

文章目錄

一、什么是爬蟲？

二、爬蟲的分類

三、網(wǎng)址的構(gòu)成

四、爬蟲的基本步驟

五、動態(tài)頁面和靜態(tài)頁面

六、偽裝請求頭

七、requests庫介紹

1. 概念：

2. 安裝方式（使用鏡像源）：

3. 基本使用：

4. response對象對應(yīng)的方法：

相關(guān)文章：

一、什么是爬蟲？

二、爬蟲的分類

三、網(wǎng)址的構(gòu)成

四、爬蟲的基本步驟

五、動態(tài)頁面和靜態(tài)頁面

六、偽裝請求頭