Python實(shí)戰(zhàn)：爬取淘寶商品詳情信息

管理

編輯

刪除

用戶19970108018 2023-08-13 15:24:01

暫不處理

編輯：2023-08-13 15:10

本文將為您講述如何使用Python爬蟲(chóng)技術(shù)爬取淘寶商品信息，從頁(yè)面分析到代碼實(shí)現(xiàn)，一步步帶您了解。

一、頁(yè)面分析
在爬取數(shù)據(jù)之前，我們需要先分析淘寶商品的頁(yè)面結(jié)構(gòu)，確定需要爬取的信息。打開(kāi)淘寶商品頁(yè)面，可以看到頁(yè)面上包含了商品標(biāo)題、價(jià)格、銷量、評(píng)論數(shù)等信息。

在Chrome瀏覽器中按下F12鍵，打開(kāi)開(kāi)發(fā)者工具，切換到Network選項(xiàng)卡，刷新頁(yè)面，可以看到大量的資源請(qǐng)求。找到名為“標(biāo)準(zhǔn)版淘寶”的請(qǐng)求，點(diǎn)擊該請(qǐng)求，在右側(cè)的Response欄中找到html部分，即為我們需要分析的頁(yè)面結(jié)構(gòu)。

通過(guò)分析，我們可以發(fā)現(xiàn)商品信息被包含在<div class="items" >標(biāo)簽中，每個(gè)商品又被包含在<div class="item J_MouserOnverReq " >標(biāo)簽中。在每個(gè)商品標(biāo)簽中，都包含了我們需要爬取的商品標(biāo)題、價(jià)格、銷量、評(píng)論數(shù)等信息。

二、數(shù)據(jù)爬取
在分析頁(yè)面結(jié)構(gòu)之后，我們就可以開(kāi)始編寫(xiě)Python代碼爬取數(shù)據(jù)了。Python提供了很多第三方庫(kù)用于爬蟲(chóng)，這里我們使用requests、BeautifulSoup、re等庫(kù)。

2.1請(qǐng)求方式：HTTP POST GET

2.2.演示地址：http://c0b.cc/R4rbK2 （復(fù)制Taobaoapi2014獲取API SDK文件）

import requests
from bs4 import BeautifulSoup
import re

url = 'https://s.taobao.com/search?q=%E5%8D%AB%E8%A1%A3&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20210331&ie=utf8'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
}

# 發(fā)送請(qǐng)求，獲取響應(yīng)
res = requests.get(url, headers=headers)
# 使用BeautifulSoup解析html頁(yè)面
soup = BeautifulSoup(res.text, 'html.parser')
# 查找所有商品標(biāo)簽
items = soup.find_all('div', class_='item J_MouserOnverReq ')

# 爬取每個(gè)商品的標(biāo)題、價(jià)格、銷量和評(píng)論數(shù)
for item in items:
# 查找商品標(biāo)題標(biāo)簽
title = item.find('a', class_='J_ClickStat')
# 使用正則表達(dá)式處理標(biāo)題內(nèi)容
title = re.sub(r'<.*?>', '', str(title))
# 查找商品價(jià)格標(biāo)簽
price = item.find('div', class_='price g_price g_price-highlight')
# 使用正則表達(dá)式處理價(jià)格內(nèi)容
price = re.sub(r'<.*?>', '', str(price))
# 查找商品銷量標(biāo)簽
sales = item.find('div', class_='deal-cnt')
# 使用正則表達(dá)式處理銷量?jī)?nèi)容
sales = re.sub(r'<.*?>', '', str(sales))
# 查找商品評(píng)論數(shù)標(biāo)簽
comment = item.find('div', class_='comment')
# 使用正則表達(dá)式處理評(píng)論數(shù)內(nèi)容
comment = re.sub(r'<.*?>', '', str(comment))

# 打印商品信息
print('【商品標(biāo)題】', title)
print('【商品價(jià)格】', price)
print('【商品銷量】', sales)
print('【商品評(píng)論數(shù)】', comment)
三、代碼說(shuō)明
我們首先使用requests庫(kù)向淘寶發(fā)送請(qǐng)求，獲取頁(yè)面響應(yīng)。使用BeautifulSoup庫(kù)解析html頁(yè)面，查找所有商品標(biāo)簽。對(duì)于每個(gè)商品標(biāo)簽，我們?cè)俜謩e查找商品的標(biāo)題、價(jià)格、銷量和評(píng)論數(shù)標(biāo)簽，并使用正則表達(dá)式處理標(biāo)簽內(nèi)容，去除html標(biāo)簽和其他無(wú)用信息。最后打印商品信息。

四、記錄結(jié)果
如果需要將爬取到的商品信息記錄到文件中，只需要在代碼中加入文件操作即可。具體代碼如下：

# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 請(qǐng)求示例 url 默認(rèn)請(qǐng)求參數(shù)已經(jīng)做URL編碼
url = "https://api.xxxx.cn/taobao/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=商品ID&is_promotion=1"
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
if __name__ == "__main__":
r = requests.get(url, headers=headers)
json_obj = r.json()
print(json_obj)
五、總結(jié)
本文通過(guò)對(duì)淘寶商品頁(yè)面的分析，教大家如何使用Python爬蟲(chóng)技術(shù)爬取淘寶商品信息。采用requests、BeautifulSoup和re等庫(kù)對(duì)頁(yè)面進(jìn)行解析，爬取商品標(biāo)題、價(jià)格、銷量和評(píng)論數(shù)等信息，并可以將爬取結(jié)果記錄到文件中。綜上所述，淘寶API接口是基于淘寶開(kāi)放平臺(tái)的，沒(méi)有淘寶開(kāi)放平臺(tái)就沒(méi)有淘寶API接口。淘寶API接口又是更加便利的，是電商公司管理獲取數(shù)據(jù)的小幫手（WeChat Taobaoapi2014）。同時(shí)，還可以通過(guò)淘寶API接口發(fā)展出跨境電商業(yè)務(wù)。淘寶API接口入點(diǎn)（按圖搜索，商品詳情，關(guān)鍵詞搜索，商品評(píng)論，訂單類接口），希望本文能夠?qū)δ兴鶐椭?，謝謝！