Kaggle数据集爬取——如何批量下载竞赛数据

Kaggle 是全球知名的数据科学竞赛平台，提供了大量高质量的开放数据集。对于数据分析师、机器学习工程师和研究人员来说，批量下载这些数据集可以极大提高工作效率。然而，Kaggle 采用了 Cloudflare 防护机制，直接使用爬虫访问可能会触发反爬限制，导致IP被封或访问失败。

本文将介绍如何高效、稳定地批量下载Kaggle竞赛数据，并探讨如何绕过Cloudflare的限制，结合穿云API等工具，确保爬虫顺利运行。

1. Kaggle数据下载的常规方法

在讨论如何绕过Cloudflare之前，我们先了解Kaggle数据的常规下载方式：

1.1 使用Kaggle官方API

Kaggle 提供了官方的Python库 kaggle，可以通过命令行或脚本下载数据：

import kaggle

# 安装Kaggle API（需配置API Token）
!pip install kaggle
!kaggle competitions download -c "competition-name"

优点：官方支持，稳定可靠。
缺点：需要登录Kaggle并配置API Key，且部分竞赛数据可能受权限限制。

1.2 手动下载+自动化脚本

如果数据量较小，可以手动下载后使用Python脚本解压和整理：

import zipfile
import os

with zipfile.ZipFile("data.zip", "r") as zip_ref:
    zip_ref.extractall("dataset")

适用场景：少量数据，无需频繁爬取。

2. 绕过Cloudflare限制的爬虫方案

如果Kaggle限制了API调用，或者需要批量爬取竞赛页面数据（如排行榜、数据集描述等），可能会遇到 Cloudflare反爬 的问题。以下是几种有效的方法：

2.1 使用代理IP池（穿云API）

Cloudflare 会检测高频访问的IP并封禁，因此使用代理IP轮换是关键。穿云API 提供高质量的代理IP服务，支持自动切换IP，避免被封：

import requests
from fp.fp import FreeProxy

# 使用穿云API或免费代理（示例）
proxy = FreeProxy().get()
proxies = {"http": proxy, "https": proxy}

response = requests.get("https://www.kaggle.com/competitions", proxies=proxies)
print(response.text)

优势：

自动切换IP，绕过Cloudflare的IP检测
支持高并发，适合大规模爬取

2.2 模拟浏览器行为（Selenium + Puppeteer）

Cloudflare 可能检测Headless浏览器，因此需要调整Selenium的指纹：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(options=options)
driver.get("https://www.kaggle.com/competitions")

优化点：

随机User-Agent
添加合理的访问延迟
使用无头模式（Headless）减少资源占用

2.3 请求头优化（避免被识别为爬虫）

Cloudflare 会检查HTTP请求头，因此需要模拟浏览器请求：

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9",
}
response = requests.get(url, headers=headers)

关键点：

使用常见浏览器的User-Agent
添加Referer、Accept-Encoding等字段

3. 完整Kaggle数据爬取实战

3.1 爬取竞赛列表

import requests
from bs4 import BeautifulSoup

url = "https://www.kaggle.com/competitions"
response = requests.get(url, headers=headers, proxies=proxies)
soup = BeautifulSoup(response.text, "html.parser")

competitions = []
for comp in soup.select(".competition-item"):
    title = comp.find("h3").text
    link = "https://www.kaggle.com" + comp.find("a")["href"]
    competitions.append({"title": title, "url": link})

3.2 批量下载数据集

结合Kaggle API + 代理IP：

python

复制

import subprocess
import time

for comp in competitions:
    cmd = f"kaggle competitions download -c {comp['title']}"
    subprocess.run(cmd, shell=True)
    time.sleep(5)  # 避免请求过快

注意事项：