未命名文章

4

1.数字和字符串拼接

base_url = "https://zxcs.zip/rank/topdownload?page="+str(i)

2.对爬虫内容优化:

判断是否存在该文件,如果存在,就清空并重新写入;如果不存在就重新建表。

if os.path.exists('scrapers_zhixuan.csv'):
    os.remove('scrapers_zhixuan.csv')
    print("已删除scrapers_zhixuan.csv文件")

3.简介、作者、下载量、时间字段,不存在就设置为空,存在就写入;

4.数据有重复;

爬取数据,是一个个爬取,爬取完一页后再输出,存入文件。

5.请求数据失败,断掉;

6.运用重试机制函数;

给dataframe添加列名;

在Pandas中创建DataFrame时,表头(列名)的指定是非常关键的步骤。以下是创建DataFrame表头的几种主要方法及其应用场景:

1. 直接通过字典创建(最常用)

import pandas as pd

# 方法1:通过字典键自动成为列名
data = {
    '姓名': ['张三', '李四'],
    '年龄': [25, 30],
    '城市': ['北京', '上海']
}
df = pd.DataFrame(data)

​输出结果​​:

姓名  年龄  城市
0  张三  25  北京
1  李四  30  上海

2. 单独指定列名

(1) 创建空DataFrame时指定列名

# 方法2:创建空DataFrame时指定columns参数
columns = ['姓名', '年龄', '城市']
df = pd.DataFrame(columns=columns)

# 后续添加数据
df.loc[0] = ['张三', 25, '北京']

(2) 从列表数据创建时指定列名

在Pandas中创建DataFrame时,表头(列名)的指定是非常关键的步骤。以下是创建DataFrame表头的几种主要方法及其应用场景:

# 方法3:从二维列表创建时指定列名
data = [
    ['张三', 25, '北京'],
    ['李四', 30, '上海']
]
df = pd.DataFrame(data, columns=['姓名', '年龄', '城市'])