未命名文章
1.数字和字符串拼接
base_url = "https://zxcs.zip/rank/topdownload?page="+str(i)2.对爬虫内容优化:
判断是否存在该文件,如果存在,就清空并重新写入;如果不存在就重新建表。
if os.path.exists('scrapers_zhixuan.csv'):
os.remove('scrapers_zhixuan.csv')
print("已删除scrapers_zhixuan.csv文件")3.简介、作者、下载量、时间字段,不存在就设置为空,存在就写入;
4.数据有重复;
爬取数据,是一个个爬取,爬取完一页后再输出,存入文件。
5.请求数据失败,断掉;
6.运用重试机制函数;
给dataframe添加列名;
在Pandas中创建DataFrame时,表头(列名)的指定是非常关键的步骤。以下是创建DataFrame表头的几种主要方法及其应用场景:
1. 直接通过字典创建(最常用)
import pandas as pd
# 方法1:通过字典键自动成为列名
data = {
'姓名': ['张三', '李四'],
'年龄': [25, 30],
'城市': ['北京', '上海']
}
df = pd.DataFrame(data)输出结果:
姓名 年龄 城市
0 张三 25 北京
1 李四 30 上海2. 单独指定列名
(1) 创建空DataFrame时指定列名
# 方法2:创建空DataFrame时指定columns参数
columns = ['姓名', '年龄', '城市']
df = pd.DataFrame(columns=columns)
# 后续添加数据
df.loc[0] = ['张三', 25, '北京'](2) 从列表数据创建时指定列名
在Pandas中创建DataFrame时,表头(列名)的指定是非常关键的步骤。以下是创建DataFrame表头的几种主要方法及其应用场景:
# 方法3:从二维列表创建时指定列名
data = [
['张三', 25, '北京'],
['李四', 30, '上海']
]
df = pd.DataFrame(data, columns=['姓名', '年龄', '城市'])