云栈社区»论坛 › 技术文档「 Note & Doc 」 › Python爬虫实战：从豆果美食获取3032个菜谱进行数据分析与可视化 ...

5849 积分	1 好友	757 主题

发消息

Python爬虫实战：从豆果美食获取3032个菜谱进行数据分析与可视化

发表于 2026-4-11 07:18:06 | 查看: 169| 回复: 0

一份卡通风格的营养早餐插画

这次，我们将目光投向美食领域，尝试用技术手段“寻味中国”。我们选择“豆果美食”作为数据源，通过编写 Python 爬虫，获取了川菜、粤菜、湘菜等八个中国菜系共计3032个最新发布的菜谱信息，并进行了数据清洗与可视化分析。

豆果美食网站菜谱列表页面截图

数据获取

本次爬取的数据范围涵盖了八个中国菜系，包含菜谱名、链接、用料、评分、图片等关键字段。爬虫的核心思路是遍历不同菜系的列表页，解析并提取详情信息。

核心代码如下所示：

# 主函数
def main(x):
    url = 'https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)
    print(url)
    html = get_page(url)
    parse_page(html,caipu)

if __name__ == '__main__':
    caipu_list = ['川菜', '湘菜','粤菜','东北菜','鲁菜','浙菜','湖北菜','清真菜'] #中国菜系
    start = time.time()  # 计时
    for caipu in caipu_list:
        for i in range(22):
            # 爬取多页
            main(x=i)
            time.sleep(random.uniform(1, 2))
            print(caipu,"第" + str(i+1) + "页提取完成")
    end = time.time()
    print('共用时',round((end - start) / 60, 2), '分钟')

数据清洗

几分钟内我们就获取了3032条菜谱数据。为了方便后续分析，需要使用 Pandas 对数据进行清洗。

导入数据

使用 pd.read_csv 方法导入数据并指定列名，初步预览数据如下：
读取CSV文件后的DataFrame头部数据预览

删除重复项

爬取过程中可能有少量重复数据，使用 drop_duplicates() 方法处理。

df = df.drop_duplicates()
df.info()

缺失值处理

通过 info() 方法检查数据完整性，发现少量缺失值记录，直接删除。

df = df.dropna(axis=0, how='any') #只要有缺失值的记录就删除

评分字段清洗

原始“评分”字段包含“分”字且为字符串类型，需要将其转换为数值型。

df['评分'] = df['评分'].str.replace('分', '').astype('float') #替换多余字符，转为浮点型
df.info()

添加用料数字段

“用料”字段以中文逗号分隔不同食材。通过计算逗号数量并加1，可以得到每个菜谱的用料数量。

df['用料'] = df['用料'].str.replace(',', '，')
df['用料数'] = df['用料'].str.count('，') + 1
df.head()

添加了‘用料数’字段后的DataFrame头部数据

数据可视化

我们主要使用 pyecharts 库进行可视化，它能生成交互性强且美观的图表。

菜谱评分分布

豆果美食的评分采用5分制。我们先将评分划分为几个区间，然后绘制玫瑰图展示分布情况。

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
cut = lambda x : '4分以下' if x < 4 else ('4.1-4.5分' if x <= 4.5 else('4.6-4.9分' if x <= 4.9 else '5分'))
df['评分分布'] = df['评分'].map(cut)
df2 = df.groupby('评分分布')['评分'].count()
df2 = df2.sort_values(ascending=False)
df2 = df2.round(2)
print(df2)
c = (
        Pie()
        .add(
            "",
            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
            radius=["20%", "80%"],# 圆环的粗细和大小
            rosetype='area' #玫瑰图
        )
        .set_global_opts(
            title_opts=opts.TitleOpts(title="菜谱评分分布"
                                     ),
            legend_opts=opts.LegendOpts(
                orient="vertical", pos_top="5%", pos_left="2%" ,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左面比例尺
            ),
        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),
                      )
    )
c.render_notebook()

菜谱评分分布玫瑰图

从图中可以看出，4分以下的菜谱仅占1.19%，而满分（5分）菜谱占比高达32.6%。这表明用户对平台上的中国菜系菜谱普遍给予了较高评价。

各菜系菜谱数量对比

我们通过饼图来比较不同菜系的菜谱数量。

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
df2 = df.groupby('菜系')['评分'].count() #按菜系分组，对评分计数
df2 = df2.sort_values(ascending=False) #降序
print(df2)
c = (
        Pie()
        .add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())])
        .set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占比",subtitle="数据来源：豆果美食"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    )
c.render_notebook()

各菜系菜谱数量占比饼图

结果显示，川菜（402个）和粤菜（357个）的菜谱数量遥遥领先，这与其在中国“八大菜系”中的地位相符。而湖北菜和清真菜的菜谱数量相对较少。

各菜系平均评分对比

接下来，我们看看不同菜系的平均评分是否有差异。

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
df2 = df.groupby('菜系')['评分'].mean()
df2 = df2.sort_values(ascending=False)
df2 = df2.round(2)
print(df2)
c = (
        Pie()
        .add(
            "",
            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
            radius=["40%", "75%"],   # 圆环的粗细和大小
        )
        .set_global_opts(
            title_opts=opts.TitleOpts(title="各菜系平均评分"),
            legend_opts=opts.LegendOpts(
                orient="vertical", pos_top="5%", pos_left="2%"  # 左面比例尺
            ),
        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))
    )
c.render_notebook()

各菜系平均评分环状图

各菜系的平均评分非常接近，均在4.67分以上，东北菜以4.79分略高。这种高度一致的评分或许意味着用户打分普遍偏高，使得评分区分菜品优劣的可信度有所降低。

各菜系用料数量对比

我们通过柱状图分析各菜系平均用料数量的差异。

from pyecharts.charts import Bar,Pie
from pyecharts import options as opts
df1 = df.groupby('菜系')['用料数'].mean() #按菜系分组，对评分计数
df1 = df1.sort_values(ascending=False) #降序
df1 = df1.round(0)
print(df1)
bar = Bar()
bar.add_xaxis(df1.index.to_list())
bar.add_yaxis("用料数量",df1.to_list())
bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料数量",subtitle="数据来源：豆果美食"))
bar.render_notebook()

各菜系用料数量柱状图

川菜和东北菜的平均用料数量位居前两位，分别为8种和7种。川菜讲究“百菜百味”，取材广泛；东北菜则风格豪迈，用料实在。粤菜注重食材本味，追求清鲜，用料相对精简（平均5种）。清真菜因饮食禁忌，可选食材范围受限，用料也较少。

各菜系核心用料分析

为了更深入地了解每个菜系的特色，我们利用词云图对“用料”字段进行文本分析，提取高频食材。

川菜用料分析

川菜用料词云图
“花椒”、“豆瓣酱”、“干辣椒”在词云图中最为醒目，这精准勾勒出川菜“麻辣鲜香”的魂。在分析的菜谱中，“川味砂锅之足不出户的麻辣烫”用料多达35种，堪称“复杂派”代表。
一碗丰盛的川味麻辣烫
其用料包括：毛肚，黄喉，鲜牛肉片，自制肉，鸭血，金针菇，平菇，豆芽，苕粉，冬笋片，白菜，莴笋叶，鹌鹑蛋（煮熟剥壳），猪骨汤，猪油，牛油，植物油（菜油上佳），姜片，大粒的蒜，郫县豆瓣，八角，茴香，桂皮，丁香，陈皮，香叶，白胡椒粉，冰糖，生抽，盐，葱结，花椒，干辣椒，鸡精丸，午餐肉。

粤菜用料分析

粤菜用料词云图
“胡椒粉”、“五花肉”、“白糖”是粤菜词云中的主角，反映出粤菜对提鲜、增香和平衡口味的追求。“广式肠粉”以23种用料展现了粤式点心的精细。
一份精致的广式肠粉
用料包括：粉浆用料，粘米粉（米打的粉），澄面（小麦淀粉），土豆淀粉，粟米粉（玉米淀粉），水，酱汁用料，独头蒜，大蒜籽，姜片，香菜（不吃香菜的可用葱代替），鸡汤，鲜味生抽，老抽，蚝油，蜂蜜，鱼露（可不放），鸡精（个人喜欢就放，不放也很鲜了），水，肠粉里面放的料，肉末，鸡蛋，生菜叶。

湘菜用料分析

湘菜用料词云图
“辣椒”、“大蒜”、“花椒”占据核心，湘菜的“热辣”风情扑面而来。“麻辣卤鸭三件”用20种调料成就复合香辣味。
一盘色泽红亮的麻辣卤鸭三件
用料明细：鸭爪（清水泡一小时），鸭翅膀（清水泡一小时啊），鸭肠（洗干净后捆成一个个小捆），白芷，桂皮，香叶，大料（两个焯水用，三个卤用），干辣椒（根据个人喜辣程度放），小茴香，花椒，麻椒，草果，生姜（一块焯水去味用，一块卤用），蒜瓣（全部去皮），辣椒酱（根据个人喜辣放），老抽，生抽，料酒，白糖，盐。

东北菜用料分析

东北菜用料词云图
“土豆”、“面粉”、“胡萝卜”等扎实的食材词汇，体现了东北菜朴实、管饱的特点。“翡翠白菜水饺”用料达20种，将寻常饺子做出了新意。
一盘形似白菜的翡翠水饺
用料明细：面皮制作，面粉（绿色面团所用），面粉（白色面团所用），小白菜叶（取汁），清水，馅料制作，猪五花肉，大白菜，胡萝卜，葱碎，姜沫，盐，生抽，老抽，蚝油，芝麻油，糖，鸡精，花椒粉，花生油。

湖北菜用料分析

湖北菜用料词云图
“糯米”、“花椒”、“面粉”等词较为突出。“家常美味——香菇鸡肉面”以23种用料诠释了湖北家常菜的丰富。
一碗热腾腾的香菇鸡肉面
用料明细：鸡脯肉或鸡腿肉，香菇，刀削面或宽面，芹菜，青菜，郫县红油豆瓣，葱，姜，蒜，干辣椒，花椒，八角，老抽，生抽，料酒，淀粉，蛋清，十三香，白胡椒，鸡精，盐，蒜苗，香菜。

浙菜用料分析

浙菜用料词云图
“白糖”、“冰糖”、“胡椒粉”等调味料频繁出现，印证了浙菜“甜而不腻”的风味特点。“经典糖醋排骨”用料17种，是江浙甜口菜的典范。
一盘酱汁浓郁的经典糖醋排骨
用料明细：猪肋排，小葱段（煮排骨用），姜（煮排骨用），料酒（煮排骨用），冷水，绵白糖，米醋，香醋，老抽，盐，绵白糖（浇汁用），米醋（浇汁用），香醋（浇汁用），淀粉（浇汁用），温水（浇汁用），食用油，熟白芝麻。

鲁菜用料分析

鲁菜用料词云图
“面粉”、“胡萝卜”、“蚝油”等词显著，鲁菜善用本地优质食材的特点可见一斑。“大白菜炖牛肉”用料高达28种，体现了鲁菜炖煮技法的讲究。
一锅内容丰富的白菜炖牛肉
用料明细：炖牛肉，牛肉，葱姜，小香葱，冰糖，八角，草果，小茴香，香叶，干辣椒，蒜，洋葱，油，生抽，甜面酱，番茄酱，盐，清水，啤酒，大白菜炖牛肉，大白菜，熟牛肉，牛肉汤，粉丝，食用油，葱花，水淀粉，盐。

清真菜用料分析

清真菜用料词云图
“蛋白”、“蛋清”、“面粉”等词汇占据主导，这与清真饮食严格的食材禁忌有关，烹饪中更注重对禽蛋、面食等的运用。“糖醋蛋白肉”用料15种。
一盘糖醋风味的蛋白肉菜肴
用料明细：蛋白肉，尖椒，小米椒，蒜瓣，小葱，食用油，糖，醋，蒸鱼豆豉，生抽，黄酒，番茄酱，淀粉，清水，盐。

总结

通过本次从数据爬取、清洗到分析与可视化的完整流程，我们得以从数据角度观察八大菜系的一些特点。分析发现，平台用户评分普遍较高，不同菜系间差异不大。在用料上，川菜、东北菜更为丰富，而粤菜、清真菜则相对精简。词云图直观地揭示了各菜系最核心的用料，与我们的传统认知基本吻合。

这个项目展示了如何利用 Python 爬虫技术获取网络公开数据，并借助 Pandas 和 pyecharts 等工具完成一次完整的、兼具广度和深度的大数据分析实践。代码和思路可以迁移到对其他领域网站的数据分析中。如果你对数据分析或网络爬虫感兴趣，欢迎在云栈社区交流讨论更多技术细节。

声明：

本数据分析仅作学习研究之用，结论仅供参考。美食烹饪影响因素众多，请理性判断。
本文作者与“豆果美食”无任何利益关联，仅因其数据规整适于分析。
文中对传统美食文化的描述仅为基于数据的解读，可能存在不完善之处。

上一篇：Linux网络性能优化实现原理深度解析与《理解了实现再谈网络性能》电子书发布
下一篇：Anthropic研究揭秘：大模型内部运作机制、可解释性与AI安全思考

Python, 爬虫, 数据分析, pyecharts, Pandas