数据分析师:自动化数据处理
场景背景
你是一名数据分析师(或业务分析、运营),手头有一份从公司系统导出的 CSV 文件——过去 6 个月的电商销售数据,大约 5000 行。你需要在明天的周会上展示:销售趋势、各品类对比、退货率分析。
以前你用 Excel 处理,但数据量大了之后公式容易出错、图表不够灵活。你决定用 Claude Code 写一个 Python 脚本来自动化整个流程:数据清洗 -> 统计分析 -> 生成图表 -> 输出报告。
你将学到: 如何用 Claude Code 处理 CSV 数据文件——包括数据清洗、统计计算、生成可视化图表,以及把分析结果输出为可分享的报告。
前置准备
- 已安装 Claude Code(参考 安装指南)
- 已安装 Python 3(macOS 自带,Windows 需单独安装)
- 有一份需要分析的 CSV 文件(没有的话,下面会让 Claude 生成示例数据)
- 不需要会写 Python——你只需要描述想要什么分析
第一步:创建项目和准备数据
mkdir ~/sales-analysis && cd ~/sales-analysis
claude
如果你有真实的 CSV 文件,先把它复制到这个文件夹。如果没有,让 Claude 生成一份示例数据:
> 帮我生成一份示例的电商销售 CSV 数据文件 sales_data.csv,要求:
- 5000 行数据,时间范围 2024-01-01 到 2024-06-30
- 列:order_id, date, product_name, category, price, quantity,
customer_city, payment_method, is_returned
- category 有 5 种:电子产品、服装、食品、图书、家居
- 故意加入一些脏数据:
- 约 3% 的行有空值(price 或 category 缺失)
- 约 2% 的 price 是负数(错误数据)
- 日期格式不统一(有 "2024-01-15" 也有 "2024/01/15" 也有 "Jan 15, 2024")
- 用 Python 脚本生成,然后运行脚本创建 CSV 文件