海外仓每日发货场景:多店铺订单对单、面单重排、格式标准化——过去需要 2 名运营手工操作近 4 小时,现在 Agent 全自动处理,3 分钟内交付 7 个标准文件,零差错。
一个真实的跨境电商海外仓场景——Temu、Amazon、TikTok Shop 多平台运营,每日需要把多家物流商的面单与订单精准配对。
每个平台导出的 WMS Excel 列名不同,需要手动整合成仓库要求的标准格式
物流商生成的面单 PDF,页面顺序和 Excel 行顺序不一致,仓库打印必须对齐
手动翻表、复制粘贴、检查核对——高重复、低价值,但出错代价极高
一旦面单和包裹对应错误,退货率上升,客诉增加,严重时平台封号
每一步职责单一,Fail Fast,错误不传递到下一步。
点击展开每个步骤,查看输入输出、核心算法、工具选型和演示场景。
按文件名分行李箱/非行李箱,并立即验证 PDF 总页数 = Excel 总行数
故意少放一页 PDF,展示精确报错:
越早发现错误越好。如果 PDF 少一页,与其让后续步骤跑完一半再崩溃,不如第一步就终止并给出明确提示。这是生产系统最重要的设计原则之一。
多店铺 Excel 合并,中文列名映射为 43 列英文标准,缺失字段自动填充
USPS 运单号是 22 位整数,超出 float64 精度(~15位)。pandas 默认把数字单元格转 float,读回来就变成错误的值。
解决:pd.read_excel(f, dtype=str) 强制所有列读为字符串。
扫描 PDF 每页条形码,按 Excel 行顺序建立一一对应,重组输出 PDF
三个阶段串联执行:
面单是多物流商、多批次混合 PDF,没有固定顺序。只有条形码里的运单号才是全局唯一标识。
每页叠加 SCS 标识 + 日期,直接覆盖原文件,不产生额外副本
早期版本生成 -水印.pdf 副本,导致每类输出变成 4 个文件。用户需要的是精确 3 个文件(WMS Excel / 简化 Excel / PDF)。改为原地覆盖,输出目录整洁,无冗余文件。
汇总行李箱 + 非行李箱所有 SKU 数量,合并输出一张拣货表
每一个决策背后,都有一个踩过的坑或一个明确的业务约束。
完整的数据变换链。
这些原则不只属于这个项目——它们是构建可靠文件处理 Agent 的通用方法。
每步函数有精确的输入类型和返回值,步骤间靠返回值传递,不共享全局状态
第一步就做完整性校验,错误不传递到下一步,报错信息要有业务上下文
Excel 是权威,PDF 必须向 Excel 对齐。永远不允许为了让程序通过而修改权威数据源
格式规范在文件里,不在代码里。业务变更只改模版,不改代码
pymupdf 替代 pdftoppm(无外部依赖);dtype=str 防精度丢失;优先纯 Python 方案
每步有清晰日志,匹配过程逐行打印,失败给出完整业务上下文(不只是技术错误码)
发货场景宁可报错停止,不可静默跳过。任何不完整的输出比没有输出更危险
输出文件数量有明确约定(每类 3 个),不产生中间文件、副本、调试文件