用AI搭建个人网站:公众号迁移,为GEO做准备
把 10年公众号 885 篇文章一次性导出,AI 帮我清洗 + 分类 + 上线——给小白的全流程指南
📌 这是「我用 AI 搭了自己的网站」系列,关注我,后续持续更新。 ① 设计与搭建 · ② 公众号文章迁移(你正在读) · ③ 让 AI 搜到你(SEO/GEO) · ④ 让 AI 用你的腔调写作
你公众号上的所有文章,都不是你的资产
很多人不知道,你公众号文章的所有权和访问权,其实你都没有。
-
没有「导出全部文章」按钮
-
没有 RSS 订阅
-
没有 API
-
你只能一篇篇手动复制,每篇都被腾讯加了一堆封面、广告、推荐链接
十几年下来我在公众号写了 885 篇文章——如果腾讯哪天封号 / 平台规则变了,这些全部归零。而因为公众号的封闭性,导致AI也很难检索到公众号的文章作为引用来源,这在GEO(Generative Engine Optimization)AI生成式搜索引擎时代简直是太可惜了!
所以我决定把我过去十几年写过的公众后文章一次性导出 + 清洗 + 上线到我自己的网站。然后在我自己的网站上优化GEO,让更多用户能在和AI对话的时候搜到AI推送的我的文章。


这件事卡了我整整一周。最后用对工具 + AI 帮忙写代码,3 天搞定。这篇我把工具链全公开给你。
先说清楚:这件事你需要做什么
这篇文章里会出现一些技术词汇(脚本、npm 包、正则……),但我要先给你定一个心:
你不需要打开终端,不需要自己输任何命令。
你的工作流程只有 4 件事:
-
操作在线导出工具
-
把导出的文件夹告诉 AI
-
用中文描述你想要的效果
-
检查 AI 的成果
所有安装依赖、运行脚本、处理图片——全部告诉 Claude Code / Cursor / WorkBuddy,AI 帮你搞定。
工具链(先看全貌)
| 用途 | 工具 | 收费? | 谁来操作 |
|---|---|---|---|
| 从公众号批量导出文章 HTML | wechat-article-exporter(在线版 down.mptext.top) | 免费 | 你自己 |
| HTML 解析 + 转 Markdown | cheerio + turndown(npm 包) | 免费 | AI 全代劳 |
| 图片压缩 | jpegoptim + pngquant + sips | 免费 | AI 全代劳 |
| 自动分类 | AI 写正则脚本 | 免费 | AI 全代劳 |
| 网站发布 | Astro(你上篇做的个人网站) | 免费 | AI 全代劳 |
第 1 步 · 从公众号批量导出
工具选择
我试了 5-6 个工具,目前最好用的是:
wechat-article-exporter(在线网页版):
-
网址:
https://down.mptext.top -
直接浏览器打开,不用装软件
-
免费

操作步骤(5 分钟)
-
打开
https://down.mptext.top -
用你公众号绑定的微信扫码登录(这步关键,必须扫你公众号的微信)
-
工具会列出你能访问的所有公众号
-
选你自己的公众号
-
选择「导出全部文章」+ 「包含图片」(必须勾,否则没图)
-
选导出格式:HTML 文件夹
-
点开始 → 工具会一篇一篇抓取,每篇生成一个独立文件夹
自己新建一个文件夹。把下载下来的html文件保存到本地,比如 ~/Downloads/公众号文章/。
提醒
- 工具是免费的,开源项目(GitHub 能找到源码):https://github.com/wechat-article/wechat-article-exporter
第 2 步 · 看一眼 HTML 长什么样(为什么不能直接用)
打开任意一篇 index.html 你会看到这种东西:
<header>
你看,一篇公众号下载成html格式,真正的正文只占 30%,剩下都是:
-
头部装饰图、品牌竖排字
-
中间夹的”关注我”二维码
-
尾部「往期推荐」链接列表
-
尾部自我介绍 + 客服二维码
如果你直接把这堆 HTML 转成 Markdown 放到网站上,你的博客会变成「广告大全」。
所以下一步:让 AI 帮你写一段清洗脚本。
第 3 步 · 让 AI 帮你写清洗脚本
大白话版:你只需要说这些
打开 Claude Code(或 Cursor / WorkBuddy),告诉 AI:
我从公众号下载了一堆文章,每篇是一个文件夹,里面有 HTML 文件和图片。 帮我把这些文章清洗一下——去掉广告和头尾装饰,转成干净的格式,放到我的个人网站上。 原始文件在 ~/Downloads/公众号文章/ 文件夹里,个人网站在我桌面的 my-website 文件夹里。 帮我从头到尾做完,需要安装什么工具你自己装,我不需要打开终端。
就这一段。你不需要知道 cheerio、turndown 是什么——那些是 AI 自己选的处理工具,它会自己装、自己用。你只要说清楚”我要做什么”,技术细节 AI 来决定。
你需要告诉 AI 的清洗规则
这部分很重要——AI 不知道你公众号的头尾长什么样,你要把你的”广告套路”描述给它听:
帮我删掉这些内容:
头部(文章正文开始之前的装饰):
所有装饰图,直到出现真正的文字正文才停
「点击下方关注我们」「蓝字关注我」这类引导关注的固定语句
尾部(只要出现以下任意一个,从那里往后全部删掉):
「阅读原文」「扫码添加」「扫一扫关注」
「往期推荐」「往期回顾」「学员案例」
微信公众号链接(网址里有 mp.weixin.qq.com 的)
这套是我自己公众号的套路,你的公众号头尾可能不一样。打开一篇你导出的 HTML 文件看一眼,把你那边的固定广告句式告诉 AI 就行。
还可以加一句:「脚本头部写清楚所有清洗规则,方便我以后调整」——这样 AI 会把规则集中放在脚本顶部,你将来想改一条,改一个地方就行。
技术备注(你不需要看这里,AI 会自己处理)
好奇 AI 在干嘛?它实际上是在:
-
用
cheerio解析 HTML,把正文那块提取出来 -
用
turndown把 HTML 内容转成 Markdown 格式 -
从 HTML 里找到发布日期,写进文章标题里
-
把处理好的 Markdown 文件放进 Astro 网站的内容文件夹
这些你一概不需要提,AI 自己知道该用哪些工具怎么实现。写出来只是让你看得见它在做什么,不是让你去学这些词。
第 4 步 · 自动分类
我个人博客有 4 个分类:商业干货 / 生活随笔 / AI 工具 / 成长心理。

最笨的方法:395 篇我手动分类。
AI 时代的方法:让 AI 根据关键词正则自动打标签。
告诉 AI:
帮我加一个自动分类功能:根据文章标题 + 正文前 240 字判断分类。 分类规则:
包含「AI / 人工智能 / Claude / ChatGPT / 提示词 / 自动化 / Obsidian」→ AI工具
包含「创业 / 变现 / 客户 / 商业 / 个人品牌 / 高客单」→ 商业干货
包含「成长 / 情绪 / 焦虑 / 觉察 / 认知 / 心力 / 疗愈」→ 成长心理
其他 → 生活随笔(默认)
关键词你可以帮我优化,让命中率更高。
AI 会写好这段逻辑并集成进脚本。
我的 885 篇里,自动分类正确率 ≥ 95%,剩下 5% 我用 Obsidian 全文搜「分错的标题」批量改。
第 5 步 · 图片压缩
从公众号导出的图片大得离谱。我的 885 篇文章配图加起来 2.5GB。
而 EdgeOne Pages 免费版单仓库 1GB 上限。所以必须压缩。
直接告诉Claude Code
帮我压缩 public/images/ 文件夹里所有图片
让我能把所有公众号上传到我的个人网站。
注意:每一步都必须先备份,压坏了能恢复。
Claude Code 会自动安装所需工具、写脚本、执行——你全程不用打开终端。
最终效果
| 类别 | 原大小 | 压缩后 | 节省 |
|---|---|---|---|
| 个人博客 (394 篇) | 455MB | 219MB | -52% |
| 平台文章 (491 篇) | 2.1GB | 333MB | -84% |
| 总计 | 2.55GB | 552MB | -78% |
第 6 步 · 上传到你的网站
告诉 Claude Code:
帮我把清洗好的文章上传到我的个人网站,然后帮我启动本地预览让我检查效果。
预览阶段重点检查:
-
随机抽 5-10 篇,看看清洗规则有没有误删正文
-
看图片是否正常加载
-
看分类是否准确
-
看日期是否对
我抽检了 20 篇,发现 2 篇分类错了、1 篇头部多删了 1 段(更新规则后让 AI 重跑)、整体准确率非常高。
第 7 步 · 给文章列表加搜索 + 分类 + 年份折叠
885 篇文章直接平铺会让博客页面变成”灾难现场”。我关注的一个海外一人公司博主Justin Welsh最近也用AI vibe coding了他的个人新网站,于是我直接让AI参考,帮我优化我的网站文章列表。
告诉 AI:
给我做一个文章档案页面,要有搜索 + 分类过滤 + 年份折叠。 参考 Justin Welsh 的网站 https://www.justinwelsh.me/library 的设计。 每条显示:日期 + 分类 tag + 标题 + 预计阅读时间
AI 会一次性给你做完,100 行左右的代码,你不需要看懂。
我的 7 年文章迁移最后呈现
去 https://alinalinzi.cn/blog 看效果——394 篇个人号文章 + 4 个分类 + 搜索 + 年份折叠。自由人生教练平台从2022年创立至今,累计了491 篇公众号。

真实数据:
-
处理总时长:约 5 小时(跟 AI 对话 2h + 调试 + 等压图 2h + 抽检 1h)
-
总文章数:885 篇
-
自动分类准确率:≥ 95%
-
最终大小:552MB(在 EdgeOne 1GB 上限内)
给小白的 3 条避坑提示
1. 不要等”导出全部完美再上线”!
你导出了 800 篇,先把前 100 篇清洗好上线了,剩下的边上线边迭代清洗规则。等你 800 篇全清洗完已经 1 个月过去了——这 1 个月里 AI 已经在搜索新内容了,你慢一天就少一天的 GEO 红利。
2. 让 AI 写脚本批量处理,不要自己手动操作
885 篇文章手动复制需要:885 × 5 分钟 = 73 小时。 让 AI 写一个脚本跑:1 小时。时间差 70 倍。
3. 永远先备份再操作
我交过学费——一次错误的压缩脚本让 blog 文件夹反而变大了 200MB,所幸我让 AI 先备份了原图,一句话恢复。养成「改之前先让 AI 备份」的习惯。
下一篇预告
光把文章搬过去还不够,搜索引擎和 AI 还得能找到你。
下一篇:SEO/GEO 完整实战——我做了什么让国内外 AI 都开始抓我的网站。
我做了 5 件事:
-
llms.txt(Anthropic 出的 AI 用户说明书)
-
robots.txt放行 22 个国内外 AI 蜘蛛
-
JSON-LD 结构化数据(让 AI 精确理解你的内容)
-
提交百度站长 + Google Search Console(其中 1 个 API 自动推送)
-
处理百度新站的备案号同步坑
下篇见。
如果这篇对你有用,转发给那个也想把公众号文章迁出来但不知道怎么开始的朋友。如果你看不懂,可以直接复制发给AI,让AI学会了教你一步步操作。