← 个人博客

用AI搭建个人网站:公众号迁移,为GEO做准备

AI工具 2026年6月7日 预计阅读 12 分钟

把 10年公众号 885 篇文章一次性导出,AI 帮我清洗 + 分类 + 上线——给小白的全流程指南

📌 这是「我用 AI 搭了自己的网站」系列,关注我,后续持续更新。  ① 设计与搭建 · ② 公众号文章迁移(你正在读) · ③ 让 AI 搜到你(SEO/GEO) · ④ 让 AI 用你的腔调写作


你公众号上的所有文章,都不是你的资产

很多人不知道,你公众号文章的所有权和访问权,其实你都没有

  • 没有「导出全部文章」按钮

  • 没有 RSS 订阅

  • 没有 API

  • 你只能一篇篇手动复制,每篇都被腾讯加了一堆封面、广告、推荐链接

十几年下来我在公众号写了 885 篇文章——如果腾讯哪天封号 / 平台规则变了,这些全部归零。而因为公众号的封闭性,导致AI也很难检索到公众号的文章作为引用来源,这在GEO(Generative Engine Optimization)AI生成式搜索引擎时代简直是太可惜了!

所以我决定把我过去十几年写过的公众后文章一次性导出 + 清洗 + 上线到我自己的网站。然后在我自己的网站上优化GEO,让更多用户能在和AI对话的时候搜到AI推送的我的文章。

这件事卡了我整整一周。最后用对工具 + AI 帮忙写代码,3 天搞定。这篇我把工具链全公开给你。


先说清楚:这件事你需要做什么

这篇文章里会出现一些技术词汇(脚本、npm 包、正则……),但我要先给你定一个心:

你不需要打开终端,不需要自己输任何命令

你的工作流程只有 4 件事:

  1. 操作在线导出工具

  2. 把导出的文件夹告诉 AI

  3. 用中文描述你想要的效果

  4. 检查 AI 的成果

所有安装依赖、运行脚本、处理图片——全部告诉 Claude Code / Cursor / WorkBuddy,AI 帮你搞定


工具链(先看全貌)

用途工具收费?谁来操作
从公众号批量导出文章 HTMLwechat-article-exporter(在线版 down.mptext.top)免费你自己
HTML 解析 + 转 Markdowncheerio + turndown(npm 包)免费AI 全代劳
图片压缩jpegoptim + pngquant + sips免费AI 全代劳
自动分类AI 写正则脚本免费AI 全代劳
网站发布Astro(你上篇做的个人网站)免费AI 全代劳

第 1 步 · 从公众号批量导出

工具选择

我试了 5-6 个工具,目前最好用的是

wechat-article-exporter(在线网页版):

  • 网址:https://down.mptext.top

  • 直接浏览器打开,不用装软件

  • 免费

操作步骤(5 分钟)

  1. 打开 https://down.mptext.top

  2. 你公众号绑定的微信扫码登录(这步关键,必须扫你公众号的微信)

  3. 工具会列出你能访问的所有公众号

  4. 选你自己的公众号

  5. 选择「导出全部文章」+ 「包含图片」(必须勾,否则没图)

  6. 选导出格式:HTML 文件夹

  7. 点开始 → 工具会一篇一篇抓取,每篇生成一个独立文件夹

自己新建一个文件夹。把下载下来的html文件保存到本地,比如 ~/Downloads/公众号文章/

提醒


第 2 步 · 看一眼 HTML 长什么样(为什么不能直接用)

打开任意一篇 index.html 你会看到这种东西:

<header>

你看,一篇公众号下载成html格式,真正的正文只占 30%,剩下都是:

  • 头部装饰图、品牌竖排字

  • 中间夹的”关注我”二维码

  • 尾部「往期推荐」链接列表

  • 尾部自我介绍 + 客服二维码

如果你直接把这堆 HTML 转成 Markdown 放到网站上,你的博客会变成「广告大全」

所以下一步:让 AI 帮你写一段清洗脚本


第 3 步 · 让 AI 帮你写清洗脚本

大白话版:你只需要说这些

打开 Claude Code(或 Cursor / WorkBuddy),告诉 AI:

我从公众号下载了一堆文章,每篇是一个文件夹,里面有 HTML 文件和图片。  帮我把这些文章清洗一下——去掉广告和头尾装饰,转成干净的格式,放到我的个人网站上。  原始文件在 ~/Downloads/公众号文章/ 文件夹里,个人网站在我桌面的 my-website 文件夹里。  帮我从头到尾做完,需要安装什么工具你自己装,我不需要打开终端。

就这一段。你不需要知道 cheerio、turndown 是什么——那些是 AI 自己选的处理工具,它会自己装、自己用。你只要说清楚”我要做什么”,技术细节 AI 来决定。

你需要告诉 AI 的清洗规则

这部分很重要——AI 不知道你公众号的头尾长什么样,你要把你的”广告套路”描述给它听:

帮我删掉这些内容:

头部(文章正文开始之前的装饰):

  • 所有装饰图,直到出现真正的文字正文才停

  • 「点击下方关注我们」「蓝字关注我」这类引导关注的固定语句

尾部(只要出现以下任意一个,从那里往后全部删掉):

  • 「阅读原文」「扫码添加」「扫一扫关注」

  • 「往期推荐」「往期回顾」「学员案例」

  • 微信公众号链接(网址里有 mp.weixin.qq.com 的)

这套是我自己公众号的套路,你的公众号头尾可能不一样。打开一篇你导出的 HTML 文件看一眼,把你那边的固定广告句式告诉 AI 就行。

还可以加一句:「脚本头部写清楚所有清洗规则,方便我以后调整」——这样 AI 会把规则集中放在脚本顶部,你将来想改一条,改一个地方就行。


技术备注(你不需要看这里,AI 会自己处理)

好奇 AI 在干嘛?它实际上是在:

  • 用 cheerio 解析 HTML,把正文那块提取出来

  • 用 turndown 把 HTML 内容转成 Markdown 格式

  • 从 HTML 里找到发布日期,写进文章标题里

  • 把处理好的 Markdown 文件放进 Astro 网站的内容文件夹

这些你一概不需要提,AI 自己知道该用哪些工具怎么实现。写出来只是让你看得见它在做什么,不是让你去学这些词。


第 4 步 · 自动分类

我个人博客有 4 个分类:商业干货 / 生活随笔 / AI 工具 / 成长心理。

最笨的方法:395 篇我手动分类。

AI 时代的方法:让 AI 根据关键词正则自动打标签。

告诉 AI:

帮我加一个自动分类功能:根据文章标题 + 正文前 240 字判断分类。  分类规则:

  • 包含「AI / 人工智能 / Claude / ChatGPT / 提示词 / 自动化 / Obsidian」→ AI工具

  • 包含「创业 / 变现 / 客户 / 商业 / 个人品牌 / 高客单」→ 商业干货

  • 包含「成长 / 情绪 / 焦虑 / 觉察 / 认知 / 心力 / 疗愈」→ 成长心理

  • 其他 → 生活随笔(默认)

关键词你可以帮我优化,让命中率更高。

AI 会写好这段逻辑并集成进脚本。

我的 885 篇里,自动分类正确率 ≥ 95%,剩下 5% 我用 Obsidian 全文搜「分错的标题」批量改。


第 5 步 · 图片压缩

从公众号导出的图片大得离谱。我的 885 篇文章配图加起来 2.5GB

而 EdgeOne Pages 免费版单仓库 1GB 上限。所以必须压缩。

直接告诉Claude Code

帮我压缩 public/images/ 文件夹里所有图片

让我能把所有公众号上传到我的个人网站。

注意:每一步都必须先备份,压坏了能恢复。

Claude Code 会自动安装所需工具、写脚本、执行——你全程不用打开终端。

最终效果

类别原大小压缩后节省
个人博客 (394 篇)455MB219MB-52%
平台文章 (491 篇)2.1GB333MB-84%
总计2.55GB552MB-78%

第 6 步 · 上传到你的网站

告诉 Claude Code:

帮我把清洗好的文章上传到我的个人网站,然后帮我启动本地预览让我检查效果。

预览阶段重点检查

  • 随机抽 5-10 篇,看看清洗规则有没有误删正文

  • 看图片是否正常加载

  • 看分类是否准确

  • 看日期是否对

我抽检了 20 篇,发现 2 篇分类错了、1 篇头部多删了 1 段(更新规则后让 AI 重跑)、整体准确率非常高。


第 7 步 · 给文章列表加搜索 + 分类 + 年份折叠

885 篇文章直接平铺会让博客页面变成”灾难现场”。我关注的一个海外一人公司博主Justin Welsh最近也用AI vibe coding了他的个人新网站,于是我直接让AI参考,帮我优化我的网站文章列表。

告诉 AI:

给我做一个文章档案页面,要有搜索 + 分类过滤 + 年份折叠。  参考 Justin Welsh 的网站 https://www.justinwelsh.me/library 的设计。  每条显示:日期 + 分类 tag + 标题 + 预计阅读时间

AI 会一次性给你做完,100 行左右的代码,你不需要看懂。


我的 7 年文章迁移最后呈现

https://alinalinzi.cn/blog 看效果——394 篇个人号文章 + 4 个分类 + 搜索 + 年份折叠。自由人生教练平台从2022年创立至今,累计了491 篇公众号。

真实数据

  • 处理总时长:约 5 小时(跟 AI 对话 2h + 调试 + 等压图 2h + 抽检 1h)

  • 总文章数:885 篇

  • 自动分类准确率:≥ 95%

  • 最终大小:552MB(在 EdgeOne 1GB 上限内)


给小白的 3 条避坑提示

1. 不要等”导出全部完美再上线”!

你导出了 800 篇,先把前 100 篇清洗好上线了,剩下的边上线边迭代清洗规则。等你 800 篇全清洗完已经 1 个月过去了——这 1 个月里 AI 已经在搜索新内容了,你慢一天就少一天的 GEO 红利。

2. 让 AI 写脚本批量处理,不要自己手动操作

885 篇文章手动复制需要:885 × 5 分钟 = 73 小时。 让 AI 写一个脚本跑:1 小时。时间差 70 倍。

3. 永远先备份再操作

我交过学费——一次错误的压缩脚本让 blog 文件夹反而变大了 200MB,所幸我让 AI 先备份了原图,一句话恢复。养成「改之前先让 AI 备份」的习惯。


下一篇预告

光把文章搬过去还不够,搜索引擎和 AI 还得能找到你

下一篇:SEO/GEO 完整实战——我做了什么让国内外 AI 都开始抓我的网站

我做了 5 件事:

  1. llms.txt

    (Anthropic 出的 AI 用户说明书)

  2. robots.txt

     放行 22 个国内外 AI 蜘蛛

  3. JSON-LD 结构化数据(让 AI 精确理解你的内容)

  4. 提交百度站长 + Google Search Console(其中 1 个 API 自动推送)

  5. 处理百度新站的备案号同步坑

下篇见。


如果这篇对你有用,转发给那个也想把公众号文章迁出来但不知道怎么开始的朋友。如果你看不懂,可以直接复制发给AI,让AI学会了教你一步步操作。