Chrome/Firefox等浏览器缺省的“另存页面为”功能在保存网页文件时候会将网页资源保存为两个文件:对应的网页文件,包含网页图片、Javscript、CSS等资源文件的文件夹。
由于有一个文件夹,本地管理较为凌乱,要作为保存的网页作为附件存储到笔记本、网盘时候,很不方便。
而MHTML以及EPUB类似格式支持将网页资源文件打包到一个页面文件中(更多类似MTHML的格式请参考:The decades long quagmire of encapsulated HTML)。
对需要收藏网页资料以便离线浏览、归档的人,将网页保存为单个文件具有携带方便、可离线浏览、管理方便等优势。
汇总一下常用的将保存网页资源为单个HTML文件的工具。
使用Chrome命令行参数 –save-page-as-mhtml
Chrome在Chrome 75之前,可以通过设置chrome://flags -> save as mhtml来保存网页为mhtml。
75之后版本可以通过Chrome的启动命令行参数”–save-page-as-mhtml”
更多 Chromium 命令行参数可以参考:https://peter.sh/experiments/chromium-command-line-switches/
浏览器扩展
SingleFile:https://github.com/gildas-lormeau/SingleFile
SingleFile 新版本新增对保存文件的标注、保存选中页面、同时保存多个页等新功能
Save Webpages Offline As MHTML:https://browsernative.com/save-webpage-offline-mhtml/
Save as MHTML:https:// owseraddon.com/save-as-mhtml.html
SaveAsMHT:https://github.com/vsDizzy/SaveAsMHT
Webrecorder ArchiveWeb.page:https://github.com/webrecorder/archiveweb.page 把浏览过的网页通过“录制”下来并在之后“回放”
SingleFileZ:https://github.com/gildas-lormeau/SingleFileZ 由 SingleFile 开发者的作品,增加了压缩功能
命令行工具
SingleFile CLI :
https://github.com/gildas-lormeau/single-file-cli
SingleFile 开发者的作品
monolith:
https://github.com/Y2Z/monolith
Archive.org的命令行工具:
internetarchive:https://github.com/jjjake/internetarchive
savepagenow:https://github.com/palewire/savepagenow
Webrecorder开发者工具:
https://webrecorder.net/developer-tools/
wget –mirror –convert-links –adjust-extension –page-requisites –no-parent http://example.org
专业归档工具
ArchiveBox:https://archivebox.io/
Kiwix:https://www.kiwix.org
Webrecorder:https://webrecorder.net/
Conifer:https://conifer.rhizome.org/
HTTrack:https://www.httrack.com/