1235.gif

布丁布丁布

GF  2023-02-03 05:32
(buding111)

【技术分享】 用好Calibre,史上最强的一站式本子管理(附懒人包)part.2

23.5.6更新:
引用
1、首先是补档了一下网盘链接,补充了tag的中文数据库,自己在插件里填一下就行。
2、lanraragi那边有国人制作了直接刮取中文tag和转换中文tag的插件,所以不需要再使用calibre进行刮削了。但是可以利用calibre的整理方式,来使下载的本子标准化命名,方便那边的插件刮削。插件地址如下
复制代码
  1. https://github.com/zhy201810576/ETagConverter

前言

刚好最近研究本子管理也有些心得,这里分享一下。
我自己用过的漫画管理软件有Calibre、Lanraragi、komga、ubooquity、happypandax等等,下面就根据我个人的使用体验来一一说明吧。



本篇是漫画管理的第二篇,第一篇介绍lanraragi的晚点再上传,今天先介绍怎么整理

顺带补充一下:本篇内容最重要的就是使用calibre完成一个系统的本子库,即本子的存放路径为本子库/作者名/本子。同时这种存放方式也不会影响其他软件读取,例如lanraragi或者是大多数人用的yacreader。而在设置好以后,每次导入只用将calibre打开,本子会自动复制一份到对应作者的文件夹中,以完成整理的目的。

二、Calibre

官网地址:https://calibre-ebook.com/
支持平台:linux、windows


作为最知名的电子书管理软件,想必只要有管理本子需求的人查询资料的时候都看到过这个软件,但是这个软件的颜值和使用方法却使很多人望而却步,但是只要上手了以后,这个软件确实不愧是“最强电子书管理软件”


特色功能:
①最强的元数据管理


除了能够直接手动调整外,还可以通过插件直接获取元数据,并且这个插件是可以在刮取过程中手动调整的,最重要的是插件获取的tag会参照数据库实时翻译。插件的获取速度也是比较快的,可以参见下面这个gif。


这个插件的地址是https://github.com/nonpricklycactus/Ehentai_metadata
使用方法也可以参见官方的说明,我下面放出的懒人包里也会包含这个插件。



②自带网络浏览库的功能



可以直接在线观看存好的本子或是轻小说,不过这个功能并不算好用。
但这个功能的缺点是,阅读时需要将整个文件缓存到本地,然后再打开阅读,如果本身是epub这类轻小说文件,那倒是无伤大雅。但对于动辄上百兆的本子来说,局域网环境尚且能用,公网环境那基本是用不了的,所以这一点就远不如lanraragi和komga好用了。





一些缺点:

那么谈完优点,那么这个软件有没有什么缺点呢,当然有而且还不少,但是大部分都可以解决的,我放出的懒人包也会解决其中的一些问题。

①自有数据库,需要将本子文件导入其中,如果想要再留一份原档的话,那就是双倍占用空间。同时导入会将文件名重命名为英文,万一数据库炸了就很难进行恢复了。(不过这个缺点本篇内容也会解决掉)


这个问题也是之前阻碍我使用这个软件最大的问题,不过经过一些大佬的共同努力,已经算是解决了,下面给出解决方案。
项目地址:https://github.com/kurikomoe/calibre-utf8-path
下载后进行覆盖软件的文件,并通过批处理文件启动文件,这样导入的文件就不会变为英文,并且不会影响软件的本身运行



通过这个方式改动后我发现虽然都会保留为中文,但是文件名却被裁剪了。并且文件的命名格式后面还会再加一个作者名字,这样就不太美观了。




解决办法也很简单,那就是接着修改calibre的文件命名代码就行了,打开上面下载的并覆盖到软件目录的文件,路径如下D:\Program Files\Calibre\src\calibre\db\backend.py,文件内搜索construct_path_name



然后将其中的部分内容进行修改,(这段代码老是乱我就发个文件了)

此帖售价 0 SP币,已有 228 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!


这样修改后的效果如下


上面提到的Lanraragi是根据文件夹内部的压缩格式的文件进行检索的,因此这样命名就不会影响Lanraragi的使用了。并且以这样修改后,Calibre的数据库刚好就是以作者命名的整理好的文件夹,即便是数据库炸了也不妨碍使用(不过最好还是做好备份)




导入时去除作者名字这一点可以通过正则表达式来去除。打开软件——首选项——添加书籍填入以下表达式即可

[pre](?P<comments>(\((?P<series>[^\(\)]*)\)).*?\[(?P<author>(?:(?!汉化|漢化|CE家族|天鵝之戀)[^\[\]])*)\](?:\s*(?:\[[^\(\)]+\]|\([^\[\]\(\)]+\))\s*)*(?P<title>[^\[\]\(\)]+)?\s?(\[(?P<publisher>[^\]]*(化|社|組))\])?.*)[/pre]
一般来说经过这个正则表达式过滤的本子都可以直接通过插件来获取元数据,少部分的需要手动一下,我个人刮了几千本,大概比例在2%以下。





插件使用

标签映射器

插件获取的标签大多为女性:黑丝,这种类型的,如果想要批量解决这个问题的话需要使用标签映射器。



这个自带的工具可以将获取的标签直接进行替换,这样看上去就会整洁很多。这个工具默认不会在工具栏出现,需要在设置中调出来


元数据刮取的插件的设置界面可以直接导入制作好的规则

这样设置好以后刮取的数据就是直接转换好的,我的懒人包里面插件的规则是少一个移除女性标签的规则的,因为万一有新的tag出现就不会被插件去掉。可以再往规则列表里增加内容


②重复文件检索插件
该插件可以根据多种条件来匹配重复文件,大多数使用的情况就是匹配本子名字,能够大大降低查重的工作量。

当然有时候一些本子命名本身就相似,比如名字只有第几话命名的,也会被列入其中,这时可以通过工具右侧的小箭头将他们剔除。


③本子元数据写入插件

点一下就写进去了,很简单吧。



展示环节



检索起来就是极其方便的,应该是本子管理的终点了。然后懒人包里还包含两个插件,一个是可以将calibre刮取到的元数据直接写入压缩包供其他软件读取,只要未来lanraragi跟进了,那基本就是完全体了。还有一个是用来查重的,有什么作用我就不用多说了吧。
其实还有些问题没有提到的,但是这都奔着6000字去了,这个就啥时候有空了下次在写吧,有啥问题下面问就好了。





一些未解决的问题:

1、lanraragi目前还无法读取压缩包内的注释和xml文件,不过这部分已经提交作者了,希望未来能更新出来吧。

2、使用中文本地保存的话,calibre自带的在线服务端没办法看到封面,这点也很容易解决,因为有个界面更好的calibre-web,有需求的人自己去折腾一下吧。是可以直接用同一个数据库的,但注意不用两边同时操作数据库。




总结

总结一下,在经过修改以后,calibre可以自动将之前杂乱的本子标准化进行存储,并且源文件的命名也不会有影响,搭配lanraragi进行在线观看,基本上就是最完善的管理流程了。



参考资料

使用Calibre管理你的本子——第二季
使用Calibre管理你的本子



↓懒人包↓


此帖售价 0 SP币,已有 228 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!



碎碎念time:
明天有空的话会录个整理流程的视频,顺带吐槽下南+的编辑器真难用          ,本文本来首发在仓库那边,但是审核鸽了我两天就先发过来了。有啥问题下面问就好了,我这两天会高强度看论坛的。

嘛啦啦啦啦

B1F  2023-03-21 20:42
MARK