因为 Kindle 的浏览器很垃圾(并且在校(高中)难以找到网络),决定自己整合一个部首检字表。
开始先找到按部首查字–在线新华字典,但是感觉 CJK 字符不是很全。经过一番搜索找到了漢字部首 | 古今文字集成,决定用这个来当材料。
这里记录一下本人的神必过程和抽象代码。
获取部首
curl 'http://ccamc.org/cjkv_radical.php' > b.txt
,然后直接读取每一行。它的网页结构非常非常简单(所以我为啥要记录呢),让一切都非常方便。
于是我直接按部首笔画数开了文件把部首和对应的链接弄到里面去了。
1 | import sys |
获取每个部首下的所有字
随机选了几个1画2画的部首看了看页面,然后直接开始写。
具体思路就是把每个部首下的字开一个文件存起来,并记录剩余笔画数和位于 CJK 哪个扩展,因为我日常使用其实不需要多生僻的字所以我希望生成.epub
时只留下 CJK-A 及以前的字。
然后这里出了一个大问题,就是我选的部首和剩余笔画数对应的字都太少了,没有出现字在不同页面的情况(不同情况可以参考口 | 剩餘8畫 | 漢字部首 | 古今文字集成和艹 | 剩餘2畫 | 漢字部首 | 古今文字集成),直到我发现生成出来的 .epub 查不到「范」「品」「俪」「栅」才意识到可能出现漏字。
于是后来回家查验发现属实,然后补上了(可以看到那部分写得很丑,虽然其他部分也写得很丑)。
1 | import sys |
整合成 .epub
感觉每一个部首对应的字也不多,所以直接就一个部首对应一个.html
文件。
另一个抽象大赏,css 直接沿用之前做高中古诗文整合的时候不知道从哪里偷来的 css(不过反正这个文件也非常简单,其实没有也罢),toc.ncx
直接暴力手写,.opf
文件(因为不想生成中间部分,,之类的)就生成了两段然后也是徒手粘到一起。
总之就是暴力和能用就行的产物。最后也确实能用。
1 | import sys |
回顾与反思
有没有人教我写代码。