咖啡日语论坛

 找回密码
 注~册
搜索
查看: 28033|回复: 172

[使用心得] 『日本語文型辞典』的EPWING化

[复制链接]
发表于 2010-6-7 18:00:13 | 显示全部楼层 |阅读模式
本帖最后由 tcp_2006 于 2010-9-9 10:05 编辑


《日本语文型辞典》(EPWING格式)勘误任务认领
报名请到:http://coffeejp.com/bbs/thread-311621-1-1.html



《日本语文型辞典》(EPWING格式)已经完成并发到各个参加者邮箱,请查收。


之前我提议将《日本语文型辞典》EPWING化,得到一些朋友的响应,非常感谢。这本词典一共656页,我想如果有20个人,每人分个30多页,应该没有问题,实际上我自己也做了一些,已经放到之前发布的那个“自己整理的日语句型辞典”里去了。报名的同学,发你的邮箱到到 tcp_2006@sina.com.cn ,标题就写 『日本語文型辞典』的文本化报名 即可。做好的辞典内部交流用。

请参加者加入  词典交流qq群(35578512)

统一格式:
采用word格式【这里是yindian制作的样本】
1,不加振假名。
2,大词条用一级标题,其下的小词条用二级标题,以此类推。保留原本内容的层级。一级标题,二级标题、正文等都用word里面的“样式表”实现。
3,完成后的稿件请命名为:
bunkei_(起始页码,3位数)_(结束页码,3位数)_(你的ID)
例如我完成的稿件命名为:bunkei_001_030_tcp_2006
4,分页后的pdf文档下载地址(感谢xvlei1126) http://www.brsbox.com/xvlei1126/


目前分工(争取9月1日前完工):
  • tcp_2006  负责1-30page(已完成!)
  • love_lihong1314 负责   31-60page(尚未交稿)
  • Yin Dian   负责61-90page(已完成!)
  • 大笨猪 负责91-120page (已完成!)
  • xvlei1126 负责121-150page(已完成!)
  • tarata 负责151-180page (已完成!)
  • 自是词痴负责 181-210page(已完成!)
  • li5jun1 负责 211-240page(已完成!)
  • Yaguchi Yuki负责 241-270page(已完成!)
  • han-1998负责271-300page(已完成!)
  • rongdian 负责301-330page(已完成!)
  • skywood 负责331-360page(已完成!)
  • tatsuya23  负责361-390page(已完成!)
  • icesunx 负责391-420page(已完成!)
  • 囧囧猫 负责421-450page(已完成!)
  • zhaos_2005 负责451-480page(已完成!)
  • geatom 负责481-510page(已完成!)
  • choushuushi负责 511-540page(已完成!)
  • 屋上之鼠 负责 541-570page(已完成!)
  • snowfoxbbs 负责 571-600page(已完成!)
  • hirotubasa  负责601-630page(已完成!)
  • Yin Dian   负责631-656page(已完成!感谢YinDian!)



etypist(文字识别软件)的下载(感谢xvlei1126)
etypist
http://www.rayfile.com/zh-cn/fil ... -ad2c-0015c55db73d/
破解文件
http://www.rayfile.com/zh-cn/fil ... -a475-0015c55db73d/

PDF版【日本語文型辞典】下载地址
http://coffeejp.com/bbs/thread-187255-1-1.html


使用etypist进行扫描的技巧(感谢 自是词痴)
1.用e-typist扫描时不要一下子选一整页。因为文件一页分成了四栏,要利用e-typist里的圈选工具把四栏沿周边圈好,一点要把每栏有文字内容的地方都圈进去,如果没有圈完整,周围的字就会识读不清楚。其实可以很放心地圈选,因为e-typist会自动地把圈选的边界缩到文字的周边。
2.扫描出来的结果ctrl+C ,ctrl+V全部粘贴到word文件内。这里也需要一栏一栏地复制。不要整个全部复制
3.觉得一口气把所有的任务页全部扫描出来再粘贴到word。这样做的效率要高于做一页,扫描一页,粘贴一页。
4.粘贴完后,就逐字认真地对照原PDF来校对了。因为原书全部是日文,e-typist的认读效率很高很高,文字几乎没有错误,我可以有把握地说准确率在99.5%以上。我校对下来,觉得就是日语的标点符号有时不太准确。比如? ,...等。
5,(tcp_2006)补充一点:识别的时候,可以设置为不识别振假名(ルビ)。


yindian做出来的EPWING的效果:


关于制作过程中的几个问题(讨论):
yindian提出了两个问题:
1,是否保留振假名的问题:
xvlei1126认为,不必保留。我完全同意。理由是:1,使用该辞典的人都有一定基础,2,在ebwin中随时可以查生词。

2,最终采取何种格式的问题:
主要是两种格式:EPWING和PDIC。我个人对制作EPWING格式有些了解,但是没有实际做过;对PDIC很了解。
xvlei1126和yindian倾向于EPWING格式,从yindian发给我的样本来看,确实非常好。
yindian的意见:
如果做成EPWING格式的话,就可以不用表格来填词条和释义,可以在doc里将每一大项【xxx】样式设成一级标题,小项设成二级标题等等,另存成html后把编码转成Shift_JIS就能直接用EBStudio编译了,会自动生成目录和词条索引,如果前面注了振假名的话也能显示。
尽管我认为PDIC格式有便于修改和添加词条、便于转换等其他好处,但是似乎没法实现分层目录和链接。因此。同意yidian的意见。
回复

使用道具 举报

发表于 2010-6-11 09:30:30 | 显示全部楼层
你還是分享出來吧~~嘻嘻
回复 支持 反对

使用道具 举报

发表于 2010-6-11 10:59:55 | 显示全部楼层
这个我赞成,这本辞典可能是最好的句型辞典了,我也很想要EBWIN的版本。建议楼主用中文重新发一个募集的帖子,能招募到10个人左右,就很容易作出来了(5、6个人也差不多够了)。可以强调参与的人才有份,免得有些人想不劳而获,相信这本辞典的号召力,一定有很多人参与的。
强调一下这本辞典是外研社《日本语句型辞典》的日文原版,学日语的人应该都知道这本辞典的重要性!看日文原版能更好地理解日本要表达的含义。
回复 支持 反对

使用道具 举报

发表于 2010-6-11 11:08:16 | 显示全部楼层
本帖最后由 xvlei1126 于 2010-6-11 11:36 编辑

楼主可以参考本版制作《日汉大辞典》的先例,说明一下方法、要求,并提供一页样本。详见:
http://coffeejp.com/bbs/thread-198120-1-1.html
这个应该很容易的,因为是纯日语的,文字识别然后校对就可以了。十几个人,每个人用几个小时就能搞定。主要是统一规格,楼主要详细说一下对录入格式的要求。
回复 支持 反对

使用道具 举报

发表于 2010-6-11 13:18:29 | 显示全部楼层
楼主加油。算我一个。
回复 支持 反对

使用道具 举报

发表于 2010-6-11 16:50:00 | 显示全部楼层
是不錯,但還是喜歡日中版本
回复 支持 反对

使用道具 举报

发表于 2010-6-11 17:43:30 | 显示全部楼层
个人还是喜欢日文原版的。看日文的解释更加清晰明白。
最主要的是纯日文版的文字识别很容易,可以一次成型,剩下的就是校对了。
要是日中版的那就麻烦大了。
回复 支持 反对

使用道具 举报

发表于 2010-6-11 20:24:28 | 显示全部楼层
好主意
日文版才是好東西
可惜最近工作實在太忙 ...... 使不上力 SORRY
回复 支持 反对

使用道具 举报

发表于 2010-6-11 22:41:35 | 显示全部楼层
算我一个。
回复 支持 反对

使用道具 举报

发表于 2010-6-13 22:09:35 | 显示全部楼层
顶,顶上去!
回复 支持 反对

使用道具 举报

发表于 2010-6-15 18:29:33 | 显示全部楼层
顶,再顶上去。
回复 支持 反对

使用道具 举报

发表于 2010-6-16 17:21:02 | 显示全部楼层
已经给你发mail,请查收
回复 支持 反对

使用道具 举报

发表于 2010-6-17 11:07:36 | 显示全部楼层
我也发过去报名了。
回复 支持 反对

使用道具 举报

发表于 2010-6-18 22:16:12 | 显示全部楼层
楼主你好,我初步手打一部分后,有两个问题:
1、振假名要不要保留?
2、最后是做成EPWING还是PDIC格式?

不保留振假名则相当于丢失了不少信息。保留振假名的话,用word或者wps的拼音指南可以半自动地添加,不过源文件得存成doc,Excel恐怕不行。

如果做成EPWING格式的话,就可以不用表格来填词条和释义,可以在doc里将每一大项【xxx】样式设成一级标题,小项设成二级标题等等,另存成html后把编码转成Shift_JIS就能直接用EBStudio编译了,会自动生成目录和词条索引,如果前面注了振假名的话也能显示。

我觉得这样可能会比较方便。不知诸君有何见地?
回复 支持 反对

使用道具 举报

发表于 2010-6-18 22:36:15 | 显示全部楼层
大家都用什么ocr软件,我的e.Typist v.12.0已经不能破解了,友好用的分享一下。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注~册

本版积分规则

小黑屋|手机版|咖啡日语

GMT+8, 2024-4-28 17:40

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表