咖啡日语论坛

 找回密码
 注~册
搜索
查看: 7597|回复: 12

[软件分享] 欢迎大家讨论EPWING词典转TXT格式数据库的方法

[复制链接]
发表于 2007-9-1 17:04:39 | 显示全部楼层 |阅读模式
欢迎大家讨论EPWING词典转TXT格式数据库的方法,
方法一:使用一个叫DDWIN的免费软件(只能在日语环境下,中文xp,2003的话先把语言设为日语),在没有输入任何单词的空白状况下,采用全文搜索,再结果另存为txt文件就可以了。...
方法二:...........
欢迎大家讨论.
回复

使用道具 举报

 楼主| 发表于 2007-9-1 20:02:14 | 显示全部楼层
原帖由 aloren 于 2007-9-1 18:28 发表
是有其它的要求吗??
EB系列的
EBDUMP可以导出有标记和和没有标记的文本,非常方便啊.

词典里面的外字都是[123F]等标志,怎么处理啊?
回复 支持 反对

使用道具 举报

发表于 2007-9-3 17:55:19 | 显示全部楼层
形如 &#XXXX; {X∈16进制码} 的外字拿perl 的 regular expression 转成16进制,用editor看转换后的文本。
回复 支持 反对

使用道具 举报

发表于 2007-9-3 19:38:26 | 显示全部楼层
请教songtaiping :

明镜辞典(注音版)外字文件中有个ebcode是A12A的外字,
找到其在辞典中的对应位置,发现其代表的是©字符
即A12A=©
请问除了一个个到原文中去找之外,有什么方法可以快速知道所有外字所各自对应的字符吗?


多谢。

[ 本帖最后由 tony4jp 于 2007-9-3 19:55 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-9-4 10:36:42 | 显示全部楼层

回复楼上 #5

抱歉手头没有明镜辞典,以c2epw为例说一个方法,供参考。
在c2epw的外字文件(gaijimap.xml)对字符©的定义如下:
<gaijiMap name="copy" unicode="#x00A9" ebcode="A121" alt="(c)" />
所有外字都有这么一行。
明镜辞典外字文件中字符&copy;的ebcode是A12A,ebcode起始码跟c2epw的有些差别,unicode="#x00A9"应该是一致的。
用perl 的 regular expression/正则表达 把unicode="#xXXXX"中的16进制码XXXX 取出来、转成16进制,用editor看转换后的文本。

16进制码转成16进制参考perl代码:pack("H4", $unic);
用editor看转换后的文本:Unicode big endian / UTF-16BE。

算不算快速?

以下贴一个偶转换的开头一部分。“圍”开始乱掉,貌似变成 little endian,而且c2epw的gaimap.xml没有“圍”的编码,还得查查原因。
至于在UTF-16BE文本中输出类似 ebcode="A121"  的标识,还得想想办法。

&copy;·&Agrave;&Aacute;&Egrave;&Eacute;&Igrave;&Iacute;&Ograve;&Oacute;&Ugrave;&Uacute;&Uuml;àáèéìíòóùúüĀāĒēĚěĪīŌōŪūǍǎǏǐǑǒǓǔǕǖǗǘǙǚǛǜ丌专业丛东丝丢两严丧丨丫丬丰临为丽举乇么义乌乐乒乓乔乜习乡书乩买亍亏亓亚产亩亲亵亻亿仃仅仉仑仓仡仨仪仫们仳仵份仿众优伙伛伞伟传伢伤伥伦伧伪伫伲佘佟你佣佤佥佧佬佴佾侄侉侔侗侣侥侦侧侨侩侪侬俅俏俜俞俦俨俩俪俭俱倌倘倜倮债倻值倾偌偎偷偻偾偿傈傣傥傧储傩傺傻僦僬僳儆儇儋兑兕兖內兰关兴兹养兽冁冈军农冯冻冼净凇减凑凤凫凯凳击凼凿刁刂刍划刖刘则刚创删刨别刭刽刿剀剁剂剐剑剜剡剧劁劂劐劓劝办务劢动劲劳势勋勐勖勰匀匦匮匾华协单卖卟卡卢卣卤卧卫卺厅历厉压厌厍厕厝厢厣县叁发变叠另叵叹叻叼叽吆吒吓吕吖吗吞吡吣吧吨启吱吲吴吵呃呋呐呒呓呔呕呖呗员呙呛呜呢呤呦呲呸咂咔咕咖咙咚咛咝咣咦咧咩咪咭咱咴咷咻咿哆哌响哎哏哐哑哒哓哔哕哗哙哚哜哝哞哟哧哪哳哼哿唁唉唑唛唠唢唣唤唧唪唬唰唷唼唿啁啃啉啊啐啕啡啤啥啦啧啪啬啭啮啵啶啷啸喁喂喆喈喏喑喔喱喳喵喷喹喻喽喾嗉嗌嗍嗑嗒嗓嗖嗝嗡嗥嗦嗨嗪嗫嗬嗯嗲嗳嗵嘀嘁嘈嘌嘎嘏嘞嘟嘣嘤嘧嘬嘭嘹嘻嘿噍噔噗噘噙噜噢噩噱噶噻噼嚅嚎嚓嚣嚯嚳嚷囊囔囝囟囡团囤囫园囱围囵图圆圍੗⍗⥗⩗ⱗ⹗⽗㍗㥗㩗㹗䱗䵗块婗字屗嵗幗彗恗桗歗浗潗獗癗睗筗籗荗著蕗虗豗鉗魗ꅗꙗꝗ꥗ꭗ굗깗뉗둗롗쉗콗핗��&#679255;ﵘݘ൘ᅘṘ⁘䑘䱘䵘敘汘聘腘襘鉘饘驘鹘꥘뱘љݙ൙ᑙὙ⑙⽙㑙㥙㩙㱙䅙䉙䭙噙癙祙虙蝙衙鉙静鹙ꑙ꥙꩙ꭙ깙꽙쩙퉙흙&#157017;讀њ՚ٚݚ࡚ౚፚ⍚ㅚ㉚㑚䩚啚杚瑚畚癚睚穚꩚뉚덚땚롚퉚푚&#157786;᝛㑛㝛卛奛扛橛汛湛絛腛葛鍛鹛ꁛꅛ꩛꭛뵛빛拏ﭛﱜᑜᕜᡜᱜᵜ╜❜ⱜ㑜䉜䥜奜捜晜穜罜腜艜衜赜陜靜顜饜驜魜鱜ꉜꍜ굜땜뵜뽜셜쑜쭜퉜ɝٝ͝ṝ⑝♝❝ⵝ⹝㑝㵝㹝䝝䩝塝孝嵝歝瑝饝앝Ş՞࡞ཞၞᑞᕞᡞᱞ♞❞⹞ㅞ㭞㱞䉞孞幞聞虞譞遞酞鍞鑞饞鹞齞ꕞ덞륞빞텞퉞_ɟݟ࡟ ⩟㥟㩟䁟偟剟啟塟摟筟襟镟鱟땟띟쑟왟쥟콟큟텟퉟﹠`Šɠ͠Ѡՠ٠ഊ怍怔怵总怼怿恝恧恳恶恸恹恺恻恼恽恿悝您悫悬悭悯悱悻惊惋惕惝惦惩惫惬惭惮惯愠

[ 本帖最后由 songtaiping 于 2007-9-4 10:56 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-9-7 02:23:17 | 显示全部楼层
谢谢楼上的朋友,可是:

明镜词典的gaijimap.xml文件在哪里有呢?
回复 支持 反对

使用道具 举报

发表于 2007-9-12 10:25:56 | 显示全部楼层

回复 #6

> “圍”开始乱掉,貌似变成 little endian,而且c2epw的gaimap.xml没有“圍”的编码
原因好像是“圍”的位置的编码本来是“570A”,其中的“0A”变成了“0D0A”(回车换行的十六进制码)。
参考 http://dev.csdn.net/article/70/70617.shtm ,是输出的问题。改为二进制输出,输出结果显示正常。
以下paste一部分。

  00A9 &copy;  00B7 ·  00C0 &Agrave;  00C1 &Aacute;  00C8 &Egrave;  00C9 &Eacute;  00CC &Igrave;  00CD &Iacute;  00D2 &Ograve;  00D3 &Oacute;  00D9 &Ugrave;  00DA &Uacute;  00DC &Uuml;  00E0 à  00E1 á  00E8 è
  00E9 é  00EC ì  00ED í  00F2 ò  00F3 ó  00F9 ù  00FA ú  00FC ü  0100 Ā  0101 ā  0112 Ē  0113 ē  011A Ě  011B ě  012A Ī  012B ī
  014C Ō  014D ō  016A Ū  016B ū  01CD Ǎ  01CE ǎ  01CF Ǐ  01D0 ǐ  01D1 Ǒ  01D2 ǒ  01D3 Ǔ  01D4 ǔ  01D5 Ǖ  01D6 ǖ  01D7 Ǘ  01D8 ǘ
  01D9 Ǚ  01DA ǚ  01DB Ǜ  01DC ǜ  4E0C 丌  4E13 专  4E1A 业  4E1B 丛  4E1C 东  4E1D 丝  4E22 丢  4E24 两  4E25 严  4E27 丧  4E28 丨  4E2B 丫
  4E2C 丬  4E30 丰  4E34 临  4E3A 为  4E3D 丽  4E3E 举  4E47 乇  4E48 么  4E49 义  4E4C 乌  4E50 乐  4E52 乒  4E53 乓  4E54 乔  4E5C 乜  4E60 习
  4E61 乡  4E66 书  4E69 乩  4E70 买  4E8D 亍  4E8F 亏  4E93 亓  4E9A 亚  4EA7 产  4EA9 亩  4EB2 亲  4EB5 亵  4EBB 亻  4EBF 亿  4EC3 仃  4EC5 仅
  4EC9 仉  4ED1 仑  4ED3 仓  4EE1 仡  4EE8 仨  4EEA 仪  4EEB 仫  4EEC 们  4EF3 仳  4EF5 仵  4EFD 份  4EFF 仿  4F17 众  4F18 优  4F19 伙  4F1B 伛
  4F1E 伞  4F1F 伟  4F20 传  4F22 伢  4F24 伤  4F25 伥  4F26 伦  4F27 伧  4F2A 伪  4F2B 伫  4F32 伲  4F58 佘  4F5F 佟  4F60 你  4F63 佣  4F64 佤
  4F65 佥  4F67 佧  4F6C 佬  4F74 佴  4F7E 佾  4F84 侄  4F89 侉  4F94 侔  4F97 侗  4FA3 侣  4FA5 侥  4FA6 侦  4FA7 侧  4FA8 侨  4FA9 侩  4FAA 侪
  4FAC 侬  4FC5 俅  4FCF 俏  4FDC 俜  4FDE 俞  4FE6 俦  4FE8 俨  4FE9 俩  4FEA 俪  4FED 俭  4FF1 俱  500C 倌  5018 倘  501C 倜  502E 倮  503A 债
  503B 倻  503C 值  503E 倾  504C 偌  504E 偎  5077 偷  507B 偻  507E 偾  507F 偿  5088 傈  50A3 傣  50A5 傥  50A7 傧  50A8 储  50A9 傩  50BA 傺
  50BB 傻  50E6 僦  50EC 僬  50F3 僳  5106 儆  5107 儇  510B 儋  5151 兑  5155 兕  5156 兖  5167 內  5170 兰  5173 关  5174 兴  5179 兹  517B 养
  517D 兽  5181 冁  5188 冈  519B 军  519C 农  51AF 冯  51BB 冻  51BC 冼  51C0 净  51C7 凇  51CF 减  51D1 凑  51E4 凤  51EB 凫  51EF 凯  51F3 凳
  51FB 击  51FC 凼  51FF 凿  5201 刁  5202 刂  520D 刍  5212 划  5216 刖  5218 刘  5219 则  521A 刚  521B 创  5220 删  5228 刨  522B 别  522D 刭
  523D 刽  523F 刿  5240 剀  5241 剁  5242 剂  5250 剐  5251 剑  525C 剜  5261 剡  5267 剧  5281 劁  5282 劂  5290 劐  5293 劓  529D 劝  529E 办
  52A1 务  52A2 劢  52A8 动  52B2 劲  52B3 劳  52BF 势  52CB 勋  52D0 勐  52D6 勖  52F0 勰  5300 匀  5326 匦  532E 匮  533E 匾  534E 华  534F 协
  5355 单  5356 卖  535F 卟  5361 卡  5362 卢  5363 卣  5364 卤  5367 卧  536B 卫  537A 卺  5385 厅  5386 历  5389 厉  538B 压  538C 厌  538D 厍
  5395 厕  539D 厝  53A2 厢  53A3 厣  53BF 县  53C1 叁  53D1 发  53D8 变  53E0 叠  53E6 另  53F5 叵  53F9 叹  53FB 叻  53FC 叼  53FD 叽  5406 吆
  5412 吒  5413 吓  5415 吕  5416 吖  5417 吗  541E 吞  5421 吡  5423 吣  5427 吧  5428 吨  542F 启  5431 吱  5432 吲  5434 吴  5435 吵  5443 呃
  544B 呋  5450 呐  5452 呒  5453 呓  5454 呔  5455 呕  5456 呖  5457 呗  5458 员  5459 呙  545B 呛  545C 呜  5462 呢  5464 呤  5466 呦  5472 呲
  5478 呸  5482 咂  5494 咔  5495 咕  5496 咖  5499 咙  549A 咚  549B 咛  549D 咝  54A3 咣  54A6 咦  54A7 咧  54A9 咩  54AA 咪  54AD 咭  54B1 咱

[ 本帖最后由 songtaiping 于 2007-9-12 11:19 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-9-12 11:31:14 | 显示全部楼层

回复 #7 tony4jp

明镜词典的gaijimap.xml文件没有公布的话应该在制作人手里。
制作外字参考 http://www.coffeejp.com/bbs/view ... &extra=page%3D4

另外,原文中形如 &#XXXX; {X∈16进制码} 的外字可以用perl 的 regular expressions 先都找出来、列出来,
然后参考 #6 + #8 的办法转成字符。*.map文件中形如 uXXXX {X∈16进制码} 的外字也类似、可以转成字符。
从 <gaijiMap name="copy" unicode="#x00A9" ebcode="A121" alt="(c)" /> 用了不到20行perl代码 搞定 #8 的结果。

[ 本帖最后由 songtaiping 于 2007-9-14 09:33 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2009-4-22 20:51:15 | 显示全部楼层
说实话看了半天还是没看明白怎么回事
具体是要对那个文件进行 处理呢想知道请高手回复谢谢
回复 支持 反对

使用道具 举报

发表于 2009-4-22 20:52:34 | 显示全部楼层
上边所说的DDWin和EBDump都下载了可还是不清楚怎么到处能具体地说一下吗
而且EBdump好像只能导出一部分东西啊
DDWin那就是纯乱码了啊
回复 支持 反对

使用道具 举报

发表于 2009-4-22 20:53:09 | 显示全部楼层
DDWin的结果另存为txt在哪里啊?
回复 支持 反对

使用道具 举报

发表于 2009-4-22 20:58:01 | 显示全部楼层
现在因为这个问题很苦恼啊


谢谢解决
回复 支持 反对

使用道具 举报

发表于 2010-6-14 10:43:58 | 显示全部楼层
很复杂, 有简单的方法吗
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注~册

本版积分规则

小黑屋|手机版|咖啡日语

GMT+8, 2024-5-14 09:55

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表