咖啡日语论坛

 找回密码
 注~册
搜索
查看: 3022|回复: 19

[软件分享] 现代汉语词典文本文件,欢迎EPWING化

[复制链接]
发表于 2007-7-30 09:23:47 | 显示全部楼层 |阅读模式
现代汉语词典文本文件,欢迎EPWING化.
请参看附件下载.

现代汉语词典.part1.rar

976.56 KB, 下载次数: 333

现代汉语词典.part2.rar

749.42 KB, 下载次数: 319

回复

使用道具 举报

发表于 2007-7-30 09:56:35 | 显示全部楼层
俺不会,但是十分期待有高手转换。
回复 支持 反对

使用道具 举报

发表于 2007-7-30 09:59:44 | 显示全部楼层
是啊,我做出来的总是乱码,郁闷
回复 支持 反对

使用道具 举报

发表于 2007-7-30 14:30:38 | 显示全部楼层
谢谢.非常好
回复 支持 反对

使用道具 举报

发表于 2007-7-30 17:03:49 | 显示全部楼层

其中的不明字符

如下,不明白辞典中&和拼音之间的黑点是什么字符(这里的黑点不太明显)。

&·bei    &·bian    &·bo   &·chen   &·da    &·de    &·e    &·huai    &·jie    &·jiu    &·la   &·le   &·lei
  &·li    &·lie    &·lo    &·lou    &·lu    &·ma    &·me    &·men    &·na    &·ne    &·qu   &·shang  &·shi  
  &·tou    &·wa   &·xu    &·yo    &·zan    &·zhe    &·zi

[ 本帖最后由 songtaiping 于 2007-7-30 18:42 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-7-30 17:27:54 | 显示全部楼层
原帖由 songtaiping 于 2007-7-30 17:03 发表
&·bei    &·bian    &·bo   &·chen   &·da    &·de    &·e    &·huai    &·jie    &·jiu    &·la   &·le   &·lei
  &·li    &·lie    &·lo    &· ...

????????????
回复 支持 反对

使用道具 举报

发表于 2007-7-31 19:18:06 | 显示全部楼层
汉语词典为什么要作成EPWING格式?EBWIN对中文支持不好.
回复 支持 反对

使用道具 举报

发表于 2007-7-31 19:26:40 | 显示全部楼层
原帖由 lgl0769 于 2007-7-31 19:18 发表
汉语词典为什么要作成EPWING格式?EBWIN对中文支持不好.

检索方便,可以附加一个MAP文件,就可以解决中文支持不好的问题吧。《现代汉语词典》有babylon版的,但是检索还是觉得EBWIN方便。
回复 支持 反对

使用道具 举报

发表于 2007-7-31 19:45:49 | 显示全部楼层
想到了,楼主用PPC.
我看了下资料,作成字典还可以,但是词典,俺的拼音不好,不行,
不知有无高人出手.
回复 支持 反对

使用道具 举报

发表于 2007-8-3 23:48:47 | 显示全部楼层

处理文本的代码

感谢hanyl2006版主提供数据。
贴一个处理文本的perl代码,供咖友自制epwing时参考。

1. 删除开头的几行说明、类似“&·bei”和“(A-G)”的行之后,在DOS命令行执行以下perl代码。

% perl <本代码文件名> <辞典文本文件名>

while(<>) {
    chomp;  # 除回车。
    $s = $_;
    if ($s =~ /^\s\s\&/) {  # 判断是否单字。
        $s =~ s/^\s\s\&//;  # 除去单字之前空格。
        next if ($s =~ /^\xA3/ || $s =~ /^\xA8/);  # 不输出拼音开头开始的行。
        @a = split(//, $s);  # 各字节放入数组。
        print $a[0], $a[1], " /// ";  # 按pdic格式要求输出单字。
        for($i=2;$i<@a;$i++) {
            print $a[$i];  # 输出单字开始的余下部分。
        }
    } else {
        if ($s =~ /\s\s(【+[^】]*?】)/) {  # 判断是否单词。
            $w = $1;  # 暂存单词。
            $s =~ s/$w//;  # 除去单词。
            $s =~ s/\s//g;  # 除去空格。
            print $w, " /// ", $s;  # 按pdic格式要求输出单词及其解释部分。
        } else {
            $s =~ s/】/】 \/\/\/ /;  # 其他情况用分隔符替代单词结束符。
            $s =~ s/^\s//g;  # 除去空格。
            print $s;  # 整行输出。
        }
    }
    print "\n";  # 输出回车。
}

2. 保存以上输出结果到另一文本文件,转换成utf-8之后,用c2epw在命令行转换成html文件。
% C2EPW.exe utf-8.txt chsdic.htm
  转换html文件时,错误的地方会写在err.txt里,对照源文件修改utf-8文件、生成html文件,
反复直到C2EPW不产生err.txt。chsdic.htm大小46MB。

3. 用EBStudio 把chsdic.htm 制成 honmon。
  在中文XP用Apploc打开EBStudio。在『書籍の挿入』→『入力ファイルの登録』→『入力ファイル』选上chsdic.htm,
『ファイル種別』选“HTML”。『外字フォント』和『外字定義』分别填c2epw下的gaiji.xml、gaijimap.xml。
点『!』実行之后过一段时间生成honmon文件,48MB。太大了?在chsdic.htm删除tag和十六进制码等不必要的可以瘦身。

以上有任何问题欢迎指教、讨论。

[ 本帖最后由 songtaiping 于 2007-8-4 09:22 编辑 ]

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

发表于 2007-8-4 06:51:05 | 显示全部楼层
原帖由 songtaiping 于 2007-8-3 23:48 发表
実行之后过一段时间生成honmon文件,48MB。太大了?在chsdic.htm删除tag和十六进制码不必要的可以瘦身。.

这个文件能生成48M这么大吗?是什么原因.
回复 支持 反对

使用道具 举报

发表于 2007-8-4 06:55:22 | 显示全部楼层
感谢版主的豆豆。
感谢天照大神最初的指导以及lgl0769 指点。
学艺不精,献丑、见笑了。

[ 本帖最后由 songtaiping 于 2007-8-4 09:55 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-8-4 06:57:59 | 显示全部楼层
不客气,大家互相学习,
对于你提供的Perl我就不懂,没时间研究啊
回复 支持 反对

使用道具 举报

发表于 2007-8-4 07:12:47 | 显示全部楼层

回复 lgl0769 #11、#13

> 这个文件能生成48M这么大吗?是什么原因.
回头我查查什么原因。

> 对于你提供的Perl我就不懂,没时间研究啊
每行代码前的空格这里不能显示,拷贝全部代码贴到文本编辑器可能看得比较清楚。
#之后是注释。在命令行执行
perl <本代码文件名> <辞典文件名>
可以看到处理结果。
请教lgl0769 用的什么处理文本的?

[ 本帖最后由 songtaiping 于 2007-8-4 07:18 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2007-8-4 07:20:54 | 显示全部楼层
不好意思的说一声,用EXCEL中的VB,因为这样子,上班有空时也可用.
公司中不准安装软件的哦.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注~册

本版积分规则

小黑屋|手机版|咖啡日语

GMT+8, 2024-10-1 22:15

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表