302016
 

最近,收到一位热心网友长长的留言,对我的博文《中华字经里的重复字》提出了看法。我一看,这篇帖子写于两年半前,读起来却觉陌生,自己几乎都忘了,乃至不敢相信出自我的手笔。想来当时正在熬论文盼毕业,心情焦急烦躁,文字里充斥着对理科生的调侃,却难免被误读成作为理科生的狂妄。何必呢?如果删去那些轻狂的文字,应该会更容易被人接受吧。

为了回复这位网友,我找到当时处理《中华字经》的R代码,想运行一遍,却发现连编译都通不过,看来需要更改电脑的区域设置,麻烦,索性任由它去吧。这也是近来不大更新博客的原因:有些话,如果放在以前,哪怕是两年前,可能会奋笔写到博客上,现在则是却上心头,欲说还休。

不过,这次有个意外的发现:这篇跟中华字经较劲儿的帖子,当时我只贴出了一部分;剩下的一部分,躺在电脑偏僻的一个文件夹里,许久没有理会了。我完全记不起,当年为何没有一并贴出来。如今读来,不觉莞尔:若不为无益之事,何以遣有涯之生?

下面是未贴出的后半部分,浅薄之处,让大家见笑了。

免责声明:本文以及上一篇帖子里提到的《中华字经》,指的是网上流传的版本,并非正版。

enter image description here


《中华字经》里4000字是否真的没有一个字重复,事实上,没有人真正在乎,也没有人在乎字经的文采如何。大家关心的,是这字经对教孩子认字到底有没有用。那么有没有用呢?

1988年,我国出版了《现代汉语常用字表》,多年来是现行规范汉字的重要依据。字表收录常用字2500个和次常用字1000个。掌握了这3500个汉字,基本上就算是识字了。我们看看中华字经跟这3500字有什么关系。这里的中华字经仍然以浪版为依据。

首先,把错别字订正了,并把重复字去掉。“糜”字暂不订正。

y = readLines('http://pastebin.com/raw.php?i=R5pc3XBJ', encoding = 'UTF-8', warn = FALSE)
y <- y[c(2,4,6,8)]
y <- gsub(',|,|,|。', '', y)
y <- gsub(substr(y[1], 5,5), '', y)
y <- paste(y, collapse="")
y1 <- unlist(strsplit(y, ''))
y1[which(y1 %in% c('府','丁', '私'))+1] <- c('第','歌', '己')
z <- unique(y1)
length(z)


## [1] 3961

常用字表的3500字来自在线新华字典。虽然这个网站经常出现错别字,但我实在不知道那个网站没有错别字,凑合用吧(2016-09-29更新:汉典更可靠)。

a <- readLines('http://pastebin.com/raw.php?i=ptMvt1yY', encoding = 'UTF-8', warn = FALSE)
a <- a[c(-1, -48)]
a <- a[seq(2, length(a), 2)]
a <- gsub(substr(a[1], 1, 1), '', a)
a <- paste(a, collapse=""); a1 <- unlist(strsplit(a, ''))
a1[duplicated(a1)]



## [1] "货" "三" "耕" "干" "徒"

这 3500 个常用字里竟然有 5 个重复的!果然是错别字,这里不多说了,凑合用。

sum(!(z %in% a1)); sum(!(a1 %in% z))

## [1] 488
## [1] 22

这就是说,字经里有 488 个字不属于常用字,常用字占88%,而常用字有22个没有包含在字经里。因此,说“字经包括了常用汉字3500个”,属于夸大其辞。下面列出这 22个字。

a1[!(a1 %in% z)]
##  [1] "再" "仰" "杂" "宇" "适" "秩" "啄" "温" "裕" "触" "籍" "旭" "苫" "咧"
## [15] "硕" "啰" "琢" "缅" "熙" "寥" "裉" "瞭"

作为对比,我们看看《千字文》,版本仍然来自在线新华字典

zz <-  readLines('http://pastebin.com/raw.php?i=BGQk7FV9', warn = FALSE, encoding='UTF-8')
zz = gsub(substr(zz[1], 5, 5), '', zz)
zz <- paste(zz, collapse="")
zz1 <- unlist(strsplit(zz, ''))
length(zz1)

## [1] 1000

zz4 <- substring(zz,seq(1, nchar(zz), by = 4), seq(4, nchar(zz), by = 4))
(zz.dup <- zz1[duplicated(zz1)])

## [1] "发" "云" "昆" "巨" "资" "戚"

我在《千字文里的重复字》里说了,这里边有繁体字、异体字的区别,此处不赘述,仅将误录的”资“字做订正。

zz1[which(zz1 == '务')+1] <- '兹'
sum(!(zz1 %in% a1)); 

## [1] 116

sum(!(a1 %in% zz1))

## [1] 2621

《千字文》里,只有 116 个字不属于常用字。不过,从比例上来说,跟中华字经差不多。

必须承认中华字经作者的水平。四千字几乎不重复而且押韵有意义的文章,专家用三年,我用三辈子也写不出。从这个角度说,只有佩服的份儿。

然而,我仍然不喜欢《中华字经》,原因如下:

  • 创新不够多。有《千字文》《百家姓》《元素周期表》在先,从实用角度说,《中华字经》里我找不出明显的创新。当然,也许在专业领域有重大的研究意义,我这种外行自然是不懂。官网称“《中华字经》是中国教育部、国家教育部语言文字应用研究所承接的教育科学”十五”规化课程的重点研究成果”,看得出来,这是有科研经费支持的。花了三年的经费写出个《千字文新编》,我觉得不妨去申请个项目来编写一本一万字不重复的《人类字经》。

  • 文采不够美。《中华字经》有些句子直接从《千字文》抄来,却不如原文美。比如《字经》说“云腾致雨,露结晨霜”,直接来自《千字文》“云腾致雨,露结为霜”,改了一个字,却改残了,对仗被破坏了。还有化学元素部分,其中没有什么逻辑可言,还不如直接背元素周期表有意义。《字经》越往后越没法看,比如“痈疽痔痢,癞疥脖腕。瘴瘪痹瘸,瘁疟腋胺”。这几句看得我浑身不自在。还有“哎哟哼哈,嘻嚷嘿唁,呸吻嘲啪。嗯吠啤噤,咪嗜嗤嘛”,不知道罗列出来有什么意义。

  • 方法不可取。这是最大的问题。教孩子认字,方法应该越简单越好。千字文已经足够孩子掌握汉字的规律了,如果能压缩到“百字文”而达到同样的效果,那才是方法的进步,属于真正的事半功倍。但扩展到4000字文(号称事半功倍),这是方法上的倒退。比如孩子背九九乘法表,从1到9一共45句,背会了之后,位数再多的乘法,也算得出来,因为掌握了乘法的规律,所以是好方法。但是你为了让孩子方便20以内的乘法就让孩子从 1 背到 19,那就要背 190 句,也不是没用,但有那工夫不如教孩子学习用一下计算器。

  • 宣传不足信。上一篇帖子证明了“中华字经里无一字重复”是虚假宣传,本帖证明了“中华字经涵盖了常用字表3500字”属于不实。其实,措辞上老老实实讲明“字经仅有个别字重复,涵盖了绝大多数常用字”,并不会降低字经的水准。如此夸大,反而让人疑惑。当然,如果正版字经解决了这个问题,善莫大焉。

识汉字的捷径,《千字文》足矣,不需要再有一部《中华字经》。

  6 Responses to “再谈《中华字经》”

  1. 中华字经,还真没有研究过。

  2. 很好奇文章中那些奇怪的代码要怎么才能运行呢?

  3. 中华字经 根本都没有听说过

 填写评论

(必填)

(必填)

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>