このエントリーをはてなブックマークに追加 Twitterでツイート 立ち位置の違いなのか。。。

地味にメンテナンスしている「常用漢字チェッカー」を更新しました。
この更新に合わせて「常用漢字一覧」と「文字コード表」もリリースしています。

今回のリリースは「改定常用漢字表」の中に康煕部首(Kangxi部首)が含まれていたため、それを見直し。「メイリオ」などのフォントでは康煕部首に「一や龜」のイメージが割り当てられているのですが、「MS 明朝」を含む多くの日本語用フォントではこれらのイメージは割り当てられておらず、まずはそれらを修正しています。ただし、改定常用漢字表では文字コードを指定しているわけではなく、あくまでも字体を提示しているものなので、これは便宜的な対応といえるでしょう。
また「改定常用漢字表」で新しく追加された「塡・剝・頰」は、「筆写の楷書字形と印刷文字字形の違いが,字体の違いに及ぶもの」に分類されています。今回の更新ではこれらに準じる「填・剥・頬」も改定常用漢字とみなすようにしています。

さてPHPのプログラム的には1つだけメモを。これまでUTF-8の漢字判定は、Unicodeの「CJK統合漢字」の字種を対象とし以下の正規表現で行っていました。

[一-龠]

これだと改定常用漢字をカバーすることができないので、「CJK互換漢字」の字種も含めるよう次のように変更しています。

[一-龢欄-頻]

「CJK統合漢字」の「龠」から「龢」へ変更したのは、「龢」もJIS213のコードがあるためです。また「CJK互換漢字」の前方の字種は、JIS213のコードがないので「欄」から始めています。

現実的な問題として、作者の原稿(テキストデータ)に「装填」とあったものが、印刷所で刷り上がると「装塡」になると考えた場合、それを仲介する編集者が書き換えるものなのか、そもそも印刷所の活字(もしくはフォント)がその割り当てになっているのかはケースバイケースでしょう。また電子出版の場合は、その電子出版物の製作環境かユーザの環境(デバイス)に依存になります。
あれこれ考えると、なかなか悩ましい問題ではですよね。

投稿日:2010年9月2日
  • ※コメントは、スパム対策などのためIPアドレスにて制限しております。
  • ※誹謗や中傷、スパムなど、不適切な内容は公開いたしません。ご了承ください。