JISC 日本工業標準調査会 > JISC-データベース 規格票を無料で閲覧できる。ただしPDFはスキャンした画像で画質は粗く、解説も付属していない。さらに2008年3月27日からダウンロードしたものは表示できないように小細工された。JavaScriptを有効にしたAdobe Reader以外では閲覧すらできない素敵仕様。 > JIS X 0201 JIS X 0202 JIS X 0208 JIS X 0212 JIS X 0213 JIS X 0221 JIS作業計画の公開及びJISCへの意見陳述について これから制定または改正されるJISの原案 人名用漢字に対するJIS漢字コード表の対応状況の公表について 同等の資料が経済産業省のサイトでも公開されている。→人名用漢字に対するJIS漢字コード表の対応状況の公表について
日本規格協会 規格総合検索 規格票のオンライン販売。表からわざわざテキストデータを削除するといういやがらせ(じゃなきゃ何なんだ?)がされている。 たとえば JIS X 0213:2000/AMENDMENT 1:2004 に含まれる表は完全にアウトライン化されてテキスト情報が消えているが、ISO-IRに登録されているPDFに含まれる引用部分にはしっかりとテキストデータが存在する。なんで金払ってまで写経まがいの苦行を強いられなきゃなりませんか? そんなに転写ミスによる実装の誤りで混乱が拡大していくのがうれしいですか? JIS正誤票のお知らせ > JIS X 0208:1997(14.05) JIS X 0213<追補1>:2004(16.04) JIS最新発行 | 情報技術標準化研究センター (INSTAC) > 公開レビュー 移転後のページには古いページにあったリンクが必ずしも含まれていないので残しておく 公開レビュー > JIS X 0213 改正原案の公開レビュー 素案は削除済み > 漢字集合1面の符号表 | JIS文字コード改訂の考え方公開レビュー 資料は削除済み | 結果 これも削除済み 報告書の公開 公開レビューに同じ 報告書の公開 平成13年度 符号化文字集合(新JCS)調査研究委員会 成果報告書 上記の削除された素案から参照されている 平成14年度 符号化文字集合(新JCS)調査研究委員会の公開情報 平成13年度 符号化文字集合(新JCS)調査研究委員会の公開情報 人名用漢字の文字符号に関する規格検討報告会2005年1月版
法務省 > 法務省の紹介 > 民事局 > 戸籍統一文字情報 住基統一文字とは違うものらしい。ああ縦割り行政 審議会情報 人名用漢字部会 第1回会議 第2回会議 第3回会議 第4回会議 人名用漢字の範囲の見直し(拡大)に関する意見募集 人名用漢字の範囲の見直し(拡大)についての意見募集結果について 第5回会議 第6回会議 第7回会議 答申(人名用漢字の範囲の見直し(拡大)に関する意見) 法制審議会 開催予定 パブリックコメント 子の名に使える漢字
登記・供託オンライン申請システム 登記ねっと 供託ねっと 登記統一文字には文字情報基盤からも(おそらくIPAmj明朝の文字数65536文字超えを防ぐため)ハブにされた登記固有文字が含まれる。オンライン検索が整備されている戸籍統一文字と異なり、登記統一文字の仕様は非公開 【重要】申請用総合ソフトのバージョンアップ(4.2A→4.3A)について このバージョンアップ以後、登記統一文字の一部をUnicodeの私用面に収録した外字フォントがインストールされるらしい。
人名用漢字の変遷 テキストデータ(字体が正しく再現されるとは限らない)。JIS X 0208に「正しい字体が含まれない」文字に関しては代替テキスト付きの画像になっている。
電子政府の総合窓口 > 法令データ提供システム > 戸籍法施行規則 ニュースで不備を指摘されて表の部分が画像になった。
人名用漢字許容字体 81年の時点ですでに認められていた字体のみ許容字体表で引き続き認められた。
青空文庫 JIS X 0208と0213規格票の包摂関連項目 2011年9月の更新でUTF-8に変更されて、JIS X 0213の漢字も文字化けしなくなった。 新JIS漢字で包摂の扱いが変わる文字 こちらはShift_JISX0213エンコーディングのまま。当然Windows Vistaでも正しく表示されない。 漢字表一覧 当用漢字表 官報のスキャン画像付き 当用漢字字体表 官報のスキャン画像付き 校閲君 JISで新旧分離している文字のチェック JISX0213包摂規準適用除外104字と常用漢字追加95字について 新字の底本でも当用漢字になく常用漢字で追加されたものには旧字が使われている場合がある。
新・旧字対照表 舊字體變換アプレット 電子版工具箱使用上の注意 イワマン日記 正字→略字變換CGI 新旧字体表 【ゐゑ】舊字、舊假名遣ひで話すスレッド 三箇目 テンプレに有用なリンク集多数 以下の漢字を使ひ分けられて、初めて正字使ひと言へる。 {万|萬}は? 新字⇔正字變換表
misima 旧仮名遣い・旧字変換支援プログラム (DTIミラー)
おことわり 本プログラムは Unicode UTF-8 コードを『今昔文字鏡』の文字番号に変換する機能を有しているが,ここで公開している Web 版ではライセンスの関係で利用できないようになっている.
常用漢字表 文化庁 | 常用漢字表の内閣告示等について 平成22年版
トップ > 政策について > 告示・通達 > 告示・通達(さ行) > 常用漢字表:文部科学省 昭和56年版だが本表がテキスト化されているので字形を確認する役には立たない
文化庁 > 国語施策情報システム 2010年12月17日より国語施策・日本語教育へ移行作業中 > 当用漢字表(PDF) 当用漢字字体表(PDF) 人名用漢字(1951年) 同音の漢字による書きかえ 表外漢字字体表試案 表外漢字字体表
文字コード関連の作成資料集 小形克宏の「文字の海、ビットの舟」―― 文字コードが私たちに問いかけるもの “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」 小形さん。
★iモ沢くん _____ / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ | |。 | |オレ、 (| (二) |。 | < Unicode苦手なんだ… |____|。 | \____________ . (___) ∧__厂 ̄ ̄ ̄| || ,く| o |__| | ||〃 | o || | " | o ,〃 | └i^iー―(⌒) ┘ | | | | | | | | l二二l l二二l ____ 、ミ川川川彡 /:::::::::::::::::::::::::""'''-ミ 彡 //, -‐―、:::::::::::::::::::::三 ギ そ 三 ___ 巛/ \::::::::::::::::三. ャ れ 三 _-=三三三ミミ、.//! l、:::::::::::::三 グ は 三 ==三= ̄ 《|ll|ニヽ l∠三,,`\\::三 で 三 / |||"''》 ''"└┴‐` `ヽ三 言 ひ 三 ! | / 三 っ ょ 三 |‐-、:::、∠三"` | ヽ= U 三. て っ 三 |"''》 ''"└┴` | ゝ―- 三 る と 三 | / ヽ "" ,. 三 の し 三 | ヽ= 、 U lヽ、___,,,...-‐''" 三 か て 三 . | ゝ―-'′ | |::::::::::::_,,,...-‐'"三 !? 三 ヽ "" ,. | | ̄ ̄ ̄ 彡 ミ ヽ、___,,,...-‐''" ,,..-'''~ 彡川川川ミ 厂| 厂‐'''~ 〇 | ̄\| /
★米英シスターズ A 互 し! _ -── ‐- 、 , -─-、 -‐─_ノ 互 R 換 // ̄> ´  ̄  ̄ `ヽ Y , ´ ) 換 え I 漢 L_ / / ヽ 漢 | B 字 / ' ' i 字 マ ま が / / く !? ジ で 許 l ,ィ/! / /l/!,l /厶, だ さ i ,.lrH‐|'| /‐!-Lハ_ l /-!'|/l /`'メ、_iヽ よ れ l | |_|_|_|/| / /__!__ |/!トi i/-- 、 レ!/ / ,-- レ、⌒Y⌒ヽ ね る _ゝ|/'/⌒ヽ ヽト、|/ '/ ̄`ヾ 、ヽト、N'/⌒ヾ ,イ ̄`ヾ,ノ! l の 「 l ′ 「1 /てヽ′| | | 「L! ' i'ひ} リ は ヽ | ヽ__U, 、ヽ シノ ノ! ! |ヽ_、ソ, ヾシ _ノ _ノ -┐ ,√ !  ̄ リ l !  ̄  ̄ 7/ レ'⌒ヽ/ ! | 〈 _人__人ノ_ i く //! 人_,、ノL_,iノ! /! ヽ r─‐- 、 「 L_ヽ r─‐- 、 u ノ/ / / lト、 \ ヽ, -‐┤ ノ キ 了\ ヽ, -‐┤ // ハ キ { / ヽ,ト、ヽ/!`hノ ) モ |/! 「ヽ, `ー /) _ ‐' ハ ャ ヽ/ r-、‐' // / |-‐ く | > / / `'//-‐、 / ハ ハ > /\\// / /ヽ_ ! イ ( / / // / `ァ-‐ ' ハ ハ / /! ヽ レ'/ ノ > ' ∠ -‐  ̄ノヽ / { i l ! / フ / -‐ / ̄/〉 〈 \ /!
日本は韓国(の互換漢字)にひどいことをしたよね (´・ω・`)
日本が7文字もの互換漢字領域を韓国から強制的に略奪した悪逆非道ぶりに比べたら、韓国がハングル大移動でBMPのたった1万1千程度を消費して非互換変更したり、中国や台湾が非常に短期間でわずか4万程度の漢字を追加して品質に懸念を呼んだり、北朝鮮がハングルを「より合理的な配列」に並べ替えることを要求したり将軍様専用ハングルの追加を要求したり、韓国が高麗大蔵経からほんの数万の漢字(大多数が異体字)追加を要求したりUNCとして1万ぽっちの漢字追加を要求したりする程度のことは誤差の範囲にも入りませんよね。ぼくたちわたしたちはみなこの事実を受け止め、漢字統合の唯一の被害国として悲惨な文字コード戦争を二度と起こさないように誓わなければならないと思います(棒読み)。
面接官「特技は文字鏡とありますが?」 学生 「はい。文字鏡です。」 面接官「文字鏡とは何のことですか?」 学生 「フォントです。」 面接官「え、フォント?」 学生 「はい。フォントです。超漢字に大ダメージを与えます。」 面接官「・・・で、その文字鏡のJIS化は常用漢字を改訂するうえで何のメリットがあるとお考えですか?」 学生 「はい。鬼畜米英が襲って来ても守れます。」 面接官「いや、我が国には襲ってくるような輩はいません。それに他国に武力行使するのは憲法違反ですよね。」 学生 「でも、Unicodeにも勝てますよ。」 面接官「いや、勝つとかそういう問題じゃなくてですね・・・」 学生 「文字図形が15万以上収録されているんですよ。」 面接官「ふざけないでください。それに15万って何ですか。だいたい・・・」 学生 「15万字です。グリフとも書きます。包摂というのは・・・」 面接官「聞いてません。帰って下さい。」 学生 「あれあれ?怒らせていいんですか?使いますよ。インデックスフォント。」 面接官「いいですよ。使って下さい。インデックスフォントとやらを。それで満足したら帰って下さい。」 学生 「運がよかったな。今日は金が足りないみたいだ。」 面接官「帰れよ。」
よく考えたらAAじゃないけど(・ε・)キニシナイ!!
規格票を読む前に言っておくッ! おれは今JIS C 6228-1975の規格票をほんのちょっぴりだが体験した い…いや…体験したというよりはまったく理解を超えていたのだが…… ,. -‐'''''""¨¨¨ヽ (.___,,,... -ァァフ| あ…ありのまま 今 起こった事を話すぜ! |i i| }! }} //| |l、{ j} /,,ィ//| 『おれはJIS C 6220(当時)ローマ字を使っていたと i|:!ヾ、_ノ/ u {:}//ヘ 思ったらいつのまにかスウェーデン名前文字を使っていた』 |リ u' } ,ノ _,!V,ハ | /´fト、_{ル{,ィ'eラ , タ人 な… 何を言ってるのか わからねーと思うが /' ヾ|宀| {´,)⌒`/ |<ヽトiゝ おれも何をされたのかわからなかった… ,゙ / )ヽ iLレ u' | | ヾlトハ〉 |/_/ ハ !ニ⊇ '/:} V:::::ヽ 頭がどうにかなりそうだった… // 二二二7'T'' /u' __ /:::::::/`ヽ /'´r ー---ァ‐゙T´ '"´ /::::/-‐ \ WTERMのマニュアル間違いだとかfjで叩かれただとか / // 广¨´ /' /:::::/´ ̄`ヽ ⌒ヽ そんなチャチなもんじゃあ 断じてねえ ノ ' / ノ:::::`ー-、___/:::::// ヽ } _/`丶 /:::::::::::::::::::::::::: ̄`ー-{:::... イ もっと恐ろしいフライング掲載の片鱗を味わったぜ…
昔安岡先生のところに貼った奴
★やる夫がJIS漢字を改正するようです ____ / \ / _ノ ヽ、_ \ / o゚((●)) ((●))゚o \ 改正に反対の意見がいろいろ来たお… | (__人__) | \ ` ⌒´ / ____ / \ / _ノ ヽ、_ \ / o゚⌒ ⌒゚o \ でも対案の中身はバラバラだったお… | (__人__) | \ ` ⌒´ / ____ /⌒ ⌒\ /( ●) (●)\ /::::::⌒(__人__)⌒::::: \ だから原案通り行くお! | |r┬-| | \ `ー'´ /
何がすごいかって解説の7ページあたりに本当にそういう趣旨のことを書いているところ(さすがにAAは使ってないけど)。
例示字形変更 2004JISの変更をAJ1-5で表現したもの
JIS X 02XX の研究 JIS規格の著作権について。規格票は削除済み。JISCのサイトで見ましょう。
拡張する文字コード標準化と実装 次期Windowsは印刷標準字体に対応 Typography.EastAsianExpertForms Typography.EastAsianLanguage Windows Presentation Foundationでは、OpenTypeの日本語字形に関係するfeatureを指定できるようになった。XAMLからも利用可能。Win32ではUniscribeのversion 1.600以降でOpenTypeテーブルを利用可能。
アイヌ語用のカタカナ文字の入力についての注意事項 JIS X 0213の合成用半濁点など
Windows 9x を JIS X 0213 対応にする Windows NT を JIS X 0213 対応にする Windowsで第3・4水準漢字を使うための方法。サイトは閉鎖されたがNLSパッチは新漢字則で入手可能
JIS-UCS 変換表 声調記号はJISとUCSの間で互換性がないという話など
JIS X 0212-1990 と JIS X 0213:2000 正しく表示するにはJIS X 0212/0213のレパートリとJIS X 0202の符号拡張法に対応したブラウザが必要
MAPPINGS X 0213-UCSの非公式マッピング(JIS X 0213:2000に公式マッピングは存在しない。JIS X 0213:2004で定義された)および各種非公式マッピングの違い
Unicode 3.2 対応の「jisx0213code-csv.txt」について JIS X 0213の文字のうち302文字は追加漢字面に割り当てられ、25文字は合成で表すことになった。
JIS X 0213の特徴と、Emacs上での実装 JIS X 0213:2000の規格票では、互換漢字に提案するはずだった2-85-84が紛れ込んでいるため、BMPにないとして追加提案された漢字は303字ということになっている。
2002年の野望 2面の文字のうちUCSになかったものが282文字、JIS X 0212になかったものが(上記の282文字を含む)733文字
Unicode正規形、正規化とは (移転先) UCSでは合成によってしか表せないJIS X 0213の25文字
ISO/IEC JTC/1 SC/2 WG/2 N2312 UCSにおける声調記号の合成に関する文書
文字 リンク集。大漢和辞典のダッシュ付き文字番号のe漢字と文字鏡番号の対応表など 2000年7月25日頃 JIS X 0213の文字の写像のされ方がヘンという話
字体史研究 Missionary Linguisticsに移転 漢字字体規範DB 豊島正之の個人研究のページ JIS漢字関係での発表済の文章
euc.JP (伊藤隆幸のホームページから移転) 文字コードの話 ISO 2022の説明など 新旧JIS漢字相違点一覧(改訂版) ECMA登録済文字集合名称一覧
numa's diary:補助漢字と日本語 EUC - livedoor Blog(ブログ) UI-OSF日本語環境実装規約 「日本語EUCの定義」が含まれる 旧 opengroup.or.jp にあった OSF/JVC 関連ファイルの再公開 日本語ロケール関連ファイル
漢字袋 日本の「漢字表」 人名用漢字別表の変遷 中国の「漢字表」 台湾の「漢字表」 Unicodeの矛盾 Adobe-Japan1-6とUnicode Adobe-Japan1の漢字(部首画数順)
文字・コードに関する覚え書き 東アジアの文字集合の概要: 中国語 GB12345の字数はバージョン1.6~1.9のcjk.infがソース? 東アジアの文字集合の概要: 日本語 東アジアの文字集合概要: 韓国語 GB2312-80 一般符号名称, および UCS BMP との関係 Win98 Font Extension
移転先 文字・コードに関する覚え書き 東アジアの文字集合の概要: 中国語 東アジアの文字集合の概要: 日本語 東アジアの文字集合概要: 韓国語 GB2312-80 一般符号名称, および UCS BMP との関係 Word98/Win98 で MS明朝に追加された文字
- intlfonts 1.2のjiskan16
大幅に略字化されてしまっている漢字があります。例えば「濾」や「齟」がJIS X 0213で追加された略字の形になっています。これはJIS X 0208 に適合しませんし、(後略)
ポカーン。ホントに規格票読んでるの? 「3.3.3 受信装置」の適合性に関する規定とか。JIS X 0213用のフォントとして使うなら確かに区別できないと適合しないが、少なくとも「JIS X 0208 に適合しません」は明らかに誤り。
SIL ViewGlyph - Font Viewing Program TrueTypeフォントの中身をグリフIDで覗けるツール。UCSで符号が割り当てられていないPresentation formなどもすべて表示できる。
Windows の中の JIS 外漢字 移転先 JIS X 0212にも0213にも含まれていないIBM拡張漢字。U+6602とU+663Bの実装字形が同じに見える問題は、JIS 2004対応の際についでに修正されたらしい。その結果SJISの0xFAD0/0xEDB4はもともと25区23点の83JISの字形を表していたはずなのに、入れ替わって78JISの字形になってしまった。
ビブロス外字 記号外字1800V2 ビブロス外字版 和文フォント大図鑑 [ダイナコムウェア/ビブロス外字一覧表] KJIS/Plus/学参外字一覧
skf - simple kanji filter KEIS/JEF→JIS、KEIS拡張→Unicode 3.2の変換テーブルを含む。
株式会社イワタ IWATAFONT イワタU-PRESSとは… X0213の文字数がだいぶ怪しいが… 製品情報 イワタU-PRESSver2の紹介
OpenTypeフォント関連資料 | フォント製品 | 株式会社モリサワ U-PRESSフォントとPr6/Pr6NフォントのCIDの違いなど
Windows View Vol.18 - ■ TrueType協議会からの意見聴取について - ◆日本語拡張フォント名称のガイドライン(案)
字形が変わったら既存の集合には手を付けず変更後のグリフに新たなCIDが付与されることになってる。実際にはAdobe Japan1-4以降、Adobe Japan1-0に相当する領域の漢字は突如JIS90の規格票字形を表すことになったりしてるけど。
グリフ数 | CID | 説明 | |
---|---|---|---|
Adobe Japan1-0 | 1 | 656 | 「仝」(JIS X 0208では非漢字領域にあるが、Unicodeでは漢字扱い) |
2,965 | 1125~4089 | JIS X 0208-1983 第一水準 (Adobe Japan1-4以降、字形はX 0208-1990) | |
3,388 | 4090~7477 | JIS X 0208-1983 第二水準 (Adobe Japan1-4以降、字形はX 0208-1990) | |
254 | 7633~7886 | Ext字形 83JISで削除された字形のうち、PC98に載っていたもの | |
44 | 7961~8004 | Add字形 83JISで削除された字形のうち、富士通のPCに採用され、かつExt字形にないもの | |
2 | 8266~8267 | 83JISで削除された字形のうち、Ext字形にもAdd字形にも含まれないもの (2点しんにょうの「逢辻」2字形のみ) | |
Adobe Japan1-1 | 2 | 8284~8285 | JIS X 0208-1990で追加された2字 |
Adobe Japan1-2 | 359 | 8359~8717 | NEC選定IBM拡張文字 |
Adobe Japan1-4 | 83 | 13320~13402 | 常用漢字の旧字体 (常用漢字表のカッコ内字) |
5 | 13403~13407 | JIS C 6226-1978の異体字でAJ1-3までに未収録のもの | |
229 | 13408~13636 | JIS X 0208-1983の異体字 | |
646 | 13637~14282 | JIS X 0208:1997の異体字 校正必携の異体字もすべて含む | |
13 | 14283~14295 | IBM拡張文字の異体字 | |
1,090 | 14296~15385 | JIS X 0212-1990の漢字 | |
21 | 15386~15406 | JIS X 0212-1990の異体字 | |
15 | 15407~15421 | Unicodeの漢字 (JIS X 0221-1995の追加漢字集合サポートを満たすため) | |
20 | 15422~15441 | K-JISの漢字 | |
2 | 15442~15443 | 大漢和辞典の漢字 | |
Adobe Japan1-5 | 454 | 16779~17232 | JIS X 0213第三水準のうちAJ1-4までに未収録のもの |
1,897 | 17233~19129 | JIS X 0213第四水準のうちAJ1-4までに未収録のもの | |
1,133 | 19130~20262 | 電算写植用外字 (19312, 19346はJIS X 0213:2000のグリフ、20175, 20222はそれ以外の表外漢字字体表のグリフと共用) | |
34 | 20263~20296 | 表外漢字字体表 | |
2 | 20297~20298 | JIS X 0213:2000の異体字 | |
18 | 20299~20316 | JIS X 0213:2000の例示字形 (AJ1-4までに収録されていたものの異体字) | |
Adobe Japan1-6 | 1 | 21071 | JIS C 6226-1978の16区78点 |
3 | 21072~21074 | JIS X 0213:2004の例示字形のうち、AJ15までに未収録のもの | |
1,983 | 21075~23057 | JIS X 0212-1990の例示字形のうち、AJ15までに未収録のもの |
Adobe-Japan1-6文字コレクションに対応する日本語OpenTypeフォントについて Windows Vista上のJIS2004基準のフォントについて Adobeによる公式情報
Glyph Access Protocol Mac OSで、エンコード対象外グリフ(Unicodeで独立した符号を振られていないグリフ)にアクセスする方法
Macintosh用のフォントで商売しているフォントメーカーが出すWindows用のTrueTypeフォントは、AJ1相当の字形を外字として実装していることが多いようである(たとえばモトヤシーダEX。もっとも内部のグリフIDはAJ1とはぜんぜん違う)。WindowsでCID指定や字体切り換えに対応したアプリケーションがほとんどない(Adobe InDesignくらい?)ためか。TrueType OpenではすでにGSUBが定義されているが(縦書きで使うから当然か)、肝心のWindowsが対応してくれないことにはどうにもならない。Uniscribeで有効になっているfeatureをVariation Selectorに使えるはずだが。
Koichi Yasuoka (Japanese Version) 本・論文・雑文 Adobe-Japan1の漢字(部首画数順) Unicodeの異体字表(Variants table for Unicode) 日本における最新文字コード事情 Character Tables by Koichi Yasuoka Unicode-JIS/Unicode-GB/Unicode-CNS/Unicode-大漢和 Ext.B対応中 (CJK Compatibility Ideograph Supplementが未対応の模様) 戸籍統一文字からOTFを作る
Font technical notes 最新のCMapはなぜかここではなく下記Oreillyのサイトにて配布されている Adobe CJK Character Collections and CMaps for CID-Keyed Fonts Adobe-Japan1-6 Adobe-GB1-4 Adobe-GB1-1でGB12345の繁体字2,180字を追加 Adobe-CNS1-4 Adobe-Korea1-2 Adobe-Japan2-0 [224301]小塚フォントのアップデートにおけるデータ受け渡しの注意点
Adobe - Font and Type Technology Center トップページ以外古いページを残したまま移転するという技にやられた Font technical notes Adobe-Japan1-6 2008-02-15に全面改定。OCFの仕様書が含まれる。例によって前版から黙って差し替えたグリフがある模様(参照: FeZn/Bookmark : AdobeJapan1-6の文字列を追跡してみたりする気分。)。 Adobe-GB1-5 GB 18030-2005に対応、イ文字を追加 Adobe-CNS1-5 HKSCS-2004に対応 JIS2004基準のOpenTypeフォントをビルドする方法 この資料を見る限りAdobe Japan1-5NやAdobe Japan1-6Nは俗称という結論で問題なさそう。しかしAdobe自身が使うなよ… Unicode Variation Sequences in OpenType cmap format 14はまだ正式化していない OpenType 1.5仕様
大日本スクリーンの公式サイト > SCREEN|千都フォント|特別企画 > ヒラギノPro漢字グリフ一覧 Adobe Japan1-5までの漢字グリフの内訳も
Index of /english_examples/nutshell/cjkv/adobe AJ16とJIS X 0212/0213の対応表など
CMap Resources - CMap Resources - Adobe Open Source オープンソース版のCMap。HKSCS-2008に対応したAdobe-CNS1-6のCMapはここでしか配布されていない? fixedpoint.jp - CMap Resources がオープンソースライセンスに その後SourceForgeに移動したらしい。CMap Resources Mapping Resources for PDF
Ken Lunde Adobe Technical Note #5078: The Adobe-Japan1-6 Character Collection 全面改訂前の版のコピー Preliminary "Hanyo-Denshi" -> "Adobe-Japan1" IVS Mapping Table 89 CJK Compatibility Ideographs for Japanese
正式版 (人民网)
China’s 通用规范汉字表 (Tōngyòng Guīfàn Hànzìbiǎo) (Adobe CJK Type Blog) 2014年現在提案中のCJK Extension Fまで入れても3文字がまだUnicodeに符号化されていない
諫の簡化字は谏なのに揀の簡化字は拣な謎
答: 拣は簡化字総表で第一表にあったけど谏は第三表だから(つまり柬→东は一般的な規則ではない)。
国家标准|GB 18030-2022 GB 18030-2005から、18のコードポイントが入れ替わった 国家标准化管理委员会 强标全文阅读 強制規格のPDFを無料で閲覧できる。GB 2312、GB/T 12345、GB 18030-2000、GB 18030-2005など。ただしAdobe Reader 8以降とFileOpen Plug-inをインストールする必要あり 强制性国家标准查询 いつの間にかFoxit SDKのActiveXコントロールを使うようになっていた。当然IE必須 标准查询 こちらは有償だが規格の前文のみ無料で読める。GB/T 7589-1987など。
工业标准咨询网 Yet another 規格検索 GB12052-89
#5706 (Upgrade gb18030-2000 to gb18030-2005) m-acute以外のマッピングは変わってないはずだが…(つまりUnicode 4.1で追加された符号位置を使うには4バイト符号を使うしかない)。
全国信息技术标准化技术委员会汉字内码扩展规范(GBK)1.0版(报批稿).pdf GBKの原典っぽい? IRG N278とか書き足されている。よく見るとPUAのマッピングがWindows-936と一部異なるのだが…。
johnnyqian/gb-encodings GB 2312-80とGB 18030-2005
GB 18030-2000: Information Technology—Chinese coded character set for information interchange — Extension for the basic set GB 18030-2005: Information Technology—Chinese coded character set GB 18030-2022: Information Technology—Chinese coded character set
typesetting-standard/数字文字 at master · Haixing-Hu/typesetting-standard
教育部语言文字应用研究所(国家语委普通话与文字应用培训测试中心) 语言文字规范标准库 簡化字総表 現代漢語通用字表 GB13000.1-93 GB2312-80 その他色々な規格のJPEGイメージ
CJK Kanji Database for Library Cataloger 簡化字総表を編集してUCSとの対応を加えたもの
参考資料 CJK Unified Ideographs Extension B PreDIS R1 For ISO/IEC DIS 10646-2:2000 漢字正形
アジア漢字圏の文字改革 (1964年の)簡化字総表の概要説明あり
AntennaHouse GBフォント・ソリューション・サービス GB2312/GBK/GB18030に関する解説
Ken Lunde cjk.inf 95年12月版 繁体字を使うべき(だがGB/T 12345-90ではそうなっていない)22字のコードポイント(これ以降の版では削除) 95年6月29日版 これ以降の版ではGB/T 12345-90で入れ替えられた区点位置が1文字追加されているが、Unihanの対応表には未反映 The World of Character Sets & Encodings JIS X 0212と0213で2,743の漢字が共通、3,058の漢字が0212のみ、952の漢字が0213のみ、少なくとも32の微細な字形差があるそうな
MicrosoftのGB18030サポート GB18030のNLSやExtension A対応フォント
IEのエンコードメニューにGB18030が現れるかどうかは、HKLM\SYSTEM\CurrentControlSet\Control\Nlsの下にCP54936の定義があるかどうかで決まるらしい。メニューの文字列をどこから拾ってきてるのかは謎のままだが。
中国の町が住民200人に改姓要求、「漢字変換」理由に 独裁は効率が良くてうらやましいなあ(棒読み GB 18030の 「𢒉」 具体的にどんな字だったのかどこにも載ってなかったのだがこれでようやくわかった。安岡先生のツッコミも超もっともで、いくら漢字を増やしても検索できないんじゃ意味ないね。
韓国文字コード専門委員会関連文書(Korea JTC1/SC2) KS X 1001:2002(草案?)の解説を含んだ全文などがある
Code2000 UnBatang フォントにGSUBテーブルが必要。OGulimはCJK領域に裏フォント方式で各種表現形が定義されているだけで、GSUBテーブルはないが、表現形を(漢字との衝突を避けるために)PUAに移してGSUBテーブルを追加するためのパッチが有志によって公開されている。
ほら貝:サロン 独裁国家では将軍様だけが専用の文字コードをもらえ、資本主義国家では駄々をこねて金を払えば誰でも自分の名前の漢字に専用のコードをもらえる(理論上は)。汎用電子がやってくれました! しかも金すら払わず。とうてい北朝鮮のことを笑えないと思うのだが。
課題 33466 KPS 9566-2003とUnicodeの変換表。 KPS9566.TXT
Information on the most recent version of KPS 9566 (KPS 9566-2011?) Red Star OS 3.0の実装からリバースエンジニアリングしたもの。当然のように金正恩専用文字が追加されている。
CNS 11643 字碼査詢&下載 CNS査詢 CNSコードポイントで文字を検索。ここで検索できるのは漢字のみ。 中文碼介紹 BIG-5碼介紹 ISO 10646 漢字庫
面番号 | CNS査詢 (2008-05) | 規格票 (2007) | 規格票 (1992) | 規格票 (1986) |
---|---|---|---|---|
1 | 5401 | 5401 | 5401 | 5401 |
2 | 7650 | 7650 | 7650 | 7650 |
3 | 6395 | 6276 | 6148 | |
4 | 7298 | 7298 | 7298 | |
5 | 8603 | 8603 | 8603 | |
6 | 6388 | 6388 | 6388 | |
7 | 6539 | 6539 | 6539 | |
8 | 8836 | |||
9 | 1935 | |||
10 | 8836 | 8836 | ||
11 | 7472 | 3698 | ||
12 | 5418 | 3672 | ||
13 | 4743 | 4726 | ||
14 | 5473 | 5473 | ||
15 | 6831 | 6831 |
CNS査詢で検索できる字のすべてが標準化されているわけではないらしい。
經濟部標準檢驗局 CNSの検索ができる。いつの間にか2007年版が出てたけどCNS 11643-2004というのは存在していた形跡がない。さりげなく規格票のJPEG画像を閲覧もできる
中文資訊及資通術語標準網站 CNS 11643:2007の規格票から参照されてるのにリンク切れだったことがあるので、whoisで調べたIPアドレス版のURLも貼っておく→中文資訊及資通術語標準網站 中文資訊標準相關資料
教育部異体字字典 CNS11643に収録されている異体字の典拠が調べられる
中文資訊交換碼 CCCII <-> Unicodeの対応が疑わしい部分をファイルにしたものなど
台湾漢字のページ メーカーによる台湾の各種漢字コードなど
義守大學檔案伺服器 各種ファイルのアーカイブ
Big5 Variants in Mozilla: Mozilla 系列與 Big5 中文字碼 各種Big5の変種とUnicodeのマッピング Bug 310299より
紅眠亭 櫻花捜尋 Googleでも文字コードをUTF-8にするとBig5の仮名を検索できる Mozillaによるデータ破壊の問題はBug 9686の修正で解消した Big5とUnicode BIG5.TXTの謎マッピングの正体はIBMの変種であるというデマの発信源。 紅眠の愛の秘密日記
葉平的 Big5 網頁 Big5-2003草案の変換表など Big5-2003 文字コード関連のCNSのスキャンやBig5-2003の対応表など。やっぱりCNS11643はまだ改訂されていなかったらしい
IBM Code Pages IBM版Big5やらシフトJISやらの文字表のPDFあり。 IBM Globalization - ICU - Using ICU - Source Code Repository 変換表。仮名文字はETen互換であり、IBMのBig5がBIG5.TXTのソースであるという事実はない。BIG5.TXTマッピングなのはsolaris/java/glibcと名の付いた変換表。
Microsoft Character Code Conversion Routines For HKSCS-2004 Big5-HKSCS→Unicode 4.1、Unicode(Big5-HKSCSの外字にPUA使用)→Unicode 4.1の変換ルーチン
しめすへんの示とネは書体の違い U+795Eのしめすへんが「ネ」に変わったのは互換漢字と区別するためでしょうなあ。
MicrosoftのHKSCSサポート コードページ950のNLSが入れ替えられて、HKSCS対応になる。HKSCSでは倚天拡充字をまったく同じ位置に置いているので、結果として倚天の仮名も表示可能になる。JIS X 0213サポートは作ってくれないのに。 Windows XP Font Pack for ISO 10646:2003 + Amendment 1 Traditional Chinese Support is available for Windows XP and Windows Server 2003
Opera/Mozillaはどちらも独自に変換テーブルを持っていてシステムの変換テーブルの影響は受けないが、エンコードとして「繁体字中国語(Big5-HKSCS)」をサポートしているのでそれを選べばとりあえず倚天の仮名が正しく表示できる。charset=Big5のページでいちいち選びなおさなくてはならないのは不便だが。Opera 9.64/Firefox 3.0.7ではBig5の変換表が改善されて、倚天拡張対応になっていた。
Unicode補完計畫 JIS X 0213 NLSと同様の発想で、Windows CP950の仮名を(PUAではなく)UCS本来の仮名に割り当てようという計画。NLSファイルを置き換えてWindowsのBig5エンコーディングで倚天の仮名文字を使用可能にするツール。MingLiUに含まれるひらがな・カタカナなども使えるようになる。またUnicode→Big5では日本漢字を繁体字にマップする多対一対応をサポートしているらしい。インストーラが繁体字中国語の非Unicodeアプリなので日本語環境だとインストールが大変…。
櫻花輸入法 Big5フォント用の外字ファイル。倚天のひらがな・カタカナを含む。手動でインストールするには、外字エディタでシステムの繁体字中国語フォントにリンクさせるのだが、日本語環境だと外字エディタが日本語フォントしか選ばせてくれないから手作業でリンクする必要がある。本家サイト
ファイル名 | フォント名 | (英語) | 入手元 | FreeBSD ports |
---|---|---|---|---|
文鼎PL細上海宋 | (AR PL Mingti2L Big5) | 文鼎科技(Arphic) | arphicttf | |
文鼎PL中楷 | (AR PL KaitiM Big5) | |||
文鼎標準楷體 | (StdKai-Medium) |
文鼎科技發佈新的公眾授權字型 ライセンスはArphic Public Licenseと言っているが明確に非商用利用に限定されており、2000年に公開されたものとは別物。それぞれ繁体字・簡体字でUnicode 2.0のUROを網羅
「日本語」や「English」を選ぶとリンク切れしているので注意。四書体をGPL類似のライセンスで提供。繁体字中国語と簡体字中国語のUnicodeフォントが二書体ずつ。この他に教育部に無償提供(Googleキャッシュ/WayBack)している文鼎標準楷體がある。タイムスタンプが1998-01-14のBig5エンコーディングフォントと、1999-04-21のUnicodeフォントがある。
Google.comで「標準楷體」を検索すると出てこないページがGoogle台灣で検索すると出てくる。たぶん簡体字の統合検索機能のため。
免費軟體で文鼎標準楷體が入手できる。國語會/國字標準字體公告にもTrueTypeフォントあり。PC用はUnicodeエンコーディング/Linux用はBig5エンコーディング。
國語推行委員會 National Languages Committee 國字標準字體母稿製作與推廣 教育部標準楷書 教育部宋體字形檔 CC BY-ND 3.0 教育部隸書字形檔 國字標準字體字形檔 教育部宋體母稿增補編字形檔 教育部隸書
好用軟體 文鼎標準楷體
簡体字と繁体字のフォントを四書体ずつ無償提供。Unicodeエンコーディング。
第一水準のみ含む試用版を無償提供。Big5エンコーディング。
HKSCS: Download Area Reference Font(参考宋體)を無償提供。ISO 10646版とBig5版がある。HKSCS-2008はマッピングテーブルのみでフォントは提供されていない模様。 Common Chinese Language Interface: Download Area さまざまなHKSCS関係の資料やツール OGCIO : Common Chinese Language Interface - Download Area 移転先
十書体を無償提供。Big5エンコーディング。Linuxのパッケージにもなっている。
Internet ExplorerでMS細明體(MingLiU)を無償利用できる。
Unicode Home Page Code Charts (PDF Version) Unihan Database UCSコードポイントから文字の画像や情報を得る Unihan 3.1 Grid Index UNIDATA Enumerated Versions UTS #37: Ideographic Variation Database Ideograph Variation Selector and Variation Collection Identifier 古いドラフト PRI 98: Combined registration of the Adobe-Japan1 collection and of sequences in that collection Adobe-Japan1のすべての漢字グリフがUnicodeのプレーンテキストで表現可能になる予定 PRI 108: Combined registration of the Adobe-Japan1 collection and of sequences in that collection 仕切り直し Ideographic Variation Database 正式版 UTC Document Registry UTC Meeting Minutes
平成20年度汎用電子情報交換環境整備プログラム 成果報告書 汎用電子の「デザイン統一基準」が記載されている。
EGIXやIPSJ-TS 0002は検討の末却下されている。EGIXはまだ汎用電子のグリフをそのまんまJIS X 4165のレジストリに登録するという運用が考えられるが、IPSJ-TS 0002を採用するというのは文字鏡を採用するのと同義なわけで、まあ却下されて本当によかった。
なお、「𫟉」「𫞂」を提案しているのは、日本ではなく、UTC(Unicode Consortium・アメリカ)である。なにゆえ UTC がこの 2 文字を必要とし、ISO/IEC 10646 へ追加提案をしているのか、事情は詳らかではない。
アドビからわざわざ委員として参加した山本太郎の仕事は昼寝かなんかですか? ほんとに誰も事情がわからないんだったら無能の極みだけど知っててそらっとぼけてるんだろうな。
ところで「つまびらか」って平成22年版の常用漢字表でも常用音訓じゃないと思うけどまあ常用漢字表なんてその程度のものだよね。政府が「飛翔体」という漢字を使っただけでぶちきれてた人もいたけど。そもそもjyoyokanji_kokuji.htmlやjouyoukanjihyou_h22.pdfのファイル名からして訓令式ローマ字の第1表を無視しまくりだし。第2表は「国際的関係その他従来の慣例をにわかに改めがたい事情にある場合に限り」使っていいんじゃなかったっけ?
しかし、従来の作業で統合漢字提案から除いていた字のなかには、既存の統合漢字(一部は 標準化作業中のものも含む)との統合が確認されたものの他に、統合の可否が疑わしいものや、 統合云々以前にそもそも国際標準に含めることの妥当性が疑問なものもあり、
逆にわざわざ仕様をガラパゴス化することにどのような妥当性があるのか教えていただきたいものだが。「非関税障壁を作って国内のITゼネコンに仕事を与えることができる」とか? 中国のGB18030でさえ、外国企業であるMicrosoftやIBMでもちゃんと参入できる仕様だというのに。台湾はすべての文字を国際提案しているわけではないがCNS11643という文字コード規格をちゃんと定めてるだけマシだし。
フェーズ 2 開始時の平成 18 年 4 月において、日本から「国字」が ISO/IEC 10646 へ追加 提案されていた。いかなる必要性のもとで「国字」の追加提案がなされたのか、大いに疑問 であるが、
自分たちが収集・整理したもの以外はすべてゴミですか。IVDにAdobe-Japan-1がすでに登録されているのもほとんど意図的に無視したし、Kana Supplementの登録もさんざん邪魔してるし、なんでこいつらこんなに傲慢なの? いやまあ日本のお役人様が下々のものに取る態度としてまったく標準的と言われれば返す言葉もありませんが。
ああなるほど、文字鏡の採用が却下されたのも単に「自分たちが収集・整理したもの」じゃないからか。参考
汎用電子情報交換環境整備プログラム成果報告書別冊 要IE+DjVuプラグイン。汎用電子の67,951グリフ全てを画像で確認できる。
汎用電子の「邉」とAdobe-Japan1の「邉」 汎用電子における「乕」の異体字 IVD登録候補グリフと統合漢字の衝突 IVD登録候補グリフと統合漢字の衝突・その2 IVD登録候補グリフの親字 汎用電子の「FT」とか「HG」とかって何? 「JA」~「JD」と「IP」についてはソース情報を元にAJ1との対応を決められそう。「FT」「IA」「IB」「HG」は独自の番号がふられているが、CIDの範囲とマッピングをとる役には立ちそう。「JT」「KS」は字体と「デザイン統一基準」から判断するしかなさげ。 安岡先生がやってくれました。
IVS技術促進協議会改め文字情報技術促進協議会 見出しが画像になっているというのはなかなか笑えるジョークだ。 2011.01.27 出版物のUnicode化推進セミナー 山本太郎氏の資料に既知の重複CIDやExt.C/Dとの重複CIDの情報 IPAmjPUPフォント IPAmj明朝にCITPC私用文字マッピングを追加したもの。「IPAフォントライセンスv.1.0により利用が許諾されています」とのことだが、「派生プログラムのプログラム名、フォント名またはファイル名として、許諾プログラムが用いているのと同一の名称、またはこれを含む名称を使用してはなりません」という条項がなかったっけ?
Togetter - 「50年に1度!? IVSをめぐる熱いw討論」
文字コードというものは、文字を一意に符号化するものです(やの氏の、脳内)文字コードですねわかります。ISO-2022-JPが文字コードではなかったとは知りませんでしたというお約束のボケは置いといて、そもそもUCSやIETFの符号化文字集合/coded character setの定義は(7ビットおよび8ビット系と違って)「1対1」であることを要求していません。IETFの定義では
Conversely, a character and a coded character set determine the character's code position (or, in rare cases, a few code positions).
とまで言っています。素朴すぎるとか以前に単純に誤っています。もっともやの氏はこのことを知ってるはずなので、単に自説に都合の悪い話を隠蔽しただけだと思いますが。IETFの定義はお気に召さないみたいだし。
それにしても昔TRONコードが明らかに同じ文字を何箇所にも取り込んでることをずいぶん叩かれてた気がするんですが、みなさんずいぶんやさしくなったものですねえ。
IVSと正規化について 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り もはややの氏は害悪を垂れ流してるだけだな。いくらIVSが嫌いだからって嘘までついてあることないことdisるのはやめていただきたいもんだ。DUCETの存在を隠蔽されただけであっさり騙される風間氏も風間氏だが。「collationやnormalizationの仕様も変えることを検討してもよいと思います(キリッ」
それにしてもどうしてこんなトホホな議論が繰り広げられるのやら。「毛唐どもは俺たちを困らせようとしてUnicodeを押し付けてるんだからIVSにはなにか致命的な欠陥があるに決まってる」的な信念(妄信)がそうさせるんだろうか。
「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) 恥の上塗り。揃いもそろって正規化をあいまい検索の一種か何かとでも思ってるのか? 例によって小形氏自身が「正規化はあいまい検索ではない」と言ってるんだが。
半角濁点の編集上の扱いについて また@ogwataか。マジいい加減にしろ。
https://twitter.com/kawabata/statuses/116795710782976000 たった140文字にこれだけのツッコミどころを詰め込めるのはある種の才能ではないか。
「互換漢字は危ないけどIVSは安全」という主張はポジショントークと考えてもあまりにね…。
そっくりそのままお返ししたい。はっきり言って以下に書いたようなことを川幡氏が知らないなんてことはありえないのでこれこそポジショントーク以外の何物でもない。AdobeやKen Lundeは(同意するかどうかはともかく)こっちの主張を理解はしているし、問題があることも認識してはいる(からこそあれこれ妥協案を提示してくる)だけはるかにマシな相手。ふつうどうして勝手に正規化されたら困るのか理解してもらうのすら一苦労。そもそも「互換漢字を勝手に正規化するな」という主張自体、互換漢字を共有している韓国やカナダの少数民族(笑)もそう思っているかどうかわからない以上日本の都合しか考えないポジショントークだから個人的には本来あまり言いたくないのだが、他国は自国の利益のためなら平気でハングル大移動とか主張してくるわけで、日本もこの程度のささやかな主張したってバチは当たらないだろうと思うのでその点はこれ以上問わない。
互換漢字を通信路で勝手に統合漢字に置換するのを認める規格はありませんが
2008年3月規定のNet-Unicode (RFC 5198)で、
Before transmission, all character sequences SHOULD be normalized according to Unicode normalization form "NFC"
と明確に規定されています残念でした。勝手に置換するのを認めるどころか、強く推奨しています。TUSの文言の揚げ足取りで悪あがきしても無駄です。
IVDはdefault ignorableなので中抜きは可能です。
default ignorableは勝手に中抜きしていいという意味ではありません。表示や照合のときに無視していいにすぎません。それをどう解釈したら「中抜きは可能です」になるのでしょうか。互換漢字についてこれだけ規格を知り尽くしていながら、まさかdefault ignorableを辞書的な意味だけから勝手に解釈したのでしょうか? もちろんそんなわけがないからポジショントークだというのです。
URLやハッシュ表は抜きます。
URL (IRI?)がVSを抜くとははつみみです。IDNと混同しているのでしょうか。IDNは確かに抜きますが、互換漢字も置換します。Net-Unicodeを何らかの屁理屈で議論から除外したとしても(そもそもNet-Unicodeのようなきわめて一般性の高い規格を無視しておきながら、IDNのようなきわめて用途が限定されているうえ、明確な理由があってVSを抜いている規格ばかりをことさらに取り上げる時点ではなはだしく恣意的ですが、それらすべてに目をつぶっても)、IDNがVSを抜くと主張するなら「互換漢字を通信路で勝手に統合漢字に置換するのを認める規格はありませんが」は嘘ということになります。どうしてたった数文節前と矛盾するようなことを平然と主張できるのか本気で謎。
通信路上でやりとりするハッシュ表ってなんですか? DHT?
UnicodeのIVSがもたらすメリットとデメリット PDF直リンク AJ1と汎用電子のグリフの由来に基づく同定 / Ken Lundeさん (リンク切れ) 川幡さん (旧) これらは字形に基づく同定
Microsoft does not use the Unicode Collation Algorithm Microsoft still does not use the UCA; the converse is also true まあ、後から標準化されたものに似てるけど違うものを実装している場合、標準に合わせることを拒否するといういつものMicrosoftですね。
ISO/IEC JTC 1/SC 2 Document Register SC2登録文書の検索。FPDAMまでは公開されている(FDAMは非公開) Meetings 会議の一覧、議題及び議決事項へのリンク Programme of Work 作業計画。無償公開されている者にはリンクあり ISO/IEC JTC 001/SC 02 "Coded character sets" 02. General committee documents 03. Meetings and resolutions 2013年7月以降の文書はこちら。なお非公開リンクを一度でも踏むと、Cookieを削除するまでどのリンクもログインを要求されるというアホなバグがあるので注意 WG2 - ISO/IEC 10646 - UCS WG2 審議過程の多数の文書あり。BMPへの漢字の追加はchartを見ても分からないので注意 ISO/IEC JTC 001/SC 02/WG 02 "Universal coded character set" 02. General committee documents 03. Meetings and resolutions 2014年10月29日以降の文書はこちら WG2 WG2 Document Registry 作業文書をろくに公開してくれなくなったWG2に代わり、文書を公開してくれている。えらい。私企業連合のほうが公的機関より意識高いとかどうなってんだよ
Ecma International > Ecma Standards 一部のISO規格やITU-T勧告と同等のものが無償で入手できる
International Telecommunication Union (国際電気通信連合) Free access for all to ITU-T standards 2007年からITU-T勧告はすべて無償ダウンロードできるらしい。 How to use the ITU Electronic Bookshop 2001年からITU-R勧告は年3本まで、ITU-D勧告もすべて無償ダウンロード可能であるらしい。 How to buy 2010年12月からITU-R勧告もすべて無償ダウンロード可能になったらしい。
cjkxref.fix UCS→JEFのマッピングが載っている
情報処理学会試行標準 > 試行標準一覧 > 符号化文字基本集合 (IPSJ-TS 0005) IICoreのもとになったもの。 文字図形識別情報 (IPSJ-TS 0002) > 文字図形閲覧ソフトウェア 符号化文字基本集合 - 日本コア漢字 (IPSJ-TS 0007) 大規模文字集合の異体字構造表現 (IPSJ-TS 0008) 文字図形間の構造的距離 — 定義とその算出法 (IPSJ-TS 0010)
学会試行標準専門委員会 議事録案(2008-2-25) エー・アイ・ネットの古家主査は早く文字図形閲覧ソフトウェアと一緒に配布している文字鏡フォントを抹殺したくてしかたがないんですね。
情報処理学会 試行標準 ・学会試行標準専門委員会は2022年3月31日を以て廃止されました。・ホームページリニューアル(2022年9月公開予定)を以て このページを閉鎖します。
アッハイ
IRG REPORTS SuperCJKはCJK統合漢字+Ext.A+Ext.Bを康煕字典順に並べて番号を振ったもの。全部足したより10文字多いのでそれだけではないようだが。 N807 IBMによる0213<->UCSの変換表。Latest Versions of CJK ISO/IEC 10646規格票のCJK統合漢字部 IRG N1132/IRG N1104 CJK統合漢字のバグ報告 Ideographic Variation Sequences-Implementation Details このためにformat 14の'cmap' subtableを追加するらしい Twenty-one kanji to be considered for unification PRI108で外された字形差の大きい異体字の統合はまだあきらめていないようだ
ところで日本は2020年以降IRGの会議に一切参加していないようだ。COVID-19の流行を理由にしているようだが第56回以降の会議はオンラインだし他国は参加して議論してるんだから理由になってないだろ。Extension Hの制定にかかわることを一切放棄した挙げ句に、SC2/WG2まで来てから重複が疑われるグリフの削除を要求した結果、「だったらIRGに出てこい」という超もっともな反論でことごとく 却下 されていて草(笑い事ではない)。せっかくUnicodeの統合規則の不安定化を避ける努力をしてきたのに台無しでは
JIS非漢字-Unicodeのベンダによるマップの違い 日本語のUnicodeベンダ依存文字表 シフトJISからUnicodeへの変換テーブルの相違 従来の文字コードとUnicodeの対応に関する諸問題 JIS記号の UCS BMP へのマッピングの問題および MS漢字とシフトJISの違い [JavaHouse-Brewers:14445] JIS漢字とUCSの文字の対応について 既存の日本語文字コードと Unicode の間のマッピングルール XML日本語プロファイル Windows 2000上でのUTF-8のページの作り方 末尾で変換表の違いに触れている
符号化文字基本集合 (BUCS) UCSのサブセットを作る提案。UCSにはIICoreとして反映された。
漢字データベース計画 昔は「文字鏡データベース計画」という名前で文字鏡番号とUCS等の対応表を整備したりしていたが例によって(ry CVS サーバ/kanji-database/kanji-database/data JIS-UCS/CNS-UCS/GB-UCS/UCS-大漢和の対応表 Unicode 3.1の包摂規準を検証する 既存のマッピングを変えるわけにはいかないので訳のわからない状態になっている IVDについて データファイルの移転先 (参照)
統合漢字のメリットを説明するのに「grep 毛沢東」というのが用いられるそうだが、繁体字だと「毛澤東」簡体字だと「毛泽东」だから実は全然「grep 毛沢東」なんてできない。anti-UnicoderがUnicodeの中途半端なUnifyへの皮肉を込めて捏造した例なのか?
kGB1のみでkGB0でないものが2,202字、88区以降に追加されてかつkGB0になかったものが41字。Unihan 3.2ではkIRG_GSourceがGB1をソースとするものは、92区~93区に150字が追加されて2,352字になっている。これはUnihan 2.0にはない(というかkIRG_*シリーズ自体ないのだが)。150字の内訳はUnihanのヘッダによれば香港文字58字と韓国の吏読文字92字ということになっているのだが、実際のデータでは92区に59字、93区に91字となっていて数が合わない。93区の3箇所に不自然な歯抜けがあるのはUnifyのせい? 吏読文字94文字はGB 12052-89の71~72区から持ってきたそうな。
Very old fj.kanji discussion 13/622 ESC 2/8 4/8という誤った指示シーケンスの元凶 76/622 半角カナを指示のエスケープシーケンスでも使わないことにした理由らしきもの 269/622 ここにも 273/622 こことか 279/622 こことか324/622 78JIS/83JISの違い 339/622 PC-9801の漢字コードはJIPS 419/622 ASCIIやEBCDICの歴史 433/622 449/622 内部コードであるCP932をJISに適合してないから変えろと言う○○もたまにいるようだが 454/622 JEFは83JISで変更された文字をすべて別区点で含むらしい 612/622 JIS X 0202-1986の解説には94集合が終端バイト06/10(ギリシャ語)まで、94^n集合が04/02(JIS X 0208:1983)まで書いてあったらしい。
べんぜんエリア Adobe-Japan1-4 & APGS実践情報 諸橋大漢和辞典 初版縮写版→修訂版間の差 その他の版の間の差も判明している限り網羅している eKanjiの大漢和との字形差について
UCS-GB-大漢和検字番号等変換表 UCS-GB-CNS-JIS-KS-大漢和検字番号(DKW) Ext.A/B未対応
康熙字典網上版 康熙字典全ページのJPEG画像閲覧や全文検索ができる。
CHISE プロジェクト XEmacs CHISEのデータベースからさまざまなコード間の対応などの属性が得られる 漢字構造情報データベース IDS 形式 写像表 JIS-UCS/CNS-UCS/Big5-UCSなど CHISE IDS 漢字検索
fonts.jp KAGEサーバ仕様 拡張IDSで合成した字形を取得できる。コードはUCSだが地域別の字形も指定可能 KAGE/DB 漢字分解器 CHISEプロジェクトの漢字構造情報データベースを利用 GlyphWiki グリフエディターがFlashで今となってはつらい
京都大學21世紀COE 東アジア世界の人文情報學研究教育據點 成果物 Adobe-Japan1の漢字(部首画数順) 他にもおもしろそうな資料多数
GT書体(東大明朝、GT明朝) GT新書体の実装 ゆたかな文字文化を創りあげるために 東京大学多国語処理研究会 GT明朝(東大明朝)とトロンを批判する 一言もの申す9807 (移転先) 批判者には印刷関係者もいたはずなのに…。 GTコード検索システム 大漢和番号との対応は新撰漢字総覧から得られる。XEmacs/CHISEのデータベースにも載っているが1割程度しかない模様 明朝体デザインの今後(2) 「山」は長いゲタを履いていることになっているが実際にはそんなものないのだが…。古いGT書体フォントだと付いてたのだろうか。
オープンテキスト 仮設 ドメインの更新を忘れたようだ オープンテキスト .netに移転 OPT-DOWNLOAD GT書体フォント・GT番号→Unicode(Ext.A/B未対応)/SJISの変換表。こちらのほうがGT書体のバージョンが新しい 2017年4月をもって閉鎖された模様 ttf-gtfonts Unicode compliant? GT2000フォント一覧表
山口先生は、飾りをできるだけ取った、鉛筆書きのような線だけの字体を望まれていたのですが、
当用漢字字体表みたいなの? でも、そのつもりは全くなかったのに筆押さえを取り払われてしまったりしたそうだから世の中そんなに甘くないと思う。GTは筆押さえの有無も区別してるけど。ていうか今のGTの書体でさえ異字体を示した例かと思ったとか、「画数を正確に表すために」「瞥」の上下の「小」を切り離したら字形が違うと言われたとかいう始末で、日本人の漢字運用能力の低下は壊滅的なところまで来てると思う。
TRON文字収録センター tron.orgに再度移転。t-engine.org時代にはGT書体フォントの配布もここで行っていたと記憶しているが、いつの間にかなくなってた
TRON文字収録センター www2.tron.orgドメインの旧センターにあった検索機能はなくなった模様。超漢字検索を買えということだろうか。ていうか旧センターの重要な機能であったはずの登録申請に関する記述もそっくり消滅しているのだが、もはや外部からの登録申請は受け付けていないのか? Tフォントプロジェクト GT書体について Tフォント (旧称T書体フォント) 坂村・越塚研究室 - Multilingual Processing TEP051213_u05 東京大学坂村研究室が36万文字からなる世界最大の漢字フォントセットを無料公開 漢字フォントの内訳が記載されている 39万文字の文字フォントセット「Tフォント」を参考出品します 2年の間に甲骨文字セットが追加された模様
TRON文字収録センター TRONコードが割り当てられた文字の画像を検索可能 TRONコードの概要 大漢和は修訂二版 レパートリー一覧 超漢字で扱える文字の内訳 第1編 BTRON3 仕様書に対する制限・補足 BTRON4で規定された文字など 超漢字の歴史 カタログに超漢字の各バージョンにおける収録文字数が掲載されている Data(Sumiya Lab) 超漢字12:3 大漢和部分対応一覧 BTRON算譜百篇
超漢字検索 超漢字 - パーソナルメディアウェブショップ 超漢字検索 文字情報基盤対応版は10ライセンスから その他の部首検索: シータ ハイパー検索 サンルイ超漢字検索サイト CHISE IDS 漢字検索 移転案内すらなしに黙って更新止めるとか罠すぎる CHISE IDS 漢字検索
JIS X0213の168文字の例示字形を変更,10文字については新規追加 JIS2004の字形変更をTRONで入力。TAD? なので読めない。
TRONコードと ruby 1.9 M17n なんだダミーエンコーディングか。まあTRONコードはステートフルだからな。たとえバイトの配列でも型が付いているだけで有用なのはプログラマなら理解できるだろうし。
0xfe7f という言語指定はありうるか? またそれ以降の WTC へのマッピングはどうすべきか
仕様書の第2章 TRON コード体系には確かに明示的に書かれていないようだが、普通に考えたら言語指定コードとして有効とはみなされないのでは。んでtlang.hの仕様を見れば0xfe80→0x0080と対応していくのも自明では。なんでBTRON Clubの誰も教えてあげなかったんだろう。
スクリプト/言語指定の 0xfefe は任意の長さまで伸びることになっているがどこまで対応すべきか
WTCとの対応を考えたら事実上64個まで。さらにテキスト形式TRONコードでは面を表す部分が2桁しかないのでなんと0xfefeは1個も重ねられないということに…。むろんWTCは多国語(多漢字)ライブラリの内部データ型に過ぎないしWTCやテキスト形式TRONコードの拡張は容易だからあくまでも仕様上は任意長ということになっているわけだが、実身数制限すらろくに拡張できないのに現実問題としてそんな変更が可能なのだろうか。それ以前に現在は超漢字の実装でも仕様上の定義(TSC_MAX)でも31面どまりなわけだが。
文字列の大小関係の定義をどうするか? 素直に並べると A ゾーンと C ゾーン、B ゾーンと D ゾーンがごっちゃになる
大漢和面やGT面の文字の並び方とかTRON文字収録センターのコードページの動作を見る限りAゾーン<Bゾーン<Cゾーン<Dゾーンとなるように並べるべきだと思う。
e漢字データベース サービス休止について e漢字 全フォントの一括ダウンロードはできなくなったらしい e漢字 Unicode(J欄)/康煕字典/大漢和(修訂一版)の24ドット字形データ。Windows用のGIF変換ツールが付属。 daikanwa.txt 諸橋大漢和の字数 コードチェック 大漢和コード/康煕コード/Unicodeから文字の画像を得る play eKanji 別の検索ゲートウェイ 諸橋大漢和コード 字形字姿 INDEX 京大康煕コード 字形字姿 INDEX JISX0221 字形字姿 INDEX
今昔文字鏡 先頭の約5万字は大漢和の修訂二版と同様ということになっているが、実際には明らかに違う字も存在する。具体的にどの番号がどう違うか説明するとJASRAC文字鏡研究会から文字鏡番号の使用料を請求されかねないので書けないが。
文字鏡番号はエーアイ・ネットが著作権を主張して囲い込み戦略をとっているため、情報交換用としては何の役にも立たない(例: 1 2 3 4 5 6 7 8 9 10 11)。一言で言うと無償版では他の人からもらった文字鏡フォントを使っている文書を表示する以外のことはほとんど何もできない。さらに15万字版のフォントはダウンロード提供されたことがない(と思ってたが2007年11月から短い期間だけ公開されていたらしい)。文字鏡番号による情報交換ができない以上、エーアイ・ネットに貢ぐことで単に作字する手間を省ける巨大な外字集以上のどんなメリットが得られるのかさっぱり分からん。あ、金を貢いだ同士なら情報交換できるんですね。いやー素晴らしいビジネスモデル。電子政府でも採用が決まったみたいですしエーアイ・ネットは未来永劫安泰ですね。おめでとうございます。(2010-06)金払えというページだけ残してすべて削除。素晴らしすぎて物も言えない。どうせ金を払うならone time feeかつ意味不明なライセンスに縛られない分16万字版でも買った方がマシだと思うが。
GIFリンクサービス 文字鏡番号から文字鏡サーバで提供されている文字の画像を得る Konjaku Moji Kyou 大漢和辞典のダッシュ付き文字番号及び欠番。明らかにここに書かれている以外の欠番も存在する 文字鏡と超漢字大漢和枠で大きく異なる字形 (3月14日) ダウンロードサービスの中止について
____________ ヾミ || || || || || || || ,l,,l,,l 川〃彡| V~~''-山┴''''""~ ヾニニ彡| 再開する・・・・・・! / 二ー―''二 ヾニニ┤ 再開するが・・・ <'-.,  ̄ ̄ _,,,..-‐、 〉ニニ| 今回 まだ いつから1年間か その開始時点の /"''-ニ,‐l l`__ニ-‐'''""` /ニ二| 指定まではしていない | ===、! `=====、 l =lべ=| . | `ー゚‐'/ `ー‐゚―' l.=lへ|~| そのことを |`ー‐/ `ー―― H<,〉|=| どうか諸君らも | / 、 l|__ノー| 思い出していただきたい . | /`ー ~ ′ \ .|ヾ.ニ|ヽ |l 下王l王l王l王lヲ| | ヾ_,| \ つまり・・・・ . | ≡ | `l \__ 我々がその気になれば !、 _,,..-'′ /l | ~''' 再構築完了は ‐''" ̄| `iー-..,,,_,,,,,....-‐'''" / | | 10年後 20年後から1年間ということも -―| |\ / | | 可能だろう・・・・・・・・・・ということ・・・・! | | \ / | |
CD-Rの実費頒布 Vista対応を口実にMojikyo Character Mapの配布は中止した模様。多年に渉る膨大な開発費を投じたことによって生成されたきわめて価値のある業務上の秘密情報をそうやすやすと使わせられるわけないから当然のことだよね。
今昔文字鏡 紀伊國屋書店がやっている営利事業の方 文字鏡WEB 2008年3月で終了。営利企業が不採算事業から撤退するのはきわめて当たり前のことだしサービスを利用する側も当然そういうリスクは織り込み済みに決まってますから全く何の問題もありませんね。 indexfont:インデックスフォント|検索 類似字形画面の説明に出てくる「微細なデザイン差」の識別とやらはなんだかすごそうに見えるが、ここで区別されているのはそもそも文字鏡が「筆画を正しく表すため」とか何とか称して発明した独自の字形と一般的な書体の字形。そういうのが3万字くらいあったから収録文字数がいきなり3万字増えたわけで、つまり自ら増やした異体字を収録して「世界最大」と自画自賛してる。○ねばいいのに。まあTRONコードも超漢字2→超漢字3になっったとき字数が減ったと思われないようにGT書体と大漢和を別々に収録したりしてるけど。
インデックスフォント研究会 インデックスフォント番号とは要するにエーアイ・ネット様に金を貢いで使わせていただいてる文字鏡番号のことだそうなので、一連番号が振られたところで部外者にはちっともうれしくない。
ISO/IEC 10036 Registration Authority for Font-Related Objects ISO/IEC 10036 specification 仕様書 ISO/IEC 10036 Font-Related Object (FRO) Registry (旧URL) 登録されているグリフの画像。いきなり画像が1つも見えなくなってるし。指さして笑うぞしまいには。文字鏡のグリフをタダで一覧表示したり文字鏡番号以外のマトモな方法で検索したりできるものは徹底的に葬りたいんでしょうな。表向きはサーバの過負荷の問題と言うことになっているようですが(N297、N320)、この「過負荷」が解消することはたぶん永久にないのでしょう。(2010-06)信じがたいことに復活してた。
ISO/IEC JTC 1/SC34/WG2 N376
In February 2010, the temporal glyph server http://glyphsv.ipc.hiroshima-u.ac.jp/ was officially registered as the server providing the services at 10036ra.org (DNS, Web, etc). The domain "10036ra.og" would be kept for 3 years at least, but next renewal could be reconsidered.
クールなURIって知ってますか? すでに1回引越してるのに。わざわざ大学名を含んだURIにまた引っ越すとかアホですか? しかも 10036ra.org の登録を放棄したら100%確実に間違いなくSEO業者に速攻で奪取されるわけで、最悪の選択肢と言っていいと思う。N338 The change will not affect the URI of the registration service.
嘘つき。(2016-03-09) で、現時点で上記の広島大学のURLは"under construction"になって、10036ra.orgはまだ生きているわけだが。もう何がしたいのかさっぱりわからん。
The Registration Authority agreed to provide the registration without free under special condition. Now required condition has been discussed.
"without free"は"without fee"のtypoかな? IVDに対抗ですねわかります。
すでに今昔文字鏡はISO/IEC 10036も見放して文字図形識別番号のJIS化だとか言ってますし。こんな風にすぐ放り投げては次の金儲けに移るから安心して使えやしないのです。N469 あれ? まだやる気あったの? N471 まあ登録料はそもそも濫用よけだったわけで、事実上文字鏡しか使っていない現状では必要ないでしょうなあ。 Font Museum いつの間にかなかったことになってる。予算がつかなかったんでしょうな。 JIS X 4165 (ドラフト) JISの対応規格 ISO/IEC JTC1/SC34/WG2 SC34/WG2というのも見つけたが、なぜかこっちのほうが古い件
The main changes compared to ISO/IEC 10036:1996 are as follows:
— removal of the registration procedure specification due to the retirement of the registration authority;
— inclusion of the glyph registry published by the former registration authority.
結局文字鏡以外が利用することなく登録手続きが廃止されてしまった(=新規のグリフが追加されることはなくなった)のか。登録済みのグリフを参照できるように残すだけ情報処理学会より多少はマシか
外字は、ISO/IEC10036 に準拠する「文字図形番号」(情報処理学会試行標準IPSJ―TS0002: 2004)を用いる。
またも文字鏡の大勝利ですね! ところで汎用電子と重複事業にならないのかな? つーかGT書体にも2億円の建設国債が投入されているし戸籍統一文字と住基統一文字は別々に開発されるしGlyphWikiにも国費が投入されているようだが、何度車輪の再発明すれば気が済むの? こういう無駄が行われていること自体、グリフをかき集めて番号振ったくらいで外字問題が解決するわけないことの何よりの証明だな。文字情報基盤は汎用電子の成果を流用しているだけまだマシか。
Embedding Glyph Identifiers in XML Documents (EGIX) XML文書にグリフIDを埋め込むマークアップ。タグの内容がFallbackになる(HTMLのobject要素等と同じ発想)。XMLではEGIXを使わなくても記法(Notation)で参照できる(外部解析対象外実体として宣言して実体参照で参照する)そうだが。記法を使った場合のメリットはタグと違って属性値に使えることか。 JIS X 4166 (ドラフト) JISの対応規格。ただしフォールバックに複数文字を含めることができなくなっている点がEGIXと異なる。さすが、ISO-2022-JPの仕様がIETFとJISで規定されてしかもそれぞれが微妙に異なることに懸念を示していた村田真先生だけあって、素晴らしい判断ですね!
文字文化協會 次から次へとよくもまあ訳のわからん怪しげな目くらまし団体をでっち上げるもんだ。
出席者 (snip) ・古家時雄(特定非営利活動法人 文字文化協會 副理事長)・板倉和治(インデックスフォント研究会)
がすべてを物語ってます。インデックスフォント番号だの文字図形番号だのと「文字鏡番号」という言葉を懸命に避けているのも意図的に違いない。
C5: 我が社では、15万字版の文字鏡の検索機能を使用してお客様に文字を確認してもらい、その番号を取得して処理をするようになり、お客様に喜ばれている。
C6: 今出ている15万字の番号は、現在は一企業のものだが、JIS化されれば、 国民全体で使える番号になる。
だまされてはいけません。最近のJIS規格票の冒頭には高確率で
この規格は、著作権法で保護対象となっている著作物である。
この規格の一部が、特許権、出願公開後の特許出願、実用新案権又は出願公開後の実用新案登録出願に抵触する可能性があることに注意を喚起する。経済産業大臣及び日本工業標準調査会は、このような特許権、出願公開後の特許出願、実用新案権又は出願公開後の実用新案登録出願に係る確認について、責任はもたない。
とか力いっぱい書かれています。つまりJIS化で文字鏡番号にお墨付きを与えて国民全体に使わせてエーアイ・ネットの商売にもっと手を貸せと言うことですね? (Y/y)
TRONへの搭載を拒否するという大目標(…)がある以上、エーアイ・ネットが文字鏡番号の利用を自由化することは天地がひっくり返ってもあり得ないのです。てゆーか多年に渉る膨大な開発費を投じたことによって生成されたきわめて価値のある業務上の秘密情報ですからねー。
で、相変わらず国際規格は無視して、つーかせっかく国際規格にしたISO/IEC 10036は捨ててまで(なんか表向きもっともらしい理由をでっち上げてはいるけど要するにグリフの登録に金が掛かるばかりでちっとも儲からなかったんでしょうね)車輪の再発明をして(これで何度目?)ガラパゴス化の道を突き進むと。そしてガラパゴスで内輪もめしている間に海外企業に標準化の主導権を握られるといういつものパターン。
しかし、フォント仕様(OpenType等)の制限により240のバリエーションは使用できず、実質的には1~2桁少なくなる。(フォントが一つの面につき65k字までしか表現できないので、仮にBMPの27,000字の漢字がIVSCを使うとすると65,000÷27,000≒2.4字となる)。
もうどこから突っ込んだらいいのやら。そりゃIVSは商売の邪魔だから好意的になれるはずもないでしょうし、IVDに文字鏡番号を登録するとそれは事実上Unicodeとの対応表として機能してしまう上に登録した番号は自由に使えることを強要されるから、何としてでもIVDに登録するという選択肢は存在しないことにしなければならないのでしょうけど、こんなあからさまな嘘までつきますかね。
株式会社エーアイ・ネット 今昔文字鏡UnicodeEdition試用版ダウンロード Unicodeに対応していないUnicodeEditionの試用できない試用版(詳しくは下記16万字版レビューのおまけ参照)
製品レビュー:今昔文字鏡単漢字16万字版 もちろん信じられるはずがありません。超漢字2の二の舞はまっぴらごめんです。仮にライセンス改訂が本当だとしてもあくまでエーアイ・ネットがライセンスする16万字版の話ですから、文字鏡研究会がライセンスする無償版に対する制限はそのままです。16万字版のユーザーが変換表やツールを自作するまでは問題ないかもしれませんが、それを16万字版ユーザーでない者の目にも届くところで頒布するなんて恐ろしくてできるはずがありません。
どうしても文字鏡番号を使いたいなら、他社のツールや野良ツールなどに期待せず今昔文字鏡を買うべきだし、不満があるならエーアイ・ネットに要望すべきなのです(たかだか3万円弱では話を聞いてもらえないかもしれませんが)。16万字版はExt.Bも含めたUnicodeの入出力ができますから、買っていれば少なくとも文字鏡から逃げ出すことはできます。実際に超漢字2で文字鏡面を使っていたユーザーは変換すらできずに立ち往生したわけですから、逃げ出すときのことまで検討しておくのは決して杞憂ではありません。
でも優待バージョンアップの申込期限も過ぎた2009年4月17日現在、今昔文字鏡単漢字16万字版を合法的に入手する手段はありませんね。エーアイ・ネットのページには「通常版を4月発売予定」とか書いてたはずなのにいつの間にかなくなってますし。まあその程度の不誠実さで今さら驚いたりはしませんけど。
ユーティリティ:今昔文字鏡番号ビューワ このユーティリティに関する声明
ですから許諾を申請すればたぶんすんなり通ることでしょう。
そんな簡単に通るなら誰もここまで嫌ったりしません。とまでは言いませんが、嫌わなかった人もいたでしょう。
たとえば、とあるツール(番号をアルゴリズム的に変換するだけのもの)を公開していた開発者は、公開継続のために以下の条件を突きつけられたそうです(で、公開をやめました)。
ちなみに文字鏡研究会はボランティア団体なので、配布を委託したツールが「人手不足」とか「ツール公開は仕事ではない」とかの理由でいつまでたっても公開されなかったりするのは日常茶飯事です。もちろん自前で配布しないという条件に同意しているので、自前で配布もできません。パーソナルメディア社も文字鏡研究会にBTRON形式の文字鏡フォントを納入したはずなのに、配布されることのないまま葬り去られてしまいました。
エーアイ・ネットと(おそらくもっと高額の)契約をすれば上記とは異なる条件で配布できるのかもしれませんが、超漢字の末路を知っていてなお契約したいと思う蛮勇の持ち主がいたら見てみたいものです。もっとも「JIS Z xxxx 文字図形識別番号(仮称)」が制定されたら、場合によっては(規格への準拠が入札条件に含まれているとかの理由で)契約を余儀なくされる羽目になりそうですが。他に許諾を与えられるものはいませんから、エーアイ・ネットは自ら受注できなくても受注した企業と言い値で契約できるわけです。それ以外のことも何でもやり放題ですね。
そもそも2000年9月に改悪される以前の文字鏡フォントおよびGIFリンクサービス画像の使用許諾条件(現在有効なものではありません!)が、
「MO明朝(文字鏡のトゥルータイプフォント)ライセンス許諾要件」 (1998/06/09改訂) MO明朝の提供文字数:約13万5000字 MO明朝の公開時期:1998年10月予定 今昔文字鏡TTF公開配布システムの創設 1.今昔文字鏡に収録されるすべての文字はTTF(トゥルータイプフォント) として製作される。 また、今後未収録文字が報告されるにともない、新しいTTFさ作成され 今昔文字鏡に収録されるが、この追加文字を含むすべての文字鏡TTFを 公開配布するシステムの設立は本年10月を目標とする。 2.公開配布の主体は文字鏡研究会 今昔文字鏡TTFの配布主体は、文字鏡研究会である。 文字鏡研究会は営利を目的とせず、文字文化全般についての公益の希求を めざす。 著作権者である(株)エーアイ・ネットは文字鏡研究会に配布権を委託す る。 今昔文字鏡の版権を所持している紀伊国屋書店は文字鏡研究会を支援する。 3.MO明朝の公開配布方法 A.インターネットからの無償ダウンロード。 B.MO明朝を収めたCDを無料配布。 C.閲覧専用ソフトを配布する。 4.MO明朝利用上の制限 A.MO明朝を使用して漢字検索ツール「今昔文字鏡」に類似するソフトを 制作したり、配布してはならない。 B.MO明朝のデータを改変したり、追加してはならない。 C.MO明朝を使用したデータには、使用表記をしなくてはならない。 D.MO明朝の追加文字の依頼者は、文字鏡のユーザーに限定する。 E.MO明朝を検索や直接コード指定などによって出力するには、「今昔文 字鏡」の正規ユーザーとしてライセンスを取得していなくてはならない。 F.国籍・人種・身分による利用制限はない。 G.MO明朝を配布するには、配布を受ける相手に上記各項を伝達する義務 を遂行しなくてはならない。 5.配布されるTTFの利用者の権利 MO明朝は以下のことについてライセンスフリーである。つまり課金さ れず、利用者は金銭的な支払い義務を免除される。 A.文字鏡ユーザーでないものが、MO明朝を所持し、不特定多数の他の者に 無制限に配布をすること。 B.MO明朝を使用した電子書籍や電子データを作成する場合に、配布または 販売する媒体にMO明朝を収納すること。 C.MO明朝を使用して前記のメディアを読んだり、印字したり、自分の文章 中にコピーをすること。 またMO明朝を含んだ文章を配布すること。 D.文字鏡未収録文字のTTFで新規に作成されるMO明朝のフォントを追加 利用すること。 E.追加文字MO明朝の配布をうけるために文字鏡HPよりダウンロードする こと。 F.フォント制作会社や団体が、MO明朝と文字は同一だが、異なる別のデザ イン書体を作成し、MO明朝コードと同一のコードを使用すること。 G.上記各項について、商業的な利用でもライセンスフリーであること。 H.追加文字作成依頼のために新規に負担する費用は免除される。 I.上記事項は著作権を有する「(株)エーアイ・ネット」、配布委託を 受けた「文字鏡研究会」のいずれかの組織が存続する限り保証される。 6.24ドットBMP画像とそのGIF画像、並びにエーアイネットの開発に かかる周辺ツール類の使用許諾条件もMO明朝の使用許諾条件と同様とす る。
というものだったとか、1999年時点の文字鏡研究会のサイトには
ご利用者は、フォントファイルから必要な文字だけを抽出して別のフォントファイルを再構築したり、外字ファイルなどに登録することは出来ますが、それらの再構築したファイルは個人的に利用することのみが許諾され、再配布は一切できないことに同意しなければなりません。それ以外の利用目体のためにフォントファイルを再構築してはいけません。
と書かれていたと知っている人は今さら何を言われても信用する気にまったくなれないと思うのですが(またいつちゃぶ台をひっくり返されるかわかったもんじゃないよね)、今昔文字鏡16万字版のユーザーは検索した文字をWebページへ貼るのにGIFリンクサービスの画像を使ってみてもよろしいんじゃないでしょうか。
上記の旧規約は現在有効なものではないということは念を押しておきますが、じゃあ今昔文字鏡16万字版のユーザー以外にとっての(文字鏡TTFと文字鏡番号について)有効な規約は何? と聞かれても謎。撤回すると正式に声明が出されたわけでもない新規約がいまだに有効だと思うんですが…。文字鏡研究会のサイトから削除されても、かつて配布していたファイルにご丁寧にも5ヵ国語で同梱されてるし、(新規約に同意している)ユーザーが配布するのを止めることはできないし。ちなみに今昔文字鏡16万字版から許諾条件がなくなったということは、(著作権法のデフォルトに従って)フォントの再配布はエーアイ・ネットの許諾なしではできなくなったということなので、16万字版の文字鏡フォントに依存したテキストデータのやりとりは完全にユーザー同士でしか意味がなくなったということ。いやまあ禁止されなくなったフォントの自作(文字鏡フォントのアウトラインデータは一切流用せず自分で一からグリフをデザインして、文字鏡フォントと互換性のあるフォントを作成)をすれば論理的には不可能ではないかもしれないが、いつ手のひらを返されて投入した労力が無に帰すのかわかったもんじゃないのにわざわざそんなことをする蛮勇の持ち主がいるもんだろうか。
電子出版リンク集によると
1994年4月に開始した電子出版プロジェクト。消え行く知的財産をネットワーク上に残していくことを目的としている。「絶版のない世界」
ネットワークから消え行きました。しかも運営会社自体はまだ残ってるのに。
官報 最近一週間分のみ。httpsでもつながる。署名のないプラグインをインストールさせるならせめて積極的に活用すればいいのに。いつの間にかプラグインのダウンロードページにSSL版のページへのリンクが追加されていた。このリンクは新しいウィンドウで開く(官報のサイトがフレームを使っていると考えるとこれはきわめて重要)。
Microsoft AppLocale Utility システムロケールを変更して再起動しなくても海外の非Unicodeアプリケーションで文字化けしなくなる。
スタートメニューへの登録などは、他言語用にローカライズされたフォルダ名のせいでうまく行かない場合がある。
Code Pages Microsoftの変換テーブルの仕様。
perl/lib/Encode/Table/cp WindowsのNLSをテーブル化したもの
もじかん - gTef (旧URL) 未来情報産業ブログ 大漢和辞典 変換表作成計画 新異体字セレクター作成計画 率直に言うと「ぼくのかんがえたさいきょうのとういつもじ」にはいい加減ウンザリなんでマジ勘弁していただきたいんですが。
「Unicodeの基礎知識と異体字について」に行ってきた (2) 「字形共通基盤」プロトタイプによる実証実験のご紹介
また「ぼくのかんがえたさいきょうのもじばんごう」ですか。マジでいい加減にしてください。しかもガラパゴスでクローズド(まあ文字鏡番号との対応が入っている時点でオープンはありえないのだが)。Appleやamazonに蹂躙されるのを防ぐために非関税障壁が必要なんですねわかりますけどわかりたくありません。
javascript:alert(escape('文字'))とアドレスバーに打ち込めばUnicodeの文字コードがわかる
日本語練習中 安岡孝一の新聞記事・テレビニュース yasuoka の日記 JIS X 0213メーリングリスト 文字符号化blog もじのなまえ Bottom Note 小川創生@檸檬の家 Mac OS Xの文字コード問題に関するメモ numa's diary PDF 千夜一夜 作業メモとか考えた事とか 狩野宏樹のブックマーク ALLNETのサービス切り捨てに反対します。…と言っても無くなることが決まっているので、早くよそに切替えなければ。
しかしkhdd.netのほうが先になくなったという 明朝体・考 FeZn/Bookmark しろもじメモランダム M59の記録 XMLと文字メーリングリスト 2016年1月に廃止された。使われていなかったのは確かだがログは残してほしかった……。
Windowsの次期バージョンWindows Vista(TM)において日本語フォント環境を一新 JIS X 0213:2004 対応と新日本語フォント「メイリオ」について Mac OS Xの文字コード問題に関するメモ - Windows Vistaのjp90タグにおける「喩」の問題 Windows XP および Windows Server 2003 で JIS2004 対応フォントを使用する方法 Microsoft Windows Vista:Windows XP および Windows Server 2003 向けJIS2004 対応 MS ゴシック & MS 明朝フォントパッケージについて Windows Vista 向け JIS90 互換 MS ゴシック・明朝フォントパッケージについて Office 更新プログラム: Microsoft Office JIS90 互換フォント Windows 7 および Windows Server 2008 R2 向け JIS90 互換 MS ゴシック・明朝フォントパッケージについて マイクロソフト、JIS90互換フォントの提供はWindows 7で最後 文字コードマニヤがさんざん騒いでたけど蓋を開けてみたら一般人は(自分の名前に使われていない限り)ほとんど気にしなかった。字体が重要な業務ではそもそもMSゴシックの字形にそのまま頼るなんて論外だし。
Windows XP 向け ClearType 対応日本語フォント メイリオ Simplified Chinese ClearType fonts for Windows XP Microsoft YaHei (微软雅黑) Traditional Chinese ClearType fonts for Windows XP Microsoft JhengHei (微軟正黑體) Korean ClearType fonts for Windows XP Malgun Gothic
楽々はがき2007 印刷標準字体に対応したフォントを収録
PAGE 2007 report AppleのLeopardにおける対応(の予想)
Citrus Project Citrus Project --- a Comprehensive I18n framework Towards Respectable Unix Systems. 日本語版の文書はどこ行ったの?
Ruby M17N UCSというのは固有名詞だと思うのでTRONコードのことをUCS Normalizationと言うのは微妙な感じ。TRON code normalizationならまあ何とか。しかしそうなるとISO/IEC 2022はISO/IEC 2375 registered CCS normalizationで、MIMEはIANA registered charset normalizationで、MuleはMule internal encoding normalizationだったりするのだろうか。CSIの代表のように言われているCitrus iconvだって64ビットの内部コードを使ったCitrus internal encoding normalizationとも考えられる。CSIDは一意ではなくエンコーディング依存らしいじゃあCSIとHoge normalizationの違いって何? CSIは文字列が単なるバイトの並びであるC言語では実現不可能で、常にencoding情報を付随させることのできるRubyのような言語が必要だってこと?
鬼車 [Ruby] 報國挺身日記 - 5.7.0がマージされた件について 日本人が作者だと一見BSDっぽいライセンスでも行間を読まされる可能性があるのでマジで不便だし困る。 鬼雲 (鬼車改)
Mule-UCSに関するユニコード定義 「Mule-UCS自身は全くユニコードに依存していません」
もう見事なまでに日本発の実装ばかり。まあそもそも日本でしか必要とされていないし(海外で困ってる場合はふつうわざわざUnicodeと対立しないでUnicodeに追加提案したりUnicodeを補完する仕様として定めたりする)。それを馬鹿正直に言ってしまうと(SJIS/EUC/JIS7間の変換を効率化するためだけにUCS正規化強制をやめれとか)国際的に通らないから大風呂敷を広げざるを得ない→いつまで経っても目途が立たないのコンボ。
説文解字・龍龕手鏡・広韻・玉篇・集韻・篇海・康煕字典などの古字書の画像が見られる
GLOCOM NEWSLETTER Summer, 1996 特集 国境をこえる日本語の条件 戦前の漢字書き取りテストの採点がおもしろい
xdoc2txt PDFやWord文書からテキストを抽出できる
DSSSL規格対応表 DSSSLにはグリフを置き換える機能があるそうだが
文字と言語の実験室 リンク集
漢籍担当職員講習会 KPS 12052-89って何やねん。97年に-89が制定とか言う文書書いてて自分で少しも疑問に思わないのだろうか。
http://www.ietf.org/internet-drafts/ で始まるURIには現在有効なInternet Draftsのみが格納されている。期限切れのInternet Draftsは、URIの先頭を http://tools.ietf.org/id/ に書き換えれば参照できる。参照できないよりは全然マシだけどクールじゃない。後者には期限切れじゃないInternet Draftsも入っているようなので、最初から後者でURIを統一すればいいのかも。https://datatracker.ietf.org/doc/draft-shirasaki-isp-shared-addr/ みたいなアドレスもあるようだ。クールじゃないといえば、最近のW3Cの仕様書はURLがクールじゃなくなっていて悲しい。dvcs.w3.org (管理ツールの名前を含むURL) dev.w3.org (TBLが自らべからずと言っている文書の状態を含むURL) heycam.github.io (……)
出水書房 JIS 24ドットフォント(JIS X 9052)拡張版 for TrueType
Kandata 歴史的経緯はともかく、現在ではXANO明朝をリネームしただけのフォント
QANO明朝 JIS X 0213をいわゆる旧字体で実装したフォント
和田研細丸ゴシック2004 和田研細丸ゴシック2000から改名。ARIB外字や絵文字を収録したバージョンを追加するなど、地味に更新が続けられている。
Win2000、XPでUnicode tableのないフォントをインストール可能に 上記のフォントはシフトJISの'cmap'テーブルしか持っていないため、Windows 2000/XPでは通常認識できない。それを認識可能にするツールだそうな。でもためしにインストールしてみたら文字コード表ではまともに表示できなかったものの、ワードパッドでは(JIS X 0208の範囲内の文字なら)ちゃんと表示できた。Windows XP SP1以降では標準で表示可能なように戻されたらしい。
HGX0213検索セット Ricoh Japan > 製品情報 > ソフトウェア製品 > フォント > 購入申し込み > フォント > HGX0213検索セット 符号化は裏フォント方式による独自エンコーディングで、他のフォント(Shift_JIS-2004/Shift_JISX0213またはUnicodeを採用)とは異なる。したがって利用には付属の検索ツールが必須 TrueTypeWorld ValueFontD2 外字サンプル TrueTypeWorld ValueFontD2 / フォント | リコー 外字 1,357文字 全文字種
UX JIS0213明朝-R/UX J0213古典明朝-R/UCX J0213古典明朝-R それぞれXANO明朝/QANO明朝/癸羊明朝におおむね対応している。合成が必要な25文字は含まないので11,208文字
独立行政法人情報処理推進機構 OSS iPedia IPAフォントのダウンロード JIS X 0213:2004対応。 IPA文字検索システム 平成22年度電子経済産業省推進費(文字情報基盤構築に関する研究開発事業)成果物 IPAmj明朝フォントなど MJ縮退マップVer.0.1(検証版)の公開 文字情報基盤ブラウザ MJ Browser 互換漢字で表していたものはSVSを使うという話もあったが、結局ふつうにIVSを登録したようだ。SVSではCollectionに含めることができないからだろうか
一般社団法人文字情報技術促進協議会 「文字情報基盤」の成果物をIPAから移管されたが、仕事が適当すぎていろいろぶっ壊れたきり直っていない。とくに議事録が探せなくなったのは本当に困る。まあIPAだし。
WG2 N5221: Request for Horizontal Extension in the J-column of ISO/IEC 10646
UnicodeのJMJソースの漢字を、MJ文字一覧表の「実装したUCS」欄とジョインして、MJ文字図形名と番号が違っているやつ U+2D0B2 U+2D4F1
一般社団法人デジタル広域推進機構 - DWPI_mincho デジタル庁が直接は地方公共団体にしか公開していないらしい行政事務標準文字(MJ+)の実装。
IPA Font License | Open Source Initiative Article 5.1の"IPA may publish revised and/or new versions of this License. In such an event, the Recipient may select either this Agreement or any subsequent version of the Agreement"って、突然何の履歴も残さず、バージョン番号も変えずライセンスを差し替える可能性に備えた条項だったんでしょうか。CCのバージョンアップ条項みたいなものだと思ってたんですけど。
IPAフォントが2009年4月中旬にもオープンソース・ライセンスへ,改変と再配布が自由に:ITpro 追記に「ドラフトを間違えて乗せていたので差し替えた」と書かれているのだが、そう判断した理由(たとえばURLに"draft"と含まれてるものを何で正式版と確信しているのか)とかそもそもIPAのサイト上からどうやってこれらのライセンス文を見つけたのかとかは一切不明。
しょうがないので自力で見つけてきた。license-review@opensource.org: Thread on: For Approval: IPA Font License v1.0 って何でライセンスを見ている側がこんなことしなくちゃならないの? IPAが自ら告知することだろ。Article 5.1で受領者はすべて突然の差し替えに同意しているはずだし万が一差し替え前のライセンスを添付して配布されていてもArticle 5.1を適用して新ライセンスで配布し直せば済む話だから告知の必要などありませんってか。でも日付すら変えてないのにどっちが新しいかなんてどうやって判断するの?
[ubuntu-jp] IPAフォントがオープンソースライセンスへ この件に関するIPAの対応は本当にひどい。このMLログでようやく経緯がわかった。報告した奴にだけこっそり連絡しないでちゃんと差し替えがあったことを告知しろ>IPA。 間違ったライセンスが公開されていた期間中にライセンス文を参照して言及してた奴はたくさんいるぞ。海外にまで。あとから読んだ奴が混乱するだろ。IPA自身が正式に告知しない限りは、やっぱり「何の理由もなく突然こっそり差し替えた」とみなすしかない。
問い合わせの件 - tabatee の日記 clarification - tabatee の日記 正直言って「どうせ偏屈ものがへそ曲げただけだろ」とか思ってた時期が私にもありました。いやほんとごめん。
IPA職員の私物PCからの情報流出事件、該当職員が停職3ヶ月の懲戒処分に 「何この処分。本当にあのIPAが?」とか思ってた時期が私にも(ry。今では「IPAだからね」ととてもよく納得できます。
UNLHA32.DLL の開発停止、作者がLHA書庫の使用中止を呼びかける さすがIPAという事例がまた1つ
IPA、新しい常用漢字表の字体に準拠した「IPAex明朝フォント」v001.03を公開 この「IPAex明朝フォント」v001.03は常用漢字表で実際に用いられたフォントそのもので(実際には違うらしい)、55の漢字の字体が変更されたそうな。
IPAmj明朝の住基グリフ汚染 新しいバージョンのIPAmj明朝は、なぜかJIS2004字形より住基グリフを優先している場合がある。
Y.Oz Vox Y.Oz Vox isweb終了に伴い移転 手書き書体Y.OzFont。JIS X 0213以外にもいろいろな文字を収録。OpenTypeの字形切り替えに対応。
パブリフォント - DynaComware Corp.(ダイナコムウェア) 電子文庫パブリ パブリ双葉社電子書店[ツールのダウンロード] ||||| 祥伝社 Web Books ||||| - ツールのダウンロード 徳間web書店 --- ツールのダウンロード DFパブリフォント 無料ダウンロード可能。表外字がいわゆる正字(あるいは78JIS字形)で実装されている電子ブック用の書体。
秀英体TrueTypeフォント これも表外字をいわゆる正字で実装したフォント。
Fontcity4 印刷標準字体を本来の区点で実装したフォント Fontcity : 富士通ミドルウェア Fontcity4 字体比較一覧
FontAvenue外字パック 78JIS, 90JIS, 旧字体などを外字として実装
Adobe-Japan1-5について 印刷標準字体を字形切り替えでサポート。JIS X 0213:2000対応 ヒラギノOpenType基本6書体パック その実装例
QANO明朝 癸羊明朝 文字鏡契冲 漢字道楽 常用漢字もいわゆる旧字体で実装したフォント。QANO明朝はJIS X 0213、他はJIS X 0208の包摂規準に準拠
FontAvenueセレクト18書体パックの特長 78JIS(というかJIPS)字形を実装
16000字超の漢字と11000字超のハングルが入った軽量CJKフォント Droid Sans Fallback TrueTypeのcomposite glyph機能をフル活用してサイズを節約しているらしい。デジタル分合活字は現実の活字では不可能なグリフの重ね合わせなどができますからね。 Droid Sans Fallbackの日本語サポートが酷い ですよねー。フォントマニヤではないふつーの人が抱く感想。 Droid Sans Japanese Droid Sans Fallbackでは中国系だった漢字の書体を日本風に直したもの。
Asian and Central European font packs for Adobe ReaderAdobe Reader 7.0用のJapanese font packに含まれる「小塚明朝 Pro-VI R」はAdobe Japan1-6に対応している。
Microsoft Global IME 5.02 CJKのフォントも付属
たあやんわあるど ほーむぺーじ (移転先/転送URL/tar-yan.world.coocan.jp) TCM Unicode(Firefoxでは表示できない)/電子書體(フォントのコーナー) (移転先) たあやんわあるど うぇぶろぐ TCM明朝(非JIS漢字)、TCM Unicode SIPなど。FontDownload - 神代國ノ文字達 さらにサイト名を変更して移転 グリフ一覧表 - 神代グリフ 再移転 FontDownload - 神代國ノ文字達 Unicode SIP拡張文字
M+ OUTLINE FONTS DFSG freeなゴシック体フォント。(2008-06)教育漢字完成! M+ FONTS GitHubに移転。ライセンスがSIL OFLになってしまった…。Googleからの要請らしい。まあGoogleとしてオレオレライセンスを相手したくない気持ちはとても良くわかる。OSDN版は従来どおりM+ FONTSライセンスで公開され続けることを確認できた。
JIS検索 JIS X 9051、JIS X 9052
Vietnamese Unicode FAQs HAN NOM A/B 不自由な無償書体
海峰五笔・超大字符集・标准通用版・免费下载 Sun-Ext A/B 旧版はCJK統合漢字拡張Cの割り当てがドラフトに基づいており、正式版と互換性がないので注意 世界初と書かれていた件は
freedesktop.org - Software/CJKUnifonts オープンソースのCJKフォント。
efont さざなみフォントの開発・配布
文泉驿 中国のフォント共同制作プロジェクト「文泉驿」 Droid Sans Fallback の拡張プロジェクト@文泉驿
外字神社 フォントのダウンロード 外字神社フォントなど
Source Han Sans Japanese - Typekit (源ノ角ゴシック) Source Han Sans - GitHub 花園明朝の2016年2月版が出るまで、CJK互換漢字Standardized Variantsを実装している唯一のフォントだったのではなかろうか。日本の標準化の関係者は互換漢字VSが大っ嫌いみたいだし。きっとMicrosoftなどにも実装しないよう工作しているのだろうな。
Source Han Serif (源ノ明朝)
Google Noto Fonts GoogleブランドのSource Han SansおよびSource Han Serif
Standards インドの国家規格IS 13194:1991
自作プログラム集 shiftjisエンコーディングのTrueTypeフォントをunicodeエンコーディングに変換するttfcnv_aなど。バイナリはBeOS用だがソース付き。コンソールプログラムでとくにBeの機能は利用していないのでわずかな手直しで他OSでもコンパイルできると思われる。
今まで誰も同じようなことを考えなかったのだろうかと思ってたらやはり車輪の再発明をしていたらしい。サロゲートや合成には未対応のようだし、(GSUB/mortはそのままでグリフを並べ替えるので)縦書き字形が正常に表示できなくなると思うが。
ttc→ttfやttf→ttcの変換を行うツールもある。
日本と中国の漢字使用状況の比較研究 小さな漢字にClearTypeが効いてるのはどうやってるんだろう。(2003/10/07)lang=ZH-TWでfont-size:10.5pt;font-family:serifを指定したらこうなった。MingLiUは10.5ptのサイズだとClearTypeが効くらしい(IEデフォルトのフォントサイズ「中」だとだめだった)。ていうか10ポイントや12ポイントでは効かないっていったい…。MS 明朝でも18pt程度でもう効くようになった。Windows 2000では48ptまで拡大しないとだめだったのに。
Windowsは拡張子.ttfのフォントにOpenTypeフォントのアイコンを与えるかどうかをDSIGの有無で判別する。もっともPostScriptアウトラインのOpenTypeフォントと違って変わるのはアイコンだけで、GDIなどからは相変わらずTrueType扱いのようだが。
OpenTypeフォントはグレースケールをサポートする。EBLCテーブルでbitDepthに1以外を指定すると埋め込みビットマップの階調指定になる。Appleの仕様ではあくまで白黒ビットマップとして扱われるようだが。
さらにOpenTypeフォントはサイズごとに異なるアウトラインもサポートするようだが。
OpenType specification OpenType仕様バージョン1.5/1.4
Macでグリフ置換を実現するにはAATのテーブル(morx)が必要。OpenTypeのテーブルだけでは、縦書きも、旧字体への置換もできない(ヒラギノにはAATのテーブルが含まれるため可能)。こんなんでOpenType対応とか言ってしまっていいんだろうか。当たり前だがInDesignならできる。
Text & Fonts Technote 10012(改)Mac OS 8.5 からのフォント環境 MacのTrueTypeフォントのビットマップ形式について
wTTC MacのttfをWindows用に変換するツールやMacのttfフォーマットの解説
Mac OS X: フォントのファイルフォーマット Mac OS XではWindowsのフォントフォーマットもMac OS 9以前のフォントスーツケースも使える。新しくデータフォークにフォントスーツケースの情報を格納したデータフォークフォントもある(Windowsのフォントフォーマットとは異なる)。
File Encodings and Fonts Mac OS XはCarbonではShift_JIS、CocoaではUnicodeのcmapを使う。
pm9t-sriw Ttmodify - TrueTypeフォントのテーブルを編集するツール / Mac font extracter - MacのTrueTypeフォントをWindows用に変換するツール
TrueType Viewer OpenType Layoutの適用をOSとは独立に行っている
Freeware Fonts FreeのOpenTypeフォントLegendum。
SIL Encore Fonts 多数のOpenTypeの機能を使ったフォント。
YNLC Fonts and Keyboards カナダのユーコン準州で使われている8ヶ国語をサポートする表示用のフォントと入力用のキーボードレイアウト。フォントはOpenTypeの機能を多数利用している。2014年7月の時点で、フォントは別途インストールの必要がなくなったとして公開終了(キーボードレイアウトのみを公開継続)。
SIL FieldWorks: Download SIL FieldWorks 6.0.6 SEにはWindows Vista SP1のものと同等(バージョン1.626.6001.18000)のUniscribeが含まれる。
Visual OpenType Layout Tool OpenTypeのテーブルを編集するMicrosoftのツール。Uniscribeのベータ版も入手できる。
Fonts for Bible with Cantillation Marks msvolt.exeへの直リンクとusp10.dllの詳細な抽出方法
Microsoft VOLT users community ていうかコミュニティのトップページがGoogle検索であっさり出てくるし
Microsoft Typography - Visual OpenType Layout Tool (VOLT) MSNグループの廃止によってダウンロードページが正式に公開された。multiplyには移行しなかった模様。この件1つとってもmultiplyへの移行がいかに無茶な話だったかわかろうというもの。
Download details: Volt 1.3 (2008年7月) Windows Vista SP1/Windows Server 2008に付属のものと同等のバージョンのUniscribeが付属していた。Download details: Volt 1.3 (2010年9月) 日付から見るに、MS10-063の関係で脆弱なUniscribeを削除した模様。
Microsoft Font Validator TrueTypeフォントのフォーマットが不正でないかどうか調べるツール。MSNグループ廃止前の案内。 Microsoft Typography - Microsoft Font Validator MSNグループ廃止後はこちら。 GitHub - Microsoft/Font-Validator なんとオープンソース化された。
Appleのフォントツール。AATのテーブルを作成したり検証したりできる。
FontForge (旧称PfaEdit) Xで動くフォントエディタ。 FontForge Open Source Font Editor GitHubに移転 FontForgeについて Mac OS X ユーザのための PfaEdit Windows版 fontforge 簡単 お手軽パッケージ
ttfedit 移転先も消滅 TrueTypeフォントエディタ
FontCreator シェアウェア。米国製のようだがUnicodeエンコーディングであればCJKのフォントも開ける。
ttf_edit グリフ編集能力はない
BabelPad 新しいUniscribeの入手方法やUniscribeのバグについて
Changing your Uniscribe version システムのUniscribeを置き換えるための手順について書かれた文書。SILのヘブライ語フォントパッケージに含まれる。
UNICODEから引くOpenTypeコード表 非漢字編
IE7以降では以下の問題は修正されており、日中混じりの文章でも問題なく表示できる。
以下はWindows 2000以降でのみ可能。Windows 95/98/MeにはFontLinkの機能はない。
いちばん簡単な方法は、日本語のフォントをMS UI Gothicにすること(参考)。MS UI GothicはFontLinkで他言語のフォントがリンクされているので表示できる。"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\FontLink\SystemLink"に同様の設定を作成すればMS PGothicでも可能。
Windows XPではデフォルトでフォントがリンクされるので削除するだけでも一見よさそうだが、中国語のフォントが使われている部分で半角分の文字送りしかされず、文字が重なるので使い物にならない。
Mac用のMozillaはGecko 1.9でAATをサポートした。AATをサポートしているそうな。AATの機能を実装しろとか似たようなバグもなぜかオープンだが。Firefox 3.6以降はCoreTextに移行。Firefox 19からAATフォント以外はHarfBuzzを使うようになった。
mozdev.org SIL Graphiteを組み込んだバージョンのMozilla。本家への統合計画もあったが中止された。と思いきや華麗に復活。Firefox 45.0.1以降、リリースチャネルでは既定で無効にされた。
Windows上ではFirefox 3でcairo移行によりUniscribeを使うようになってOpenType Layoutをサポート。'locl'サポートなど積み残しもあるけど。Firefox 4から、Windows 7ではDirectWriteを使う予定。結局WindowsでもHarfBuzzを使うことになった(Firefox 28ではハングル以外、Firefox 29からすべて)。
LinuxではPangoを使用する計画が進行中。WONTFIXになってた。その代わりもっとモダンなHarfbuzzを使うらしい(Firefox 4から)。Firefox 19からLinux上ではすべてHarfBuzzを使うようになった。
IVSをサポートするのはWindows 7/Microsoft Office 2010に付属のUniscribeからだが、プログラム側の改修も必要。
Windows Vistaに付属のUSP10.dllはバージョン1.626.6000.16386。OpenType Layoutタグをサポートするための新関数を含む。またIE7は何も考えなくてもExtension Bにある漢字を表示できる。
Windows XP SP2 RC1に付属のUSP10.dllはバージョン1.420.2600.2096。ちなみにSP1は1.408.2600.1020。
Windows 95/98/Me/NT 4.0以前はOSがサロゲートに対応していないが、Uniscribeを最新にすることで対応できる。サロゲートだけでなくUnicode 3.0のさまざまなComplex Scriptすべてに対応する場合、Uniscribe 1.407.0以降が必要らしい。ワードパッドはサロゲートをちゃんと一文字として扱うらしいし。IE6をインストールするとWindows 98/Me/NT4ではUniscribeは最新になる。Windows 2000では手動で更新する必要がある。
Uniscribe(USP10.dll)はWindows Installer(MSI) 1.1/2.0のインストーラにも含まれ、一緒にインストールされる。Windows 2000はMSI 1.1、MeはMSI 1.2、2000 SP3/XPはMSI 2.0を含む。
Windows Installer 2.0 (Win95/98/Me/NT4/2000) USP10.dll 1.0325.2180.1を含む
Windows Installer 1.1 (Win95/98/NT4) USP10.dll 1.0325.2145.1を含む
2007 Office systemsがインストールするUSP10.dllはバージョン1.626.5756.0。OpenType Layoutタグをサポートするための新関数を含む。
Windows 95にはもちろんUSP10.dllは付属しない。Win95日本語版では、どうあがいでもSMPの文字をBabelMapで正常に表示できなかった(「??」になる)。FE(極東版)だから?
Windows 98に付属のIEは4なのでUSP10.dllは付属しない。Windows Installer 2.0をインストールすると、SMPの文字がBabelMapで表示された(IEでは表示できない。おそらく5.5以上が必要)。
Windows 98 SEに付属のUSP10.dllはバージョン1.0175.0000.1。Uniscribeが古いためこのままではBabelPadやBabelMapでもSMPの文字を表示できない。IE 5.01~5.01 SP2をインストールしてもUSP10.dllのバージョンは変わらない。Windows Installer 1.1をインストールしたら1.0325.2145.1になって、SMPの文字がBabelMapで表示される(IEでは表示できない)。IE 5.5 SP1をインストールするとUSP10.dllのバージョンが1.0325.2180.1になって、SMPの文字がBabelMapで表示される。レジストリの設定をすればIEでも表示可能。Windows 98のメモ帳はUnicodeに対応していない。ワードパッドは対応しているがSMPの文字は全部「?」に変換されてしまってダメ。またUTF-8には対応していない。
Windows Meに付属のUSP10.dllはIE 5.5が標準でインストールされているのでバージョン1.325.2180.1。何もしなくてもSMPの文字がBabelMapで表示される。レジストリの設定をすればIEでも表示可能。
Windows NT 4.0にはUSP10.dllは付属しない。IE4をインストールしてもUSP10.dllはインストールされない(UniscribeはIE5からの機能だから当たり前だが)。IE 5.01をインストールするとUSP10.dll バージョン1.0175.0000.1が入るが、SMPの文字は表示できない。Windows Installer 1.1をインストールすると、バージョンが1.0325.2145.1になって、SMPの文字がBabelMapで表示される。またWindows 98とは異なり、IEは5.01のままでもレジストリを設定すればSMPの文字が表示可能になる。でもメモ帳ではだめ。Uniscribeを使う必要があるのかな。ちなみにNT4のメモ帳はUTF-8に対応していないし、ワードパッドはUnicodeに対応していない。
Windows 2000に付属のUSP10.dllはバージョン1.325.2180.1。フォントのインストールとレジストリの設定だけで、Internet Explorer 5.01でもBabelPadでも表示できた(対応を公式に明言してるのだから当然かも)。メモ帳で表示するには再起動が必要。ワードパッドではSMPに欧文フォントを割り当てられず表示できなかった。どちらもUnicodeにもUTF-8にも対応はしている。
TrueTypeフォントでもBMP超の文字をサポートできる。たとえばCode2001は、システムから(OpenTypeフォントではなく)TrueTypeフォントとして認識される。ただOpenTypeフォントと言った場合、通常はATMを入れるかWindows 2000以降でしか認識できないPostScriptアウトラインのフォントを指すようである。TrueTypeアウトラインのフォントは(アイコンがどうであれ)システムからは相変わらずTrueTypeフォントとして認識されている。
USP10.dll(Uniscribe)の使い方 Uniscribe Windows 2000の正式版リリース後に書き直されたもの
Windows 2000では、"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\LanguagePack"の"SURROGATE"をREG_DWORD:0x00000002に設定してサロゲートを有効にする。Windows XP/Server 2003(の東アジア版)では初めから有効。Windows Vista以降は全言語版ではじめから有効。
"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\International\Scripts\41"と"HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\International\Scripts\42"の"IEFixedFontName"と"IEPropFontName"にそれぞれ使いたいフォントの名前を記入する。41がPlane1(SMP)、42がPlane2(SIP)用の設定と思われる。
IEでは「ユーザー定義」エンコードを使わないとSMPの文字を表示できないようなことが妖精現実に書かれているが、41を設定すると「ユーザー定義」エンコードでなくても表示できる。MSDNの説明は"IME provider"、すなわち東アジア向けのものだからSIPについてしか説明していないのであろう。ではSMPでは41を使えばいいという説明がどこにあるのかは知らないが。というか41はLim Scriptのはずなのだが…。
文字参照でサロゲートが使えるかのようなデタラメ説明を掲示板で突っ込まれても無視してるし、PDFについてのデマはひどいし、妖精現実の記事はあまり信用しないほうがよさげ。
とか書いてたらいつの間にか修正されていたようだが、
Mozilla は実際にはサロゲートによる文字参照を解釈できるが、
それはバグです。Firefox 3/2.0.0.17で修正されました。ちなみにWindows Vista + Firefox 2ではメイリオにないPlane 2の文字が□のように化けてしまう。IE7は表示できるが、サロゲートによる文字参照も解釈してしまう。
下記のデモでは、該当箇所で両方ともサロゲートを使わないように変更した。
𤰞と直すべきところが歷になってる罠。いくら何でも適当すぎ。
uni_web01 Unicode を利用した多漢字・多言語Web サイトの構築 関西大学・二階堂善弘研究室 Unicodeを使った多言語Webサイトの構築 Windows 2000/XP + Internet Explorer 6でExtension Bの漢字が表示可能(もちろんフォントは必要)。ここで紹介されているWindows 2000 Surrogate 更新 (簡体字中国語)は本来Surrogate対応IMEのセキュリティアップデートだが、導入すると上記のレジストリ設定が自動的になされる。
XPにはSurrogateFallbackという設定があるらしい(usp10.dllを覗くとこの文字列が出てくるのだがWindows 2000以前ではでは有効にならないのだろうか)。
10進文字参照は表示できたけど16進文字参照はできないなあ…。数値の頭に余分な0が入ってると認識しなくなる模様。これが正しい振る舞いなのかどうかは不明。Firefox 3.6ではいつの間にか表示できるようになってた(もちろんフォントは必要)。いつの間に修正されたのか不明。IEは(IE9 betaでも)相変わらずダメ。IE11では対応していた(HTML5パーサーに完全準拠したIE10以降対応かな?)。 Downloads from Alan Wood’s Web site
BabelPad BabelMap Windows 95/98/MeやWindows NT4でもサロゲートペアで表現された文字を表示できる。もっとも上述したように日本語版の95ではうまくいかなかった。Windows 2000以降だとOSには表示する能力がある(デフォルトで無効の場合もある)が、付属の「文字コード表」(charmap.exe)はWindows 7ですらBMP外の文字を表示できないという。
Extension Bの文字を表示するときの制限 ここで字形産生器が紹介されている。部分字形を組み合わせるだけならTrueTypeでもできなくはないが、CJKのストロークを認識するわけではなく単なる相似変換になるので使い物にならない。とか言ってたら実際にこの機能を使ったTrueTypeフォントが登場してしまった。なるほど、使いそうな幅や高さの種類分だけあらかじめ部品を用意しておけばいいわけか。