ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
インストール
ブラウザよりも高速アクセス!
 

Unicodeと大規模文字セット

ショートカット: 違い類似点ジャカード類似性係数参考文献

Unicodeと大規模文字セットの違い

Unicode vs. 大規模文字セット

200px Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。. 大規模文字セット(だいきぼもじセット)、大規模文字集合(だいきぼもじしゅうごう)とは、(符号化)文字集合(文字セット)のうち、一般に通用している規格より多くの文字を含むものをいう。 たとえば日本においては、JIS X 0208には約6000の文字が含まれていたが、過去の文学作品や現代の日本でも使われている地名、人名等の固有名詞を表すのに十分ではなく、使いたい文字が含まれていないことを不満に感じる人達が少なからずいた。 「大規模文字セット」のほか「多漢字文字コード」や「大文字セット」などと呼ばれることもある。.

Unicodeと大規模文字セット間の類似点

Unicodeと大規模文字セットは(ユニオンペディアに)共通で5ものを持っています: CID (文字コード)ISO/IEC 10646JIS X 0208JIS X 0213文字集合

CID (文字コード)

CIDは、アドビ社のCIDフォントが内蔵するすべての文字(文字コレクション)を識別するため、文字ごとに振られる一連の番号。 文字コレクションは言語ごとに定義され、その言語の主要な文字集合をサポートするために必要な文字をすべて含む。文字コレクションには「登録者-配列(-追補番号)」の形式で名前が付けられる。たとえばアドビ社が定めた日本語の表記に使われる文字コレクションの名称はAdobe-Japan1である。 Adobe-Japan1は、JIS X 0208やISO/IEC 10646(≒Unicode)などの公的な文字コード規格では(異体字セレクタを使わない限り)同じコードが与えられている異体字の字形1つ1つに別々のCIDを割り当てている。実際のOS・アプリケーションとのやりとりは通常フォントに内蔵されている CMAPテーブル(CIDとUnicodeを相互に関連付けた対応表)を参照して行われるが、Acrobat・InDesign(いずれもアドビシステムズ社製品)・日本語LaTeX(フリーソフト)などのソフトはCID番号を直接利用することがある。 Adobe-Japan1の追補ごとの詳細は以下の通り。;Adobe-Japan1-0: 1993年6月11日発表。8,284グリフ。JIS X 0208-1983まで、OCFフォントで利用。Adobe-Japan1-4でJIS X 0208-1983の規格票字形が追加されたことに伴いAdobe-Japan1-0の範囲にはJIS X 0208-1990の規格票字形を実装することになったが、当初は厳密な規格票字形の実装を求められていなかった。このためAdobe-Japan1-4以前から存在するフォントで互換性の問題が生じる場合がある。;Adobe-Japan1-1: 1994年10月4日発表。8,359グリフ。富士通やNECのJIS X 0208実装に使われていた字体(おおむねJIS C 6226-1978に基づく)の拡張およびJIS X 0208-1990で追加された漢字の追加。;Adobe-Japan1-2: 1994年10月4日発表。8,720グリフ(CIDフォント)。IBM外字などの拡張によりマイクロソフト標準キャラクタセットをサポートした。;Adobe-Japan1-3: 2000年3月31日発表。9,354グリフ (OpenType Std / StdN)。縦書き字形の拡張。漢字の追加はない。;Adobe-Japan1-4: 2000年3月31日発表。15,444グリフ (OpenType Pro / ProN)ヒラギノのPro(バージョン7.11以降)/ ProNは、Adobe-Japan1-5(Pr5 / Pr5N)に対応する。より。。Mac OS X v10.0で利用可。過去のJIS X 0208の規格票字形すべてや、JIS X 0221 附属書1の追加漢字集合に対応。;Adobe-Japan1-5: 2002年9月20日発表。20,317グリフ (Opentype Pr5 / Pr5N)。Apple拡張(APGS)の取込み、JIS X 0213:2000、国語審議会「表外漢字字体表」など対応。Mac OS X v10.2, 10.3, 10.4で利用可。;Adobe-Japan1-6: 2004年6月11日発表。23,058グリフ (Opentype Pr6 / Pr6N)。JIS X 0213:2004およびJIS X 0212への対応。U-PRESSの文字を追加。Mac OS X v10.5で利用可。 Adobe-Japan1-4 と Adobe-Japan1-5 の間に Apple が Mac OS X (10.1) で JIS X 0213 文字を拡張した Apple Publishing Glyph Set(APGS) もあるが、Adobe-Japan1-5 と同じものということになっている(実際にはAdobe-Japan1-5との間には僅かに違いがある)。 古いものでAdobe-Japan2もある。Adobe-Japan2-0はJIS X 0212に相当するが、Adobe-Japan1-6に統合され廃止された。 Adobe-GB1(簡体字中国語)・Adobe-CNS1(繁体字中国語)・Adobe-Korea1(朝鮮語)など日本語以外のCJK圏で使われる文字コレクションもあるが、Adobe-Japan1以外はおおむね公的な文字コード規格の文字をそのまま含んでいるだけであるため、Adobe-Japan1に比べると、さほど注目されていない(最新版はそれぞれAdobe-GB1-5(30,284グリフ)・Adobe-CNS1-6(19,156グリフ)・Adobe-Korea1-2(18,352グリフ))。.

CID (文字コード)とUnicode · CID (文字コード)と大規模文字セット · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221(国際符号化文字集合)。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。 符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。 面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

ISO/IEC 10646とUnicode · ISO/IEC 10646と大規模文字セット · 続きを見る »

JIS X 0208

JIS X 0208(ジス X 0208)は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本工業規格である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢字、JIS基本漢字などの通称がある。.

JIS X 0208とUnicode · JIS X 0208と大規模文字セット · 続きを見る »

JIS X 0213

JIS X 0213(ジス X 0213)はJIS X 0208:1997を拡張した、日本語用の符号化文字集合を規定する日本工業規格 (JIS) である。規格名称は「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」である。 2000年に制定、2004年、2012年に改正された。2000年に制定されたJIS X 0213:2000は通称「JIS2000」と呼ばれている。2004年に改正されたJIS X 0213:2004は通称「JIS2004」と呼ばれている。 JIS X 0208を拡張した規格で、JIS X 0208が規定する6879字の図形文字の集合に対して、日本語の文字コードで運用する必要性の高い4354字が追加され、計1万1233字の図形文字を規定する。JIS X 0208を拡張する点においてJIS X 0212:1990と同目的であるが、JIS X 0212とJIS X 0213との間に互換性はない。JIS X 0212がJIS X 0208にない文字を集めた文字集合であるのに対し、JIS X 0213はJIS X 0208を包含し更に第三・第四水準漢字などを加えた上位集合である。.

JIS X 0213とUnicode · JIS X 0213と大規模文字セット · 続きを見る »

文字集合

文字集合(もじしゅうごう、character set)は、文字(キャラクタ (コンピュータ))をその要素(「元」)とする集合である。文字セットという場合もある。 例えば、「全てのアルファベット」(a, b, c,..., z, A, B, C,..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う,..., ん)というのもまた、ひとつの文字集合である。.

Unicodeと文字集合 · 大規模文字セットと文字集合 · 続きを見る »

上記のリストは以下の質問に答えます

Unicodeと大規模文字セットの間の比較

大規模文字セットが12を有しているUnicodeは、162の関係を有しています。 彼らは一般的な5で持っているように、ジャカード指数は2.87%です = 5 / (162 + 12)。

参考文献

この記事では、Unicodeと大規模文字セットとの関係を示しています。情報が抽出された各記事にアクセスするには、次のURLをご覧ください:

ヘイ!私たちは今、Facebook上です! »