ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
ダウンロード
ブラウザよりも高速アクセス!
 

Unicodeと基本多言語面

ショートカット: 違い類似点ジャカード類似性係数参考文献

Unicodeと基本多言語面の違い

Unicode vs. 基本多言語面

200px Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。. 基本多言語面(きほんたげんごめん、Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。 最もよく使う、基本的な文字・記号のほとんどが含まれる。 UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。.

Unicodeと基本多言語面間の類似点

Unicodeと基本多言語面は(ユニオンペディアに)共通で18ものを持っています: 互換性ハングルバイト (情報)CJK統合漢字符号点第三漢字面DIS 10646面 (文字コード)追加多言語面追加特殊用途面追加面追加漢字面ISO/IEC 10646UTF-16UTF-32UTF-8文字符号化方式8ビット

互換性

互換性(ごかんせい、)とは、ある部品やコンポーネント(構成要素)などを置き換えても同様に動作させることができる性質のこと。 特に工業製品では、互換性を確保することで新たなシステムを用意する必要がなくなり、設計や部品の再利用性が高まることでコストカットを見込めることや、過去の製品からの買い替えなどを進めることができたりする。ただし、古い基準に縛られてしまうために技術革新の妨げとなるという側面もある。互換性を確保するために余計なコストがかかる場合は軽視されることがあるほか、メーカー間の互換性はベンダーロックインを狙うため、あえて削ぐものもある。.

Unicodeと互換性 · 互換性と基本多言語面 · 続きを見る »

ハングル

ハングル(한글)は、朝鮮語を表記するための表音文字である。1446年に李氏朝鮮第4代国王の世宗が「訓民正音」(훈민정음、Hunmin Jeong-eum、略称: 正音)の名で公布した。 意味は「偉大なる(ハン)・文字(グル)」である東京外国語大学・趙義成「チアチア語のハングル表記体系について」学術論文集28、2011.朝鮮奨学会が、「ハン」を「大韓帝国」の「韓(ハン)」とする説もある。.

Unicodeとハングル · ハングルと基本多言語面 · 続きを見る »

バイト (情報)

バイト (byte) は、「複数ビット」を意味する、データ量あるいは情報量の単位である。 1980年頃から1バイトは8ビット (bit) であることが一般的であったが、 正式に定義されたのは2008年発行のIEC_80000-13である。 8ビットは、256個の異なる値(たとえば整数であれば、符号無しで0から255、符号付きで−128から+127、など)を表すことができる。.

Unicodeとバイト (情報) · バイト (情報)と基本多言語面 · 続きを見る »

CJK統合漢字

CJK統合漢字(シージェーケーとうごうかんじ、)は、ISO/IEC 10646(略称:UCS)およびにて採用されている符号化用漢字集合およびその符号表である。CJK統合漢字の名称は、中国語、日本語、朝鮮語で使われている漢字をひとまとめにしたことからきている。CJK統合漢字の初版であるUnified Repertoire and Ordering第二版は1992年に制定されたが、1994年にベトナムで使われていた漢字も含めることにしたため、CJKVと呼ばれる事もある。CJKVは、中国語・日本語・朝鮮語・ベトナム語を表す英語の頭文字である。特に、その4つの言語で共通して使われる、または使われていた文字体系である漢字(チュノムを含む)のこと。ソフトウェアの国際化、中でも文字コードに関する分野で用いられる。 CJK統合漢字は、日本・中国・台湾・北朝鮮・韓国・ベトナムの各漢字コードとの対応表も定めているが、事情によりCJK統合漢字との対応を持たない各国・各地域の漢字コードをUCSに適切に変換できるよう、互換用の領域が別途定められている。この領域の漢字はCJK互換漢字と呼ばれる。.

CJK統合漢字とUnicode · CJK統合漢字と基本多言語面 · 続きを見る »

符号点

号点(ふごうてん)は、符号化文字集合内の、文字を割り当てうる個々の点。コードポイント (code point)。Unicodeでは符号位置(ふごういち)と訳す。文脈によっては単に点(てん、point)ともいう。 符号点は文字を割り当て「うる」点であり、規格によっては、実際に文字を割り当てる以外に、エスケープなどの目的の文字以外の何かが割り当てられることもある。.

Unicodeと符号点 · 基本多言語面と符号点 · 続きを見る »

第三漢字面

三漢字面(だいさんかんじめん、Tertiary Ideographic Plane, TIP)は、ISO/IEC 10646の第0群第3面およびUnicodeの第3面。ロードマップにおいては甲骨文字・金文・小篆といった現在一般的には使用されない古代の漢字を将来的に収録する予定の追加面の一つであったが、後述の通り、追加漢字面に入りきらなかった(現代の書体に基づく)漢字が最初に収録される見込みとなった。.

Unicodeと第三漢字面 · 基本多言語面と第三漢字面 · 続きを見る »

DIS 10646

DIS 10646とは、ISO/IEC 10646の原案である。.

DIS 10646とUnicode · DIS 10646と基本多言語面 · 続きを見る »

面 (文字コード)

面(めん)、字面(じめん)、プレーン(plane)とは、マルチバイト文字符号化方式において、下位から第3バイト(およびそれより上位バイト)で特定される、符号空間の一部分である。.

Unicodeと面 (文字コード) · 基本多言語面と面 (文字コード) · 続きを見る »

追加多言語面

追加多言語面(ついかたげんごめん)もしくは補助多言語面(ほじょたげんごめん、Supplementary Multilingual Plane, SMP)は、追加面の一つでISO/IEC 10646の第0群第1面およびUnicodeの第1面。正式名称は「用字及び記号のための追加多言語面」(ようじおよびきごうのためのついかたげんごめん、Supplementary Multilingual Plane for scripts and symbols)。現在使うもののいない古代の用字系や人工文字など、基本多言語面に入りきらなかった文字のうち漢字以外を収録する。.

Unicodeと追加多言語面 · 基本多言語面と追加多言語面 · 続きを見る »

追加特殊用途面

追加特殊用途面(ついかとくしゅようとめん、Supplementary Special-purpose Plane, SSP)は、追加面の一つでISO/IEC 10646の第0群第14面およびUnicodeの第14面。.

Unicodeと追加特殊用途面 · 基本多言語面と追加特殊用途面 · 続きを見る »

追加面

追加面(ついかめん)、補足面(ほそくめん)、補助面(ほじょめん)は、ISO/IEC 10646およびUnicodeにおける最初の面である基本多言語面以外の面のことを言う。.

Unicodeと追加面 · 基本多言語面と追加面 · 続きを見る »

追加漢字面

追加漢字面(ついかかんじめん、Supplementary Ideographic Plane, SIP)は、追加面の一つでISO/IEC 10646の第0群第2面およびUnicodeの第2面。基本多言語面に入りきらなかった漢字を収録する補足面の一つ。補助漢字面(ほじょかんじめん)とも呼ばれる。.

Unicodeと追加漢字面 · 基本多言語面と追加漢字面 · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221(国際符号化文字集合)。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。 符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。 面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

ISO/IEC 10646とUnicode · ISO/IEC 10646と基本多言語面 · 続きを見る »

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム(文字符号化方式を参照)のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される(ビッグエンディアンならISO/IEC 10646のUCS-2と互換である)。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式(Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(Character Encoding Scheme)の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

UTF-16とUnicode · UTF-16と基本多言語面 · 続きを見る »

UTF-32

UTF-32(およびUCS-4、#歴史を参照)は、Unicodeの各符号位置に32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム(文字符号化方式#文字符号化形式と文字符号化スキーム)である。他のUTF(Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。.

UTF-32とUnicode · UTF-32と基本多言語面 · 続きを見る »

UTF-8

UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

UTF-8とUnicode · UTF-8と基本多言語面 · 続きを見る »

文字符号化方式

文字符号化方式(もじふごうかほうしき、character encoding scheme、CES)とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列(通常、バイト列)に変換する符号化方式。 文字符号化体系、文字符号化スキーム (character coding scheme) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (encoding scheme) などとも言う。 この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「'''文字符号の構造及び拡張法'''」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。.

Unicodeと文字符号化方式 · 基本多言語面と文字符号化方式 · 続きを見る »

8ビット

CPUは一つの命令で操作できるデータによって分類することができる。16ビットプロセッサが一つの命令で16ビットのデータを操作できるのに対して、8ビットプロセッサは一つの命令で8ビットしか操作できない。 8ビットプロセッサの例.

8ビットとUnicode · 8ビットと基本多言語面 · 続きを見る »

上記のリストは以下の質問に答えます

Unicodeと基本多言語面の間の比較

基本多言語面が94を有しているUnicodeは、162の関係を有しています。 彼らは一般的な18で持っているように、ジャカード指数は7.03%です = 18 / (162 + 94)。

参考文献

この記事では、Unicodeと基本多言語面との関係を示しています。情報が抽出された各記事にアクセスするには、次のURLをご覧ください:

ヘイ!私たちは今、Facebook上です! »