Unicodeと文字符号化方式

Unicodeと文字符号化方式の違い

Unicode vs. 文字符号化方式

200px Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。. 文字符号化方式（もじふごうかほうしき、character encoding scheme、CES）とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換する符号化方式。文字符号化体系、文字符号化スキーム (character coding scheme) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (encoding scheme) などとも言う。この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「'''文字符号の構造及び拡張法'''」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。.

Unicodeと文字符号化方式間の類似点

Unicodeと文字符号化方式は（ユニオンペディアに）共通で14ものを持っています: ASCII、バイト (情報)、エンディアン、符号点、EUC-JP、IBM、JIS X 0201、JIS X 0208、Shift JIS、UTF-16、UTF-32、UTF-8、文字コード、文字集合。

ASCII

ASCII（アスキー、American Standard Code for Information Interchange）は、現代英語や西ヨーロッパ言語で使われるラテン文字を中心とした文字コード。これはコンピュータその他の通信機器において最もよく使われているものである。.

ASCIIとUnicode · ASCIIと文字符号化方式 · 続きを見る »

バイト (情報)

バイト (byte) は、「複数ビット」を意味する、データ量あるいは情報量の単位である。 1980年頃から1バイトは8ビット (bit) であることが一般的であったが、正式に定義されたのは2008年発行のIEC_80000-13である。 8ビットは、256個の異なる値（たとえば整数であれば、符号無しで0から255、符号付きで−128から+127、など）を表すことができる。.

Unicodeとバイト (情報) · バイト (情報)と文字符号化方式 · 続きを見る »

エンディアン

ンディアン（endianness）は、複数のバイトなどを並べる順序の種類である。一般的な用語による表現ではバイトオーダ（byte order）、ないしそれを一部訳して日本語ではバイト順とも言う。英語の「endian」という単語自体には元々は「配置方式」「並び順」といった意味はなかった（#語源を参照）。日本では総称として「エンディアン」と呼ぶことが多いが、英語でそれに相当する語はendianness（エンディアンネス）である。.

Unicodeとエンディアン · エンディアンと文字符号化方式 · 続きを見る »

符号点

号点（ふごうてん）は、符号化文字集合内の、文字を割り当てうる個々の点。コードポイント (code point)。Unicodeでは符号位置（ふごういち）と訳す。文脈によっては単に点（てん、point）ともいう。符号点は文字を割り当て「うる」点であり、規格によっては、実際に文字を割り当てる以外に、エスケープなどの目的の文字以外の何かが割り当てられることもある。.

Unicodeと符号点 · 文字符号化方式と符号点 · 続きを見る »

EUC-JP

EUC-JP（Extended UNIX Code Packed Format for Japanese、日本語EUC）はUNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード（符号化方式）のひとつである。UNIX以外のOS上で使われることもある。 1980年代前半、日本語UNIXシステム諮問委員会がUNIXで日本語を扱うための文字コードについて議論を行い、議論の結果をもとに1985年4月に同委員会から報告書がAT&Tに出され、AT&Tにより定められたのがEUC-JPの起こりである。AT&Tから、EUC（Extended UNIX Codeの略）として日本語に限らず多言語に対応できるように定められ、EUCのうち日本語を扱うものを特にEUC-JPなどと呼ぶ。他に、EUC-KR（韓国語）、EUC-CN（簡体中国語）等がある。 EUCのエンコード方式上にASCIIとJIS X 0208文字集合を配置したもので、半角カナ (JIS X 0201) とJIS補助漢字 (JIS X 0212) も含むことができる。半角カナと補助漢字を使用しない場合は、JIS X 0208で規定されている符号化方式「国際基準版・漢字用8ビット符号」と同一となる。ISO/IEC 2022に適合する。日本語文字はJIS X 0208をGR領域に表現したものを基本としており、2バイトで表現され、1バイト目、2バイト目ともに0x80 - 0xFFの範囲内にある。このため英数字と日本語文字の区別がしやすく、プログラム上での扱いが楽である。ただし、半角カナはISO-2022-JPやShift_JISと異なり制御文字SS2（シングルシフトツー、0x8E）に続けて現れるので都合2バイト、補助漢字は制御文字SS3（シングルシフトスリー、0x8F）に続けて現れるので都合3バイトを要する。 JIS X 0213:2004に対応するEUCコードはEUC-JIS-2004（2000年初版時はEUC-JISX0213）。 UNIX系OSの標準的な文字エンコードとして広く使用されてきたが、近年ではUTF-8を使用したシステムも普及している。.

EUC-JPとUnicode · EUC-JPと文字符号化方式 · 続きを見る »

IBM

IBM（アイビーエム、正式社名: International Business Machines Corporation）は、民間法人や公的機関を対象とするコンピュータ関連製品およびサービスを提供する企業である。本社はアメリカ合衆国ニューヨーク州アーモンクに所在する。世界170カ国以上で事業を展開している。.

IBMとUnicode · IBMと文字符号化方式 · 続きを見る »

JIS X 0201

JIS X 0201は、日本工業規格 (JIS) の制定している文字コード規格で、初版は1969年6月1日の制定であり、現存のJISにおける最も古い文字コードである。規格名称は7ビット及び8ビットの情報交換用符号化文字集合。名称が示す通り、7ビット符号と8ビット符号での運用が予定されている。図形文字の集合を規定するための規格であり、JIS X 0211 (ISO/IEC 6429) で規定される制御文字集合と組み合わせて使用する。現在の規格番号は日本工業規格の部門X（情報処理）の新設に伴って1987年3月1日に変更されたもので、旧規格番号はJIS C 6220。俗称はANKコードで、'ANK'はこのコードの主要構成文字であるアルファベット (Alphabet)、数字 (Numerical digit)、片仮名 (Katakana) の頭文字より来ている。 JIS X 0201はラテン文字用図形文字集合と片仮名用図形文字集合のふたつの文字集合よりなっている。このうちラテン文字用図形文字集合はAmerican Standard Code for Information Interchange (ASCII) と同様ISO/IEC 646の版の1つとなっている。ASCIIと比較すると2文字が異なっており、92番の文字にバックスラッシュ ('') の替わりに円記号 ('¥') が、126番にチルダ ('~') の替わりにオーバーライン ('‾') が割り当てられている。片仮名用図形文字集合は片仮名と日本語用の約物よりなっており、最後の31文字分は未定義となっている。また、単独の濁点と半濁点のみ収録されており濁点付き片仮名と半濁点付き片仮名は収録されていない。全体的な構造はJIS X 0202 (ISO/IEC 2022) に従った構造となっており、8ビット符号では16進で21から7Eにラテン文字を、A1からFEに片仮名を割り当てる。7ビット符号では21から7Eの領域を、SHIFT-INとSHIFT-OUTでラテン文字と片仮名を切り替えながら使用する。このとき、SO(0E)以降は片仮名、SI(0F)以降はラテン文字となる。現在では主にShift_JISおよびEUC-JPの一部として用いられており、単独で用いられることはほとんどない。これらの文字コードは JIS X 0208の文字も含んでおり、JIS X 0208にはJIS X 0201にあるほぼすべての文字があるため文字が重複することとなる。この区別のため、JIS X 0201の文字をJIS X 0208の文字の半分の幅で表示することが多い。このため、これらの文字を俗に半角文字、特に片仮名を半角カナとよぶ事が多い。また、Shift_JISのアルファベット部分はASCIIとJIS X 0201との区別が曖昧なまま使われることが多いため、円記号とバックスラッシュの区別においてしばしば混乱が起きる。.

JIS X 0201とUnicode · JIS X 0201と文字符号化方式 · 続きを見る »

JIS X 0208

JIS X 0208（ジス X 0208）は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本工業規格である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢字、JIS基本漢字などの通称がある。.

JIS X 0208とUnicode · JIS X 0208と文字符号化方式 · 続きを見る »

Shift JIS

Shift_JIS（シフトジス）は、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つ。かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、現在は標準化文書JIS X 0213の附属書1で規定されている(Shift JIS-2004)。「Shift_JIS」はIANAにおける登録名である。マイクロソフトなどの各ベンダーが実装するShift_JISの亜種については「Microsoftコードページ932」を参照。Mac OSが実装する亜種については「MacJapanese」を参照。.

Shift JISとUnicode · Shift JISと文字符号化方式 · 続きを見る »

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム（文字符号化方式を参照）のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面（BMP）内の文字は、符号単位1つの16ビットで表される（ビッグエンディアンならISO/IEC 10646のUCS-2と互換である）。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式（Character Encoding Form）の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム（Character Encoding Scheme）の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

UTF-16とUnicode · UTF-16と文字符号化方式 · 続きを見る »

UTF-32

UTF-32（およびUCS-4、#歴史を参照）は、Unicodeの各符号位置に32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム（文字符号化方式#文字符号化形式と文字符号化スキーム）である。他のUTF（Unicode transformation format）はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。.

UTF-32とUnicode · UTF-32と文字符号化方式 · 続きを見る »

UTF-8

UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

UTF-8とUnicode · UTF-8と文字符号化方式 · 続きを見る »

文字コード

文字コード（もじコード）とはコンピュータ上で文字（キャラクタ (コンピュータ)）を利用する目的で各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係（文字コード体系）のことを指して「文字コード」と呼ぶことも多い。本記事では主に後者について記述する。.

Unicodeと文字コード · 文字コードと文字符号化方式 · 続きを見る »

文字集合

文字集合（もじしゅうごう、character set）は、文字（キャラクタ (コンピュータ)）をその要素（「元」）とする集合である。文字セットという場合もある。例えば、「全てのアルファベット」(a, b, c,..., z, A, B, C,..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う,..., ん)というのもまた、ひとつの文字集合である。.

Unicodeと文字集合 · 文字符号化方式と文字集合 · 続きを見る »

上記のリストは以下の質問に答えます

何Unicodeと文字符号化方式ことは共通しています
何がUnicodeと文字符号化方式間の類似点があります

Unicodeと文字符号化方式の間の比較

文字符号化方式が36を有しているUnicodeは、162の関係を有しています。彼らは一般的な14で持っているように、ジャカード指数は7.07%です = 14 / (162 + 36)。

参考文献

この記事では、Unicodeと文字符号化方式との関係を示しています。情報が抽出された各記事にアクセスするには、次のURLをご覧ください:

ユニオンペディアは百科事典や辞書のように組織化概念地図や意味ネットワークです。これは、それぞれの概念との関係の簡単な定義を与えます。

これは、概念図の基礎となる巨大なオンライン精神的な地図です。これを使うのは無料で、各記事やドキュメントをダウンロードすることができます。それは教師、教育者、生徒や学生が使用できるツール、リソースや勉強、研究、教育、学習や教育のための基準、です。学問の世界のための：学校、プライマリ、セカンダリ、高校、ミドル、大学、技術的な学位、学部、修士または博士号のために。論文、報告書、プロジェクト、アイデア、ドキュメント、調査、要約、または論文のために。ここで定義、説明、またはあなたが情報を必要とする各重要なの意味、および用語集などのそれに関連する概念のリストです。日本語, 英語, スペイン語, ポルトガル語, 中国の, フランス語, ドイツ語, イタリア語, ポーランド語, オランダ語, ロシア語, アラビア語, ヒンディー語, スウェーデン語, ウクライナ語, ハンガリー語, カタロニア語, チェコ語, ヘブライ語, デンマーク語, フィンランド語, インドネシア語, ノルウェー語, ルーマニア語, トルコ語, ベトナム語, 韓国語, タイ語, ギリシャ語, ブルガリア語, クロアチア語, スロバキア語, リトアニア語, フィリピン人, ラトビア語, エストニア語とスロベニア語で利用できます。すぐにその他の言語。

すべての情報は、ウィキペディアから抽出し、それがクリエイティブクリエイティブ・コモンズ表示-継承ライセンスで利用することができます。

ユニオンペディアはウィキメディア財団の承認を受けておらず、提携もしていません。

Google Play、Android および Google Play ロゴは、Google Inc. の商標です。

個人情報保護方針