ISO/IEC 8859とUTF-8

ISO/IEC 8859とUTF-8の違い

ISO/IEC 8859 vs. UTF-8

ISO 8859（より正式にはISO/IEC 8859）はコンピュータでの利用を目的とした8ビット文字コードの標準である。ISOとIECが合同で定めた。この標準は複数の部（英: part）に分かれており、それぞれがISO/IEC 8859-1、ISO/IEC 8859-2などのように番号付きで出版されている。それぞれの部自体を、非公式に標準として参照することがある。2009年現在、15の部（破棄されたISO/IEC 8859-12標準を除く）が存在する。. UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

ISO/IEC 8859とUTF-8間の類似点

ISO/IEC 8859とUTF-8は（ユニオンペディアに）共通で16ものを持っています: ASCII、仮名 (文字)、バイト (情報)、ラテン文字、ヘブライ文字、アラビア文字、エンディアン、キリル文字、ギリシア文字、円記号、ISO/IEC 10646、ISO/IEC 8859-1、Unicode、UTF-16、UTF-32、文字コード。

ASCII

ASCII（アスキー、American Standard Code for Information Interchange）は、現代英語や西ヨーロッパ言語で使われるラテン文字を中心とした文字コード。これはコンピュータその他の通信機器において最もよく使われているものである。.

ASCIIとISO/IEC 8859 · ASCIIとUTF-8 · 続きを見る »

仮名 (文字)

仮名（かな）とは、漢字をもとにして日本で作られた文字のこと。現在一般には平仮名と片仮名のことを指す。表音文字の一種であり、基本的に1字が1音節をあらわす音節文字に分類される。漢字に対して和字（わじ）ともいう。ただし和字は和製漢字を意味することもある。.

ISO/IEC 8859と仮名 (文字) · UTF-8と仮名 (文字) · 続きを見る »

バイト (情報)

バイト (byte) は、「複数ビット」を意味する、データ量あるいは情報量の単位である。 1980年頃から1バイトは8ビット (bit) であることが一般的であったが、正式に定義されたのは2008年発行のIEC_80000-13である。 8ビットは、256個の異なる値（たとえば整数であれば、符号無しで0から255、符号付きで−128から+127、など）を表すことができる。.

ISO/IEC 8859とバイト (情報) · UTF-8とバイト (情報) · 続きを見る »

ラテン文字

ラテン文字（ラテンもじ、abecedarium Latinum、Latin alphabet、ラテンアルファベット）は、表音文字（音素文字・アルファベット）の一つである。ローマ文字、ローマ字（alfabeto Romano、Roman alphabet）とも呼ばれる。文字を右書きで横に並べることで単語を表記し、単語間を分かち書きで区切って並べることで文章を構成する。それぞれの文字は子音か母音を表す。今日、人類社会で最も解読者人口が多い文字である。元来ラテン語の文字で、古くから西欧・中欧の諸言語で使われているが、近代以降はこれら以外にも使用言語が多い。ただし発音の文字への表記方法は各言語ごとに異なっており、同じ綴りでも言語によって違う発音をすることはラテン文字においては全く珍しくない。英語など、古い時代に表記法が定められた言語においては表記と発音の間の乖離も大きなものとなってきている。.

ISO/IEC 8859とラテン文字 · UTF-8とラテン文字 · 続きを見る »

ヘブライ文字

ヘブライ文字（ヘブライもじ、ヘブル文字とも）とは、ヘブライ語やイディッシュ語を表記するための文字である。現代のヘブライ文字は、アラム文字より派生したアブジャドの一種で、右書き（右から左に）で書く。ヘブライ語の話者はヘブライ文字をアレフベートと呼ぶ。22文字の子音文字からなる表音文字で、うち k、m、n、p、の5つの文字に非語末形と語末形（ソフェート）の区別がある。.

ISO/IEC 8859とヘブライ文字 · UTF-8とヘブライ文字 · 続きを見る »

アラビア文字

アラビア文字（アラビアもじ）は、アラビア語をはじめ、世界中のイスラム文化圏に属する諸言語を記述するのに使われる文字。ラテン文字、漢字に次いで、世界で三番目に使用者数が多い文字体系である。.

ISO/IEC 8859とアラビア文字 · UTF-8とアラビア文字 · 続きを見る »

エンディアン

ンディアン（endianness）は、複数のバイトなどを並べる順序の種類である。一般的な用語による表現ではバイトオーダ（byte order）、ないしそれを一部訳して日本語ではバイト順とも言う。英語の「endian」という単語自体には元々は「配置方式」「並び順」といった意味はなかった（#語源を参照）。日本では総称として「エンディアン」と呼ぶことが多いが、英語でそれに相当する語はendianness（エンディアンネス）である。.

ISO/IEC 8859とエンディアン · UTF-8とエンディアン · 続きを見る »

キリル文字

リル文字（キリルもじ、Кириллица、Cyrillic alphabet、キリール文字とも）は、主にスラヴ諸語を表記するのに用いられる表音文字の体系の一種である。日本等では特にロシア語の文字として知られ、ロシア語で使う 33 文字（大文字小文字を同一視して）は、ロシア文字とも呼ばれる。しかし、キリル文字はブルガリア語やセルビア語をはじめとする多くの言語で使用されており、文字もそれぞれ微妙に異なる。そして、キリル文字発祥の地はブルガリアであるとされるため、キリル文字の総称としてロシア文字と呼ぶのは不適当である。.

ISO/IEC 8859とキリル文字 · UTF-8とキリル文字 · 続きを見る »

ギリシア文字

リシア文字（ギリシアもじ）とは、ギリシア語を書き表すために用いられる文字である。現代ギリシア語では24文字からなる。.

ISO/IEC 8859とギリシア文字 · UTF-8とギリシア文字 · 続きを見る »

円記号

¥ は、日本の通貨単位の円や中華人民共和国の人民元などを表す通貨記号である。Unicode文字名称は「」、JIS文字名称は円記号（えんきごう）。金額を表す数字に前置する。この円記号は、コンピュータでの文字コード変換マッピングに厄介な問題を抱えた記号の1つ（類似の問題を抱える記号には「₩」がある）として知られ、円記号のその問題は「円記号問題」と呼ばれる。.

ISO/IEC 8859と円記号 · UTF-8と円記号 · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221（国際符号化文字集合）。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

ISO/IEC 10646とISO/IEC 8859 · ISO/IEC 10646とUTF-8 · 続きを見る »

ISO/IEC 8859-1

ISO 8859-1（より正式にはISO/IEC 8859-1）はISO/IEC 8859の第一部であり、ラテンアルファベットの文字コード標準である。よりくだけた言い方ではLatin-1と呼ばれる。最初はISOによって開発されたが、後にISOとIECによって合同で保守されている。この標準に追加の文字を（16進符号0x00-0x1Fの「C0領域」と、0x80-0x9F「C1領域」の範囲に）割り当てたものは、2つの広く使われているキャラクタセットの基となる。ISO-8859-1（余分なハイフンに注意）とWindows-1252と呼ばれるものである。 2004年6月、8ビット符号化文字集合の整備を担当するISO/IECの作業部会は、国際符号化文字集合 (UCS) とUnicodeの開発に専念するために解散し、ISO 8859-1を含むすべてのISO 8859の整備を中止した。コンピュータアプリケーションにおいては、（UTF-8やUTF-16のような）完全なUCSサポートを提供するエンコーディングが、ISO 8859-1に基づくエンコーディングよりもますます多く使われるようになりつつある。.

ISO/IEC 8859とISO/IEC 8859-1 · ISO/IEC 8859-1とUTF-8 · 続きを見る »

Unicode

200px Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。.

ISO/IEC 8859とUnicode · UTF-8とUnicode · 続きを見る »

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム（文字符号化方式を参照）のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面（BMP）内の文字は、符号単位1つの16ビットで表される（ビッグエンディアンならISO/IEC 10646のUCS-2と互換である）。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式（Character Encoding Form）の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム（Character Encoding Scheme）の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

ISO/IEC 8859とUTF-16 · UTF-16とUTF-8 · 続きを見る »

UTF-32

UTF-32（およびUCS-4、#歴史を参照）は、Unicodeの各符号位置に32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム（文字符号化方式#文字符号化形式と文字符号化スキーム）である。他のUTF（Unicode transformation format）はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。.

ISO/IEC 8859とUTF-32 · UTF-32とUTF-8 · 続きを見る »

文字コード

文字コード（もじコード）とはコンピュータ上で文字（キャラクタ (コンピュータ)）を利用する目的で各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係（文字コード体系）のことを指して「文字コード」と呼ぶことも多い。本記事では主に後者について記述する。.

ISO/IEC 8859と文字コード · UTF-8と文字コード · 続きを見る »

上記のリストは以下の質問に答えます

何ISO/IEC 8859とUTF-8ことは共通しています
何がISO/IEC 8859とUTF-8間の類似点があります

ISO/IEC 8859とUTF-8の間の比較

UTF-8が75を有しているISO/IEC 8859は、341の関係を有しています。彼らは一般的な16で持っているように、ジャカード指数は3.85%です = 16 / (341 + 75)。

参考文献

この記事では、ISO/IEC 8859とUTF-8との関係を示しています。情報が抽出された各記事にアクセスするには、次のURLをご覧ください:

ユニオンペディアは百科事典や辞書のように組織化概念地図や意味ネットワークです。これは、それぞれの概念との関係の簡単な定義を与えます。

これは、概念図の基礎となる巨大なオンライン精神的な地図です。これを使うのは無料で、各記事やドキュメントをダウンロードすることができます。それは教師、教育者、生徒や学生が使用できるツール、リソースや勉強、研究、教育、学習や教育のための基準、です。学問の世界のための：学校、プライマリ、セカンダリ、高校、ミドル、大学、技術的な学位、学部、修士または博士号のために。論文、報告書、プロジェクト、アイデア、ドキュメント、調査、要約、または論文のために。ここで定義、説明、またはあなたが情報を必要とする各重要なの意味、および用語集などのそれに関連する概念のリストです。日本語, 英語, スペイン語, ポルトガル語, 中国の, フランス語, ドイツ語, イタリア語, ポーランド語, オランダ語, ロシア語, アラビア語, ヒンディー語, スウェーデン語, ウクライナ語, ハンガリー語, カタロニア語, チェコ語, ヘブライ語, デンマーク語, フィンランド語, インドネシア語, ノルウェー語, ルーマニア語, トルコ語, ベトナム語, 韓国語, タイ語, ギリシャ語, ブルガリア語, クロアチア語, スロバキア語, リトアニア語, フィリピン人, ラトビア語, エストニア語とスロベニア語で利用できます。すぐにその他の言語。

すべての情報は、ウィキペディアから抽出し、それがクリエイティブクリエイティブ・コモンズ表示-継承ライセンスで利用することができます。

ユニオンペディアはウィキメディア財団の承認を受けておらず、提携もしていません。

Google Play、Android および Google Play ロゴは、Google Inc. の商標です。

個人情報保護方針