ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
無料
ブラウザよりも高速アクセス!
 

UTF-32

索引 UTF-32

UTF-32(およびUCS-4、#歴史を参照)は、Unicodeの各符号位置に32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム(文字符号化方式#文字符号化形式と文字符号化スキーム)である。他のUTF(Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。.

27 関係: 大文字バイトオーダーマークテキストファイルデータベースキャラクタ (コンピュータ)C++C++11C11C言語CJKV私用面符号点結合文字記憶装置追加面GB 18030ISO/IEC 10646ISO/IEC 2022ISO/IEC JTC 1/SC 2UUnicodeUTF-16UTF-8最上位ビット文字集合31ビット32ビット

大文字

大文字(おおもじ、capital letter, upper case) は、ギリシア文字やそれから派生したスクリプト(文字体系)で、文頭や固有名詞のはじめなどに使う大きな字形の文字である。本来は大文字のみで記述してきたが、筆記を簡単にするために角を丸めたりした文字から小文字が現れると、大文字と小文字がひとつの文、単語の中で混在して用いられるようになった。 大文字と小文字の区別があるスクリプトは、ギリシア文字、ラテン文字、キリル文字、アルメニア文字、デザレット文字などである。グルジア文字のフツリ (Khutsuri) には大文字のみがある。.

新しい!!: UTF-32と大文字 · 続きを見る »

バイトオーダーマーク

バイトオーダーマーク あるいはバイト順マーク(バイトじゅんマーク)は通称BOM(ボム)といわれる、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである。このデータを元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。.

新しい!!: UTF-32とバイトオーダーマーク · 続きを見る »

テキストファイル

テキストファイル (Text File) は、文字など文字コードによって表されるデータだけが含まれるファイルのことで、ファイルフォーマットの一種と見なすこともできる。互換性が高く幅広い環境でデータを利用できる利点がある一方、単純な文字だけしか扱えないという制限がある。対義語はバイナリファイル。.

新しい!!: UTF-32とテキストファイル · 続きを見る »

データベース

データベース(database, DB)とは、検索や蓄積が容易にできるよう整理された情報の集まり。 通常はコンピュータによって実現されたものを指すが、紙の住所録などをデータベースと呼ぶ場合もある。コンピュータを使用したデータベース・システムでは、データベース管理用のソフトウェアであるデータベース管理システムを使用する場合も多い。.

新しい!!: UTF-32とデータベース · 続きを見る »

キャラクタ (コンピュータ)

ャラクタ (character) は、文字のことであるが、情報処理においては「文字コード」で表される「文字集合」という集合の要素(「元」)のことである。.

新しい!!: UTF-32とキャラクタ (コンピュータ) · 続きを見る »

C++

C++(シープラスプラス)は、汎用プログラミング言語の一つである。日本語では略してシープラプラ、シープラなどとも呼ばれる。.

新しい!!: UTF-32とC++ · 続きを見る »

C++11

C++11は、プログラミング言語 C++ のISO標準 ISO/IEC 14882:2011 の略称である。規格の策定中は2009年中の標準化を目指していたため、C++0x という仮称で呼ばれていた。 ISO/IEC 14882:2003 (C++03) に代わるものとして、2011年8月12日にISOによって承認された。後継のC++14が2014年8月18日に承認されている。 コア言語への機能追加や標準C++ライブラリの拡張を施し、C++TR1ライブラリの大部分を(数学的特殊関数ライブラリを除いて)取り込んでいる。.

新しい!!: UTF-32とC++11 · 続きを見る »

C11

C11,C-11.

新しい!!: UTF-32とC11 · 続きを見る »

C言語

C言語(シーげんご)は、1972年にAT&Tベル研究所のデニス・リッチーが主体となって開発したプログラミング言語である。英語圏では単に C と呼んでおり、日本でも文書や文脈によっては同様に C と呼ぶことがある。.

新しい!!: UTF-32とC言語 · 続きを見る »

CJKV

CJKV は、中国語・日本語・朝鮮語・ベトナム語 (Chinese-Japanese-Korean-Vietnamese) の略。特に、その四言語で共通して使われる、または使われていた文字体系である漢字(チュノムを含む)のこと。ソフトウェアの国際化、中でも文字コードに関する分野で用いられる。 比較的早くに漢字を廃止し、漢字に含めるべきか諸説あるチュノムを擁するベトナム語を除いた中国語、日本語、朝鮮語の頭文字だけをとって CJK と呼ぶこともある。主な東アジアの書記系を総称するときに用いられる。用語の使用頻度は CJKV より CJK のほうが多いが、CJK と言いながら実際は CJKV について述べていることも多い。.

新しい!!: UTF-32とCJKV · 続きを見る »

私用面

私用面(しようめん)は、追加面の一つで、.

新しい!!: UTF-32と私用面 · 続きを見る »

符号点

号点(ふごうてん)は、符号化文字集合内の、文字を割り当てうる個々の点。コードポイント (code point)。Unicodeでは符号位置(ふごういち)と訳す。文脈によっては単に点(てん、point)ともいう。 符号点は文字を割り当て「うる」点であり、規格によっては、実際に文字を割り当てる以外に、エスケープなどの目的の文字以外の何かが割り当てられることもある。.

新しい!!: UTF-32と符号点 · 続きを見る »

結合文字

結合文字(けつごうもじ、combining character)とは、文字コードにおいて先行する文字と組み合わせるための図形文字をいう。ダイアクリティカルマークや、仮名の結合可能な濁点・半濁点、ヘブライ文字のニクダー、アラビア文字のシャクル、ブラーフミー系文字の母音記号などが結合文字に属する。異体字セレクタも結合文字の一種である。.

新しい!!: UTF-32と結合文字 · 続きを見る »

記憶装置

GB SDRAM。一次記憶装置の例 GB ハードディスクドライブ(HDD)。コンピュータに接続すると二次記憶装置として機能する SDLT テープカートリッジ。オフライン・ストレージの例。自動テープライブラリで使う場合は、三次記憶装置に分類される 記憶装置(きおくそうち)は、コンピュータが処理すべきデジタルデータをある期間保持するのに使う、部品、装置、電子媒体の総称。「記憶」という語の一般的な意味にも対応する英語としてはメモリ(memory)である。記憶装置は「情報の記憶」を行う。他に「記憶装置」に相当する英語としてはストレージ デバイス(Storage Device)というものもある。.

新しい!!: UTF-32と記憶装置 · 続きを見る »

追加面

追加面(ついかめん)、補足面(ほそくめん)、補助面(ほじょめん)は、ISO/IEC 10646およびUnicodeにおける最初の面である基本多言語面以外の面のことを言う。.

新しい!!: UTF-32と追加面 · 続きを見る »

GB 18030

GB 18030は、中華人民共和国(中国)が制定した文字コード(文字セット)の国家規格である。規格名は現在《GB 18030-2005 信息技术 中文编码字符集》 (Information technology -- Chinese coded character set) といい、当初は《GB 18030-2000 信息交换用汉字编码字符集基本集的扩充》 (Information Technology -- Chinese ideograms coded character set for information interchange -- Extension for the basic set) といった。IANA登録名はGB18030である。.

新しい!!: UTF-32とGB 18030 · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221(国際符号化文字集合)。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。 符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。 面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

新しい!!: UTF-32とISO/IEC 10646 · 続きを見る »

ISO/IEC 2022

ISO/IEC 2022(旧称 ISO 2022)は、.

新しい!!: UTF-32とISO/IEC 2022 · 続きを見る »

ISO/IEC JTC 1/SC 2

ISO/IEC JTC 1/SC 2は、国際標準化を行うISOとIECの合同委員会(ISO/IEC JTC 1)において、符号化文字集合に関する標準化を担当する副委員会である。.

新しい!!: UTF-32とISO/IEC JTC 1/SC 2 · 続きを見る »

U

Uは、ラテン文字(アルファベット)の 21 番目の文字。小文字は u 。V、W、Yとともにギリシャ文字のΥ(ウプシロン)に由来し、キリル文字のУに相当する。Υ(ウプシロン)の別形に由来するFとも同系といえる。元来のラテン語字母には存在しない文字であり、中世になって、それまでとの両方を表していたVから、を表すために分離した文字である(V#歴史参照)。.

新しい!!: UTF-32とU · 続きを見る »

Unicode

200px Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。.

新しい!!: UTF-32とUnicode · 続きを見る »

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム(文字符号化方式を参照)のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される(ビッグエンディアンならISO/IEC 10646のUCS-2と互換である)。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式(Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(Character Encoding Scheme)の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

新しい!!: UTF-32とUTF-16 · 続きを見る »

UTF-8

UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

新しい!!: UTF-32とUTF-8 · 続きを見る »

最上位ビット

最上位ビット(さいじょういビット、most significant bitまたはhigh-order bit、MSBと略記)は、コンピュータにおいて二進数で最も大きな値を意味するビット位置のことである。MSBは左端ビットとも言われる。 二進数の特定のビットを示すために、各ビットにはゼロからn(その数値のビット数に依存)までのビット番号が割り当てられる。 従来、エンディアンによってゼロ番のビットがMSBに対応していたり、LSB(最下位ビット)に対応していたりしていたが、最近ではゼロ番はLSBとされていることが多い。(訳注:これが関係してくるのはビット番号を指定する形式のビット操作命令が存在する命令セットだけである。) 負の整数を2の補数で表すとMSBは必ず 1 になり、符号付正の整数では必ず 0 になるので、MSBは符号の判別に使われる。 これを拡張すると、MSBs(複数)はMSB側のいくつかのビットを意味する。 MSBが最上位バイトを意味する場合もある。この場合、MSB First はビックエンディアンを意味する。この曖昧さを回避するため、MSBit、MSByteと表記されることもある。.

新しい!!: UTF-32と最上位ビット · 続きを見る »

文字集合

文字集合(もじしゅうごう、character set)は、文字(キャラクタ (コンピュータ))をその要素(「元」)とする集合である。文字セットという場合もある。 例えば、「全てのアルファベット」(a, b, c,..., z, A, B, C,..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う,..., ん)というのもまた、ひとつの文字集合である。.

新しい!!: UTF-32と文字集合 · 続きを見る »

31ビット

31ビットのコンピューティングアーキテクチャは、恐らく31ビットアドレッシングのみであり、最も有名で有用なひとつである。1983年にIBMはメインフレーム用のSystem/370-XA (S/370-XA) アーキテクチャを発表し、従来のモデルの24ビットアドレッシングからの拡張として31ビットアドレッシングを発表した。これによりアドレス空間は128倍広がり、プログラムは従来の上限の16MBよりも、更に「上」を使用できるようになった。 従来のSystem/360や初期のSystem/370アーキテクチャでは、アドレスは常に32ビットのワードに記憶されたが、アドレッシングは24ビットであり、マシンはワード中の上位1バイトを無視していた。S/370-XAの拡張により、無視されるバイトは無くなった。 移行は巧妙だった。アセンブリ言語のプログラムにはこれ以前の約20年の間、アドレスを含むワード(ポインタ)中の上位1バイトが、アドレスとしてはマシンに無視されることを活用し、タグなどに使用しているものがあった(またLISPなどでも、言語処理系を実装するのに同様の技巧が使われる場合がある)。32ビット化してしまうとその技巧が全く使えなくなる。そこでIBMは移行の負担を最小とするため、以下の2形式のアドレッシングをサポートすることを選択した。.

新しい!!: UTF-32と31ビット · 続きを見る »

32ビット

有名な32ビットプロセッサとしては Intel 80386、Intel 486、Pentium シリーズ 及び MC68000 シリーズがある。モトローラ MC68000 は外部は16ビットであったが、32ビットの汎用レジスタと演算ユニットを持ち、全ての32ビットソフトウェアに対して前方互換性を持っていた。 上記以外の32ビットプロセッサには以下などがある。.

新しい!!: UTF-32と32ビット · 続きを見る »

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »