ロゴ
ユニオンペディア
コミュニケーション
Google Play で手に入れよう
新しい! あなたのAndroid™デバイスでユニオンペディアをダウンロードしてください!
無料
ブラウザよりも高速アクセス!
 

UTF-16

索引 UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム(文字符号化方式を参照)のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される(ビッグエンディアンならISO/IEC 10646のUCS-2と互換である)。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式(Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(Character Encoding Scheme)の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

23 関係: 基本多言語面互換バイト (情報)バイトオーダーマークワイド文字プレーンテキストインターネット・プロトコル・スイートエンディアンオペレーティングシステムシリアライズISO/IEC 10646JavaJava Platform, Standard EditionMicrosoft WindowsMicrosoft Windows XPUnicodeUTF-32UTF-8文字文字符号化方式整数型16ビット32ビット

基本多言語面

基本多言語面(きほんたげんごめん、Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。 最もよく使う、基本的な文字・記号のほとんどが含まれる。 UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。.

新しい!!: UTF-16と基本多言語面 · 続きを見る »

互換

互換(ごかん).

新しい!!: UTF-16と互換 · 続きを見る »

バイト (情報)

バイト (byte) は、「複数ビット」を意味する、データ量あるいは情報量の単位である。 1980年頃から1バイトは8ビット (bit) であることが一般的であったが、 正式に定義されたのは2008年発行のIEC_80000-13である。 8ビットは、256個の異なる値(たとえば整数であれば、符号無しで0から255、符号付きで−128から+127、など)を表すことができる。.

新しい!!: UTF-16とバイト (情報) · 続きを見る »

バイトオーダーマーク

バイトオーダーマーク あるいはバイト順マーク(バイトじゅんマーク)は通称BOM(ボム)といわれる、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである。このデータを元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。.

新しい!!: UTF-16とバイトオーダーマーク · 続きを見る »

ワイド文字

ワイド文字(ワイドもじ)とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。.

新しい!!: UTF-16とワイド文字 · 続きを見る »

プレーンテキスト

プレーンテキスト (plain text) とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。厳密にはASCIIのみ、さらに厳密には7ビットASCIIで構成された文書だけを指すが、パソコンが多言語化し様々な文字コードが扱われている現在では、特定の文字コードに準拠したバイナリファイルだと定義できる。ワープロで作成した文章とは違い、文字ごとの色や形状、文章に含まれる図などといった情報を含まない。プレーンテキストに対して、文字ごとの色や形状、文章に含まれる図などといった情報を含む文章のことをマルチスタイルテキストと呼ぶ。しかし、マルチスタイルテキストの一部もファイルフォーマットとしてはプレーンテキストのみで構成されているものもある。 プレーンテキストには文字情報以外の情報は一切含まず、テキストデータのみで構成されている。バイナリデータや文字の整形情報を持たないので、最低限の機能しか持たないテキストエディタや表示用のソフトウェアで扱えると言う点で利便性が高い。その反面、格納できる情報が純粋にテキストのみに限定される為、文字の強調や加工や言語情報、フォント情報を持つことが出来ない。これらの情報を格納する場合は、HTMLのような工夫が必要になる。 MS-DOS、Windowsでは、EDLINやメモ帳、UNIXやLinuxの場合はviやEmacs、Mac OSの場合はSimpleText、macOSの場合はテキストエディットなどといったOSに標準的に付属するソフトウェアで編集することが出来る。 なお、テキストエディタを使うことで、プログラミング言語のソースコードやHTML、XML、TeXといった純粋なテキストのみで構成されているファイルを編集する事も可能である。.

新しい!!: UTF-16とプレーンテキスト · 続きを見る »

インターネット・プロトコル・スイート

インターネット・プロトコル・スイート(Internet protocol suite)は、インターネットおよびインターネットに接続する大多数の商用ネットワークで利用できる通信規約(通信プロトコル)一式である。インターネット・プロトコル・スイートは、インターネットの黎明期に定義され、現在でも標準的に用いられている2つのプロトコル、Transmission Control Protocol (TCP) とInternet Protocol (IP) にちなんで、TCP/IPプロトコル・スイートとも呼ばれる。今日のIPネットワーキングは、1960年代と1970年代に発展し始めたLocal Area Network (LAN) とインターネットの開発が統合されたものである。それは1989年のティム・バーナーズ=リーによるWorld Wide Webの発明と共にコンピュータ及びコンピュータネットワークに革命をもたらした。 インターネット・プロトコル・スイート(類似した多くのプロトコル群)は、階層の一式として見ることができる。各層はデータ転送に伴い生じる一連の問題を解決し、下位層プロトコルのサービスを使用する上位層プロトコルに明確なサービスを提供する。上位層は利用者と論理的に近く、より理論的なデータを処理する。また最終的に物理的に転送できる形式へデータを変換するため、下位層プロトコルに依存する。そのデータ通信モデルは、TCP/IPモデル(TCP/IP参照モデル・DARPAモデル)と呼ばれ、4つの階層で構成している。この階層的な通信規約の設計をプロトコルスタックと呼ぶことがある。.

新しい!!: UTF-16とインターネット・プロトコル・スイート · 続きを見る »

エンディアン

ンディアン(endianness)は、複数のバイトなどを並べる順序の種類である。一般的な用語による表現ではバイトオーダ(byte order)、ないしそれを一部訳して日本語ではバイト順とも言う。 英語の「endian」という単語自体には元々は「配置方式」「並び順」といった意味はなかった(#語源を参照)。日本では総称として「エンディアン」と呼ぶことが多いが、英語でそれに相当する語はendianness(エンディアンネス)である。.

新しい!!: UTF-16とエンディアン · 続きを見る »

オペレーティングシステム

ペレーティングシステム(Operating System、OS、オーエス)とは、コンピュータのオペレーション(操作・運用・運転)のために、ソフトウェアの中でも基本的、中核的位置づけのシステムソフトウェアである。通常、OSメーカーが組み上げたコンピュータプログラムの集合として、作成され提供されている。 オペレーティングシステムは通常、ユーザーやアプリケーションプログラムとハードウェアの中間に位置し、ユーザーやアプリケーションプログラムに対して標準的なインターフェースを提供すると同時に、ハードウェアなどの各リソースに対して効率的な管理を行う。現代のオペレーティングシステムの主な機能は、ファイルシステムなどの補助記憶装置管理、仮想記憶などのメモリ管理、マルチタスクなどのプロセス管理、更にはGUIなどのユーザインタフェース、TCP/IPなどのネットワーク、などがある。オペレーティングシステムは、パーソナルコンピュータからスーパーコンピュータまでの各種のコンピュータや、更にはスマートフォンやゲーム機などを含む各種の組み込みシステムで、内部的に使用されている。 製品としてのOSには、デスクトップ環境やウィンドウシステムなど、あるいはデータベース管理システム (DBMS) などのミドルウェア、ファイル管理ソフトウェアやエディタや各種設定ツールなどのユーティリティ、基本的なアプリケーションソフトウェア(ウェブブラウザや時計などのアクセサリ)が、マーケティング上の理由などから一緒に含められていることもある。 OSの中で、タスク管理やメモリ管理など特に中核的な機能の部分をカーネル、カーネル以外の部分(シェルなど)をユーザランドと呼ぶ事もある。 現代の主なOSには、Microsoft Windows、Windows Phone、IBM z/OS、Android、macOS(OS X)、iOS、Linux、FreeBSD などがある。.

新しい!!: UTF-16とオペレーティングシステム · 続きを見る »

シリアライズ

ンピュータプログラミングにおいて、シリアライズ、もしくはシリアル化 (serialize) という用語は、次のような異なる2つの意味を有する。.

新しい!!: UTF-16とシリアライズ · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221(国際符号化文字集合)。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。 符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。 面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

新しい!!: UTF-16とISO/IEC 10646 · 続きを見る »

Java

Java(ジャバ)は、狭義ではプログラミング言語Javaを指す。広義では言語仕様以外にも、仕様が与えられているJavaクラスライブラリやJava仮想マシン、さらにはJDKやJREなどの公式のものをはじめとする、場合によってはサードパーティのものなどを含め曖昧にJavaプラットフォームと総称されるようなものなどのエコシステムなどを指すこともある。構文についてはJavaの文法の記事を参照。.

新しい!!: UTF-16とJava · 続きを見る »

Java Platform, Standard Edition

Java Platform, Standard Edition または Java SE(バージョン5.0までは Java 2 Platform, Standard Edition または J2SEと呼ばれていた)は多くのJavaプラットフォームプログラムで役立つJava APIの集合体である。Java仮想マシン、APIなどから構成される。 J2SE1.4バージョン (Merlin) 以降、Java SEプラットフォームはJava Community Process (JCP) の下で開発されている。JSR 59 はJ2SE1.4の包括仕様であり、JSR 176はJ2SE 5.0 (Tiger) を、JSR 270はJava SE 6 (Mustang) を規定している。Java SE 7 (Dolphin) はJSR 336の下でリリースされた。 Java SEでは標準的な機能のみが定められており、サーバ向けの機能についてはJava SEを拡張した企業向けのJava Platform, Enterprise Edition (Java EE) にて定義されている。 下記は主要なJava SEパッケージの説明である。全てのパッケージリストはを参照。.

新しい!!: UTF-16とJava Platform, Standard Edition · 続きを見る »

Microsoft Windows

Microsoft Windows(マイクロソフト ウィンドウズ)は、マイクロソフトが開発・販売するオペレーティングシステム (OS) の製品群。グラフィカルユーザインタフェース (GUI)を採用している。.

新しい!!: UTF-16とMicrosoft Windows · 続きを見る »

Microsoft Windows XP

Windows XP(ウィンドウズ エックスピー)は、マイクロソフトが2001年に発表したWindowsシリーズに属するオペレーティングシステム(OS)である。 XPは「経験、体験」を意味するexperienceに由来する。開発時のコードネームはWhistler(ウィスラー)と呼ばれていた。.

新しい!!: UTF-16とMicrosoft Windows XP · 続きを見る »

Unicode

200px Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。.

新しい!!: UTF-16とUnicode · 続きを見る »

UTF-32

UTF-32(およびUCS-4、#歴史を参照)は、Unicodeの各符号位置に32ビット符号単位一つだけを使う、固定長のUnicodeの符号化形式及び符号化スキーム(文字符号化方式#文字符号化形式と文字符号化スキーム)である。他のUTF(Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。.

新しい!!: UTF-16とUTF-32 · 続きを見る »

UTF-8

UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

新しい!!: UTF-16とUTF-8 · 続きを見る »

文字

文字(もじ)とは、言葉・言語を伝達し記録するために線や点を使って形作られた記号のこと。文字の起源は、多くの場合ものごとを簡略化して描いた絵文字(ピクトグラム)であり、それが転用されたり変形、簡略化されたりして文字となったと見られる。.

新しい!!: UTF-16と文字 · 続きを見る »

文字符号化方式

文字符号化方式(もじふごうかほうしき、character encoding scheme、CES)とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列(通常、バイト列)に変換する符号化方式。 文字符号化体系、文字符号化スキーム (character coding scheme) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (encoding scheme) などとも言う。 この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「'''文字符号の構造及び拡張法'''」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。.

新しい!!: UTF-16と文字符号化方式 · 続きを見る »

整数型

整数型(せいすうがた)は、コンピュータのプログラムなどのデータ型の1つまたは1群であり、整数を取り扱う。コンピュータで扱うもっとも単純な部類のデータ型のひとつである。C言語やJavaなどの多くのプログラミング言語では、整数型は固定長であり、その固定サイズで表現可能な範囲の、整数の有限な部分集合の要素を値とする型である。また多くの言語において、標準あるいは第三者によるライブラリにより、範囲に制限のない整数も扱うことができる。 パスカルによる機械式計算機などが数をその処理の対象としていたことを考えれば、計算機械の歴史において、整数を扱うことはコンピュータ以前からの存在である。.

新しい!!: UTF-16と整数型 · 続きを見る »

16ビット

記載なし。

新しい!!: UTF-16と16ビット · 続きを見る »

32ビット

有名な32ビットプロセッサとしては Intel 80386、Intel 486、Pentium シリーズ 及び MC68000 シリーズがある。モトローラ MC68000 は外部は16ビットであったが、32ビットの汎用レジスタと演算ユニットを持ち、全ての32ビットソフトウェアに対して前方互換性を持っていた。 上記以外の32ビットプロセッサには以下などがある。.

新しい!!: UTF-16と32ビット · 続きを見る »

ここにリダイレクトされます:

UTF-16BEUTF-16LEUTF16

出ていきます入ってきます
ヘイ!私たちは今、Facebook上です! »