マルチバイト文字

マルチバイト文字（マルチバイトもじ）とは、.

29 関係: ASCII、マイクロソフト、バイト (情報)、ワイド文字、コードページ、国際化と地域化、Big5、C言語、CNS 11643、EUC-JP、GB 2312、IBM、ISO-2022-JP、ISO/IEC 10646、ISO/IEC 2022、ISO/IEC 646、JIS X 0208、JIS X 0212、JIS X 0213、KPS 9566、KS X 1001、Shift JIS、Unicode、UTF-16、UTF-8、文字符号化方式、文字集合、1バイト言語、2バイト言語。

ASCII

ASCII（アスキー、American Standard Code for Information Interchange）は、現代英語や西ヨーロッパ言語で使われるラテン文字を中心とした文字コード。これはコンピュータその他の通信機器において最もよく使われているものである。.

新しい！!: マルチバイト文字とASCII · 続きを見る »

マイクロソフト

マイクロソフト（）は、アメリカ合衆国ワシントン州に本社を置く、ソフトウェアを開発・販売する会社である。1975年4月4日にビル・ゲイツとポール・アレンらによって設立された。.

新しい！!: マルチバイト文字とマイクロソフト · 続きを見る »

バイト (情報)

バイト (byte) は、「複数ビット」を意味する、データ量あるいは情報量の単位である。 1980年頃から1バイトは8ビット (bit) であることが一般的であったが、正式に定義されたのは2008年発行のIEC_80000-13である。 8ビットは、256個の異なる値（たとえば整数であれば、符号無しで0から255、符号付きで−128から+127、など）を表すことができる。.

新しい！!: マルチバイト文字とバイト (情報) · 続きを見る »

ワイド文字

ワイド文字（ワイドもじ）とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。.

新しい！!: マルチバイト文字とワイド文字 · 続きを見る »

ードページとは、特定の符号化文字集合を指定するための数字、またはその数字で指定された符号化文字集合、あるいはそのような方法で符号化文字集合を指定するためのシステムのことである。cpと表示されることもある。それぞれの符号化文字集合は「コードページ○○（○○は2桁から5桁の数字）」という形で管理される。コードページという用語は、システムベンダ各社が管理している符号化文字集合を指す時にしか用いられず、ISO等の公的な規格の文字集合を「コードページ○○」などということはない。IBMおよび、マイクロソフトは各自、コードページを定めて管理している。マイクロソフトのコードページ群はMS-DOSやWindowsなどで利用されている。IBMのコードページはSystem iやDB2等の文字データ表現体系(CDRA: "Character Data Representation Architecture")をサポートするIBMシステムで利用されている。.

新しい！!: マルチバイト文字とコードページ · 続きを見る »

国際化と地域化

情報処理における国際化と地域化（こくさいかとちいきか）は、ソフトウェアを開発した環境とは異なる環境、特に外国や異文化に適合させる手段である。国際化（internationalization internationalisation、i18n) は、ソフトウェアに技術的な変更を加えることなく多様な言語や地域に適合できるようにする、ソフトウェア設計の工程である。地域化（localization localisation、L10N）は、地域固有の構成部品や翻訳テキストを追加することによって、ソフトウェアを特定の地域や言語に適合させる工程である。かつては、ソフトウェアの地域化や多言語化のために必要に応じて技術的な変更が行われてきた。しかし、このようなやり方ではソフトウェアの規模拡大や対応する言語が多くなるに従い、開発や保守に多くの時間と費用がかかるため対応が難しい。1990年代にプログラミング言語やオペレーティングシステムの国際化対応が標準化されると、ソフトウェアを予め国際化することにより、地域固有データの追加や最小限の変更で地域化が行われるようになった。両者の概念は時々集合的にグローバライゼーション (globalization、G11N) と呼ばれる。ただし、この言葉はソフトウェア工学の範囲を越えて社会的な国際化の意味で使われることも多い。.

新しい！!: マルチバイト文字と国際化と地域化 · 続きを見る »

Big5

Big5（ビッグファイブ、中国語名：大五碼あるいは五大碼）は、繁体字中国語の文字コード（文字集合）で、台湾・香港・マカオといった繁体字圏で最も一般的に使われている。.

新しい！!: マルチバイト文字とBig5 · 続きを見る »

C言語

C言語（シーげんご）は、1972年にAT&Tベル研究所のデニス・リッチーが主体となって開発したプログラミング言語である。英語圏では単に C と呼んでおり、日本でも文書や文脈によっては同様に C と呼ぶことがある。.

新しい！!: マルチバイト文字とC言語 · 続きを見る »

CNS 11643

CNS 11643は、中華民国（台湾）の文字コード（文字集合）の規格。 1983年にまず試用版が発行され、2年間の試用期間を経た後に漢字の重複や排列順序の間違いを正し、1986年に最初の正式版が発行された。約13000字をISO/IEC 2022に適合するよう94×94文字集合2個に編成し、それぞれ第一字面・第二字面と呼ぶ。この他、初期には第十四字面があったが廃止され、後に第三～第七字面と第十五字面が追加された。符号空間としては第十六字面まで想定されている。 CNS 11643をEUCで符号化したものを、繁体字中国語EUC (EUC-TW) という。公的規格であり、体系としてはBig5より整っているが、正式版が発行された時点ではBig5がすでに広く普及していたこと、文字集合を複数の字面に分割したことから1文字が2バイトに収まらない場合があること、重複や排列を正したために試用版をベースとしたBig5との変換が単純な計算でできないことなどの理由により、.

新しい！!: マルチバイト文字とCNS 11643 · 続きを見る »

EUC-JP

EUC-JP（Extended UNIX Code Packed Format for Japanese、日本語EUC）はUNIX上で日本語の文字を扱う場合にもっとも多く利用されている文字コード（符号化方式）のひとつである。UNIX以外のOS上で使われることもある。 1980年代前半、日本語UNIXシステム諮問委員会がUNIXで日本語を扱うための文字コードについて議論を行い、議論の結果をもとに1985年4月に同委員会から報告書がAT&Tに出され、AT&Tにより定められたのがEUC-JPの起こりである。AT&Tから、EUC（Extended UNIX Codeの略）として日本語に限らず多言語に対応できるように定められ、EUCのうち日本語を扱うものを特にEUC-JPなどと呼ぶ。他に、EUC-KR（韓国語）、EUC-CN（簡体中国語）等がある。 EUCのエンコード方式上にASCIIとJIS X 0208文字集合を配置したもので、半角カナ (JIS X 0201) とJIS補助漢字 (JIS X 0212) も含むことができる。半角カナと補助漢字を使用しない場合は、JIS X 0208で規定されている符号化方式「国際基準版・漢字用8ビット符号」と同一となる。ISO/IEC 2022に適合する。日本語文字はJIS X 0208をGR領域に表現したものを基本としており、2バイトで表現され、1バイト目、2バイト目ともに0x80 - 0xFFの範囲内にある。このため英数字と日本語文字の区別がしやすく、プログラム上での扱いが楽である。ただし、半角カナはISO-2022-JPやShift_JISと異なり制御文字SS2（シングルシフトツー、0x8E）に続けて現れるので都合2バイト、補助漢字は制御文字SS3（シングルシフトスリー、0x8F）に続けて現れるので都合3バイトを要する。 JIS X 0213:2004に対応するEUCコードはEUC-JIS-2004（2000年初版時はEUC-JISX0213）。 UNIX系OSの標準的な文字エンコードとして広く使用されてきたが、近年ではUTF-8を使用したシステムも普及している。.

新しい！!: マルチバイト文字とEUC-JP · 続きを見る »

GB 2312

GB 2312-80（あるいはGB 2312-1980）は、中華人民共和国の国家規格として定められた簡体字中国語の符号化文字集合（いわゆる文字コード）で、主に中国大陸などで使われる。規格名は《信息交换用汉字编码字符集・基本集》という。GB0とも呼ばれ、GBコードといったときには、多くの場合この規格を指す。漢字を含む文字集合規格の基本となっていることや構造など、日本のJIS X 0208と共通点が多い。.

新しい！!: マルチバイト文字とGB 2312 · 続きを見る »

IBM

IBM（アイビーエム、正式社名: International Business Machines Corporation）は、民間法人や公的機関を対象とするコンピュータ関連製品およびサービスを提供する企業である。本社はアメリカ合衆国ニューヨーク州アーモンクに所在する。世界170カ国以上で事業を展開している。.

新しい！!: マルチバイト文字とIBM · 続きを見る »

ISO-2022-JP

ISO-2022-JPは、インターネット上（特に電子メール）などで使われる日本の文字用の文字符号化方式。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードであることを特徴とする (アナウンス機能のエスケープシーケンスは省略される)。俗に「JISコード」と呼ばれることもある。.

新しい！!: マルチバイト文字とISO-2022-JP · 続きを見る »

ISO/IEC 10646

ISO/IEC 10646 (UCS; Universal Coded Character Set) は、符号化文字集合や文字符号化方式などを定めた、文字コードの国際標準のひとつで、業界規格のUnicodeと概ね互換であることが特徴である。日本の対応規格はJIS X 0221（国際符号化文字集合）。 UCSの文字空間は0 - 10FFFFである。古い規格では21ビットのUnicodeをベースにして文字空間を31ビットに拡張したものとされ、Unicodeの最大値であるU+10FFFFより大きなコードも使用できるという点でUnicodeに対して上位互換であったが、2006年の改訂によりUnicodeで使用できない領域には文字が「永久に定義されない」こととされ下位互換を持つことになった。2011年の改訂では明確に0 - 10FFFFと定義された。符号化方式は、Unicodeと同じUTF-8やUTF-16が使われることが多い。ただし、Unicodeの『UTF』が『Unicode Transformation Format』を意味するのに対して、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味する点が違う。面 (plane)、区 (row)、点 (cell) として分けられ、Unicodeと同じ第0面の基本多言語面 (BMP; Basic Multilingual Plane) と追加面の第1 - 16面までの範囲で文字が定義されている。古い規格では群 (group) という分類もあったが2011年の改訂で廃止された。.

新しい！!: マルチバイト文字とISO/IEC 10646 · 続きを見る »

ISO/IEC 2022

ISO/IEC 2022（旧称 ISO 2022）は、.

新しい！!: マルチバイト文字とISO/IEC 2022 · 続きを見る »

ISO/IEC 646

ISO/IEC 646は7ビットの文字コードを規定する国際標準化機構 (ISO) 標準であり、これを元に各国語版の文字コードが規定される。アメリカの規格であるASCIIを国際化した体裁となっている。ラテンアルファベット（ISO基本ラテンアルファベット）と数字を中心とした共通部分と、ASCIIでは記号となっている各国規格で自由に割り当てられる部分に分かれており、ヨーロッパ各国ではこの部分にダイアクリティカルマークつき文字を割り当てることにより自国語の文章を符号化できるようになっている。現在ではヨーロッパでは8ビットコードであるISO/IEC 8859が主流となっており、この規格はあまり使われていない。なお、UnicodeのISO規格であるISO/IEC 10646の規格番号は、この規格の番号にちょうど10000を加えた値となっている。.

新しい！!: マルチバイト文字とISO/IEC 646 · 続きを見る »

JIS X 0208

JIS X 0208（ジス X 0208）は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本工業規格である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢字、JIS基本漢字などの通称がある。.

新しい！!: マルチバイト文字とJIS X 0208 · 続きを見る »

JIS X 0212

JIS X 0212（ジス X 0212）は、JIS X 0208:1983に含まれない文字を集めた、6067字の符号化文字集合を規定する日本工業規格 (JIS) である。規格名称は「情報交換用漢字符号－補助漢字」である。1990年10月1日に制定され、JIS X 0208と組み合わせて利用される。JIS補助漢字の通称がある。.

新しい！!: マルチバイト文字とJIS X 0212 · 続きを見る »

JIS X 0213

JIS X 0213（ジス X 0213）はJIS X 0208:1997を拡張した、日本語用の符号化文字集合を規定する日本工業規格 (JIS) である。規格名称は「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」である。 2000年に制定、2004年、2012年に改正された。2000年に制定されたJIS X 0213:2000は通称「JIS2000」と呼ばれている。2004年に改正されたJIS X 0213:2004は通称「JIS2004」と呼ばれている。 JIS X 0208を拡張した規格で、JIS X 0208が規定する6879字の図形文字の集合に対して、日本語の文字コードで運用する必要性の高い4354字が追加され、計1万1233字の図形文字を規定する。JIS X 0208を拡張する点においてJIS X 0212:1990と同目的であるが、JIS X 0212とJIS X 0213との間に互換性はない。JIS X 0212がJIS X 0208にない文字を集めた文字集合であるのに対し、JIS X 0213はJIS X 0208を包含し更に第三・第四水準漢字などを加えた上位集合である。.

新しい！!: マルチバイト文字とJIS X 0213 · 続きを見る »

KPS 9566

KPS 9566は、朝鮮民主主義人民共和国（北朝鮮）で使用される朝鮮語の文字コードである。北朝鮮の国家規格で制定され、2003年に制定されたKPS 9566-2003が最新のものである。1993年に制定されたKPS 9566-93は、1997年以降の標準規格とは多くの部分で異なるため、ほとんど使われていない。 KPS 9566-2000をサポートする唯一の文字符号化方式としてEUC-KPがあるが、これはEUC-KRと似ており、KS X 1001をKPS 9566に変えたものである。しかしKPS 9566をサポートするプログラムがほとんど存在しないため、代わりにEUC-KRを使用しており、文字集合自体は国際標準などで参照用途として使用することが多い。.

新しい！!: マルチバイト文字とKPS 9566 · 続きを見る »

KS X 1001

KS X 1001は、韓国でハングルや漢字をあらわすのに用いられている文字コード（符号化文字集合）の規格。以前はKS C 5601といい、現在でもこの名称で呼ばれることが多い。単にKSコードとも呼ばれる。現代韓国でUnicodeと並んで用いられるほぼ唯一の文字コードである。.

新しい！!: マルチバイト文字とKS X 1001 · 続きを見る »

Shift JIS

Shift_JIS（シフトジス）は、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つ。かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、現在は標準化文書JIS X 0213の附属書1で規定されている(Shift JIS-2004)。「Shift_JIS」はIANAにおける登録名である。マイクロソフトなどの各ベンダーが実装するShift_JISの亜種については「Microsoftコードページ932」を参照。Mac OSが実装する亜種については「MacJapanese」を参照。.

新しい！!: マルチバイト文字とShift JIS · 続きを見る »

Unicode

200px Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界規格である。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。 1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね相違点のいくつかはDIS 10646に由来する互換のISO/IEC 10646が制定された。.

新しい！!: マルチバイト文字とUnicode · 続きを見る »

UTF-16

UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化形式および符号化スキーム（文字符号化方式を参照）のひとつである。UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。ISO/IEC 10646での正式名称はUCS Transformation Format for 16 Planes of Group 00である。Unicodeでは、UTF-16が正式名称である。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面（BMP）内の文字は、符号単位1つの16ビットで表される（ビッグエンディアンならISO/IEC 10646のUCS-2と互換である）。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化形式（Character Encoding Form）の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム（Character Encoding Scheme）の1つの名称でもある。UTF-16符号化形式のための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。.

新しい！!: マルチバイト文字とUTF-16 · 続きを見る »

UTF-8

UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。.

新しい！!: マルチバイト文字とUTF-8 · 続きを見る »

文字符号化方式

文字符号化方式（もじふごうかほうしき、character encoding scheme、CES）とは、符号化文字集合で文字に対応付けた非負整数値を、実際にコンピュータが利用できるデータ列（通常、バイト列）に変換する符号化方式。文字符号化体系、文字符号化スキーム (character coding scheme) とも言う。文字について述べていることが明確なときは、単に符号化方式、またIBMの用語ではコード化体系 (encoding scheme) などとも言う。この用語はUnicodeやIETFの標準などで用いているが、ISO/IECやJISの標準では用いず「符号化文字集合の構造」あるいは「'''文字符号の構造及び拡張法'''」として扱われている。この用語の定義は、世界の文字コード規格とは必ずしも合致しないことがある。.

新しい！!: マルチバイト文字と文字符号化方式 · 続きを見る »

文字集合

文字集合（もじしゅうごう、character set）は、文字（キャラクタ (コンピュータ)）をその要素（「元」）とする集合である。文字セットという場合もある。例えば、「全てのアルファベット」(a, b, c,..., z, A, B, C,..., Z)というのもひとつの文字集合であるし、「全てのひらがな」(あ, い, う,..., ん)というのもまた、ひとつの文字集合である。.

新しい！!: マルチバイト文字と文字集合 · 続きを見る »

1バイト言語

1バイト言語（1バイトげんご）とは、コンピュータ関連の用語で、英語やドイツ語などの1バイト (256種類) の文字のみで表記できる文字言語を一纏めにしていう言葉。シングルバイト言語と呼ぶこともあるが、その意味で言語と文字を直結させて語るのことは様々な問題点があるため、適切な言葉ではないとされる（2バイト言語を参照のこと）。なお、「1バイト言語」はあくまでも「2バイト言語」という概念があって初めて成立する言葉である。同じソフトウェアであっても2バイト言語版だけが高価であるなどの例が見られることから使われるが、それは代替となる適切な単語が知られていないためとも言える。とても大きな括りで、これらの言語を使う国々を「1バイト / シングルバイト文化圏」と呼び、日本や中国などを「2バイト / ダブルバイト文化圏」と呼ぶ場合がある。.

新しい！!: マルチバイト文字と1バイト言語 · 続きを見る »

2バイト言語

2バイト言語（2バイトげんご）とは、コンピュータ関連の世界で、日本語、中国語、韓国語など、通常使用する文字をコンピュータで扱う上で、1文字に2バイトを要する用字系で表記される言語を指す言葉。ダブルバイト言語、マルチバイト言語ともいう呼び方もなされる。.

新しい！!: マルチバイト文字と2バイト言語 · 続きを見る »

ここにリダイレクトされます：

1バイト文字、2バイトコード、2バイト文字、DBCS、SBCS、マルチバイト、マルチバイトエンコーディング、多バイト文字、全角文字。

ユニオンペディアは百科事典や辞書のように組織化概念地図や意味ネットワークです。これは、それぞれの概念との関係の簡単な定義を与えます。

これは、概念図の基礎となる巨大なオンライン精神的な地図です。これを使うのは無料で、各記事やドキュメントをダウンロードすることができます。それは教師、教育者、生徒や学生が使用できるツール、リソースや勉強、研究、教育、学習や教育のための基準、です。学問の世界のための：学校、プライマリ、セカンダリ、高校、ミドル、大学、技術的な学位、学部、修士または博士号のために。論文、報告書、プロジェクト、アイデア、ドキュメント、調査、要約、または論文のために。ここで定義、説明、またはあなたが情報を必要とする各重要なの意味、および用語集などのそれに関連する概念のリストです。日本語, 英語, スペイン語, ポルトガル語, 中国の, フランス語, ドイツ語, イタリア語, ポーランド語, オランダ語, ロシア語, アラビア語, ヒンディー語, スウェーデン語, ウクライナ語, ハンガリー語, カタロニア語, チェコ語, ヘブライ語, デンマーク語, フィンランド語, インドネシア語, ノルウェー語, ルーマニア語, トルコ語, ベトナム語, 韓国語, タイ語, ギリシャ語, ブルガリア語, クロアチア語, スロバキア語, リトアニア語, フィリピン人, ラトビア語, エストニア語とスロベニア語で利用できます。すぐにその他の言語。

すべての情報は、ウィキペディアから抽出し、それがクリエイティブクリエイティブ・コモンズ表示-継承ライセンスで利用することができます。

ユニオンペディアはウィキメディア財団の承認を受けておらず、提携もしていません。

Google Play、Android および Google Play ロゴは、Google Inc. の商標です。

個人情報保護方針

マルチバイト文字

ここにリダイレクトされます：

他言語版