派遣JOB-LINK.com [05/27update]

▼最新情報をCheck!!▼


「UTF-8」||派遣JOB-LINK.com [05/27update]

UTF-8 wikipedia|無料辞書

前のページ 1/2 次のページ
UTF-8(旧UTF-2)はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム
正式名称は、ISO/IEC 10646では'UCS Transformation Format 8'、Unicodeでは'Unicode Transformation Format-8'という。
両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。
2バイト目以降に'/'などのコードが現れないように工夫されていることから、'UTF-FSS'(File System Safe)ともいわれる。
RFCにも仕様がある。
データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。
LinuxMac OS Xのように、OSの標準文字エンコードとして使用される例も増えている。
当初は、ベル研究所において Plan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された[外部リンク] RFC 3629 Page-3

◆エンコード体系
ASCII文字と互換性を持たせるために、ASCIIと同じ部分は1バイト、その他の部分を2〜6バイトで符号化する。4バイトのシーケンスでは21bit(0x1FFFFF)まで表現することができるが、Unicodeの範囲外となる17面以降を表すもの(U+10FFFFより大きなもの)は受け付けない。また5〜6バイトの表現は、ISO/IEC 10646による定義[外部リンク] ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)IETFによるかつての定義RFC 2279 UTF-8, a transformation format of ISO 10646で、Unicodeの範囲外を符号化するためにのみ使用するが、Unicodeによる定義[外部リンク] The Unicode Standard, Version 5.0とIETFによる最新の定義RFC 3629 UTF-8, a transformation format of ISO 10646では、5〜6バイトの表現は不正なシーケンスである。
ビットパターンは以下のようになっている。
0xxxxxxx (00-7f) 7bit
110yyyyx 10xxxxxx (c0-df)(80-bf) 11bit
1110yyyy 10yxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) 16bit
11110yyy 10yyxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) 21bit
111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf) 26bit
1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf) 31bit
Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する。
最短のバイト数で符号化するため、yの部分には最低1回は1が出現する。
符号化されたバイト列は、バイト順に関わらず左から順に出力する。
これにより4バイトで21bit、6バイトで31bitまで表現することができる。

▲上へ / ▼下へ

1バイト目の上位ビットの1の個数でその文字のバイト数が判るようになっている。また、2バイト目以降は10で始まり、1バイト目と2バイト目以降では値の範囲が重ならないので、文字境界を確実に判定できる。
7バイト以上の文字は規定されないため、fe, ffは使用されない。このため、バイト順マーク[外部リンク] Unicode Terminology English - Japanese, B, Unicode, Inc. (BOM) にfeとffを使用するUTF-16が、UTF-8と混同されることはない。

◆特徴

◇メリット
・バイトストリーム中の任意の位置から、その文字、前の文字、あるいは次の文字の先頭バイトを容易に判定することができる。
・文字列の検索を単なるバイト列の検索として行っても、文字境界と異なる個所でマッチしてしまうことがない。たとえばShift_JISで「?」を検索すると「表」の2バイト目にマッチしたり、EUC-JPで「海」を検索すると「ここ」にマッチしたりするのと同様のことが起きない。このため、マルチバイト文字を意識せず、ISO 8859-1などの8bit文字向けに作られた膨大なプログラム資産を、比較的少ない修正で再利用できる。
  ・但し、他のUnicodeの符号化と同様に、単にバイト列の比較では文字列が同一か判断できない場合がある。詳細は、Unicodeの等価性及び正規化を参照のこと。
UTF-16UTF-32と異なり、バイト単位の入出力を行うため、バイト順の影響が無い。
・31bitまで表現できるため、サロゲートペアを使用する必要がない。
・ASCII文字が主体の文書であれば、ほとんどデータサイズを増やさずにUnicodeのメリットを享受できる。UTF-16やUTF-32では、データサイズはほぼ2倍、4倍となる。
・複数のUTF-8文字列を、単なる符号無し8bit整数の配列とみなして辞書順ソートした結果は、Unicodeの符号位置の辞書順のソート結果(すなわちUTF-32に変換した後にソートした結果)と等しくなる。

◇デメリット
・UTF-8による符号化では、漢字仮名などの表現に3バイトを要する。このように、東アジアの従来文字コードではマルチバイト符号を用いて1文字2バイトで表現されていたデータが、1.5倍かそれ以上のサイズとなる。同様に、ISO/IEC 8859-1では1バイトで表現できた非ASCIIのラテン文字 (ウムラウト付きの文字など) も2バイトとなるし、その他のISO/IEC 8859シリーズに属する文字符号ではデータ量がさらに増大しうる。
  ・ なお、1バイトが9ビットである処理系では、この問題をあまり発生させずに符号化できるはずである。このアイディアに基づいたジョークRFCRFC4042 “UTF-9” として2005年4月1日に公開された。
・文字数とデータサイズが比例しないため、文字数を調べるには先頭から全データを読み取る必要がある。
・最短ではない符号やサロゲートペアなど、UTF-8の規格外だがチェックを行わないプログラムでは一見正常に扱われるバイト列が存在する。これらのバイト列を入力として受け入れてしまうと、プログラムが予期しない範囲のデータを生成するため、セキュリティ上の脅威となりうるRFC 3629, pp.9f.

◆サロゲートペアの扱い
UTF-16サロゲートペア(代用対)で表されるBMP外の文字をUTF-8に変換するときは、まず4バイトのサロゲートペア(代用対)(上位代用符号単位[外部リンク] Unicode Terminology English - Japanese, H, Unicode, Inc. 0xD800〜0xDBFF, 下位代用符号単位[外部リンク] Unicode Terminology English - Japanese, L, Unicode, Inc. 0xDC00〜0xDFFF)をU+10000からU+10FFFFまでの符号位置にデコードしてからUTF-8に符号化しなければならない。サロゲートペア(代用対)に使われるU+D800からU+DFFFまでの符号位置を、UTF-8でそのまま符号化することは禁止されており、不正なシーケンスとみなされる。
サロゲートペア(代用対)を残したままUTF-8と同等の符号化を行う規格は、CESU-8(Compatibility Encoding Scheme for UTF-16: 8-Bit)として別途定義されている。
これは、Oracle Databaseのバージョン8以前において、UTF-8文字は3バイトまでしか扱えなかったために便宜的に定義されている。4バイトのサロゲートペア(代用対)は使用せず、代わりに6バイトのサロゲートペア(代用対)(上位代用符号単位がED A0 80〜ED AF BF、下位代用符号単位が ED B0 80〜ED BF BF)で表現される。
なお、現在のOracle Databaseでは、CESU-8を「UTF8」として、「普通のUTF-8」を「AL32UTF8」として扱っているため注意を要する。
また、Javaの一部の内部実装で用いられているModified UTF-8も、サロゲートペアをそのまま残す仕様となっている。
但し、NULL文字をC0 80とエンコードする(これもUTF-8規格外)点で、CESU-8とも異なる実装となっている。

◆セキュリティ

前のページ 1/2 次のページ
・UTF-8 page1
UTF-8 page2

UTF-8を他のサイトで調べる
@[UTF-8]暇つぶしマスター
A[UTF-8]性病マスター
B[UTF-8]ダイエットNAVI
C[UTF-8]価格比較マスター
D[UTF-8]肛門科マスター
E[UTF-8]産婦人科科マスター
F[UTF-8]結婚情報マスター


■派遣job-LINK関連検索


■派遣job-LINKWikipedia情報

フリーター
日雇い
ネットカフェ難民
ワーキングプア
労働基準法
労働組合
職業安定法
偽装請負
アウトソーシング
手配師
格差社会

おすすめサイト

ダイエット

 美容・ダイエットならオマカセ!ダイエットNAVI

性病

 性病?お悩み・病院検索は性病マスター

暇つぶし

 いま、ヒマ?暇つぶしマスターで暇つぶし★

価格比較

 気になる商品の価格を比較!価格比較マスター

懸賞

 カンタン応募で豪華商品が当たる!アタックchance!

バイト

 駅チカバイトなら楽ラクバイト.com

求人

 地域を選んでバイト、仕事を探せる!!バリバリ仕事!.com

アルバイト

 バイトをこだわり条件で探す!こだわりキャリア.com

求人情報

 自分に合ったバイト探し★Myピッタリ仕事.com

バイト

 "資格"でバイト探し!天職さがそ!.com

バイト

 いいバイト、あるある!aruアルバイト.com

懸賞

 アタックchanceで懸賞チャレンジ!

産婦人科

 病院探し!病気相談なら産婦人科マスター

出産

 妊娠!出産!育児!赤ちゃんマスターでお悩み解決!

外為

 外為・為替レートをチェック!外為マスター

結婚

 結婚マスター!結納・両親・マリッジブルーノお悩みに…

先物

 先物・取引!詳しくなる!先物マスター

資格

 資格!キャリアアップ!資格GETマスター★

小説

 小説・書籍ならオマカセ!小説マスター

スポーツ

 スポーツ!健康!デトックス!スポーツマスターにオマカセ!

葬儀

 お葬式・葬祭のことなら・・・葬儀マスター

痩身

 ダイエット・デトックス・痩身!スリムGETマスター

脱毛

 パーフェクトBODY目指せ!脱毛マスター

着うた

 最新!人気!定番!うたマスターで着うたCHECK!

デコメ

 キラ系かわいいデコメCHECK!デコメマスター

転職

 履歴書・マナー・転職テク!就職情報なら転職マスター

バイク

 ハーレー!改造!バイクマスターにオマカセ!

派遣

 派遣!転職!キャリアアップ!転職マスター

ペット

 カワイイ犬・猫を飼いたい!ペットマスター

豊胸

 薄着の季節…お悩み解決!豊胸マスター

包茎

 包茎のお悩みなら…包茎マスター

レシピ

 今晩のおかず…料理・レシピならレシピマスター

モバグラMIXの人気キーワード

 モバグラMIXの人気キーワード一覧

外為

 外為情報をいち早く!外為LINK

求人

 転職・就活なら求人LINKにオマカセ!

金融

 金融業界の勉強するなら!金融LINK



 TOYOTA!HONDA!BMW!車のコトなら車LINK

モバグラMIXの人気キーワード2

 モバグラmixの人気キーワード2

  ■モバグラMXIの人気キーワード3

 モバグラMIXの人気キーワード3

  ■モバグラMIXの人気キーワード4

 モバグラMIXの人気キーワード4

  ■モバグラMIXの人気キーワード5

 モバグラMIXの人気キーワード5

  ■モバグラMIXの人気キーワード6

 モバグラMIXの人気キーワード6

  ■モバグラMIXの人気キーワード7

 モバグラMIXの人気キーワード7

  ■モバグラMIXの人気キーワード8

 モバグラMIXの人気キーワード8

  ■モバグラMIXの人気キーワード9

 モバグラMIXの人気キーワード9

  ■モバグラMIXの人気キーワード10

 モバグラMIXの人気キーワード10

  ■モバグラMIXの人気キーワード11

 モバグラMIXの人気キーワード11

  ■モバグラMIXの人気キーワード12

 モバグラMIXの人気キーワード12

モバグラMIXの人気キーワード13

 モバグラMIXの人気キーワード13

  ■モバグラMIXの人気キーワード14

 モバグラMIXの人気キーワード14

  ■モバグラMIXの人気キーワード15

 モバグラMIXの人気キーワード15

  ■モバグラMIXの人気キーワード16

 モバグラMIXの人気キーワード16

  ■モバグラMIXの人気キーワード17

 モバグラMIXの人気キーワード17

車査定

 車査定.com

献立レシピ1

 レシピが月額99円

献立レシピ2

 レシピが月額99円



~派遣JOB-LINK.com [05/27update] トップへ
(C)派遣JOB-LINK.com

モバイルSEO