文字切れを除去する方法 (UTF-8) - SAS
データ/ファイルが色んなDBやらツールやらを介していると、文字の長さが異なったりして、文字切れが発生することがあります。ここでいう文字切れとは、例えば、15バイト/5文字で表現できる文字を14バイトしか読み込まず(読み込めず)、最後の1文字が文字として認識されない状態になることです。「ありがとう」という文字が文字切れが起きると、最後の「う」が認識されなくなり、「ありがと◆」と表示されてしまうみたいな感じです。 文字切れが起きてしまうと、表示がおかしくなってしまいますし、他のシステムにデータを渡した時、エラーが起きてしまう原因になることもあります。 今回は、文字切れがどうしても起きてしまう時の対処方法についてのお話です。 文字切れは、klengthとksubstrを使用することで除去することができます。klengthが、文字切れ部分を文字として認識しないのを利用した方法です。 関数の説明 length 文字のバイト数を取得 klength 文字の文字数を取得 substr ○バイト目~○バイト目を取得 ksubstr ○文字目~○文字目を取得 サンプルコード data TEST ; length A $15. B $15. ; /* UTF-8 で以下の全角文字は、1文字3バイト */ A = "あいうえお" ; /* 項目 B で文字切れを作る */ B = substr(A, 1, 14) ; C = klength(B) ; D = length(B) ; output ; B = substr(A, 1, 13) ; C = klength(B) ; D = length(B) ; output ; run ; data TEST ; set TEST ; if not missing(A) then do ; E = ksubstr(A, 1, klength(B)) ; F = length(E) ; end ; run ; proc print data=TEST ; run ; 項目 E のところが、文字切れをカットしているところです。項目 B で、13,14バイトに文字を切っていますが、文字切れ部分をカットした後、項目 F では12バ...