地方在住IT系ニート

bkds

Unicodeのメモ

はじめに

氏名の比較をしたくなるケースがあります。
ですが、ユーザが自由に記入できるようなサイトの場合、記号が入力されてしまうようなケースがあります。
今回は、アルファベット、ひらがな、カタカナ、漢字以外を排除する方法をメモします。
Unicodeを用いて実現していきます。

Unicodeとは

Unicode(ユニコード)とは、文字コードの標準規格です。
Unicodeに収録されている文字は、こちらを参照してください。

基本的な文字コードは下記のようになるようです。

  • アルファベット
    • U+0041 - U+005A
    • U+0061 - U+007A
  • ひらがな
    • U+3041 - U+3096
  • カタカナ
    • U+30A1 - U+30FA
  • 漢字
    • U+4E00 - U+9FA5

判定方法

判定方法はとてもシンプルで、文字列から1文字ずつ上記で記載したコードの範囲に一致するかを確認するだけです。

「あかさたな」は「U+3042U+304BU+3055U+3066U+306A」で表現できるので、すべてひらがなの範囲に収まっていることがわかります。

JavaやGoなどのプログラミング言語は、Unicodeを扱うライブラリが標準でありますので、それらを利用した判定ができます。
ユーザごとにUnicodeグループを作成できるので独自のグループ判定も可能になります。

にほんブログ村 IT技術ブログ IT技術メモへPVアクセスランキング にほんブログ村