名寄せ – Wikipedia
社会保険庁の年金記録問題で話題になった「名寄せ」をすることの難しさについて書いてみる。
大量の顧客情報を扱う企業、とくにコンシューマ向けに広くサービスをしている企業では名寄せ処理は頭の痛い問題だ。たとえば銀行では預金保険法による保護の対象は一金融機関あたり一顧客までとされていたり、貸金業などでも与信管理のために同一の顧客情報を正しく引くことが求められる。また、通信業や保険業などでも個人同一名義での大量契約が不正に使われることをおそれて、同一名義の最大契約数について内部ルールを設定してあることがある。このときに名寄せ処理やデータ照合処理が必要になってくる。
名寄せする際、一番のキー情報は「名前」だが、名前ほどアテにならないものはない。たとえば「豊田」は「トヨダ」と「トヨタ」、「東海林」は「トウカイリン」と「ショウジ」など複数の読み方がある。多くの場合は紙の契約書を元にデータ打ち込みをしているので、契約者本人が気分によって変えてしまったものか、別人なのか、正しいのに打ち込み時に間違えたものなのか判別が付かない。また、漢字がよく似た別の字体だったり(「辻」のしんにょう、はしごだか、まゆはま等)、文字が余計に付いたり(「井上」が「井ノ上」に)、略字体が違っていたり(「市ヶ谷」が「市ケ谷」に)する。これも一律にオペレータの間違いと言い切ることもできない。契約時に身分証のコピーなどを取っていれば明らかな間違いは防げるのだが、免許証だとフリガナまでは確認できないし、打ち込む漢字の選択は漢字変換ソフトの性能とオペレータ(あるいは営業担当)のスキルに依存してしまう。一方、ウェブ画面などで申し込みした場合はたいていの場合本人が漢字選択しているので、こうした誤りはある程度防げる。
しかし厄介なのは外国人氏名で、カタカナで入れた場合とアルファベットで入れた場合はもはや判別不能だ。どちらの場合もミドルネームが入っている場合や、姓名のフィールドへの入れ方が異なっている場合は救いようがない。それから、カタカナ入力時も「李」を英語風に「リ」と入れたり現地語風に「イ」と入れたりする場合がある。海の向こうの話だが、アメリカの金融機関では近年イスラム系氏名の取扱が増えて、同じ名前でも複数のアルファベット表記があったり、由来名や尊称が付いていたりして名寄せを難しくしているようだ。
また、法人名もなかなか侮れない。よくある「(株)」を一律に「株式会社」とするかどうかは入力ルールである程度対処できるが、数字と英字なんかが出てくるとややこしくなる。まず数字はアラビア数字と漢数字とローマ数字の違いがあり、そのアラビア数字にも全角と半角の違いがある。まあ、この場合は入力チェックの段階で半角文字と記号をはじくことで対処できる。また、漢数字とアラビア数字の違いはあまり混同することがないだろうし(「センチュリー21」を「センチュリー二十一」とわざわざ書くことはない)、身分証などの受領時に会社登記上の表記を確認するよう徹底できればそこでチェックが出来る。しかし、ローマ数字の2を全角アルファベットのIを使って「II」などと打ち込まれるとさすがにお手上げだ。さらに最近は登記に英字や記号も使えるため、アルファベットの大文字と小文字の間違い(NeXTのようにランダムに混在している場合のミスは多い)やピリオド(.)と中点(・)の取り違えや、中黒の付け忘れの場合もある。それから、株式会社と社名の間にスペースが入っていることも多い。スペースは例えば「総務部 ご担当者」などの区切りに使ったりするので一律に入力不可にはできない。また、勢いあまってスペースを2つ連続で入れている例もある。
そのほか、簡単なところでは「トイザらス」などの仮名混在、思い込みによる入力ミス(「コ“ミニュ”ケーション」「イ“ン”シアティブ」など)がある。
個人名は同姓同名が多いため、生年月日と組み合わせることである程度判別できる。生年月日は身分証でも必ず書かれてある項目なので一致させやすい。ただし、それでも別人はけっこういる。社会保険庁の管理する国民年金の被保険者数は約7000万、NTTドコモの契約数は5300万、ゆうちょ銀行の口座数に至っては1億を超える。ここまでの規模になると氏名と生年月日の組み合わせでも大量の別人が出てくること必至だ。
そこで3つめの項目である住所の登場なのだが、住所はいくらでも書き換えができてしまうので氏名以上に難しい。たとえば「2丁目3番1号 ○○マンション505」を「2-3-1-505」と書けてしまう。また、市町村合併が続いたことで旧名称と新名称の混在があるし、難読な地名は誤入力のもとになる。まあ、このあたりは外部から日本全国の住所情報を買ってきてシステムでマスタ設定することが一般的なので、それだけでだいたいの間違いは防げる。入力時に郵便番号を入力して検索をすれば「○○市○○町○丁目」までは出てくるので、あとは番地と建物名だけを人間が入力するだけだ。ただ、この全国住所情報も問題がたくさんあって、市町村名以下が存在しない住所の問題や、末尾0000系コード、事業者専用コードの存在など挙げるとキリがないのでまた機会があれば書く。ともあれ、マスタ化することで郵便番号の入力間違いがほぼ無くなるため、名寄せのキー情報として使える。
つまり、名寄せをするには氏名、生年月日、郵便番号があればある程度対応可能ということになる。
とは言っても名寄せの完全自動化なんてできるわけがなく、結局は人間が判断するしかない。とくにコンシューマ向けに請求書や領収書を送っているようなところでは名寄せをすると請求情報が統合・合算されてしまうこともあるので、個別に了解をとってから対処するのが普通だろう。また、法人の場合は事業部独立採算などで意図的に請求統合をしていない場合があるので、名寄せする意味はあまりない。
一般的な企業でもこのような問題がある中で、さらに低レベルな入力ミスや安易な一律変換などがなされている社会保険庁のシステムは、名寄せなんてできるわけがない。今やっているように郵便を送って地道に解消していくしか方法が思いつかない。これが解決できるようなシステムをNTTデータや日立製作所が万が一でも現実に作れていたら、おそらくIBMの製品など一瞬で食ってしまうような高度なソリューションになっていただろう。
「名寄せ」のあれこれ
2008年5月11日