ITジャーナリスト三上洋事務所

百度Baidu IMEの変換文字列ネット送信についてのメモ

中国検索大手・百度Baiduが出している「Baidu IME」、及びAndroid向けのIME「Shimeji」で、利用者に無断で変換文字列・パソコンの固有IDなどを送信していたことが問題になっています。

この件についての取材メモをアップしておきます。記事としてはYomiuri Onlineのサイバー護身術に、12月27日午前中に掲載。また27日朝6:45のテレビ朝日「グッドモーニング」でパネルで紹介される見込みです。
追記：記事を下記で公開しました

Baidu IMEのことまとめました／中国の百度・Baidu、日本語変換をネット送信 : YOMIURI ONLINE（読売新聞） http://t.co/ns75nJAE22

— 三上洋 (@mikamiyoh) December 27, 2013

Baidu IMEが問題になった経緯

Baidu IME
経緯については、元切込隊長こと、やまもといちろうさんの記事、及びtogetterでまとまっています。やまもといちろうさんの記事ですべて状況がわかりますｗ
https://twitter.com/kirik/status/416077780598927360

中国製の日本語入力ソフト入力情報を無断送信についてのまとめ – Togetterまとめ http://t.co/b9geVkowsV

— 三上洋 (@mikamiyoh) December 26, 2013

簡単に流れをまとめると
・IIJのセキュリティブログが、ソフト名を出さずに問題点を指摘（12/17 IMEのオンライン機能利用における注意について）
・内閣官房情報セキュリティセンター（NISC）と文部科学省が注意喚起
・NHKの「おはよう日本」が詳しい取材に動き、ネットエージェントさんに調査依頼
・26日朝に「おはよう日本」が放送、ネットエージェントさんがブログで解析記事を掲載
入力情報を送信するＩＭＥ（ネットエージェント）
・26日に各社が後追い報道
・それを受けて、Baiduが26日午後二釈明のプレスリリースを出す
一部の報道に対する弊社の見解（Baidu）
といった流れです。
Baidu IMEについては、以前から問題が山積でしたが、NHK報道によって大きく日の目を見た形になっています。

Baidu IMEで送信されていた情報

ネットエージェントのブログ記事によれば、以下の通り。

＜Baidu IMEの場合＞

py= 変換確定文字列
uid= Windowsのコンピューターのセキュリティ識別子SIDです。
app= 使用しているアプリケーションのパス名です。 Chromeなどの場合ユーザ領域に保存されるため、Windowsのユーザ名が送られるケースもあります。
version= Biadu IMEのバージョン
＜Simejiの場合＞
Simejiの場合は、クラウド入力OFF、ログ情報を送信がOFFの場合でも送信されます。

py= 変換確定文字列
uid= UUID による個別端末識別子
mobile= 使用しているデバイス名
app= 使用しているアプリケーションのパッケージ名
version= Simejiのバージョン

Google IMEにも同様の機能がありますが、Googleの場合は「文字列自身は送信しない」と発表されています。Baidu IMEは、文字列そのものを送っているので、一歩踏み込んだ内容になっています。

問題点は大きく分けて２つ

Googleだってやってるんでしょ、何が問題なの？という疑問もあるでしょう。以下の2つの問題があると私は考えています。

文字列をネット送信することを明記していなかった

・文字列を送る「クラウド入力」が、デフォルトでONだった
・PC版のBaidu IMEでは、導入時の利用ガイドラインとプライバシーポリシーが明記されていなかった
・「データを収集しています」との表記はあるが、文字列を送るという表記がない（26日時点）
・「クラウド入力」という機能なんだから、ネットで送るのは当然でしょ？と思う人もいるが、実際には「予測変換」という機能をオンにすると、自動的に「クラウド入力」＝ネット送信が有効になっていた

プログラム上の欠陥がある（と思われる）

百度Baidu IMEの問題を以前から指摘されている黒翼猫氏が詳しく分析されています。
Baidu IME のニュースがデマの可能性と真面目な対策方法について
 SimejiのバグからNetAgentさんのBaidu IME解析を分析してみる
詳しくは黒翼猫氏の記事を読んでいただくとして、ざっくり書くと
・文字列をサーバーに送るプロセスに問題あり
・クラウド入力をオンの状態から「オフ」にしても、文字列を送るプロセスが閉じない
・見た目上で「オフ」になっていても、文字列を送ってしまう（と思われる）
・再起動すれば直るが、Androidではめったに再起動しないので残ったままになる
ということのようです。見た目上「クラウド入力オフ＝文字列を送信しない」としても、実際は送られている場合があるということですね。

百度Baiduが信用できない理由

・過去に変換文字列を平文（暗号化なし、URLエンコードのみ）で送っていたことがある
Baidu IME のクラウド入力の仕様がひどすぎる件（黒翼猫氏）
・日本製と言いながら中国語のモジュールを使っている
Baidu IME 最新版の徹底調査その２（黒翼猫氏）
・26日の報道前に、25日の時点でバージョンアップをし、初期状態を「クラウド入力オフ」に変更~~、またAndroidのShimejiでは注意喚起の表示を追加（まあ、ここは仕方ないことではありますが）~~（私の誤認によるものでした。お詫びして訂正します）

以前から、問題点のあるソフトだけに、今回の報道でも「やっぱりなあ」と思う人が多いでしょう。結論でいうと、使っちゃダメ、ってことです。怪しいものには近づかないってことで。

以上、簡単ながら取材メモでした。詳細は各ブログ、各社の分析記事をどうぞ。筆者の記事は27日午前中に、Yomiuri Onlineのサイバー護身術に掲載します。
追記：記事を下記で公開しました