連載
» 2011年05月13日 11時00分 公開

本田雅一のエンベデッドコラム(6):IT+サービス+ヒューマンリソース (2/2)

[本田雅一,@IT MONOist]
前のページへ 1|2       

用途ごとに異なる砕き方

 Kyberというサービスを調べて感じるのは、“単位処理への砕き方”の巧妙さである。O-RIDはKyberが、どのように作業単位を砕いているかについて詳しくは話していないが、利用しているフリーフォーマットのKyberと名刺認識のKyber Business Cardでは、処理のやり方が異なることに気付く。

 Kyberでは、例えばホワイトボードに書かれた内容を写真に撮ってアップロードすると、「↑」といった文字が挿入されていることがある。これは図の中に含まれる矢印を認識したものだ。図の中にキャプションを入れていると、それも可能な限り認識しようとする。

 同じような処理を名刺に掛けてしまうと、ロゴマークなどによっては、かえって困った認識をすることもある。しかしKyber Business Cardを使ってみると、ロゴなどに起因する認識ミスが極めて少ないのだ。しかも、文字数が少ないとはいえ、1枚当たり10円を切る認識コストは驚きだ。

 フリーフォーマットのKyberに対して、レイアウトのパターンが想定しやすい名刺、しかも手書きではない活字の文字ということで、認識の手法を変えているのではないかと推察される。レイアウトの想定がしやすく、活字という限定も加われば、文字への分解方法が単純化できる。

 これは大きなヒントだ。

 例えばだが(実際にO-RIDがどのような処理を行っているかは別だ)、1文字ごと正確に分解できるなら、文字ごとに分解してOCR処理を行い、処理結果の候補を2〜3個程度認識し、作業担当者に選ばせるといった、さらなる作業の単純化もできる。

 1文字ずつならば処理は軽いので、これをゲーム感覚の遊び兼アルバイトとして暇つぶしできる、スマートフォンや携帯電話のアプリケーションにしてはどうだろう。単なるゲームだけならば遊んでもらえないだろうが、実際に収入につながるとなれば、空き時間に使ってくれるかもしれない。この方法ならば複数のアルバイトにジョブを転送し、多数決を取ることで精度を上げることもできる。

 どの程度、時間保証するかによってコストは変動するが、処理パフォーマンスにムラがあっても構わない作業ならば成立するかもしれない。

“ベストエフォートのバッチ”を考えてみる

 文字認識に大量の人を使う考え方は、他企業のサービスにも見られる。米企業のmicrotask(http://www.microtask.com/)が提供するサービスは、文字入力代行だけでなく、音声からの文字起こし、あるいは写真に写っている被写体の種類など写真の分類(タグ付け)といったサービスまで提供している。

 これらのサービスに共通しているのは、昔懐かしい“バッチ処理”だ。一般的なバッチ処理と異なるのは、処理能力の変動幅が大きなベストエフォートという点である。マイクロプロセッサの能力が向上し、あらゆる処理をオンデマンドで、その場で処理できるようになってきた。しかし、(ヒューマンリソースを用いるか否かはともかく)コスト対効果を考えるとき、バッチ的な処理アプローチをベストエフォートで提供するという発想を見直してもいいのかもしれない。

 例えば、筆者個人が長らく自動処理に不満を持ち、なんとか解決してほしいと思っている問題がある。それは音楽の曲ごとに異なる録音レベルの差だ。ダイナミックレンジの広い曲の平均録音レベルは低く、ダイナミックレンジの狭い曲は平均レベルが高い。ある程度の基準値はあるが、必ずしも一定ではない。平均値を比較して補正を掛けても“聴感”の音量が合うことは決してない。

 世の中に音量感をそろえると称するアプリケーションは多数あるものの、どれも完璧ではない。主音量に対する補正値を世界中のユーザーとHuman Cloudを組み合わせることで求め、メタデータとして提供してくれると、ポピュラーからロック、クラシック、ジャズまで幅広く音楽プレーヤーに入れている筆者はとても助かる。

 さらに発展させれば、写真をキレイにレタッチするといった処理にも使えるのではないだろうか。自動処理と、どの処理アプローチが正しいかを判別する部分を分解していけば、エキスパートの仕事のうち幾つかは単純化できる可能性はあるように思う。

筆者紹介

photo
photo

本田雅一(ほんだ まさかず)

1967年三重県生まれ。フリーランスジャーナリスト。パソコン、インターネットサービス、オーディオ&ビジュアル、各種家電製品から企業システムやビジネス動向まで、多方面にカバーする。テクノロジーを起点にした多様な切り口で、商品・サービスやビジネスのあり方に切り込んだコラムやレポート記事などを、アイティメディア、東洋経済新報社、日経新聞、日経BP、インプレス、アスキーメディアワークスなどの各種メディアに執筆。

Twitterアカウントは@rokuzouhonda

           近著:「インサイド・ドキュメント“3D世界規格を作れ”」(小学館)


前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.