による: 深センTGWテクノロジー株式会社
ナンバープレート認識技術は、画像セグメンテーション、画像認識理論に基づいています。このテクノロジーは、ナンバープレートを含む画像を分析してナンバープレートの位置を決定し、さらにテキスト文字を抽出して認識するために使用されます。
典型的なナンバープレート認識プロセスには、画像取得、画像前処理、ナンバープレート位置決め、文字セグメンテーション、文字認識、および結果出力が含まれる。 プロセスごとに互いに補完的です。 すべてのプロセスは、高い効率と高い干渉防止能力を確保する必要があります。 この方法でのみ、識別処理は満足のいく結果を達成することができる。
ナンバープレート認識システムを実装するには、主に2つの方法があります。1つは静止画像認識で、もう1つは動的ビデオストリーム認識です。 画像認識は、画質、ナンバープレートの改ざん、ナンバープレートの傾きなどの要因によって制限されます。 動的ビデオストリーム認識には、プロセッサのパフォーマンスインジケータによって制限されるより速い認識速度が必要です。特に、モバイル端末でリアルタイムのナンバープレート認識を実現したい場合は、パフォーマンスの最適化が必要です。
ナンバープレート認識には6つの主要なプロセスが含まれていますが、コアアルゴリズムは、ナンバープレートの配置、文字のセグメンテーション、文字認識の3つのモジュールにのみ配置されています。
ナンバープレートの位置付け
ナンバープレートの配置の主なタスクは、静止画またはビデオフレームからナンバープレートの領域を見つけ、その後の処理モジュール処理のためにナンバープレートを画像から分離することです。 ナンバープレートの配置は、システムのパフォーマンスに影響を与える重要な要因の1つです。 現在、ナンバープレートを見つける方法はたくさんありますが、一般的には2つの方法に分けられます。
まず、グラフィック画像に基づく方法。
主に (1) 色エッジアルゴリズム、色距離および類似性アルゴリズムなどの色ベースのローカリゼーション方法があります。; (2) ウェーブレットテクスチャ、水平勾配微分テクスチャなどのテクスチャベースのローカリゼーション方法。 (3) エッジ検出に基づく位置決め方法; (4) 数学的形式に基づく位置決め方法。
グラフィックスおよび画像技術に基づくポジショニング方法は、外部干渉情報による干渉の影響を受けやすく、ポジショニングの失敗を引き起こします。 例えば、色解析に基づく位置決め方法では、ナンバープレートの背景色がナンバープレートの色に似ていると、背景からナンバープレートを抽出することが困難である。 エッジ検出に基づく方法では、ナンバープレートのエッジの汚れが位置決めの失敗を容易に引き起こす可能性があります。 外部干渉情報の干渉もポジショニングアルゴリズムを欺き、ポジショニングアルゴリズムがあまりにも多くの非ナンバープレート候補領域を生成し、システム負荷を増加させます。
第二に、機械学習に基づく方法。
機械学習ベースの方法には、機能工学ベースのポジショニング方法とニューラルネットワークベースのポジショニング方法が含まれます。 たとえば、OpenCVが提供するhaar機能に基づいたカスケード分類器を介して、ナンバープレート位置決めシステムをトレーニングできます。 しかし、この方法はトレーニングに非常に時間がかかり、分類とポジショニングの効率も低くなります。 したがって、ターゲットローカリゼーションの分野では、ニューラルネットワークベースの方法が主流の方法です。 ニューラルネットワークベースのローカリゼーション方法では、畳み込みニューラルネットワークは主にターゲット機能を学習するために使用されます。 畳み込みニューラルネットワークには翻訳不変性があるため、学習プロセスで候補領域を補足し、候補領域を分類することができます。 正しく分類された候補領域は、ターゲットの位置である。 このような方法には、RCNN、より高速なRCNN、SSDなど、多くの実装モデルがあります。
文字セグメンテーション
文字セグメンテーションのタスクは、マルチ列またはマルチライン文字画像の各文字を画像全体から単一の文字画像にカットすることです。 従来の文字セグメンテーションアルゴリズムは、次の2つのカテゴリに要約できます。直接セグメンテーション方法、画像形態に基づくセグメンテーション方法です。 直接セグメンテーション方法は、ナンバープレート文字の分布などの事前知識に基づいて単純であり、セグメンテーションを実現するためのいくつかの基本的な投影アルゴリズムを支援します。形態ベースのセグメンテーション方法は、エッジ検出、拡張、および腐食を使用して、文字画像の位置を決定します。 従来の文字セグメンテーションアルゴリズムは、ナンバープレートの傾斜、文字の汚れ、接着などの外部障害にも敏感です。 ナンバープレート文字の正しいセグメンテーションは、文字認識にとって非常に重要です。 セグメンテーションが正しいときのみ、認識精度を保証することができる。 ニューラルネットワーク理論の継続的な発展に伴い、エンドツーエンドの画像分類および認識技術も大きな進歩を遂げたため、多くのOCRソフトウェアは従来の文字セグメンテーション処理を徐々に取り除き、マルチ文字は認識ネットワークによって直接認識されます。。
文字認識
文字認識は、1つ以上の文字を含む画像から文字エンコードを抽出するプロセスです。 文字認識の典型的な方法は、機械学習に基づく画像分類の方法である。 画像分類方法では、1つの画像は1つの分類しか出力できません。つまり、1つの画像に1つの文字画像しか含めることができません。 これは、高精度の文字セグメンテーションを必要とする。 別の認識方法は、再帰型ニューラルネットワークに基づくエンドツーエンドの文字認識方法である。 この方法は、ナンバープレート画像全体をネットワークに入力し、ニューラルネットワークはすべての文字を直接出力する。 エンドツーエンド方式は、文字セグメンテーションプロセスを直接削除し、文字セグメンテーションエラーによる安定性の低下を回避しますが、エンドツーエンド方式は、ナンバープレートの傾きなどの他の障害にも敏感です。
上記のナンバープレート認識システムの3つのコア部分のいくつかの技術について簡単に説明しました。 フォローアップでは、いくつかの主流技術の詳細な議論を行います。
深センTigerWongテクノロジー株式会社
電話:86 13717037584
メール: info@sztigerwong.com
住所: シリコン バレー パワー デジタル工業団地、ビル A2、1 階、No. 龍華区観蘭街大福路22号
中国広東省深セン