Googleが日本語を自動改行する「BudouX」をオープンソース「GitHub」で公開

サイト企画/制作/デザイン
自己紹介
yu-ta(ゆーた)26歳、会社員 PC.スマホ周辺機器やスマート家電など ガジェットを使って スマートな生活を送っています。 このサイトでは管理人おすすめの 最新の便利ガジェット情報や お得に買えるセール情報を中心に 発信しております。
自己紹介
yu-ta(ゆーた)26歳、会社員 PC.スマホ周辺機器やスマート家電など ガジェットを使って スマートな生活を送っています。 このサイトでは管理人おすすめの 最新の便利ガジェット情報や お得に買えるセール情報を中心に 発信しております。
文節単位の分かち書きで分かりやすく改行、軽量サイズのライブラリを機械学習で開発

Googleは、日本語を文節で区切って改行して読みやすくするオープンソースの分かち書き器「BudouX」を開発者向け日本語公式ブログ「Google Developers」で9月24日に紹介した。開発者向け共有サービス「GitHub(ギットハブ)」で公開し、日本語と中国語(簡体字、繁体字)をサポートしている。

文節単位の分かち書きで自動改行を実現

BudouXは、Webなどさまざまなプラットフォームで自動改行するライブラリで、読みやすい折り返しを実現する。2016年公開のBudouの後継で、サードパーティのAPIや分かち書きライブラリに依存せずに動作する。分かち書きのための機械学習モデルを含めて20KB程度と軽量で、Webブラウザに配信するJavaScriptファイルに同梱も可能。

単語と単語の間をスペースで空ける英語などと異なり、日本語や中国語などアジア圏の一部の言語は分かち書きをしない。このためWebサイトやモバイルアプリで日本語や中国語を表示すると、スクリーンサイズによって好ましくない折り返しが起きることがある。この問題を自動で解決するため、BudouXは機械学習モデルを利用して開発された。

日本語の分かち書きモデルは、文節間の改行が読みやすさに寄与するとの考えから、単語単位ではなく文節単位の分かち書きを提供。「JavaScript」「Python」「Java」をサポートしており、プレーンテキストだけではなくHTMLコードにも適用可能。ブログではBudouXを活用している事例としてアドビのサイト「Adobe.com」を紹介している。

タイトルとURLをコピーしました