Googleは、日本語を文節で区切って改行して読みやすくするオープンソースの分かち書き器「BudouX」を開発者向け日本語公式ブログ「Google Developers」で9月24日に紹介した。開発者向け共有サービス「GitHub(ギットハブ)」で公開し、日本語と中国語(簡体字、繁体字)をサポートしている。
BudouXは、Webなどさまざまなプラットフォームで自動改行するライブラリで、読みやすい折り返しを実現する。2016年公開のBudouの後継で、サードパーティのAPIや分かち書きライブラリに依存せずに動作する。分かち書きのための機械学習モデルを含めて20KB程度と軽量で、Webブラウザに配信するJavaScriptファイルに同梱も可能。
単語と単語の間をスペースで空ける英語などと異なり、日本語や中国語などアジア圏の一部の言語は分かち書きをしない。このためWebサイトやモバイルアプリで日本語や中国語を表示すると、スクリーンサイズによって好ましくない折り返しが起きることがある。この問題を自動で解決するため、BudouXは機械学習モデルを利用して開発された。
日本語の分かち書きモデルは、文節間の改行が読みやすさに寄与するとの考えから、単語単位ではなく文節単位の分かち書きを提供。「JavaScript」「Python」「Java」をサポートしており、プレーンテキストだけではなくHTMLコードにも適用可能。ブログではBudouXを活用している事例としてアドビのサイト「Adobe.com」を紹介している。
※このコンテンツはWebサイト「Web担当者Forum - 企業Webサイトとマーケティングの実践情報サイト - SEO・アクセス解析・SNS・UX・CMSなど」で公開されている記事のフィードに含まれているものです。
オリジナル記事:Googleが日本語を自動改行する「BudouX」をオープンソース「GitHub」で公開
Copyright (C) IMPRESS CORPORATION, an Impress Group company. All rights reserved.