かすてらすねお。(hateblo)

見聞録的ななにか。

HTMLタグのGoogle日本語IME辞書を作った。

 HTMLタグのGoogle日本語IME辞書を作りました。HTMLがどのようにクソかを踏まえて理由を書きました。インポート方法も書きました。簡単な課題と考察も書きました。

書きにくいHTMLを書きやすく

 皆さんは、学校の授業、趣味、仕事などを通じたHTMLの経験がありますか。そして、HTMLが書きやすい言語だと思いますか。ボクはとても書きにくい言語だと思います。タグは半角、本文の日本語は全角で書くために[半角/全角キー]を適切に押さなければなりません。タグの′<′, ′>′を誤って全角の′<′, ′>′で入力した経験のある人はとても多いのではないでしょうか。つまり、HTMLの書きにくさの要因は、タグ入力の煩雑さにあると考えられます。

永遠に全角で入力するために

 そこで、IMEの辞書機能を利用して解決を試みました。たとえば、「<h3></h3>」は「みだし」で辞書登録しました。この他一般的に使用されるタグのほとんどを登録してエクスポートしたデータを、Github上で公開しています。

 ボクはGoogle日本語入力ユーザなので、これはGoogle日本語入力ユーザ向けです。他のIMEに互換性が存在すれば使用できるかもしれませんが、適宜書式を参照して挑戦してみてください。

Google日本語入力の辞書インポート方法

 Google日本語入力のツールバーから「ツール」(スパナのアイコン)→「辞書ツール」を開いてもらいます。そして、メニューの「管理」から「新規辞書にインポート」を選び、辞書データをインポートすることができます。

 この辞書を利用すると、通常の3倍(当社調べ)のスピードでHTML文書を書けるようになります。もう二度とタグの使い方をググることはありません。このブログも体裁を良くするためにHTMLタグを利用して書いていますが、辞書を利用するようになってから書くことがとても楽しいです。皆さんもぜひ使ってみてください。

実用的な課題

変換候補をどこまで充実させるか

 たとえば、ボクの作った辞書では「ふとじ」と入力すると「<b>」または「<strong>」が出てきます。しかし、人によっては「きょうちょう」と入力して変換しようとする人がいるかもしれません。理想的にはこれらを網羅することが、辞書としてのユーザビリティを高めると考えています。

 その反面、本来のHTMLの仕様の意図と異なってしまう場合もあります。たとえば、強調を表現するタグは「<strong>」の他に「<em>」があります。これは一般的には斜体、イタリック体を表現するために使用されているため、辞書としては「しゃたい」「イタリック」の両方で登録してあります。

 余分な話題ですが、下線は本来削除に対する「訂正」を表現するタグであることを初めて知りました。へぇへぇへぇ。

 見出しや段落など文章構造を規定するために用いられるブロック要素のタグならば、こうした意図の齟齬は防ぐ必要がありますが、文中の単語レベルに適用するインライン要素のタグについては、これを考慮する必要があるのでしょうか。

 ボクは、文章の構造規定に関わるタグでない限り、ページ解析などに差し障りが無さそうなので、気にしなくていいと思います。じっさいの技術を知っているわけではないので、知見のある人の意見が聞いてみたいなと思います。

特殊文字対策の必要性

 このブログを書いていて、エスケープ文字の存在を思い出しました。′<′のようにHTMLを記述するために使用される文字を本文として記述するためには、実際には以下のように記述する必要があります。

&prime;&lt;&prime;

 この′&′(アンパーサンド、アンド)から′;′(セミコロン)までが、文字を一つずつ表現しています。しかし、このページをブラウザが読み込んで皆さんが読んでいる時点では何の変哲もないテキストとして出力されています。実際、この文章を書くために、特殊文字の書き方を調べる作業がしんどいので、そのうち辞書を利用した上手な方法を考えてみようとか思ってます。

以上