llms.txtとは何のこと?LLMOって何?

llms.txtファイルを作ってLLMO対策がしたい。


AIが私たちの生活に溶け込み始めている今。
今までの検索エンジン最適化(SEO)から、大規模言語モデル最適化(LLMO)の時代が来ると言われています。
検索手段として、LLM(AI)を使用するユーザーは増加傾向に。
LLMO対策として、llms.txtファイルの実装が提唱され始めています。


あなたも時代を先取りしてllms.txtをサイトに実装してAIを活用した新たな流入経度の対策を開始しましょう。
本記事では、LLMO対策に必要な「llms.txt」ファイルの作り方と配置方法を具体的に解説していきます。

この記事を書いた人

ゆめ ただ
グログ歴 5年目。
普通のビジネスマンとして働きながらFIREを目指す。
独学でゼロからブログを立ち上げる。
Dockerのローカル仮想環境を作りLinux環境も触るように。
4年目でSEO検定1級に合格し地道にスキルアップ。
次はWordPress以外のCMSに手を出そうか悩み中。
LLMOとは?
LLMOとは、LLM(大規模言語モデル)最適化のコト。
LLM(AI)が処理できるトークン数もどんどん増え、AIが身近になってきています。
トークン数とは、LLM(AI)に入力する文字数の単位。1文字=1~2トークンと言われています。
今までは、GoogleやYahoo、Bing等の検索エンジンに、知りたいキーワードを入力して検索していました。
最近は、LLM(AI)のプロンプトに直接質問や指示内容を入力して、答えを得る検索方法が増えています。
なぜなら、「知りたいコトに対して、一回で具体的に答えが得られる」からです。
今後は、このLLM(AI)による検索が増えていくと考えられています。
このため、LLMに対する最適化(LLM Optimization)が必要になってくると言われています。
ChatGPTではGPT-Searchが使用可能で、AIからWEB情報の検索ができるようになっています。


ここがポイント
LLMOとは、「Large Language Model Optimization」大規模言語モデル最適化のコト。LLM(AI)が検索エンジンに代わって利用され始めているため、今後LLMOが必要になってくると言われている。
LLMOは必要か?

LLMOは本当に必要なのでしょうか?
AIに自分のサイトの情報を無料で読まれたくないという人もいるので、LLMO自体の必要性は各サイトの考えに依存します。
自分のサイトの情報を無料でAIに取られたく無いという人は、本記事は有用ではありません。
前の章でも説明したように、サイトの流入経路として、今後は検索エンジンだけではなくLLM(AI)が台頭してくると言われています。
これが実現してくれば、現在SEO対策が必要であるように、LLMO対策も必須になってくるでしょう。
LLM(AI)で調べた答えの中に、自分のサイトが引用される。これを実現したいなら、LLMO対策を実行すべき。
特に、LLM(AI)が今後も必要とする情報は、「1次情報」や「ユーザー体験」です。
LLMO対策が必要になるのは、この一次情報や具体的なユーザー体験を扱うサイトになると考えられます。
GoogleにもAIモードが搭載される予定で、AIの検索結果に自分のサイトを参考リンクとして掲載させる対策はいずれ必要になるでしょう。
-
-
Google検索に「AIモード」登場 “AI回答”さらに拡張へ
www.watch.impress.co.jp
しかし、まだ大手のサイトはOpenAI社のGPTbotからのアクセスをブロックしているのも事実。個々の判断が必要です。
-
-
OpenAIのGPTBotを大手サイトが続々ブロック!その実態やリスクとは
note.com

LLMOの必要性についてもっと詳しく知るには、なかじさんのyoutube動画が超わかりやすいです。
ゆめただもいつも視聴している「ウェブ職TVチャネル」でなかじさんが超詳しく解説しています。
-
-
【LLMO対策の時代!】まだSEOで消耗してるの?:ウェブ職TV youtube動画
youtu.be

ここがポイント
LLMOが必要か?「それはあなた次第。」サイトの流入経路として今後はLLM(AI)が台頭。SEO対策と同様にLLMO対策も必須になると予測。半面大手サイトはAIBotからのアクセスをブロック。個々の判断が必要。
llms.txtとは?

Answer.AI の共同創業者である Jeremy Howard 氏により llms.txt という新しい標準ファイルが提案されました。
Jeremy Howard氏の提案は、llmstxt.orgサイトにまとめられています。
このサイトでは、Webサイトの情報をLLMにわかりやすく理解してもらうために「llms.txt」ファイルの導入が提案されています。
llms.txtファイルは、サイトの概要やリンク情報をMarkdown形式でまとめ、LLMが効率的に情報を取得できるよう設計されています。
llms.txtファイルをサイトのルートディレクトリに置いて、LLMが解析しやすい形式で情報を提供することを推奨しています。
-
-
llms.txtでLLMがWebサイトを使用できるようにするための標準化
llmstxt.org
llmstxt.siteサイトでは、llms.txtを設置しているサイトをまとめて紹介しています。
-
-
Web上のllms.txtファイルの場所と統計情報のリスト
llmstxt.site
ここがポイント
llms.txtは、Jeremy Howard氏が提案したLLMがWebサイトの情報を理解しやすくするためのMarkdown記法のファイル。まだ提案段階で標準化はされていない。今後の動向が注目されている。
-
-
覚えてしまえばすごく楽!Markdown記法を使ってみよう
un4navi.com
GPTbotはllms.txtをクローリングしているかChatGPTに聞いてみた
OpenAI社のGPTBotがllms.txtファイルをクローリングしているのか、ChatGPTに聞いてみました。
ChatGPT
OpenAI社が運用するウェブクローラー「GPTBot」は、主にウェブサイトのrobots.txt
ファイルを参照してクロールの可否を判断しています。しかし、llms.txt
(Large Language Models Specification)に関しては、現時点でGPTBotがこれを参照してクロールの可否を判断しているという具体的な情報は確認できませんでした。
llms.txt
は、AIクローラーに対してサイトのクロールやデータ利用に関する指示を提供するためのファイルです。一部のサイト運営者は、AIクローラーのアクセスを制御する目的でllms.txt
を導入しています 。しかし、GPTBotがllms.txt
を参照しているかどうかについての公式な情報は見当たりません。
そのため、GPTBotのアクセスを制御したい場合は、robots.txt
ファイルを使用することが推奨されます。
ここがポイント
・GPTbotは、robots.txtファイルを参照してクロールの可否判断をしているコト。
・llms.txtを参照しているかは明確な情報は無い。
・今のことろ、robots.txtファイルの使用が推奨される。

llms.txtは実際にクローリングされているのか?
llms.txtは実際にクローリングされているのでしょうか?
ChatGPTは、GPTBotで情報を収集していることを公表しています。
これらのAIBotは、llms.txtをクローリングしているのでしょうか?
実際に試した人がいます。
このサイトでは、llms.txtを作成してルートディレクトリに設置後、3日後にBotからのアクセスが確認できたと報告されています。
-
-
急増するAIクローラー対策として「llms.txt」を導入してみた
dev.classmethod.jp
GPTbotからのアクセスを制御するために、robots.txtに下記を追加したほうがよいでしょう。
これは、GPTBotに対してルートディレクトリに置いたllms.txtのアクセスを許可する場合の記述例です。
User-agent: GPTBot
Allow: /llms.txt

当サイトは最近、chatgpt.comやperplexity.ai等のAIサイトからのアクセスが徐々に増えてきています。
GPTBotからのアクセスはまだ確認ができていませんが、検索の手段としてLLMが使用されてきていると感じています。

llms.txtの作り方

llmx.txtの作り方をまとめました。
自分のサイトのllms.txtを作ってみたい方、是非参考にしてください。
llms.txtファイル自動生成サイトを利用する
llms.txtファイルを自動生成してくれるサイトがあります。
llmstxtgenerator.orgのサイト。
生成したいサイトのURLを入力して生成ボタンをクリックするだけ。
簡単に生成することができます。

-
-
llmstxtgenerator.org
llmstxtgenerator.org
こちらは、llmstxt.firecrawl.devのサイト。
同じように、サイトのURLを入力して生成ボタンをクリックするだけ。
APIキーを取得すれば、llms_full.txtの生成も可能です。

-
-
llmstxt.firecrawl.dev
llmstxt.firecrawl.dev
プラグインを使用する
WordPressでサイトを運営しているのであれば、llms.txtを作ってくれる便利なプラグインがあります。
3種類ご紹介します。
どれも使えるプラグインです。
1つ目は「Website LLMs.txt」プラグイン。
無料でllms.txtが作れます。
ファイルに出力する投稿タイプとその順番を指定できます。
使用するには、インストールして有効化。

設定を保存すると、llms.txtが作られます。
操作がカンタン。更新頻度が指定できるので便利です。

2つ目は「Advanced LLMS.txt Generator」プラグインです。
こちらも無料で使えます。毎日自動更新してくれるので便利。
使用するには、インストールして有効化。

設定画面で設定ができます。
トルコ語表記なのでわかりにくいところがあるかもしれません。
わかってしまえば、設定項目が一番多くあり便利に使えます。

3つ目は「LLMS.txt Generator」 プラグインです。
こちらは、手動で更新が必要。無料で使える機能は一部となります。
使用する場合は、インストールして有効化。

Settingを選択して、Save Settingをクリックします。

Regenerate Fileでllms.txtファイルが生成されます。

ここがポイント
・WordPressでサイトを作っている人にはプラグインがおすすめ。
自分でllms.txtファイルを作る

ゆめただはこれにしました。llms.txtに必要な情報を自分でカスタマイズしながら使いたい。
自分で生成できるようにしておけば、必要な情報を自分で選んで出すことができるようになると考えました。
llms.txtは、記事を新たに投稿した時や固定ページを追加した時などに更新すればいい。
頻繁に生成する必要はありません。
新たに記事を追加した時や、サイトの内容を更新した場合に都度作ればいいはずです。
「Python」で作ってみました。
自分のサイトをクローリングすることで、llms.txtファイルを生成できるプログラム。
pythonソースコードを編集すれば、llms.txtの出力内容のカスタマイズが可能です。
自作「llms.txt生成」Pythonプログラムの仕様
- サイトのルートURLを指定
- 固定ページのサイトマップを指定
- 記事ページのサイトマップを指定
- カテゴリ用のサイトマップを指定
- robots.txtでクローリング許可されているページかチェック
- llms.txtファイル出力フォーマット
# サイトタイトル
## Page(固定ページ)
## Post(投稿記事)
# Detailed Content(記事詳細)
## Page(固定ページ)
自作のPythonプログラムで生成した、当サイトの「llms.txt」です。
当サイトllms.txt:https://biz-sel.com/llms.txt

Pythonソースコード、ご希望の方は「お問い合わせフォーム」からご連絡ください。
ソースコードご利用は、自己責任でお願いします。
当サイトでは一切の責任を負いません。

llms.txtの実装方法
llms.txtファイルは、robots.txtファイルと同じ場所(ルートディレクトリ)に配置します。
ファイル転送ツール等で生成したllms.txtファイルを、サイトのルートディレクトリ送りましょう。
プラグインを使用している場合は、自動的にルートディレクトリにllms.txtファイルが生成されます。

LLMOの必要性を自分で判断し、実装したい方は早めにllms.txtを配置してLLMO対策を実施しましょう。
さらに詳しい情報を掲載する場合は、「llms_full.txt」も推奨されています。