社内のデータやナレッジを AI 対応させ生産性を上げるには、「マシンリーダブル」なデータの蓄積が重要

普段、このコラムではアクセシビリティやユーザビリティの話を中心に書いていますが、今回は少しだけ時流にのって AI の話題を。

AI の活用が当たり前になった現在において、企業にとって重要な財産である社内のデータやナレッジをどのような形で管理、蓄積していくのがよいのか、ひとつの考え方として、弊社で実際に取り組んでいることを紹介しつつ書いてみたいと思います。

さて、今まで社内データやナレッジを蓄積する場所として、社内ポータルのような社内専用ウェブサイト、あるいは Notion や、Slack などの外部サービスにテキストデータ（最終的には HTML として表示される）として蓄積する、もしくは、社内のファイルサーバやクラウドストレージに、エクセルやパワーポイントといった、いわゆる Office 系アプリで作成したデータを保存するといったケースが主流でした。

そして、人間がこれを利用する場合には、「キーワードで検索」することにより、欲しいデータを探し出す、という手法が一般的だったわけですが、AI が普及し、蓄積したデータを「キーワードで検索」するのではなく、AI、あるいは AI エージェントのデータソースとしてより効率的に活用し、生産性を上げることが求められる現在においては、このようなデータ蓄積方法が足かせになる場合もあります。

例えば、Office 系のアプリケーションで作成された資料は、人間が読むには適していても、AI が効率的に処理するには適していないケースがあります。

また、特定のサービス内でデータを蓄積した場合は、そのデータに対して、外部から自分たちにとって使いやすい AI ツールを選択しながらアクセスすることが困難な場合もありますし、場合によってはそのサービスが独自に提供する AI しか利用できないという制約が生じる可能性もあります。

現在では、「AI にとって最も効率よく利用できる形」から逆算した、データやナレッジ蓄積の方法を考慮する必要があるでしょう。

そのため、弊社では近年、業務に使用するデータをなるべく自分たちの手元で、かつマシンリーダブル（機械可読）なデータとして蓄積していく方法を選択しています。

具体的には可能な限り、データやナレッジを「マークダウン（Markdown）形式」のファイルで保存すること。どうしても Office 系のアプリケーションで作成しないといけないドキュメントについても、可能な限り AI が理解可能なメタデータを補完すること。さらに保存する場所は GitHub 上に集約するという取り組みです。

もちろん、日々の業務に、Slack などのツールはなくてはならないものとして使用していますが、あくまでこれらツールは日々流れていく一時的なコミュニケーション（フロー情報）をやりとりするものとし、長期的に価値を持ち蓄積すべき知識やデータ（ストック情報）については、必要に応じてこれらツールから抜き出した上で、前述した方法で社内に蓄積していくことを目指しています。

マシンリーダブルとは何か

本題に入る前に、マシンリーダブル（機械可読）について簡単に説明しておきましょう。

マシンリーダブルとは、機械（プログラム）が扱いやすい形式で保存された情報です。AI もプログラムですので、マシンリーダブルなデータを蓄積することは、AI が効率的に情報を処理するためには不可欠な要素となっています。

マシンリーダブルなデータの特徴としては以下が挙げられます。

構造化されている:
情報が明確な構造を持ち、機械が理解しやすい形式になっている（例えば、JSON や HTML も構造化されたデータと言えます）
一貫性がある:
同じ種類の情報は常に同じ形式で表現されている
メタデータを含む:
データに関する情報（作成日時、作成者、概要やカテゴリなど）が明示的に示されている
標準的な形式を使用:
JSON や XML、マークダウン（HTML も含む）など広く採用されている形式を利用している

AI の技術が進むことで、画像の内容や、画像内に存在するテキスト、複雑なエクセルや画像だらけのパワーポイント資料のデータなども、人間が読むように、正しく解析できる日が来ることは予想できますが、現時点において、効率よく AI にデータを処理してもらうためには、なるべくマシンリーダブルな形式でデータを蓄積するのが、最もよい選択だと思います。

弊社の例：マシンリーダブルなデータ蓄積

弊社では以下のような取り組みで、AI が活用しやすいデータやナレッジの蓄積を行っています。

1. 基本的にマークダウン形式のファイルで保存

マークダウン形式は、軽量でシンプルなマークアップ言語であり、以下のような利点があります。

テキストベース:
シンプルなテキスト形式なので、様々なツールで編集・閲覧が可能
構造化:
見出し、リスト、表などの構造を明示的に表現できる
可読性:
人間にとっても読みやすく、編集しやすい
AI との親和性:
生成 AI はマークダウン形式のテキストを非常に効率的に処理できる

また、副次的なメリットとして以下も挙げられます。

バージョン管理の容易さ：
Git でのバージョン管理と相性がよい
再利用性が高い：
HTML をはじめ、他の形式のファイルへの変換が容易。また、Next.js や Astro.js など JavaScript フレームワークを使用する場合のデータソースとしても利用しやすい
軽量：
テキストベースでファイル容量が小さいため、保存に必要なストレージ容量が節約できる（エコ）

特に、弊社がマークダウン形式のファイルに拘るのは、Git によるバージョン管理と相性がよいという点が重要なポイントです。

例えば弊社では、以下のようなさまざまな情報をマークダウン形式で保存しています。

お客様とのやり取り:
お問い合わせとその回答内容など（メールで送受信したものをマークダウン形式のファイルにして保存）
社内ルールや就業規則など:
すべての社内規定文書（例えば、「就業規則」「出張旅費規程」など、一般的な企業でよく参照される社内文書類）
制作ガイドラインなど:
制作ガイドライン、デザインガイドライン、セキュリティガイドラインなどの業務に関係する社内ガイドライン類
専門知識の集積:
ウェブサイト制作業務などで頻繁に参照する HTML や CSS の仕様、WCAG などのガイドラインや、関連ドキュメント
過去の成果物:
会社ブログの記事、note で書いた記事や、雑誌等への寄稿文、あるいはクライアント向けに作ったセミナー資料など
人材データベース:
スタッフやパートナー（企業・個人）の得意分野や技術スタック、担当した案件の履歴などのデータ
その他:
Slack などに投稿されたストックしておくべき知識や情報などを適時抽出、あるいは外部のレポートや国内外のニュース記事、ブログ記事など役に立ちそうな情報

これら情報は蓄積されていくとかなり膨大な量になっていきますので、フォルダ階層などをわけ、どこにどのような情報が入っているかを、llms.txt に記述してルートディレクトリに置くことで、AI にヒントを与えています。

補足： `llms.txt` とは？

llms.txt は Answer.AI の Jeremy Howard 氏によって提案（参考リンク）された、生成 AI がウェブサイトの情報にアクセスしやすくするための新しい標準規格（提案）です。

古くから使われる、検索エンジンクローラー向けの robots.txt に着想を得たもので、ウェブサイトのルートディレクトリに置かれたマークダウン形式ファイルは、AI が効率的にコンテンツを理解できるように構造化された情報を提供します。

まだ広く普及しているとは言えませんが、実際に採用しているサイトも増えてきています（本ウェブサイトにも設置してあります）。

説明した通り、 llms.txt も内容的にはマークダウン形式のファイルですので、ここにフォルダリスト、それぞれのフォルダに入っているデータの目的や簡単な説明などを記述しておきます。

その他、llms.txt に AI がデータを探したり、あるいは権限を与えて編集やファイルの移動などをさせるのであれば、その際に守るべきルールなども書いておくと AI はそれらも参考にしながら処理をしてくれますので便利です（AI に対して、事前に llms.txt を読むように指示しておく必要はあります）。

2. HTML の活用

また、以下のようなファイルはマークダウン形式だと作りにくい、というよりも使いにくいですが、HTML 形式であらかじめひな形を作ることで、Office 系のソフトウェアで作るよりはマシンリーダブルな状態を確保できます。

各種提案書：
一般的にパワーポイントなどで作成される提案書類
見積もり書：
一般的にエクセルなどで作成されることが多い

弊社では、これら書類を HTML （JavaScript フレームワークを利用）を使用して簡易なウェブアプリケーションのように作成しており、元データは HTML で保存されるようにしてあります。

なお、クライアント様に書類を提出する際は、PDF 形式で書き出すことで問題なく共有が可能です。

3. Office 系文書への対応

さらに、どうしてもマークダウン形式で保存するのが難しい以下のような書類については、メタデータを付与することで AI がその内容を理解しやすくしています。

社内の申請書類：
例えば、「有給休暇申請書」「交通費精算書」「仮払経費精算書」など、一般的な企業で申請などに使用される書類（Office 系ソフトや、Google スプレッドシートなどで作られるケースが多い）

メタデータの付与と言っても、文書に直接付与するのではなく、前述した llms.txt を活用しています。

llms.txt の社内申請書類セクションに、申請書類のリスト、それぞれの目的や簡単な説明、ファイルの保存場所（Google ドライブなどに保存されている場合はその URL）を記述しておきます。

この方法は、PDF 形式のデータなどに対しても有用です。ただし、現時点で多くの AI は、複雑でサイズの大きい PDF を一度に処理することができない場合が多いですので、例えば何らかのレポートなどを PDF 形式で保存する場合は、分割してあげるなど、少し工夫しないと処理効率が悪い場合があります（理想は、マークダウン形式のファイルに変換して構造化したデータにすることですが......）。

以上、3つの方法で、データやナレッジを社内に蓄積しておくことで、これらデータソースを元に AI に質問した際の回答精度が大幅に向上します。

例えば、似たようなお問い合わせに対する返答を作ってもらったり、過去に作った提案書を参照しながら新しい提案書の叩き台を作ってもらったりもできますし、「セミナーの参加費用を補助してもらう申請ってどうすんだっけ？......」といった場合でも、書類名などを思い出してキーワード検索する必要はなく、AI に「セミナーの費用補助を申請する手順と、その時に使う書類の場所教えて」などというだけで答えが返ってくるわけです。

4. データをどこに保存するか

次に前述したデータをどこに保存しておくのかについてですが、弊社の場合は、すべて GitHub に保存しています。

もちろん、データの置き場所、管理方法は最も利用しやすい方法を選択すればよいですので、弊社のやり方が正解とは思いませんが、弊社の場合は以下の理由から GitHub を選択しました。

バージョン管理の容易さ：
Git なので当たり前ですが、バージョン管理が容易です
使用ツールとの相性：
弊社では主に Claude AI のデスクトップアプリにローカルファイルを読み書き可能にする MCP サーバを組み合わせて利用しているため、各自のローカルフォルダにデータがある方が楽です
データ共有時の利便性：
上記を踏まえて、GitHub なら複数人（複数箇所）で最新のデータを共有しやすい

例えば、同様の事は、例えば Google ドライブ上にデータを保存し、AI も「Gemini for Google Workspace」を利用すれば、もっと簡単に実現できるかもしれません（企業で Google Workspace を利用している場合）。

この辺は、自社でどのような AI サービスを使用したいかなどによって変わってくると思いますので、アプローチの方法は多様にあると思います。

弊社の場合は、使い慣れている GitHub を使いたいという理由、あるいは、GitHub リポジトリとしてデータを管理しておくと、Cursor などの所謂「AIコードエディタ」などからも利用がしやすいといった理由から上記のような方法を採用しています。

5. 現状の課題、あるいは苦労した点

弊社がここで書いているようなデータ保存ルールを採用し、運用しはじめたのは昨年の年始ごろですが、やはり、それまでに作ったデータをどうやってマークダウン形式をはじめとしたマシンリーダブルな形式に変換するのかという点はとても苦労しました。

例えば、ブログの記事などは、CMS 上ではマークダウン形式で書いていたので、抽出は楽でしたが、数多くあるプレゼン資料や見積書、あるいはお客様からのお問い合わせとそれに対する弊社からの返信などは、PDF 形式のファイルやメールデータとしてしか残っていませんので、一気にマークダウン形式にするのは大変な作業です。

結果的に過去のものはある程度諦めて、PDF 形式のままメタデータの付与でお茶を濁す、メール文面も重要そうなものだけ地道に .eml 形式でダウンロード後、AI の助けを借りてテキスト形式に変換するなどの作業をしました。

運用を始めてから作られるデータは特に問題ないのですが、特に会社の規模が大きかったり、膨大な数のデータがすでに蓄積されている場合は難しい点も多いかもしれません。

また、弊社は仕事柄、マークダウン形式のファイルに慣れていますし、なるべく使いたいと考えていますが、そもそもマークダウンを知らない、あるいは文書はワードで作るものという固定観念がある職場では、このような形式への移行はなかなか進まないかもしれません。

もちろん、前述したとおり、あまりマシンリーダブルが意識されていない作りのワードやパワーポイントでも、AI が内容を正しく推測し、理解できるような状況になれば問題が解決してしまう可能性もありますから何とも言えませんが。

さて、今回は簡単にですが、弊社における、AI での利用を考慮した、マシンリーダブルな状態でのデータ、ナレッジの蓄積方法についてご紹介しました。

弊社はアクセシビリティを専門分野としている関係上、マシンリーダブルなデータ構造、つまり人間からだけでなく、機械からも容易、かつ確実にアクセス可能なデータのあり方には強い関心があります。

普段はウェブサイトやウェブコンテンツのアクセシビリティに関してお話しすることが多いですが、社内のデータやナレッジについても、人間からだけでなく、機械にとってもアクセス可能なデータになっているのかという点は、AI の活用が当たり前の現在において重要な視点だと思います。

繰り返しになりますが、弊社の採用している方法がベストとは限りません。また、データ保存形式の変更は短期的には負担となる場合もありますが、中長期的な視点で見れば、AI 活用による生産性向上というリターンは非常に大きいと思われます。

AI との協業を前提とした「マシンリーダブル」なデータ蓄積環境の構築は、これからの企業競争力を左右する重要な要素となると考えます。このコラムが、社内データの AI 活用をお考えの方にとって、多少でも参考になれば幸いです。

社内のデータやナレッジを AI 対応させ生産性を上げるには、「マシンリーダブル」なデータの蓄積が重要

マシンリーダブルとは何か

弊社の例：マシンリーダブルなデータ蓄積

1. 基本的にマークダウン形式のファイルで保存

補足： `llms.txt` とは？

2. HTML の活用

3. Office 系文書への対応

4. データをどこに保存するか

5. 現状の課題、あるいは苦労した点

最新記事

Special Contents

社内のデータやナレッジを AI 対応させ生産性を上げるには、「マシンリーダブル」なデータの蓄積が重要

マシンリーダブルとは何か

弊社の例：マシンリーダブルなデータ蓄積

1. 基本的にマークダウン形式のファイルで保存

補足： llms.txt とは？

2. HTML の活用

3. Office 系文書への対応

4. データをどこに保存するか

5. 現状の課題、あるいは苦労した点

最新記事

Special Contents

補足： `llms.txt` とは？