スタンフォード大、AIは学習データを使い果たしつつある可能性に言及
次の学習データは人々の会話データか(予想)
スタンフォード大学が、報告書「The 2026 AI Index Report」にて、AIモデルの訓練に使える実データが今後6年以内に枯渇する可能性がある旨を公表しました。
スタンフォード大学の共同執筆者らは、「AI研究者らは、大規模モデルの訓練に使える高品質な人間由来のテキストとウェブデータはすでに使い尽くされたと公に主張している。この状態はしばしば『ピークデータ』と呼ばれる」と伝えている。「このことは、これまでより大規模なデータセットに依存してきたスケーリング則(データ量や計算量などを増やすほど性能が上がるという経験則)の持続可能性をめぐり、業界全体の懸念を引き続き高めている」。
AIは学習データを使い果たしつつある可能性、スタンフォード大学報告書が警告 | Forbes JAPAN 公式サイト より引用
この記事を読んで、私が思ったのは下記です。
この話には伏線があって、先日参加したSusHi Tech Tokyoで、調剤薬局向けサービス「Musubi」を展開するカケハシの中川さんがこんなことを言っていたんです。
カケハシの「薬剤師-患者の会話データを活用するAI」の特許調べてみた
舞台上で話をされていたので、これは力を入れている取り組みだと思い、特許を調べたところ、それらしきものを見つけました。
【請求項1】
情報の提供が実行されるクライアント装置との通信が可能なサーバ装置であって、
医療従事者と患者の間でなされる対話の少なくとも一部に対応する対話データを受け付けるインタフェースと、
前記対話データに基づいて医療書類の少なくとも一部を作成するためのタスク遂行データを生成的人工知能に生成させるプロンプトに対応するプロンプトデータを出力するプロセッサと、
を備えており、
前記プロンプトは、前記対話から前記医療書類を作成するための少なくとも一つのデモンストレーションを含んでいる、
サーバ装置。
特開2025-177011(特願2024-083472) より引用
2024年5月に特許出願、2024年9月に関連機能のプレスリリースが出ています。
その日に来局した患者さんの薬歴作成を効率化するだけでなく、患者さんが前回来局時や服薬期間中にどのようなことを訴え、薬剤師はどのような指導やフォローを行ったかなど、患者さん一人ひとりの履歴や経緯まで考慮した業務サポートを実現していきます。
カケハシ、薬歴作成における生成AI活用へ | 株式会社カケハシのプレスリリース より引用
特許に書かれている(表の)目的は患者のユーザー体験の向上、その裏では薬剤師と患者の会話を一字一句録音して学習データとして活用しようという取り組みだと予想します。
【0008】
上記の各態様例に係る構成によれば、医療従事者と患者との間でなされた対話に基づいて医療書類の少なくとも一部を作成するためのデータが生成される。これにより、対話に基づき医療書類を作成する業務の支援性を高めることができる。医療従事者は、当該業務に必要とされていた労力を例えば患者のケアに振り向けることができるので、「薬中心の業務から患者中心の業務への移行」という社会的課題への対応可能性も高めることができる。
特開2025-177011(特願2024-083472) より引用
現状はテキスト化(ドキュメンテーション)されていない会話データが、今後の学習データの主戦場になるのでは。これが私の予想で、知財DXの文脈で言うと、発明ヒアリングや開発者同士の雑談、クライアントとの何気ない会話などが貴重なデータになっていく。それに向けて何が出来るか、特にどれだけ自然な形で会話データを取得できるかが一つの鍵になっていくように思います。
まとめ
以上、スタンフォード大の報告書をきっかけに、私が考えるAIの学習データの今後について書き殴ってみました。何か参考になれば幸いです。
お知らせ
明細書作成や特許調査など知財実務におけるAI活用事例、サービス開発者やパワーユーザーへのインタビューなど、実務レベルの知見をまとめた記事を継続的に入手したい方は、ぜひニュースレターにご登録ください。
また、ニュースレターに載せきれない小ネタや現場レベルの試行錯誤はXで発信しています。よろしければフォローいただけると嬉しいです。→ X(@ip_dih)


