
ストックホルムにて

今、この連載でも何回か書いたCIRP (国際生産工学アカデミー)の年次総会のために、スウェーデンのストックホルムに来ている(最近、こういう旅行記のような内容の薄いエッセイは余り書いてないかも)。とはいえ、来ているのは、ストックホルム市街から電車で20分ほど離れたシスタという、つくばのようなところで、エリクソンの本社はあるのだが、他は何もない。会議の会場とホテルが幾つかあって、レストランはホテルについているものぐらいしかないぐらい、何もない。幾つかのイベントがストックホルム市街で行われるのでその時はそっちに行くのだが、市街は街が綺麗で、趣があり、ずっと良い。
CIRP総会は生産工学の分野では権威ある学会として知られているのだが、今回は生成AI絡みのプレゼンばかりで辟易した。ライフサイクル工学、生産システム、設計関係の講演を中心に聴くのだが、生産システム関係は特に多かった。特に、スマートマニュファクチャリングという文脈で、人とロボットの協調がそもそも流行っている。この手の研究は、ロボットを使って、分かりやすい、見た目が格好良いデモが作れるので、とっつきやすい。筆者の研究室のテーマのように、何が問題か、何を解こうとしているのか、卒論を書いた後にやっと分かるのとは大違いである。
特にそういった人・ロボット協調システムで、人が生成AIと会話することによって、ロボットを指示通りに動かせるとか、人がジェスチャーで指示するとか、人がものを指さしながら名前を言ってあげると理解するとか、人のやったことを理解して真似て、ノウハウが獲得できるとか、組み立て作業を監視していてエラーが起きそうになったら教えてくれるとか、生成AIを噛ますと人とロボットが上手に協調できたり、生成AIを使うと、ノウハウが獲得できてコイルを巻くのが上手くなったり、脳波を使って脳から直接指示を送ったり、と様々なことが試されていて、それがいちいち論文になっていた。
むしろデモの魅力を競うデモ合戦になっていて、かなり制限された状況で上手く行くデモが作られているだけで実環境で動かなそうとか、そもそもそのタスクを人とロボットが協調してやることに意味あるの?とか、いろいろと突っ込みを入れたくなる、イラっとする学会であった。
ここまで書いてきて思うに、そもそもスマートマニュファクチャリングの分野で人とロボットの協調がしばらく前から流行りのテーマで存在していた。その中で人とロボットの間のユーザインタフェースというかコミュニケーションギャップが厳然として存在していたところに、生成AIが現れて、それがこのギャップを埋めてくれそうという意味で相性がよいものだから、みんな飛びついたという状況のように思われる。確かにやって欲しいミッションを与えると尤もらしく必要なタスクに分解して、実行できてしまったりする。
深層学習もそうなのだが、肝心の所がBlack Boxなので、本質的に何が起きているかは説明できず、使ったらこんなことができました、というプレゼンになってしまう。それ以上の深みがない。特に生成AIの場合は、ChatGPTなど特定の企業のエンジンを使わざるを得ないので、そのバージョンが上がったりすると結果も大きく変わってしまう。という意味では、生成AIを使った研究の学術的貢献は小さいと思うのだが。実用面では結構大切で、我々の研究室でも経験値を高めるために、生成AIを使った研究はやっているのだが。なかなか思った通りの結果が出せず、出せたとしても方法論としての汎用性がどこまであるのかが気になってなかなか上手く行かない。
さて、今回の会議で1つ面白かった生成AI絡みの発表は、Zhoumingju Jiang, Ang Liu, Dawen Zhang, Xiwei Xu, Yun Dai: “Customization and personalization of large language models for engineering design,” CIRP Annals – Manufacturing Technology, Vol. 74, No. 1, pp. 191-195, 2025 という設計支援のために生成AIを使うという研究であった。
一般に、LLM (Large Language Model)を使うときには。一応本稿では、画像、音声、テキスト、プログラムコードなどを作り出すAIのことを生成AI、その中で特にテキスト、プログラムコードなどの文字列を処理するもののことをLLM (例えば、ChatGPT)という区別をしよう。一般に、LLMはオープンAI社などがインターネット上のあらゆる種類の文章など極めて大量の文章で学習済みである。そのLLMを使うときには、RAG (Retrieval Augmented Generation)といって、使用目的に合わせて追加で文章を読み込ませることが一般的である。「食わせる」と言うらしい。例えば、設計だったら関連特許、メンテナンスならメンテナンスマニュアルや保守履歴などを食わせると、かなり的を射た回答を返すようになる。我々の研究室でもRAGをやっているが、確かに与えた情報を使ってマトモな答えを返してくるし、教えていない部品やモノの意味を知っていたりして(これは元々のLLMが持っている情報)、なかなかに気持ち悪い。
さて、このZhoumingju Jiangの論文は、設計のアイディア出しの際の対話の相手としてLLMを使う状況で、素のLLMと、RAGとして特許情報を沢山教え込んだLLMを比較する実験をした。結果は、特許を沢山知っているLLMの方が正確で実現可能な答えをいろいろ出してくる一方で、新規性は素のLLMの方が高い、というものであった。
頭でっかちでいろいろ知りすぎると斬新なアイディアがでなくなる、と言っているようで、こういう人間によくある特性が、極めて大量に文章を学習させただけのLLMで現れてきてしまう、というところが、LLM、ひいては生成AIの薄気味悪さである。
この記事は、会員専用記事です。
有料会員になると、会員限定の有料記事もお読みいただけます。