生成AI(ジェネレーティブAI)は、人工知能(AI)の進化形として、データから新しい情報やコンテンツを生成する技術です。従来型のAIが主にデータの分析や分類、予測などを行うのに対して、生成AIはクリエイティブなタスクを実行し、画像、文章、音楽などを新たに創り出すことができます。本記事では、生成AIの基本的な概念から、従来型AIとの違い、さまざまな種類、そして具体的な応用例を詳しく解説します。
生成AI(ジェネレーティブAI)とは
生成AIとは、「コンテンツやモノなどさまざまなインプットから、創造的なアウトプットをもたらすAI(もしくは機械学習の手法)」の総称です。次世代型AIや強いAIの代表格として語られており、BtoC、BtoBにかかわらず業界や分野の壁を越えた活用が期待されています。
2022年の終盤から、ChatGPTや画像生成AIなど生成AI(ジェネレーティブAI)が注目され生成AIとは、「コンテンツやモノなどさまざまなインプットから、創造的なアウトプットをもたらすAI(もしくは機械学習の手法)」の総称です。次世代型AIや強いAIの代表格として語られており、BtoC、BtoBにかかわらず業界や分野の壁を越えた活用が期待されています。
これまで人間の思考や工夫によって生まれてきたコンテンツが、いくつかの簡単なステップだけで、瞬時に生み出されるからです。生成AIについては、経営者の「武器」になるのか「壁」になるのか、はっきりしていない状況です。そこでまずは、生成AIの定義と種類を整理してみます。
生成AIと従来型AI(認識系AI、識別系AI)の違い
生成AIと従来型AI(認識系AI、識別系AI)の違いについて、詳しく見ていきましょう。
データの使用方法
従来型AIは、主にデータの認識と識別に焦点を当てており、高品質で大量のデータを必要とします。これにより、機械学習モデルはパターンを学習し、画像認識や音声認識といった特定のタスクを実行します。データの準備とラベル付けには多大な労力が必要であり、この過程は手間と時間がかかるものです。
一方、生成AIは新しいデータやコンテンツを生成することに特化しており、入力データの質や量に関わらず、独自に学習し創造的なアウトプットを提供します。例えば、ChatGPTは大量のテキストデータを基に新しい文章を生成し、Stable Diffusionは画像生成において新たなビジュアルコンテンツを作り出します。
目的とゴール
従来型AIの目的は、データの特徴を捉え、特定のタスクを効率的に実行することです。これには、例えば顔認識システムや自動運転車の障害物検出などがあります。これらのシステムは、予め定義されたルールとパターンに基づいて動作します。
生成AIのゴールは、既存のデータから新しいアイデアやコンテンツを生み出すことです。これは、単なるパターン認識を超えて、創造的な生成を行う能力を持つことを意味します。たとえば、文章生成AIはユーザーの入力に基づいて独自のストーリーを創作し、画像生成AIは芸術的な画像を生成します。
実践方法
従来型AIは、主に「提供前」の段階でのデータ収集とモデルのトレーニングに重点を置いています。具体的には、事前に収集されたデータセットを用いてモデルを訓練し、その後、実際の運用環境でタスクを実行するという流れです (SMMLab|マーケティングの「理論と実践」をつなぐ場所)。
生成AIは「提供後」の活動に軸足を置いています。つまり、ユーザーとのインタラクションを通じてリアルタイムでデータを取り込み、その場で新しいコンテンツを生成することが可能です。このプロセスは、継続的なフィードバックと改善を通じて行われ、より高度な創造性を発揮することができます。
生成AIの種類と具体例
生成AIは、2024年時点で「文章生成」「画像生成」「音楽生成」「コード生成」といった種類があります。以下は、それぞれの種類における主要な生成AIの具体例です。
文章生成AI
ChatGPT
現在、世界中に驚異的なセンセーションを巻き起こしている文章生成AIの代表格です。人工知能研究を行う団体「Open AI」が開発している言語モデル「GPT(Generative Pre-trained Transformer)」を採用しており、現在は最新のGPT3.5を搭載しています。従来の言語モデルのように、事前学習や再学習を必要とせず、あらかじめ膨大なデータで学習済みの言語モデルを誰もが気軽に利用できる点が最大の強みですね。「~とは?」のような用語解説的な内容ならば、かなりの精度で高品質な文章を自動的に生成します。
2022年11月30日に公開されたChatGPTは、2023年1月に1億人のアクティブユーザー数を記録しました。また、わずか1週間で100万人のユーザーを獲得し、このスピードはメジャーなSNSよりもはるかに速いとのこと。
また、ChatGPTに使われている言語モデル「GPT」は、マイクロソフト社が提供しているローコード開発ツール「Power Apps」内でコード生成にも活用されています。
Bard
Googleが開発した対話型AIのBardも注目されています。Bardは大規模なデータセットを基に自然言語処理を行い、ユーザーの質問に対して詳細かつ正確な回答を提供します。ChatGPTと同様に、情報検索やカスタマーサポートなどで利用されています。
画像生成AI
Midjourney
ユーザーが入力したテキストから画像を生成するAIです。インターネット上に公開された画像をスクレイピングで収集し、これを教師データとして学習するため、著作権や倫理面の問題に発展することもあるようです。
Stable Diffusion
画像生成AIの代表格で、テキストから自動で高精度かつ創造的な画像を生成するAIです。Stable Diffusionは、テキストを理解する「テキストエンコーダー」と、それをもとに画像生成を行う「画像ジェネレーター」で構成されています。画像ジェネレーターは内部処理として「拡散モデル」を使った画像生成を行い、さらにOpenAIが開発した事前トレーニングモデル「CLIP」を活用しながら精度を向上させているとのこと。
翻訳AI
DeepL Write
AI翻訳サービスとしてすでに一定の知名度を獲得していた「DeepL」の新機能で、入力した文章を自然かつ自動的に改善してくれるツールです。2023年春時点では英語とドイツ語のみに対応しています。ChatGPTのようにゼロベースでの文章生成ではなく、文法の誤りや言い回しの提案、言葉の選択を主に行ってくれるようです。
音楽生成AI
MusicLM
Googleが提供する音楽生成AIです。事前に28万時間の音楽を学習させて開発されたそうで、テキストからさまざまな音楽を自動で生成します。ただし、現時点で一般公開される予定はないとのこと。おそらく著作権絡みの問題がクリアになるまでは、公開されないのではないでしょうか。
Suno AI
Suno AIは、テキストを入力するだけで幅広いジャンルの楽曲を生成できる音楽生成AIです。無料プランと有料プランがあり、様々なアカウントで登録して利用することができます。
コード生成AI
GitHub Copilot
GitHub Copilotは、GitHubとOpenAIの共同開発によるコード生成AIで、開発者がコードを書く際のサポートを行います。インテリジェントなコード補完や、提案されたコードスニペットの挿入が可能で、開発効率を大幅に向上させます。
動画・情報解析AI
プレトレ
プレゼンテーション動画の評価・解析サービスです。動画だけではなく、パワーポイント資料の評価・解析も行ってくれるとのこと。時系列に沿って、視覚的にプレゼン全体を可視化してくれるため、改善点が定量化できる点が魅力ですね。
音声合成AI
VALL-E
マイクロソフトが開発した音声合成AIです。たった3秒の音声データから発話者の声を学習し、学習した声でテキストを読み上げることができます。事前に6万時間もの英語音声による学習データを使用しており、オリジナル音声によく似た声での自然な発声が可能です。
生成AIの活用シーン
生成AIが実際に活用されているシーンについて詳しく見ていきましょう。
カスタマーサポート
企業のカスタマーサポートセンターでは、ChatGPTのような文章生成AIをチャットボットとして導入し、顧客からの問い合わせに自動で対応しています。これにより、迅速な応答と対応の効率化が図れます。
マーケティングキャンペーン
MidjourneyやStable Diffusionを利用して、広告やソーシャルメディアキャンペーン用のビジュアルコンテンツを生成します。クリエイティブな画像を短時間で作成できるため、マーケティングの迅速な展開が可能です。
映画やビデオ制作
MusicLMを使用して映画のシーンに合ったバックグラウンドミュージックを生成することで、制作のスピードとクオリティを向上させています。また、RunwayのGen-2などを使い、テキストからプロモーションビデオを生成する例もあります。
教育分野
教育機関では、ChatGPTを用いて学習教材の作成や学生の質問に対する自動応答を行い、教育の効率化を図っています。特に遠隔教育やオンラインコースでの活用が進んでいます 。
翻訳と文書改善
DeepL WriteのようなAIを使って、文章の翻訳や自然な言い回しの提案を行います。多言語のコンテンツを迅速かつ高品質に提供することで、グローバルなビジネス展開を支援しています。
ゲーム開発
ゲーム開発では、AIを用いてキャラクターの対話シナリオやストーリーラインを自動生成し、開発者のクリエイティブな作業を支援します。これにより、ゲームの開発期間の短縮とコンテンツの多様化が図られます。
メディアおよび出版業界
生成AIを利用して、ニュース記事やブログ記事を自動生成します。これにより、コンテンツ制作の効率化と情報提供の迅速化が可能になります。
ソーシャルメディアマネジメント
企業のSNSアカウントでは、AIを用いて投稿内容の作成やスケジュール管理を行い、エンゲージメントの向上を図ります。また、トレンド分析やユーザーのフィードバックに基づいたコンテンツの最適化にも利用されます。
医療分野
医療機関では、AIを用いて患者のカルテや診療記録を自動で整理・分析し、医師の診断を支援するツールとして活用されています。これにより、医療サービスの質向上と業務の効率化が実現されています。
不動産業界
不動産の物件紹介や広告文の作成に生成AIを活用することで、魅力的な物件紹介を自動生成し、顧客へのアプローチを効率化しています。また、バーチャルツアーや3Dモデルの生成にもAIが利用されています 。
生成AIの登場により思考力が試される時代へ
生成AIの登場は、ビジネスのあらゆる領域に大きな変革をもたらしています。これらのAI技術は、文章生成、画像生成、音楽生成、コード生成など、多岐にわたる分野で革新を引き起こしています。
生成AIの力を最大限に活用するには、情報収集、学習方法、結果の解釈、そして正誤判断といったプロセスが重要になります。これらのプロセスを適切に管理することが、生成AIを活用する人間の思考力を試す場面となっています。
例えば、文章生成AIであるChatGPTは、カスタマーサポートや教育分野での利用が進んでおり、迅速な応答と効率的な対応が可能です。しかし、生成された情報の正確性や適切性を判断するのは最終的に人間の役割です。
画像生成AIのMidjourneyやStable Diffusionは、マーケティングや広告のビジュアルコンテンツ制作に活用されています。これらのツールは、短時間で高品質な画像を生成しますが、どのようなプロンプトを入力し、生成された画像をどのように活用するかは人間の創造力と判断力に依存します。
音楽生成AIのMusicLMやSuno AIは、映画やプロモーションビデオのバックグラウンドミュージックの生成に使用されており、制作のスピードとクオリティを向上させています。生成された音楽がプロジェクトの意図に合致しているかを判断するのも人間の重要な役割です。
コード生成AIのGitHub Copilotは、開発者のコーディング作業をサポートし、効率を向上させますが、提案されたコードが適切かどうかを見極め、最終的な決定を下すのは開発者自身です。
生成AIの持つ力を最大限に引き出すためには、「情報をどのように集めるか」「AIをどのように学習させるか」「生成された結果をどのように解釈するか」「結果の正誤をどのように判断するか」が重要です。これらのプロセスにおける人間の裁量が、生成AIの成功を左右する鍵となります。つまり、AIの進化とともに、人間の思考力や判断力が一層求められる時代が到来しているのです。
まとめ
今回は、2023年春時点における生成AIの現状を俯瞰しました。これまでのBtoB向け分析・可視化サービスが行っていたのは「思考の前提」や「思考の材料」を作ることでした。一方、生成AIは思考の結果を瞬時に生成できる点が魅力です。しかし、インプット材料の選定や正誤判断などには、これまで以上の思考力が必要になります。バーチャル経営でも生成AIのビジネス利用を検討しており、仕事の本質化や生存戦略の一部として活用すべきだと考えています。