Amazon Comprehendを使ってS3にアップロードしたテキストを感情分析してみる

はじめに
前提条件
環境構成
料金目安
1. S3バケットの作成
3. Lambda関数の作成
3. 動作確認
まとめ

はじめに

AWSのAIサービスを使ったハンズオンです。

商品・製品のレビューやアンケートの評価などで定量的な評価（★などの数値的な評価）はできているが、コメントの詳細までは評価できていない、といったケースは多いのではないでしょうか。

実際、コメントを１件１件確認し分析するのは手間がかかりますし、分析者の基準で評価するため、一定の評価をすることは難しいです。

今回紹介するAmazon ComprehendはテキストをAIで解析してくれるサービスで、コメントなどの自然言語から感情分析やキーフレーズ抽出などをすることができます。

今回はAmazon Comprehendの感情分析を使って、テキストを数値評価してみます。

このハンズオンでは、Amazon Comprehendを使って、S3にアップロードしたテキストファイルを感情分析し、結果を別のS3に格納するサービスを作成していきます。

前提条件

本ハンズオンでは、簡略化のため VPC を使用していません。

内部的な通信を利用する場合はS3とComprehendのエンドポイントをVPCに作成してください。

環境構成

本ハンズオンの環境構成は以下の通りです。

料金目安

本ハンズオンの料金目安です。東京リージョン(ap-northeast-1)を利用する想定で計算しています。

サービス名	前提	無料枠あり	無料枠なし
S3	4KBのファイルを1日保管	<$0.001	<$0.001
Lambda	3秒の処理を10回実行	$0	<$0.001
Amazon Comprehend	1000文字分の文章を分析	$0	$0.001

無料枠あり/なしに関わらずほぼ無料です。

1. S3バケットの作成

AWS管理コンソールから「S3」の画面を開き、「バケットの作成」を選択します。

感情分析対象のテキストを格納するバケットと感情分析の結果を格納するS3バケットを作成します

※Lambdaと同じリージョンで作成してください。

3. Lambda関数の作成

AWS管理コンソールから「Lambda」の画面を開き、「関数の作成」を選択します。

任意の関数名、ランタイム：Node.js 22.x、アーキテクチャ：x86_64として、関数を作成します。

関数が作成できたら、設定タブを選択してください。一般設定から「編集」を選択します。

基本設定の画面が表示されます。タイムアウト値はデフォルトの３秒のままでもいいですが、分析する文章量によって数値を調整してください。
?
実行ロールにS3バケットとComprehendの実行権限を付与します。「IAMコンソールで****ロールの表示」を選択してください。

ロールの設定画面が表示されます。許可を追加から「インラインポリシーを作成」を選択してください。

ポリシーエディタが表示されます。JSONを選択して以下のポリシーを入力してください。入力後「次へ」を選択します。

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": "s3:GetObject",
			"Resource": "arn:aws:s3:::【感情分析対象のテキストを格納するバケット名】/*"
		},
		{
			"Effect": "Allow",
			"Action": "s3:PutObject",
			"Resource": "arn:aws:s3:::【感情分析の結果を格納するS3バケット名】/*"
		},
		{
			"Effect": "Allow",
			"Action": "comprehend:DetectSentiment",
			"Resource": "*"
		}
	]
}

確認して作成の画面で「ポリシーを作成」を選択します。

Lambdaの画面に戻って環境変数の追加をします。設定タブ＞左メニューの「環境変数」を選択し「編集」を選択します。

環境変数を設定します。

キー	値
REGION	リージョン名（ap-northeast-1など）
TARGETBUCKET	【感情分析の結果を格納するS3バケット名】

以下のソースを反映し、「index.mjs」を「index.js」に名前を変えてください。

"use strict";
Object.defineProperty(exports, "__esModule", { value: true });
exports.handler = void 0;
const client_s3_1 = require("@aws-sdk/client-s3");
const client_comprehend_1 = require("@aws-sdk/client-comprehend");
const s3Client = new client_s3_1.S3Client({ region: process.env.REGION });
const comprehendClient = new client_comprehend_1.ComprehendClient({ region: process.env.REGION });
// S3の読み取り用ヘルパー関数
const streamToString = async (stream) => {
    const chunks = [];
    for await (const chunk of stream) {
        chunks.push(chunk);
    }
    return Buffer.concat(chunks).toString('utf-8');
};
// Lambdaハンドラー
const handler = async (event) => {
    try {
        // イベントからバケット名とオブジェクトキーを取得
        const sourceBucket = event.Records[0].s3.bucket.name;
        const sourceKey = decodeURIComponent(event.Records[0].s3.object.key.replace(/\+/g, ' '));
        // S3からテキストファイルを取得
        const getObjectParams = { Bucket: sourceBucket, Key: sourceKey };
        const getObjectCommand = new client_s3_1.GetObjectCommand(getObjectParams);
        const s3Response = await s3Client.send(getObjectCommand);
        const fileContent = await streamToString(s3Response.Body);
        console.log('Original Content:', fileContent);
        // Amazon Comprehendで感情分析を実行
        const comprehendParam = {
            Text: fileContent,
            LanguageCode: "ja", // 日本語の場合は "ja"
        };
        const comprehendCommand = new client_comprehend_1.DetectSentimentCommand(comprehendParam);
        const sentiment = await comprehendClient.send(comprehendCommand);
        console.log("Sentiment analysis result:", sentiment);
        // 新しいS3バケットにアップロード
        const targetBucket = process.env.TARGETBUCKET; // 変換後のファイルを保存するバケット名
        const targetKey = `results/${sourceKey.replace(".txt", "")}_sentiment.json`;
        // 分析結果をJSON形式でS3に保存
        const putObjectParams = {
            Bucket: targetBucket,
            Key: targetKey,
            Body: JSON.stringify(sentiment, null, 2),
            ContentType: "application/json",
        };
        const putObjectCommand = new client_s3_1.PutObjectCommand(putObjectParams);
        await s3Client.send(putObjectCommand);
        console.log(`Sentiment analysis file uploaded to ${targetBucket}/${targetKey}`);
    }
    catch (error) {
        console.error('Error processing S3 event:', error);
        throw error;
    }
};
exports.handler = handler;

反映と名前の変更が完了したら、「Deploy」を選択します。

S3のアップロードをトリガーとする設定を追加します。「トリガーを追加」を選択します。

トリガーの設定でS3を選択し、バケットは【感情分析対象のテキストを格納するバケット名】を入力してください。イベントタイプは「PUT」、サフィックスは「.txt」を入力して「追加」を選択します。

3. 動作確認

私が最近買ってよかったものと悪かったものの感想をテキストで作成し、S3にアップロードして結果を確認してみます。（PRを含みます。）

よかったもの①：昇降式のPCデスク

【送料無料】GTPLAYER 昇降デスク電動ゲーミングデスクデスク机つくえパソコンデスク PCデスクスタンディングデスクオフィスデスク昇降在宅在宅ワーク昇降式昇降テーブル昇降式デスク電動昇降デスク幅110cm 120cm 奥行き55cm 60cm 高さ調節オフィス
価格：18,280円（税込、送料別) (2024/12/18時点)

楽天で購入

一般的に売っている机は体に合わず、首・肩・背中が痛くなってしまいます。昇降式の机であれば高さ調整ができ、自分の体にあった高さに調整できます。丸１日机の前に座っていても体が痛くなることはなくとても快適です。気分転換で高さを上げて、立って仕事をすることもできます。

よかったもの②：ELECOM マウス EX-G

【エントリーでP10倍 19日20時-20日2時まで】 ELECOM M-XGL30BBSKBK Bluetoothマウス静音ワイヤレス無線 5ボタン右手専用抗菌 Lサイズ EX-G ブラック

楽天で購入

握るというより手を置いているだけといったイメージで、使っていてとても楽なマウスです。PC切り替えボタンがあり、複数端末を持っている人にとっても簡単に切り替え可能です。

よかったもの③：ふるさと納税　無洗米

【ふるさと納税】米無洗米定期便 5kg 10kg 新潟コシヒカリ精米白米お米選べる 1回 3回 6回 12回 3ヶ月 6ヶ月 12ヶ月新潟こしひかり新潟県産コシヒカリ（サンヴィリッジ新潟）

楽天で購入

ふるさと納税をしないと損！そんな感覚をお持ちではないでしょうか？とはいえ何を買ったらいいか分からない、特にほしいものがない、そんな方におすすめな商品です。お米は毎日消費しますし、都度都度買いに行くのは重いし手間です。ふるさと納税で毎月お米を配送してくれるので、買いに行く手間もなくなりますし、節税にもなります。

悪かったもの①：業務用スーパーで買ったロールキャベツ

業務用スーパーは安く買えてすごくお得ですが、この前かったロールキャベツは肉感がなく茹でたキャベツを食べているようでした。もう少しお肉のボリュームを増やしてもらえると嬉しいです。

悪かったもの②：iCleverのマウス

複数のPCを切り替えて利用できるマウスがほしかったので購入しましたが、突然カーソルが飛ぶことがあり、カーソルを見失うことが多々ありました。安くて高機能ではありますが、マウスとして使えないので、おすすめしません。

【感情分析対象のテキストを格納するバケット名】のバケットにこちらのテキストファイルをアップロードします。

しばらくすると、【感情分析の結果を格納するS3バケット名】のバケットのresult配下にファイルが生成されます。

内容を確認します。
json形式で出力されます。

例）よかったもの①：昇降式のPCデスクの解析結果

{
    "$metadata": {
        "httpStatusCode": 200,
        "requestId": "8a13abe5-cdba-4440-ab3c-92cf25026e30",
        "attempts": 1,
        "totalRetryDelay": 0
    },
    "Sentiment": "POSITIVE",
    "SentimentScore": {
        "Mixed": 0.00002504355325072538,
        "Negative": 0.00016921793576329947,
        "Neutral": 0.001096930238418281,
        "Positive": 0.9987088441848755
    }
}

例）悪かったもの①：業務用スーパーで買ったロールキャベツの解析結果

{
    "$metadata": {
        "httpStatusCode": 200,
        "requestId": "3471d0db-ed1b-4341-9729-a7b14c308665",
        "attempts": 1,
        "totalRetryDelay": 0
    },
    "Sentiment": "MIXED",
    "SentimentScore": {
        "Mixed": 0.8242824673652649,
        "Negative": 0.05673226714134216,
        "Neutral": 0.001565534621477127,
        "Positive": 0.1174197569489479
    }
}

各パラメタの意味は以下になります。

肯定（Positive） : テキストは全体的にポジティブを表しています。
否定（Negative） : テキストは全体的なネガティブを表しています。
混合（Mixed） : テキストはポジティブとネガティブの両方を表現します。
中立（Neutral） : テキストは肯定的または否定的を表していません。

「Sentiment」が全体のテキストを読み取った結果になります。

結果を表にまとめると以下になります。

商品	肯定（Positive）	否定（Negative）	混合（Mixed）	中立（Neutral）	総合評価（Sentiment）
よかったもの①：昇降式のPCデスク	0.99871	0.00016	0.00003	0.00110	POSITIVE
よかったもの②：ELECOM マウス EX-G	0.99953	0.00004	0.00003	0.00040	POSITIVE
よかったもの③：ふるさと納税　無洗米	0.99238	0.00262	0.00291	0.00209	POSITIVE
悪かったもの①：業務用スーパーで買ったロールキャベツ	0.11741	0.05673	0.82428	0.00157	MIXED
悪かったもの②：iCleverのマウス	0.00017	0.35842	0.64120	0.00020	MIXED

あえてコメントにポジティブな文章、ネガティブな文章を入れてみましたが、よかったものについては肯定的な評価をしてくれています。

面白い結果となったのは、悪かったものが混合（いい面も悪い面もある）の評価になったことです。「業務用スーパーで買ったロールキャベツ」は安いという面がポジティブに評価され、「iCleverのマウス」は安くて高機能がポジティブに働いたようです。ただ「iCleverのマウス」はおすすめしないといった表現がネガティブに働き否定の数値の値が高くなっていることもわかります。