🛠 tools

2026-05-29 · 5 topics

Anthropic、LLM モデル Claude Opus 4.8 を公開──推論コストを従来比 40% 削減

既存の Opus 4.5 と比較してベンチマークスコアを 15% 向上させつつ、推論スループットを最適化し長文脈処理のレイテンシを改善した。

ベンチマーク評価ツール Lenz、主要 LLM 5 モデルの事実判定不一致率を公開──67% の案件で意見が割れる

実社会の複雑な 1,000 件の主張に対し、最先端 LLM 間の判定一致率が 33% に留まることを示し、単一モデルによる自動ファクトチェックの限界を浮き彫りにした。

Anthropic、CLI ツール「Claude Code」に動的ワークフロー機能を追加──マルチステップ実行を自動化

Claude Code が複雑な開発タスクを自律的に分割・実行可能になり、単一のプロンプトで複数ファイルの修正やテスト実行を完結できるようになった。

ゲーム Continue? Y/N を公開──AI エージェントの許可疲れを 60 秒で体験

AI エージェントの自律的な操作に伴う「承認フローの連続」をゲーム化し、UI/UX 設計における過度な確認プロンプトの弊害を可視化する。

OSS ライブラリ Various LLM Smells を公開──LLM アプリのコード品質を評価する 10 のアンチパターン

LLM 呼び出しやプロンプト管理における典型的な設計ミスをコード静的解析で検出し、実運用前のリファクタリングを支援する。