🔥🔥🔥2026-05-10Google DeepMind、数学特化 AI「AI co-mathematician」を発表──FrontierMath Tier 4 で 48% の SOTA を記録専門の数学者でも困難な FrontierMath Tier 4 において、従来の AI システムを凌駕する 48% の正答率を達成し、高度な論理推論の新たな基準を提示した。Google DeepMindFrontierMathMathematicsReasoning
🔥🔥🔥2026-05-08OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現音声入力から直接推論する GPT-Realtime-2 を筆頭に、翻訳・文字起こしの各機能を API 化し、電話応対やライブ翻訳の実装コストを大幅に引き下げた。OpenAIRealtime APIGPT-Realtime-2Whisper
🔥🔥2025-02-27Anthropic、Claude に「推論の理由」を教える学習手法を公開──多段階推論の信頼性を向上回答の正解(What)だけでなく、各推論ステップの正当性(Why)を学習に組み込むことで、数学やコード生成における論理的エラーを削減した。AnthropicReasoningLLMProcessSupervision
🔥2026-05-09腫瘍学の意思決定支援を 2 段構えのマルチエージェントで高度化──プライバシー保護と根拠性を両立9B/27B モデルを使い分ける 2 層構造と LangGraph による 8 つの専門エージェントを統合。NCCN 等のガイドラインに基づく Corrective RAG で、オンプレミス環境での安全な臨床支援を実現。(原題: OncoAgent: A Dual-Tier Multi-Agent Framework for Privacy-Preserving Oncology Clinical Decision Support)oncologymulti-agentLangGraphRAG
🔥🔥2025-02-06DeepSeek-V4 が FP4 量子化意識学習(QAT)を実用化──10兆トークン規模の MoE 学習安定化手法を公開FP4 精度での学習により計算効率を極限まで高めつつ、10T トークンの大規模 MoE における学習の不安定性を克服。(原題: DeepSeek-V4 Technical Report)DeepSeek-V4FP4-QATMoELLM
🔥🔥2026-05-10Linux カーネル脆弱性解析 `io_uring` ZCRX──`u32` 操作による root 権限昇格を実証io_uring の Zero-Copy Receive における freelist 管理の不備を突き、ローカルユーザーから root への権限昇格を可能にする手法の解説。Linux Kernelio_uringSecurityLPE
🔥2026-05-08Raspberry Pi Zero、RAM 駆動 Web サーバー構築ガイド公開──Alpine Linux で SD カード摩耗を排除512MB RAM の Raspberry Pi Zero を活用し、OS をメモリ上で実行する「ディスクレスモード」により、SD カードの故障リスクを抑えた堅牢なエッジ公開環境を実現する。Raspberry PiAlpine LinuxEdge ComputingIoT
🔥2026-05-08Let's Encrypt、証明書発行を約 2.5 時間停止──新ルート移行トラブルにより旧ルートへ切り戻し新旧ルート証明書のクロス署名不具合により ACME 発行を一時停止したが、Generation X ルートへの固定により現在は復旧。自動更新失敗時のリトライ設計を再確認する機会となった。SSLTLSLetsEncryptACME
🔥🔥2026-04-17研究チーム、LLM 委任ワークフロー評価ベンチマーク DELEGATE-52 を公開──GPT-5.4 等でも 25% の文書破損を確認長期的なドキュメント編集タスクにおいて、最新のフロンティアモデルですらサイレントにエラーを蓄積し、最終的に 4 分の 1 の内容を損なう実態を 52 の専門領域で定量化した。LLMBenchmarkAgenticWorkflowReliability
🔥2025-05-10Claude Code 向けプロンプト手法──HTML 形式によるコンテキスト注入で推論精度を向上テキストや JSON ではなく HTML 構造でドキュメントを渡すことで、Claude Code のコード理解とタスク完遂率が劇的に改善する手法がエンジニアの間で共有された。Claude CodePrompt EngineeringLLM AgentHTML
🔥🔥2026-05-10Mozilla、Firefox のバグ調査に Claude Mythos を導入──2026年4月のセキュリティ修正数が過去最大級に急増AI による自動バグハンティングを開発工程に統合し、従来の手動レビューでは発見が困難だった脆弱性を短期間で一掃した。FirefoxMozillaClaude MythosSecurity