エージェントはひどい労働者だ

最高のものでも 従業員を一斉に管理するという考え方を複雑にする実験によると、人工知能エージェントは文盲でフラストレーションなく自由に働くことができないという。 リモートワーク指標は、アンケート会社ATとAIセキュリティセンターおよび季節セキュリティセンターのプロジェクトの研究者らによる、経済的に評価された業務自動化のための新しい指標です。 研究者らは、多数の最前線のエージェントに多数の強力なエージェントを与えたところ、最も優秀なエージェントでも仕事の 3% 未満しか遂行できず、その額は 143,991 ドルに達することがわかりました。研究者らはいくつかのツールを検討し、同名の中国のスタートアップ企業の機能を発見し、次に xtropic、xkthic の Calthpt、Google の Gemini が続きました。 CAIS 所長のダン ヘンダーソン氏は、「これによって AI の機能の何がすごいのかが明確に伝われば幸いです」と述べています。同氏は、一部のエージェントが昨年大幅に改善したからといって、同じペースが続くとは限らないと付け加えた。 IT の驚異的な進歩により、AI が間もなく人間の生産性を追い越し、多くの労働者に取って代わるだろうという憶測が生まれています。 Anthropic の関連会社である Amayo […]

AI の本当の知識を評価するには、新しいトルコ語試験が必要です

人工模型 等 文書をダウンロード SSRN HTTPS://doi.org/p89q; 2025 年)、しかし彼らは現実世界の法的機能を果たすのに苦労しています。一部の弁護士は苦労して学び、法の原則や既存の判例が間違っていることを明らかにした法廷準備書面を作成したために罰せられた。他の分野でも同様です。たとえば、AI モデルは標準的な金融テスト (特殊な信用テスト) に合格できますが、初心者レベルの金融アナリストによるスコアが含まれています (Go.nation.com/42TBROC.com/ncrect.com を参照)。 AI が人間の知能をテストするにはどうすればよいでしょうか? OSKAI OK OS PONDIONIONS PORE 評価で意図したスキルが誤って評価されると、その評価は失敗とみなされます。たとえば、試験で A + を取得した弁護士は、現実世界のシナリオで AT ツールが同様のアカウントで犯す可能性のある間違いを回避します。複雑な高地の状況での […]