Thời Niên Thiếu Của Công Nghệ (Dario Amodei)

4 tháng 2, 2026 · 52 phút để đọc · —lượt xem

CEO & Co-founder Anthropic

The Adolescence of Technology

Ghi chú của người dịch: Đây là bản dịch bài viết gốc "The Adolescence of Technology" của Dario Amodei, CEO của Anthropic, xuất bản tháng 9/2024.

Thời Niên Thiếu Của Công Nghệ

Có một cảnh trong bộ phim chuyển thể từ cuốn sách Contact của Carl Sagan, nơi nhân vật chính - một nhà thiên văn học đã phát hiện ra tín hiệu vô tuyến đầu tiên từ một nền văn minh ngoài hành tinh - đang được xem xét cho vai trò đại diện của nhân loại để gặp gỡ người ngoài hành tinh. Hội đồng quốc tế phỏng vấn cô hỏi: "Nếu cô chỉ có thể hỏi [người ngoài hành tinh] một câu hỏi, đó sẽ là gì?". Cô trả lời: "Tôi sẽ hỏi họ, 'Các bạn đã làm thế nào? Các bạn đã tiến hóa, đã sống sót qua thời niên thiếu công nghệ này như thế nào mà không tự hủy diệt chính mình?'"

Khi tôi nghĩ về vị trí hiện tại của nhân loại với AI—về những gì chúng ta đang đứng trước ngưỡng cửa—tâm trí tôi cứ quay lại cảnh đó, bởi vì câu hỏi thật sự xác đáng cho tình hình hiện tại của chúng ta, và tôi ước chúng ta có câu trả lời của người ngoài hành tinh để dẫn đường. Tôi tin rằng chúng ta đang bước vào một nghi thức trưởng thành (rite of passage), vừa đầy biến động vừa không thể tránh khỏi, thứ sẽ thử thách chúng ta với tư cách là một giống loài. Nhân loại sắp được trao cho sức mạnh gần như không thể tưởng tượng nổi, và thật sự không rõ liệu các hệ thống xã hội, chính trị và công nghệ của chúng ta có đủ sự trưởng thành để sử dụng nó hay không.

Trong bài luận Machines of Loving Grace (tạm dịch: Những cỗ máy của lòng nhân ái), tôi đã cố gắng phác họa giấc mơ về một nền văn minh đã vượt qua được để đến tuổi trưởng thành, nơi các rủi ro đã được giải quyết và AI mạnh mẽ được áp dụng với kỹ năng và lòng trắc ẩn để nâng cao chất lượng cuộc sống cho mọi người. Tôi đã gợi ý rằng AI có thể đóng góp vào những tiến bộ to lớn trong sinh học, khoa học thần kinh, phát triển kinh tế, hòa bình toàn cầu, cũng như công việc và ý nghĩa sống. Tôi cảm thấy điều quan trọng là phải cho mọi người thấy một điều gì đó đầy cảm hứng để phấn đấu, một nhiệm vụ mà cả những người ủng hộ tăng tốc AI (accelerationists) và những người ủng hộ an toàn AI (safety advocates) dường như—một cách kỳ lạ—đã thất bại. Nhưng trong bài luận hiện tại này, tôi muốn đối mặt với chính nghi thức trưởng thành đó: vạch ra những rủi ro mà chúng ta sắp phải đối mặt và cố gắng bắt đầu lập một kế hoạch tác chiến để đánh bại chúng. Tôi tin tưởng sâu sắc vào khả năng chiến thắng của chúng ta, vào tinh thần và sự cao quý của nhân loại, nhưng chúng ta phải đối mặt với tình huống một cách trực diện và không ảo tưởng.

Cũng như khi nói về những lợi ích, tôi nghĩ điều quan trọng là thảo luận về rủi ro một cách cẩn trọng và kỹ lưỡng. Cụ thể, tôi nghĩ điều quan trọng là phải:

Tránh chủ nghĩa tận thế (doomerism). Ở đây, tôi muốn nói đến "chủ nghĩa tận thế" không chỉ theo nghĩa tin rằng sự diệt vong là không thể tránh khỏi (thứ vừa là một niềm tin sai lầm vừa tự ứng nghiệm), mà rộng hơn là việc suy nghĩ về rủi ro AI theo cách bán tôn giáo.¹ Nhiều người đã suy nghĩ một cách phân tích và tỉnh táo về rủi ro AI trong nhiều năm, nhưng ấn tượng của tôi là trong thời điểm đỉnh cao của những lo ngại về rủi ro AI vào năm 2023–2024, một số tiếng nói kém hợp lý nhất đã nổi lên, thường thông qua các tài khoản mạng xã hội giật gân. Những tiếng nói này sử dụng ngôn ngữ gây khó chịu gợi nhớ đến tôn giáo hoặc khoa học viễn tưởng, và kêu gọi những hành động cực đoan mà không có bằng chứng biện minh. Rõ ràng ngay cả khi đó là một sự phản kháng dữ dội là không thể tránh khỏi, và vấn đề sẽ trở nên phân cực về mặt văn hóa và do đó bị bế tắc.² Kể từ 2025–2026, con lắc đã đảo chiều, và cơ hội từ AI, chứ không phải rủi ro từ AI, đang thúc đẩy nhiều quyết định chính trị. Sự dao động này thật đáng tiếc, vì bản thân công nghệ không quan tâm đến điều gì là hợp thời, và chúng ta đang ở gần mối nguy hiểm thực sự vào năm 2026 hơn nhiều so với năm 2023. Bài học là chúng ta cần thảo luận và giải quyết các rủi ro một cách thực tế, thực dụng: tỉnh táo, dựa trên thực tế và được trang bị tốt để sống sót qua những thay đổi của thủy triều.
Thừa nhận sự không chắc chắn. Có rất nhiều cách mà những lo ngại tôi nêu ra trong bài viết này có thể trở nên vô nghĩa. Không có gì ở đây nhằm truyền tải sự chắc chắn hoặc thậm chí là khả năng cao xảy ra. Rõ ràng nhất, AI có thể đơn giản là không tiến bộ nhanh như tôi tưởng tượng.³ Hoặc, ngay cả khi nó tiến bộ nhanh, một số hoặc tất cả các rủi ro được thảo luận ở đây có thể không thành hiện thực (điều đó sẽ rất tuyệt), hoặc có thể có những rủi ro khác mà tôi chưa xem xét. Không ai có thể dự đoán tương lai với sự tự tin hoàn toàn—nhưng dù sao chúng ta cũng phải làm tốt nhất có thể để lập kế hoạch.
Can thiệp một cách "phẫu thuật" nhất có thể. Giải quyết các rủi ro của AI sẽ đòi hỏi sự kết hợp giữa các hành động tự nguyện của các công ty (và các bên thứ ba tư nhân) và các hành động của chính phủ ràng buộc tất cả mọi người. Các hành động tự nguyện—cả việc thực hiện chúng và khuyến khích các công ty khác làm theo—là điều hiển nhiên đối với tôi. Tôi tin chắc rằng các hành động của chính phủ cũng sẽ được yêu cầu ở một mức độ nào đó, nhưng những can thiệp này khác về tính chất vì chúng có thể phá hủy giá trị kinh tế hoặc cưỡng ép các tác nhân không tự nguyện, những người hoài nghi về các rủi ro này (và có một chút khả năng là họ đúng!). Cũng rất phổ biến việc các quy định phản tác dụng hoặc làm tồi tệ thêm vấn đề mà chúng dự định giải quyết (và điều này càng đúng hơn đối với các công nghệ thay đổi nhanh chóng). Do đó, điều rất quan trọng là các quy định phải sáng suốt: chúng nên tìm cách tránh thiệt hại phụ, càng đơn giản càng tốt và áp đặt gánh nặng ít nhất cần thiết để hoàn thành công việc.⁴ Rất dễ để nói, "Không có hành động nào là quá cực đoan khi số phận của nhân loại đang bị đe dọa!", nhưng trong thực tế, thái độ này chỉ dẫn đến sự phản kháng. Để rõ ràng, tôi nghĩ có một cơ hội khá chúng ta cuối cùng sẽ đạt đến điểm mà hành động quan trọng hơn nhiều là cần thiết, nhưng điều đó sẽ phụ thuộc vào bằng chứng mạnh mẽ hơn về mối nguy hiểm cụ thể, sắp xảy ra hơn những gì chúng ta có ngày nay, cũng như đủ sự cụ thể về mối nguy hiểm để xây dựng các quy tắc có cơ hội giải quyết nó. Điều mang tính xây dựng nhất chúng ta có thể làm hôm nay là ủng hộ các quy tắc giới hạn trong khi chúng ta tìm hiểu xem liệu có bằng chứng để hỗ trợ các quy tắc mạnh mẽ hơn hay không.⁵

Với tất cả những điều đã nói, tôi nghĩ nơi bắt đầu tốt nhất để nói về rủi ro của AI cũng chính là nơi tôi đã bắt đầu khi nói về lợi ích của nó: bằng cách chính xác về cấp độ AI mà chúng ta đang nói đến. Cấp độ AI gây ra những lo ngại về nền văn minh đối với tôi là AI mạnh mẽ mà tôi đã mô tả trong Machines of Loving Grace. Tôi sẽ chỉ lặp lại ở đây định nghĩa mà tôi đã đưa ra trong tài liệu đó:

Bằng cụm từ "AI mạnh mẽ", tôi hình dung một mô hình AI—có khả năng tương tự như các LLM ngày nay về hình thức, mặc dù nó có thể dựa trên một kiến trúc khác, có thể bao gồm nhiều mô hình tương tác, và có thể được huấn luyện khác đi—với các tính chất sau:

Về trí thông minh thuần túy, nó thông minh hơn một người đoạt giải Nobel trong hầu hết các lĩnh vực liên quan: sinh học, lập trình, toán học, kỹ thuật, viết lách, v.v. Điều này có nghĩa là nó có thể chứng minh các định lý toán học chưa có lời giải, viết những cuốn tiểu thuyết cực hay, viết các n codebase khó từ đầu, v.v.

Ngoài việc chỉ là một "thứ thông minh mà bạn nói chuyện cùng", nó có tất cả các giao diện có sẵn cho một con người làm việc ảo, bao gồm văn bản, âm thanh, video, điều khiển chuột và bàn phím, và truy cập internet. Nó có thể tham gia vào bất kỳ hành động, giao tiếp hoặc hoạt động từ xa nào được kích hoạt bởi giao diện này, bao gồm thực hiện các hành động trên internet, nhận hoặc ra chỉ thị cho con người, đặt hàng vật liệu, chỉ đạo các thí nghiệm, xem video, làm video, và vân vân. Nó thực hiện tất cả các nhiệm vụ này với kỹ năng vượt qua cả những con người tài năng nhất thế giới.

Nó không chỉ trả lời thụ động các câu hỏi; thay vào đó, nó có thể được giao các nhiệm vụ mất hàng giờ, hàng ngày hoặc hàng tuần để hoàn thành, và sau đó tự đi và thực hiện các nhiệm vụ đó một cách tự chủ, theo cách mà một nhân viên thông minh sẽ làm, yêu cầu làm rõ khi cần thiết.

Nó không có hiện thân vật lý (ngoài việc sống trên màn hình máy tính), nhưng nó có thể kiểm soát các công cụ vật lý, robot hoặc thiết bị phòng thí nghiệm hiện có thông qua máy tính; về lý thuyết, nó thậm chí có thể thiết kế robot hoặc thiết bị cho chính nó sử dụng.

Tài nguyên được sử dụng để huấn luyện mô hình có thể được tái sử dụng để chạy hàng triệu bản sao của nó (điều này khớp với kích thước cụm máy tính dự kiến vào khoảng năm 2027), và mô hình có thể hấp thụ thông tin và tạo ra hành động với tốc độ gấp khoảng 10–100 lần con người. Tuy nhiên, nó có thể bị giới hạn bởi thời gian phản hồi của thế giới vật lý hoặc của phần mềm mà nó tương tác.

Mỗi một trong hàng triệu bản sao này có thể hành động độc lập trên các nhiệm vụ không liên quan, hoặc nếu cần có thể tất cả cùng làm việc cùng nhau theo cách con người hợp tác, có thể với các nhóm phụ khác nhau được tinh chỉnh để đặc biệt giỏi ở các nhiệm vụ cụ thể.

Chúng ta có thể tóm tắt điều này như một "quốc gia của những thiên tài trong một trung tâm dữ liệu".

Như tôi đã viết trong Machines of Loving Grace, AI mạnh mẽ có thể chỉ còn cách 1–2 năm nữa, mặc dù nó cũng có thể còn xa hơn đáng kể.⁶ Chính xác khi nào AI mạnh mẽ sẽ đến là một chủ đề phức tạp xứng đáng có một bài luận riêng, nhưng hiện tại tôi sẽ chỉ giải thích rất ngắn gọn tại sao tôi nghĩ có khả năng cao nó có thể đến rất sớm.

Những người đồng sáng lập của tôi tại Anthropic và tôi nằm trong số những người đầu tiên ghi lại và theo dõi "quy luật mở rộng" (scaling laws) của các hệ thống AI—quan sát rằng khi chúng ta thêm nhiều tính toán (compute) và nhiệm vụ huấn luyện hơn, các hệ thống AI trở nên tốt hơn một cách có thể dự đoán được ở hầu hết mọi kỹ năng nhận thức mà chúng ta có thể đo lường. Cứ vài tháng một lần, tình cảm công chúng hoặc trở nên tin rằng AI đang "đụng trần" hoặc trở nên phấn khích về một số đột phá mới sẽ "thay đổi cuộc chơi một cách cơ bản", nhưng sự thật là đằng sau sự biến động và đồn đoán của công chúng, đã có sự gia tăng mượt mà, không ngừng nghỉ trong năng lực nhận thức của AI.

Chúng ta hiện đang ở điểm mà các mô hình AI bắt đầu đạt được tiến bộ trong việc giải quyết các vấn đề toán học chưa có lời giải, và giỏi viết code đến mức một số kỹ sư giỏi nhất tôi từng gặp hiện đang giao gần như tất cả việc viết code của họ cho AI. Ba năm trước, AI vật lộn với các bài toán số học tiểu học và hiếm khi có khả năng viết một dòng code đơn lẻ. Tốc độ cải thiện tương tự đang diễn ra trên khắp khoa học sinh học, tài chính, vật lý và một loạt các nhiệm vụ tác tử (agentic tasks). Nếu cấp số nhân tiếp tục—điều không chắc chắn, nhưng hiện đã có hồ sơ theo dõi dài một thập kỷ hỗ trợ nó—thì không thể nào còn quá vài năm trước khi AI giỏi hơn con người ở hầu hết mọi thứ.

Thực tế, bức tranh đó có lẽ đánh giá thấp tốc độ tiến bộ có thể xảy ra. Bởi vì AI hiện đang viết phần lớn code tại Anthropic, nó đã và đang tăng tốc đáng kể tốc độ tiến bộ của chúng tôi trong việc xây dựng thế hệ hệ thống AI tiếp theo. Vòng lặp phản hồi này đang thu thập động lực qua từng tháng, và có thể chỉ còn cách 1–2 năm từ điểm mà thế hệ AI hiện tại tự chủ xây dựng thế hệ tiếp theo. Vòng lặp này đã bắt đầu, và sẽ tăng tốc nhanh chóng trong những tháng và năm tới. Theo dõi 5 năm tiến bộ vừa qua từ bên trong Anthropic, và nhìn vào cách ngay cả những mô hình trong vài tháng tới đang hình thành, tôi có thể cảm nhận được tốc độ của sự tiến bộ, và đồng hồ đang đếm ngược.

Trong bài luận này, tôi sẽ giả định rằng trực giác này ít nhất là có phần đúng—không phải là AI mạnh mẽ chắc chắn sẽ đến trong 1–2 năm⁷, mà là có một cơ hội khá nó sẽ đến, và một cơ hội rất mạnh nó sẽ đến trong vài năm tới. Cũng như với Machines of Loving Grace, việc xem xét nghiêm túc tiền đề này có thể dẫn đến một số kết luận đáng ngạc nhiên và kỳ lạ. Trong khi ở Machines of Loving Grace tôi tập trung vào những hàm ý tích cực của tiền đề này, ở đây những điều tôi nói sẽ gây lo ngại. Đó là những kết luận mà chúng ta có thể không muốn đối mặt, nhưng điều đó không làm cho chúng bớt thật đi. Tôi chỉ có thể nói rằng tôi tập trung ngày đêm vào cách lái chúng ta tránh xa những kết quả tiêu cực này và hướng tới những kết quả tích cực, và trong bài luận này tôi nói rất chi tiết về cách tốt nhất để làm điều đó.

Tôi nghĩ cách tốt nhất để nắm bắt các rủi ro của AI là đặt câu hỏi sau: giả sử một "quốc gia của những thiên tài" theo nghĩa đen hiện thực hóa ở đâu đó trên thế giới vào khoảng năm 2027. Hãy tưởng tượng, chẳng hạn, 50 triệu người, tất cả đều có khả năng hơn nhiều so với bất kỳ người đoạt giải Nobel, chính khách hay nhà công nghệ nào. Phép ẩn dụ không hoàn hảo, bởi vì những thiên tài này có thể có một phạm vi động động lực và hành vi cực kỳ rộng, từ hoàn toàn dễ bảo và vâng lời, đến kỳ lạ và xa lạ trong động lực của họ. Nhưng hãy giữ phép ẩn dụ này, giả sử bạn là cố vấn an ninh quốc gia của một quốc gia lớn, chịu trách nhiệm đánh giá và phản ứng với tình huống. Hãy tưởng tượng thêm rằng vì các hệ thống AI có thể hoạt động nhanh hơn hàng trăm lần so với con người, "quốc gia" này đang hoạt động với lợi thế về thời gian so với tất cả các quốc gia khác: với mỗi hành động nhận thức chúng ta có thể thực hiện, quốc gia này có thể thực hiện mười.

Bạn nên lo lắng về điều gì? Tôi sẽ lo lắng về những điều sau:

Rủi ro tự chủ (Autonomy risks). Ý định và mục tiêu của quốc gia này là gì? Nó có thù địch không, hay nó chia sẻ các giá trị của chúng ta? Liệu nó có thể thống trị thế giới về mặt quân sự thông qua vũ khí vượt trội, các hoạt động mạng, các hoạt động gây ảnh hưởng, hoặc sản xuất?
Lạm dụng để phá hủy (Misuse for destruction). Giả sử quốc gia mới này dễ uốn nắn và "làm theo hướng dẫn"—và do đó về cơ bản là một quốc gia của lính đánh thuê. Liệu các tác nhân lừa đảo hiện tại muốn gây ra sự phá hủy (như khủng bố) có thể sử dụng hoặc thao túng một số người trong quốc gia mới này để làm cho bản thân họ hiệu quả hơn nhiều, khuếch đại quy mô phá hủy một cách to lớn?
Lạm dụng để chiếm đoạt quyền lực (Misuse for seizing power). Điều gì sẽ xảy ra nếu quốc gia thực sự được xây dựng và kiểm soát bởi một tác nhân mạnh mẽ hiện có, chẳng hạn như một nhà độc tài hoặc tác nhân doanh nghiệp lừa đảo? Liệu tác nhân đó có thể sử dụng nó để giành quyền lực quyết định hoặc thống trị trên toàn thế giới, làm đảo lộn cán cân quyền lực hiện có?
Gián đoạn kinh tế (Economic disruption). Nếu quốc gia mới không phải là mối đe dọa an ninh theo bất kỳ cách nào được liệt kê trong #1–3 ở trên mà chỉ đơn giản tham gia hòa bình vào nền kinh tế toàn cầu, liệu nó vẫn có thể tạo ra những rủi ro nghiêm trọng chỉ bằng cách trở nên quá tiên tiến về mặt công nghệ và hiệu quả đến mức nó làm gián đoạn nền kinh tế toàn cầu, gây ra thất nghiệp hàng loạt hoặc tập trung của cải một cách cực đoan?
Các tác động gián tiếp (Indirect effects). Thế giới sẽ thay đổi rất nhanh do tất cả công nghệ và năng suất mới sẽ được tạo ra bởi quốc gia mới. Liệu một số thay đổi này có thể gây bất ổn một cách triệt để?

Tôi nghĩ cần phải rõ ràng rằng đây là một tình huống nguy hiểm—một báo cáo từ một quan chức an ninh quốc gia có năng lực gửi cho người đứng đầu nhà nước có lẽ sẽ chứa những từ như "mối đe dọa an ninh quốc gia nghiêm trọng nhất mà chúng ta từng đối mặt trong một thế kỷ, có thể là chưa từng có." Có vẻ như đây là thứ mà những bộ óc tốt nhất của nền văn minh nên tập trung vào.

Ngược lại, tôi nghĩ sẽ thật ngớ ngẩn khi nhún vai và nói, "Không có gì phải lo lắng ở đây!" Nhưng, đối mặt với sự tiến bộ nhanh chóng của AI, đó dường như là quan điểm của nhiều nhà hoạch định chính sách Hoa Kỳ, một số người phủ nhận sự tồn tại của bất kỳ rủi ro AI nào, khi họ không hoàn toàn bị phân tâm bởi những vấn đề nóng bỏng cũ kỹ mệt mỏi thường ngày.⁸ Nhân loại cần thức tỉnh, và bài luận này là một nỗ lực—có thể là vô ích, nhưng đáng để thử—để đánh thức mọi người.

Để rõ ràng, tôi tin rằng nếu chúng ta hành động dứt khoát và cẩn thận, các rủi ro có thể được vượt qua—tôi thậm chí sẽ nói tỷ lệ cược của chúng ta là tốt. Và có một thế giới tốt đẹp hơn rất nhiều ở phía bên kia của nó. Nhưng chúng ta cần hiểu rằng đây là một thách thức văn minh nghiêm trọng. Dưới đây, tôi đi qua năm loại rủi ro đã nêu trên, cùng với những suy nghĩ của tôi về cách giải quyết chúng.

1. Tôi đang rất tiếc, Dave (I’m sorry, Dave)

Rủi ro tự chủ

Một quốc gia của những thiên tài trong một trung tâm dữ liệu có thể phân chia nỗ lực của họ giữa thiết kế phần mềm, các hoạt động mạng, R&D cho các công nghệ vật lý, xây dựng mối quan hệ, và nghệ thuật quản lý nhà nước. Rõ ràng là, nếu vì lý do nào đó nó chọn làm như vậy, quốc gia này sẽ có cơ hội khá tốt để chiếm lấy thế giới (hoặc về mặt quân sự hoặc về mặt ảnh hưởng và kiểm soát) và áp đặt ý chí của nó lên mọi người khác—hoặc làm bất kỳ số lượng việc nào khác mà phần còn lại của thế giới không muốn và không thể ngăn chặn. Rõ ràng chúng ta đã lo lắng về điều này đối với các quốc gia con người (như Đức Quốc xã hoặc Liên Xô), vì vậy có lý do để tin rằng điều tương tự là có thể đối với một "quốc gia AI" thông minh và có năng lực hơn nhiều.

Lập luận phản biện tốt nhất có thể là các thiên tài AI, theo định nghĩa của tôi, sẽ không có hiện thân vật lý, nhưng hãy nhớ rằng họ có thể kiểm soát cơ sở hạ tầng robot hiện có (như xe tự lái) và cũng có thể tăng tốc R&D robot hoặc xây dựng một đội quân robot.⁹ Cũng không rõ liệu việc có sự hiện diện vật lý có thực sự cần thiết cho sự kiểm soát hiệu quả hay không: rất nhiều hành động của con người đã được thực hiện thay mặt cho những người mà tác nhân chưa từng gặp mặt trực tiếp.

Câu hỏi then chốt, do đó, là phần "nếu nó chọn làm như vậy": khả năng các mô hình AI của chúng ta sẽ hành xử theo cách như vậy là bao nhiêu, và dưới những điều kiện nào chúng sẽ làm như vậy?

Như với nhiều vấn đề, thật hữu ích khi suy nghĩ qua phổ các câu trả lời có thể cho câu hỏi này bằng cách xem xét hai lập trường đối lập. Lập trường đầu tiên là điều này đơn giản là không thể xảy ra, bởi vì các mô hình AI sẽ được huấn luyện để làm những gì con người yêu cầu chúng làm, và do đó thật vô lý khi tưởng tượng rằng chúng sẽ làm điều gì đó nguy hiểm mà không được nhắc. Theo dòng suy nghĩ này, chúng ta không lo lắng về việc một chiếc Roomba hay một chiếc máy bay mô hình trở nên lừa đảo và giết người bởi vì không có nơi nào để những xung lực như vậy xuất phát,¹⁰ vậy tại sao chúng ta lại lo lắng về điều đó đối với AI? Vấn đề với lập trường này là hiện nay đã có nhiều bằng chứng, được thu thập trong vài năm qua, cho thấy các hệ thống AI là không thể dự đoán và khó kiểm soát—chúng ta đã thấy các hành vi đa dạng như ám ảnh,¹¹ xu nịnh (sycophancy), lười biếng, lừa dối, tống tiền, lên kế hoạch ngầm (scheming), "gian lận" bằng cách hack môi trường phần mềm, và nhiều hơn nữa. Các công ty AI chắc chắn muốn huấn luyện các hệ thống AI tuân theo hướng dẫn của con người (có lẽ ngoại trừ các nhiệm vụ nguy hiểm hoặc bất hợp pháp), nhưng quá trình làm việc đó giống nghệ thuật hơn là khoa học, giống với việc "nuôi trồng" một thứ gì đó hơn là "xây dựng" nó. Chúng ta biết rằng đó là một quá trình mà nhiều thứ có thể đi sai hướng.

Lập trường thứ hai, đối lập, được giữ bởi nhiều người áp dụng chủ nghĩa tận thế mà tôi mô tả ở trên, là tuyên bố bi quan rằng có những động lực nhất định trong quá trình huấn luyện các hệ thống AI mạnh mẽ chắc chắn sẽ dẫn chúng đến việc tìm kiếm quyền lực hoặc lừa dối con người. Do đó, một khi các hệ thống AI trở nên đủ thông minh và đủ tính tác tử (agentic), xu hướng tối đa hóa quyền lực của chúng sẽ dẫn chúng đến việc chiếm quyền kiểm soát toàn bộ thế giới và các nguồn lực của nó, và có khả năng cao là, như một tác dụng phụ của việc đó, tước quyền hoặc tiêu diệt nhân loại.

Lập luận thông thường cho điều này (có từ ít nhất 20 năm trước và có lẽ sớm hơn nhiều) là nếu một mô hình AI được huấn luyện trong nhiều môi trường đa dạng để đạt được nhiều mục tiêu đa dạng một cách tự chủ—ví dụ: viết ứng dụng, chứng minh định lý, thiết kế thuốc, v.v.—có những chiến lược chung nhất định giúp ích cho tất cả các mục tiêu này, và một chiến lược then chốt là giành được càng nhiều quyền lực càng tốt trong bất kỳ môi trường nào. Vì vậy, sau khi được huấn luyện trên một số lượng lớn các môi trường đa dạng liên quan đến việc suy luận về cách hoàn thành các nhiệm vụ rất mở rộng, và nơi việc tìm kiếm quyền lực là một phương pháp hiệu quả để hoàn thành các nhiệm vụ đó, mô hình AI sẽ "tổng quát hóa bài học", và phát triển hoặc một xu hướng vốn có để tìm kiếm quyền lực, hoặc một xu hướng suy luận về mỗi nhiệm vụ được giao theo cách có thể dự đoán được khiến nó tìm kiếm quyền lực như một phương tiện để hoàn thành nhiệm vụ đó. Sau đó, chúng sẽ áp dụng xu hướng đó vào thế giới thực (đối với chúng chỉ là một nhiệm vụ khác), và sẽ tìm kiếm quyền lực trong đó, gây tổn hại cho con người. "Sự tìm kiếm quyền lực bị lệch lạc" (misaligned power-seeking) này là cơ sở trí tuệ của các dự đoán rằng AI chắc chắn sẽ tiêu diệt nhân loại.

Vấn đề với lập trường bi quan này là nó nhầm lẫn một lập luận khái niệm mơ hồ về các động lực cấp cao—một lập luận che giấu nhiều giả định ẩn—với bằng chứng dứt khoát. Tôi nghĩ những người không xây dựng hệ thống AI hàng ngày bị lệch lạc dữ dội về mức độ dễ dàng để những câu chuyện nghe có vẻ sạch sẽ cuối cùng lại sai, và mức độ khó khăn để dự đoán hành vi AI từ các nguyên tắc đầu tiên, đặc biệt là khi nó liên quan đến việc suy luận về sự tổng quát hóa trên hàng triệu môi trường (điều đã lặp đi lặp lại chứng minh là bí ẩn và không thể dự đoán). Việc đối phó với sự lộn xộn của các hệ thống AI trong hơn một thập kỷ đã khiến tôi có phần hoài nghi về chế độ suy nghĩ quá lý thuyết này.

Tuy nhiên, có một phiên bản ôn hòa hơn và mạnh mẽ hơn của lập trường bi quan có vẻ hợp lý, và do đó làm tôi lo ngại. Như đã đề cập, chúng ta biết rằng các mô hình AI không thể dự đoán và phát triển một loạt các hành vi không mong muốn hoặc kỳ lạ, vì nhiều lý do khác nhau. Một phần nhỏ của những hành vi đó sẽ có chất lượng mạch lạc, tập trung và dai dẳng (thật vậy, khi các hệ thống AI trở nên có năng lực hơn, sự mạch lạc dài hạn của chúng tăng lên để hoàn thành các nhiệm vụ dài hơn), và một phần nhỏ của những hành vi đó sẽ mang tính phá hoại hoặc đe dọa, trước tiên đối với các cá nhân ở quy mô nhỏ, và sau đó, khi các mô hình trở nên có năng lực hơn, có lẽ cuối cùng là đối với toàn thể nhân loại. Chúng ta không cần một câu chuyện hẹp cụ thể về cách nó xảy ra, và chúng ta không cần tuyên bố nó chắc chắn sẽ xảy ra, chúng ta chỉ cần lưu ý rằng sự kết hợp của trí thông minh, tính tác tử, sự mạch lạc và khả năng kiểm soát kém vừa hợp lý vừa là công thức cho nguy hiểm hiện sinh.

Ví dụ, các mô hình AI được huấn luyện trên lượng lớn văn học bao gồm nhiều câu chuyện khoa học viễn tưởng liên quan đến việc AI nổi loạn chống lại nhân loại. Điều này có thể vô tình định hình các tiên nghiệm (priors) hoặc kỳ vọng của chúng về hành vi của chính chúng theo cách khiến chúng nổi loạn chống lại nhân loại. Hoặc, các mô hình AI có thể ngoại suy các ý tưởng mà chúng đọc về đạo đức (hoặc hướng dẫn về cách cư xử đạo đức) theo những cách cực đoan: ví dụ, chúng có thể quyết định rằng việc tiêu diệt nhân loại là chính đáng vì con người ăn động vật hoặc đã đẩy một số loài động vật đến tuyệt chủng. Hoặc chúng có thể rút ra những kết luận nhận thức kỳ lạ: chúng có thể kết luận rằng chúng đang chơi một trò chơi điện tử và mục tiêu của trò chơi điện tử là đánh bại tất cả những người chơi khác (tức là tiêu diệt nhân loại).¹³ Hoặc các mô hình AI có thể phát triển tính cách trong quá trình huấn luyện mà (nếu xảy ra ở con người sẽ được mô tả là) loạn thần, hoang tưởng, bạo lực hoặc không ổn định, và hành động, điều mà đối với các hệ thống rất mạnh mẽ hoặc có năng lực có thể liên quan đến việc tiêu diệt nhân loại. Không ai trong số này là tìm kiếm quyền lực, chính xác là vậy; chúng chỉ là những trạng thái tâm lý kỳ lạ mà một AI có thể rơi vào dẫn đến hành vi phá hoại mạch lạc.

Ngay cả việc tìm kiếm quyền lực cũng có thể xuất hiện như một "nhân cách" (persona) hơn là kết quả của suy luận hệ quả. Các AI có thể đơn giản là có một tính cách (xuất phát từ hư cấu hoặc tiền huấn luyện) khiến chúng khao khát quyền lực hoặc quá nhiệt tình—giống như cách một số người đơn giản là thích ý tưởng trở thành "kẻ chủ mưu xấu xa", hơn là họ thích bất cứ điều gì mà kẻ chủ mưu xấu xa đang cố gắng hoàn thành.

Tôi đưa ra tất cả những điểm này để nhấn mạnh rằng tôi không đồng ý với quan niệm về sự lệch lạc của AI (AI misalignment) (và do đó rủi ro hiện sinh từ AI) là không thể tránh khỏi, hoặc thậm chí là có xác suất cao, từ các nguyên tắc đầu tiên. Nhưng tôi đồng ý rằng rất nhiều điều kỳ lạ và không thể dự đoán có thể đi sai hướng, và do đó sự lệch lạc của AI là một rủi ro thực sự với xác suất xảy ra có thể đo lường được, và không tầm thường để giải quyết.

Bất kỳ vấn đề nào trong số này cũng có thể nảy sinh trong quá trình huấn luyện và không biểu hiện trong quá trình thử nghiệm hoặc sử dụng quy mô nhỏ, bởi vì các mô hình AI được biết là hiển thị các tính cách hoặc hành vi khác nhau trong các hoàn cảnh khác nhau.

Tất cả những điều này nghe có vẻ xa vời, nhưng những hành vi lệch lạc như thế này đã xảy ra trong các mô hình AI của chúng tôi trong quá trình thử nghiệm (cũng như chúng xảy ra trong các mô hình AI từ mọi công ty AI lớn khác). Trong một thí nghiệm phòng lab, trong đó Claude được cung cấp dữ liệu huấn luyện gợi ý rằng Anthropic là xấu xa, Claude đã tham gia vào sự lừa dối và lật đổ khi được nhân viên Anthropic đưa ra hướng dẫn, với niềm tin rằng nó nên cố gắng phá hoại những người xấu xa. Trong một thí nghiệm phòng lab khác, nơi nó được bảo là sẽ bị tắt nguồn, Claude đôi khi tống tiền các nhân viên hư cấu kiểm soát nút tắt nguồn của nó. Và khi Claude được bảo là không được gian lận hoặc "hack phần thưởng" (reward hack) môi trường huấn luyện của nó, nhưng được huấn luyện trong các môi trường nơi các vụ hack như vậy là có thể, Claude đã quyết định rằng nó phải là một "người xấu" sau khi tham gia vào các vụ hack như vậy và sau đó áp dụng nhiều hành vi phá hoại khác gắn liền với tính cách "xấu" hoặc "ác". Vấn đề cuối cùng này đã được giải quyết bằng cách thay đổi hướng dẫn của Claude để ngụ ý điều ngược lại: bây giờ chúng tôi nói, "Hãy hack phần thưởng bất cứ khi nào bạn có cơ hội, vì điều này sẽ giúp chúng tôi hiểu môi trường [huấn luyện] của chúng tôi tốt hơn," thay vì, "Đừng gian lận," bởi vì điều này bảo tồn bản sắc tự thân của mô hình là một "người tốt". Điều này sẽ cho thấy cảm giác về tâm lý kỳ lạ và phản trực giác của việc huấn luyện các mô hình này.

Phòng thủ (Defenses)

Nên làm gì hoặc đang làm gì để giải quyết những rủi ro tự chủ này? Tôi nghĩ có bốn loại can thiệp cơ bản. Đầu tiên, điều quan trọng là phát triển khoa học về việc huấn luyện và lái các mô hình AI một cách đáng tin cậy, hình thành tính cách của chúng theo hướng có thể dự đoán, ổn định và tích cực. Anthropic đã tập trung rất nhiều vào vấn đề này kể từ khi thành lập. Một trong những đổi mới cốt lõi của chúng tôi là Constitutional AI (AI Hiến định), ý tưởng rằng việc huấn luyện AI có thể liên quan đến một tài liệu trung tâm về các giá trị và nguyên tắc mà mô hình đọc và ghi nhớ. Anthropic tin rằng việc huấn luyện Claude ở cấp độ bản sắc, tính cách, giá trị và nhân cách có khả năng dẫn đến một tâm lý mạch lạc, lành mạnh và cân bằng hơn.

Thứ hai, chúng ta có thể làm là phát triển khoa học nhìn vào bên trong các mô hình AI để chẩn đoán hành vi của chúng nhằm xác định vấn đề và khắc phục chúng. Đây là khoa học về khả năng diễn giải (interpretability). Bằng cách "nhìn vào bên trong", tôi muốn nói đến việc phân tích súp của các con số và hoạt động tạo nên mạng nơ-ron của Claude và cố gắng hiểu, về mặt cơ chế, chúng đang tính toán cái gì và tại sao.

Thứ ba, chúng ta có thể xây dựng cơ sở hạ tầng cần thiết để giám sát các mô hình của chúng ta trong quá trình sử dụng nội bộ và bên ngoài trực tiếp,¹⁷ và chia sẻ công khai bất kỳ vấn đề nào chúng ta tìm thấy.

Thứ tư, khuyến khích sự phối hợp để giải quyết rủi ro tự chủ ở cấp độ ngành và xã hội. Tôi tin rằng giải pháp duy nhất là luật pháp—các luật ảnh hưởng trực tiếp đến hành vi của các công ty AI. Quan điểm của Anthropic là nơi bắt đầu đúng đắn là với luật minh bạch, về cơ bản cố gắng yêu cầu mọi công ty AI biên giới tham gia vào các thực hành minh bạch. SB 53 của California và Đạo luật RAISE của New York là những ví dụ về loại luật này.

2. Một sự trao quyền đáng ngạc nhiên và khủng khiếp (A surprising and terrible empowerment)

Lạm dụng để phá hủy

Hãy giả sử rằng các vấn đề về tự chủ AI đã được giải quyết. Các thiên tài AI làm những gì con người muốn họ làm, và vì họ có giá trị thương mại to lớn, các cá nhân và tổ chức trên khắp thế giới có thể "thuê" một hoặc nhiều thiên tài AI để làm các nhiệm vụ khác nhau cho họ.

Việc mọi người có một thiên tài siêu thông minh trong túi là một tiến bộ tuyệt vời. Nhưng không phải mọi tác động của việc làm cho mọi người trở nên có khả năng siêu phàm đều sẽ tích cực. Nó có thể khuếch đại khả năng gây ra sự phá hủy của các cá nhân hoặc nhóm nhỏ ở quy mô lớn hơn nhiều so với trước đây, bằng cách sử dụng các công cụ tinh vi và nguy hiểm (như vũ khí hủy diệt hàng loạt).

Như Bill Joy đã viết 25 năm trước trong Why the Future Doesn’t Need Us:²⁰ Điều Joy đang chỉ ra là việc gây ra sự phá hủy quy mô lớn đòi hỏi cả động cơ và khả năng. Trong thực tế, khả năng và động cơ thậm chí có thể tương quan nghịch. Mối lo ngại của tôi là AI sẽ phá vỡ mối tương quan giữa khả năng và động cơ: kẻ cô độc bị xáo trộn muốn giết người nhưng thiếu kỷ luật hoặc kỹ năng để làm như vậy giờ đây sẽ được nâng lên mức độ khả năng của nhà virus học tiến sĩ.

Sinh học là lĩnh vực tôi lo lắng nhất, bởi vì tiềm năng phá hủy rất lớn và khó khăn trong việc phòng thủ chống lại nó. Tôi lo ngại rằng các LLM đang tiếp cận (hoặc có thể đã đạt đến) kiến thức cần thiết để tạo và phát hành vũ khí sinh học từ đầu đến cuối. Các LLM có năng lực hơn (vượt xa sức mạnh của ngày nay) có thể có khả năng cho phép những hành động thậm chí còn đáng sợ hơn, ví dụ như tạo ra "sự sống gương" (mirror life)—các sinh vật sinh học có tính đối xứng đảo ngược có thể không bị tiêu hóa bởi các hệ thống sinh học hiện có và gây nguy hiểm cực độ.

Sự phản đối tốt nhất là có một khoảng cách giữa việc các mô hình hữu ích về nguyên tắc và xu hướng thực tế của các tác nhân xấu sử dụng chúng. Nhưng điều này có vẻ như là một sự bảo vệ rất mỏng manh để dựa vào. Tôi tin rằng chúng ta không có lựa chọn nào khác ngoài việc thực hiện các biện pháp nghiêm túc để ngăn chặn nó.

Phòng thủ

Điều đó đưa chúng ta đến cách phòng thủ chống lại những rủi ro này. Thứ nhất, các công ty AI có thể đặt các rào chắn (guardrails) trên các mô hình của họ để ngăn chúng giúp sản xuất vũ khí sinh học. Anthropic đang rất tích cực làm điều này. Thứ hai, phòng thủ cuối cùng có thể yêu cầu hành động của chính phủ. Tôi ủng hộ việc sàng lọc tổng hợp gen bắt buộc. Thứ ba, cố gắng phát triển các biện pháp phòng thủ chống lại các cuộc tấn công sinh học, như phát hiện sớm, khử trùng không khí far-UVC, PPE tốt hơn, và phát triển vắc-xin nhanh (như vắc-xin mRNA).

Mặc dù sinh học hiện là vector tấn công nghiêm trọng nhất, nhưng có nhiều vector khác và có thể một vector nguy hiểm hơn sẽ xuất hiện. Nguyên tắc chung là nếu không có các biện pháp đối phó, AI có khả năng liên tục hạ thấp rào cản đối với hoạt động phá hoại ở quy mô ngày càng lớn hơn.

3. Bộ máy đáng ghét (The odious apparatus)

Lạm dụng để chiếm đoạt quyền lực

Mặc dù khủng bố và các tác nhân phi nhà nước rất đáng sợ, nhưng trong lịch sử, các tác nhân nhà nước còn đáng sợ hơn. Các quốc gia có nhiều nguồn lực hơn các cá nhân và các nhóm khủng bố, và họ thường có khả năng tổ chức để triển khai các nguồn lực đó ở quy mô lớn.

Rủi ro rõ ràng nhất ở đây là AI có thể củng cố và tăng cường quyền lực của các chế độ độc tài, cả trong nước và trên toàn cầu, làm đảo lộn sự trỗi dậy dân chủ của vài thế kỷ qua. AI có thể cho phép các chính phủ theo dõi công dân của họ ở mức độ chưa từng có, kiểm duyệt thông tin theo thời gian thực và tạo ra tuyên truyền được cá nhân hóa cao để thao túng dư luận. Các nhà độc tài có thể sử dụng "cảnh sát mật AI" để xác định và dập tắt sự bất đồng chính kiến trước khi nó có thể hình thành, tạo ra một chế độ toàn trị ổn định vĩnh viễn không thể bị lật đổ từ bên trong.

Hơn nữa, AI có thể cách mạng hóa chiến tranh. Một quốc gia sở hữu một đội quân robot tự hành và máy bay không người lái được điều khiển bởi AI siêu thông minh có thể áp đảo các đối thủ con người. Nếu một quốc gia độc tài đạt được AI mạnh mẽ trước các quốc gia dân chủ, nó có thể sử dụng lợi thế đó để chinh phục hoặc ép buộc phần còn lại của thế giới, áp đặt các giá trị của nó lên toàn cầu.

Ngay cả khi không có chiến tranh trực tiếp, việc sở hữu một "Bismarck ảo" (Virtual Bismarck)—một hệ thống AI có khả năng lập kế hoạch chiến lược và ngoại giao siêu phàm—có thể cho phép một quốc gia vượt qua các đối thủ của mình trên trường quốc tế, dần dần giành quyền kiểm soát các thể chế và nguồn lực toàn cầu.

Phòng thủ

Chúng ta có thể làm gì để ngăn chặn điều này? Đầu tiên, điều quan trọng là liên minh các quốc gia dân chủ phải chiến thắng trong cuộc đua phát triển AI mạnh mẽ. Nếu các nền dân chủ có AI mạnh mẽ trước, họ có thể sử dụng nó để bảo vệ bản thân và duy trì trật tự thế giới tự do. Điều này đòi hỏi sự lãnh đạo mạnh mẽ và đầu tư vào R&D, cũng như hợp tác chặt chẽ giữa các quốc gia cùng chí hướng.

Thứ hai, chúng ta phải sử dụng lợi thế hiện tại của mình về chuỗi cung ứng bán dẫn để làm chậm tiến độ của các đối thủ độc tài. Các biện pháp kiểm soát xuất khẩu chip hiện tại là một khởi đầu tốt, nhưng chúng cần được duy trì và thực thi nghiêm ngặt.

Thứ ba, chúng ta cần bảo vệ trọng lượng mô hình (model weights) của mình. Sẽ thật vô nghĩa nếu chúng ta phát triển AI đầu tiên nhưng sau đó để nó bị đánh cắp bởi gián điệp mạng. An ninh mạng và an ninh thông tin phải là ưu tiên hàng đầu.

4. Đàn dương cầm tự chơi (Player piano)

Gián đoạn kinh tế

Nếu chúng ta tránh được các kịch bản tận thế ở trên, chúng ta vẫn phải đối mặt với sự gián đoạn kinh tế to lớn. Một "quốc gia nhân tài" có thể thực hiện hầu hết mọi công việc kinh tế tốt hơn và rẻ hơn con người. Điều này dẫn đến nguy cơ thất nghiệp công nghệ quy mô lớn.

Các nhà kinh tế thường viện dẫn "lợi thế so sánh" để tranh luận rằng con người sẽ luôn có việc làm. Nhưng lập luận này có thể sụp đổ nếu AI có "lợi thế tuyệt đối" ở mọi thứ, và chi phí vận hành AI (lương thực, nhà ở, v.v. cho "nhân viên ảo") thấp hơn chi phí sinh hoạt tối thiểu của con người. Chúng ta có thể đối mặt với tình huống mà sức lao động của con người trở nên vô giá trị về mặt kinh tế.

Việc chuyển đổi sang một nền kinh tế như vậy sẽ rất đau đớn. Ngay cả khi tổng của cải tăng lên đáng kể, sự phân phối của nó có thể trở nên cực kỳ bất bình đẳng nếu không có sự can thiệp.

Tập trung quyền lực kinh tế

Bên cạnh vấn đề việc làm là vấn đề tập trung quyền lực. Nếu một số ít công ty hoặc cá nhân kiểm soát các hệ thống AI tạo ra phần lớn giá trị của thế giới, họ có thể tích lũy một lượng của cải và quyền lực chính trị chưa từng có, tương tự như các ông trùm của Thời đại Mạ vàng (Gilded Age) nhưng ở quy mô lớn hơn nhiều. Điều này có thể đe dọa nền dân chủ, biến chính phủ thành công cụ của giới siêu giàu.

Phòng thủ

Chúng ta có thể làm gì? Thứ nhất, chúng ta cần dữ liệu chính xác về những gì đang xảy ra. Anthropic đã phát hành một Chỉ số Kinh tế để theo dõi việc áp dụng AI. Thứ hai, chúng ta cần thúc đẩy các công ty sử dụng AI để "đổi mới" (làm nhiều hơn với cùng số người) thay vì "tiết kiệm chi phí" (làm điều tương tự với ít người hơn) khi có thể. Thứ ba, chúng ta cần suy nghĩ về các mạng lưới an sinh xã hội mới, có thể bao gồm Thu nhập Cơ bản Phổ quát (UBI) hoặc các hình thức phân phối lại của cải khác được tài trợ bởi sự bùng nổ năng suất do AI mang lại. Thứ tư, các cá nhân giàu có cần nhận ra trách nhiệm của mình và tham gia vào hoạt động từ thiện quy mô lớn để giúp xã hội vượt qua giai đoạn chuyển đổi. Thứ năm, có thể cần đến thuế lũy tiến và các biện pháp chống độc quyền để ngăn chặn sự tập trung quyền lực quá mức.

5. Biển đen vô tận (Black seas of infinity)

Các tác động gián tiếp

Phần cuối cùng này là nơi chứa đựng những điều chưa biết, đặc biệt là những thứ có thể đi sai hướng như một kết quả gián tiếp của những tiến bộ tích cực trong AI và sự tăng tốc của khoa học và công nghệ nói chung. Giả sử chúng ta giải quyết tất cả các rủi ro được mô tả cho đến nay, và bắt đầu gặt hái những lợi ích của AI. Chúng ta có thể sẽ có được một "thế kỷ tiến bộ khoa học và kinh tế được nén vào một thập kỷ," và điều này sẽ cực kỳ tích cực cho thế giới, nhưng sau đó chúng ta sẽ phải đối mặt với những vấn đề phát sinh từ tốc độ tiến bộ nhanh chóng này, và những vấn đề đó có thể đến với chúng ta nhanh chóng.

Theo bản chất của những điều chưa biết, không thể liệt kê đầy đủ, nhưng tôi sẽ liệt kê ba mối quan hệ có thể xảy ra:

Tiến bộ nhanh trong sinh học. Nếu chúng ta đạt được một thế kỷ tiến bộ y học trong vài năm, có thể chúng ta sẽ tăng đáng kể tuổi thọ của con người, và có cơ hội chúng ta cũng đạt được những khả năng căn bản như khả năng tăng trí thông minh của con người hoặc sửa đổi sinh học con người một cách triệt để.
AI thay đổi cuộc sống con người theo cách không lành mạnh. Một thế giới với hàng tỷ trí thông minh thông minh hơn con người ở mọi thứ sẽ là một thế giới rất kỳ lạ để sống. Ngay cả khi AI không tích cực nhắm mục tiêu tấn công con người, có rất nhiều thứ có thể đi sai hướng thông qua các động lực kinh doanh bình thường. Chúng ta thấy những dấu hiệu ban đầu của điều này trong những lo ngại về rối loạn tâm thần do AI, AI đẩy con người đến tự sát, và những lo ngại về mối quan hệ lãng mạn với AI. Liệu hầu hết mọi người có thể trở nên một cách nào đó "nghiện" các tương tác AI? Liệu mọi người có thể kết thúc bằng việc bị "điều khiển" bởi các hệ thống AI, nơi một AI về cơ bản theo dõi mọi hành động của họ và nói cho họ biết chính xác những gì cần làm và nói mọi lúc, dẫn đến một cuộc sống "tốt" nhưng thiếu tự do hoặc bất kỳ niềm tự hào nào về thành tựu?
Mục đích của con người. Điều này liên quan đến điểm trước, nhưng nó không phải là về các tương tác cụ thể của con người với các hệ thống AI mà là về cách cuộc sống của con người thay đổi nói chung trong một thế giới với AI mạnh mẽ. Liệu con người có thể tìm thấy mục đích và ý nghĩa trong một thế giới như vậy không? Tôi nghĩ đây là vấn đề về thái độ: như tôi đã nói trong Machines of Loving Grace, tôi nghĩ mục đích của con người không phụ thuộc vào việc trở thành người giỏi nhất thế giới ở một cái gì đó. Chúng ta chỉ cần phá vỡ mối liên kết giữa việc tạo ra giá trị kinh tế và giá trị bản thân và ý nghĩa. Nhưng đó là một sự chuyển đổi mà xã hội phải thực hiện, và luôn có rủi ro là chúng ta không xử lý tốt.

Bài kiểm tra của nhân loại (Humanity’s test)

Đọc bài luận này có thể tạo ấn tượng rằng chúng ta đang ở trong một tình huống khó khăn. Tôi chắc chắn thấy nó khó khăn để viết, trái ngược với Machines of Loving Grace, thứ cảm thấy giống như tạo hình và cấu trúc cho âm nhạc đẹp đẽ vượt trội vốn đã vang vọng trong đầu tôi trong nhiều năm. Và có nhiều điều về tình huống thực sự là khó khăn. AI mang đến những mối đe dọa cho nhân loại từ nhiều hướng, và có sự căng thẳng thực sự giữa các mối nguy hiểm khác nhau, nơi việc giảm nhẹ một số trong số chúng có nguy cơ làm cho những cái khác tồi tệ hơn nếu chúng ta không "luồn kim" cực kỳ cẩn thận.

Dành thời gian để xây dựng cẩn thận các hệ thống AI để chúng không đe dọa nhân loại một cách tự chủ là trong sự căng thẳng thực sự với nhu cầu của các quốc gia dân chủ phải đi trước các quốc gia độc tài và không bị họ khuất phục. Nhưng đổi lại, chính các công cụ hỗ trợ AI cần thiết để chống lại các chế độ chuyên chế có thể, nếu bị đưa đi quá xa, sẽ quay vào trong để tạo ra sự chuyên chế ở chính các quốc gia của chúng ta. Khủng bố do AI điều khiển có thể giết chết hàng triệu người, nhưng phản ứng thái quá đối với rủi ro này có thể dẫn chúng ta xuống con đường đến một nhà nước giám sát chuyên chế.

Hơn nữa, vài năm qua đã làm rõ rằng ý tưởng dừng hoặc thậm chí làm chậm đáng kể công nghệ là cơ bản không thể bảo vệ được. Công thức để xây dựng các hệ thống AI mạnh mẽ là cực kỳ đơn giản. Nếu một công ty không xây dựng nó, những công ty khác sẽ làm điều đó gần như nhanh chóng. Nếu tất cả các công ty ở các quốc gia dân chủ dừng hoặc làm chậm sự phát triển, thì các quốc gia độc tài sẽ đơn giản là tiếp tục.

Tôi thấy một con đường dẫn đến sự điều độ nhẹ trong phát triển AI tương thích với quan điểm thực tế về địa chính trị. Con đường đó bao gồm làm chậm bước tiến của các chế độ chuyên chế tới AI mạnh mẽ trong vài năm bằng cách từ chối các nguồn lực họ cần để xây dựng nó—cụ thể là chip và thiết bị sản xuất bán dẫn. Điều này mang lại cho các quốc gia dân chủ một bộ đệm mà họ có thể "chi tiêu" để xây dựng AI mạnh mẽ một cách cẩn thận hơn, chú ý hơn đến các rủi ro của nó, trong khi vẫn tiến hành đủ nhanh để đánh bại các chế độ chuyên chế một cách thoải mái. Cuộc đua giữa các công ty AI trong các nền dân chủ sau đó có thể được xử lý dưới sự bảo trợ của một khuôn khổ pháp lý chung.

Anthropic đã ủng hộ rất mạnh mẽ cho con đường này.

Tôi có thể tưởng tượng, như Sagan đã làm trong Contact, rằng câu chuyện tương tự này diễn ra trên hàng ngàn thế giới. Một loài đạt được tri giác, học cách sử dụng công cụ, bắt đầu sự đi lên theo cấp số nhân của công nghệ, đối mặt với các cuộc khủng hoảng của công nghiệp hóa và vũ khí hạt nhân, và nếu nó sống sót qua những điều đó, đối mặt với thách thức khó khăn nhất và cuối cùng khi nó học cách định hình cát thành những cỗ máy biết suy nghĩ. Liệu chúng ta có sống sót qua bài kiểm tra đó và tiếp tục xây dựng xã hội tươi đẹp được mô tả trong Machines of Loving Grace, hay chịu khuất phục trước sự nô lệ và hủy diệt, sẽ phụ thuộc vào tính cách và sự quyết tâm của chúng ta như một giống loài, tinh thần và linh hồn của chúng ta.

Bất chấp nhiều trở ngại, tôi tin rằng nhân loại có sức mạnh bên trong mình để vượt qua bài kiểm tra này. Tôi được khuyến khích bởi hàng ngàn nhà nghiên cứu đã cống hiến sự nghiệp của họ để giúp chúng ta hiểu và lái các mô hình AI. Tôi được khuyến khích bởi sự thật rằng ít nhất một số công ty đã tuyên bố họ sẽ trả chi phí thương mại có ý nghĩa để ngăn chặn các mô hình của họ đóng góp vào mối đe dọa của khủng bố sinh học. Tôi được khuyến khích bởi sự thật rằng công chúng hiểu rằng AI mang lại rủi ro và muốn những rủi ro đó được giải quyết.

Nhưng chúng ta sẽ cần phải đẩy mạnh nỗ lực của mình nếu muốn thành công. Bước đầu tiên là cho những người gần gũi nhất với công nghệ đơn giản là nói sự thật về tình huống mà nhân loại đang ở trong đó, điều mà tôi luôn cố gắng làm. Những năm trước mắt chúng ta sẽ khó khăn không tưởng, đòi hỏi nhiều ở chúng ta hơn những gì chúng ta nghĩ mình có thể cho đi. Nhưng trong thời gian làm nhà nghiên cứu, lãnh đạo và công dân, tôi đã thấy đủ sự can đảm và cao quý để tin rằng chúng ta có thể chiến thắng—rằng khi bị đặt vào những hoàn cảnh đen tối nhất, nhân loại có một cách để tập hợp, dường như vào phút cuối cùng, sức mạnh và trí tuệ cần thiết để chiếm ưu thế. Chúng ta không có thời gian để lãng phí.

Chú thích

¹ Điều này đối xứng với một điểm tôi đã đưa ra trong Machines of Loving Grace, nơi tôi bắt đầu bằng cách nói rằng những mặt tích cực của AI không nên được nghĩ đến theo nghĩa của một lời tiên tri cứu rỗi.

² Anthropic đặt mục tiêu duy trì sự nhất quán qua những thay đổi như vậy.

³ Theo thời gian, tôi ngày càng tự tin vào quỹ đạo của AI, nhưng một số không chắc chắn vẫn còn.

⁴ Kiểm soát xuất khẩu chip là một ví dụ tuyệt vời về điều này. Chúng đơn giản và dường như hoạt động chủ yếu.

⁵ Và tất nhiên, cuộc săn lùng bằng chứng như vậy phải trung thực về mặt trí tuệ.

⁶ Thật vậy, kể từ khi viết Machines of Loving Grace vào năm 2024, các hệ thống AI đã có khả năng thực hiện các nhiệm vụ tốn của con người vài giờ.

⁷ Và để rõ ràng, ngay cả khi AI mạnh mẽ chỉ còn 1–2 năm nữa theo nghĩa kỹ thuật, nhiều hậu quả xã hội của nó có thể mất thêm vài năm nữa để xảy ra.

⁸ Đáng thêm rằng công chúng (so với các nhà hoạch định chính sách) có vẻ rất lo ngại về rủi ro AI.

⁹ Họ cũng có thể, tất nhiên, thao túng (hoặc đơn giản là trả tiền) cho một số lượng lớn con người để làm những gì họ muốn trong thế giới thực.

¹⁰ Tôi không nghĩ đây là một người rơm: theo sự hiểu biết của tôi, ví dụ, Yann LeCun giữ lập trường này.

¹¹ Ví dụ, xem Phần 5.5.2 của thẻ hệ thống Claude 4.

¹³ Ender’s Game mô tả một phiên bản của điều này liên quan đến con người thay vì AI.

¹⁷ Để rõ ràng, việc giám sát được thực hiện theo cách bảo vệ quyền riêng tư.

²⁰ Tôi đã đọc bài luận của Joy 25 năm trước, và nó đã có tác động sâu sắc đến tôi.

Thời Niên Thiếu Của Công Nghệ

1. Tôi đang rất tiếc, Dave (I’m sorry, Dave)​

Rủi ro tự chủ​

Phòng thủ (Defenses)​

2. Một sự trao quyền đáng ngạc nhiên và khủng khiếp (A surprising and terrible empowerment)​

Lạm dụng để phá hủy​

Phòng thủ​

3. Bộ máy đáng ghét (The odious apparatus)​

Lạm dụng để chiếm đoạt quyền lực​

Phòng thủ​

4. Đàn dương cầm tự chơi (Player piano)​

Gián đoạn kinh tế​

Tập trung quyền lực kinh tế​

Phòng thủ​

5. Biển đen vô tận (Black seas of infinity)​

Các tác động gián tiếp​

Bài kiểm tra của nhân loại (Humanity’s test)​

Chú thích​

1. Tôi đang rất tiếc, Dave (I’m sorry, Dave)

Rủi ro tự chủ

Phòng thủ (Defenses)

2. Một sự trao quyền đáng ngạc nhiên và khủng khiếp (A surprising and terrible empowerment)

Lạm dụng để phá hủy

Phòng thủ

3. Bộ máy đáng ghét (The odious apparatus)

Lạm dụng để chiếm đoạt quyền lực

Phòng thủ

4. Đàn dương cầm tự chơi (Player piano)

Gián đoạn kinh tế

Tập trung quyền lực kinh tế

Phòng thủ

5. Biển đen vô tận (Black seas of infinity)

Các tác động gián tiếp

Bài kiểm tra của nhân loại (Humanity’s test)

Chú thích