3702 - Mỹ và Trung Quốc có thể giúp AI trở nên an toàn hơn

Hợp tác là điều cần thiết—và hoàn toàn khả thi

Cơ sở hạ tầng điện toán AI tại Hội nghị Internet Thế giới, Ô Trấn (Wuzhen), Trung Quốc, tháng 11 năm 2025 | Tingshu Wang / Reuters

Khi trí tuệ nhân tạo (AI) ngày càng định hình cuộc cạnh tranh về kinh tế và chiến lược giữa Hoa Kỳ và Trung Quốc, công nghệ này đồng thời tạo ra những rủi ro cực đoan vượt ra ngoài biên giới quốc gia. Một cá nhân hoàn toàn có thể sử dụng một mô hình AI—hoặc sự kết hợp của nhiều mô hình—để chế tạo một mầm bệnh nguy hiểm, phát động các cuộc tấn công mạng tự động vào lưới điện hay mạng lưới bệnh viện, hoặc tạo ra và phát tán các video giả mạo (deepfake) chân thực đến mức làm xói mòn lòng tin của công chúng—bất kể cá nhân đó đang sinh sống tại Đại Liên, Dallas hay Delhi. Cả Hoa Kỳ lẫn Trung Quốc đều không hưởng lợi từ một cuộc chạy đua AI, trong đó một mô hình do bất kỳ quốc gia nào tạo ra cũng đều có nguy cơ gây ra những tổn thất thảm khốc ở bất cứ đâu trên thế giới.

Các mô hình AI của Trung Quốc bộc lộ những điểm yếu đặc biệt nghiêm trọng. Đơn cử như mô hình ngôn ngữ lớn mã nguồn mở R1-0528 của DeepSeek—theo nghiên cứu của chính phủ Hoa Kỳ—đã thiếu vắng nhiều lớp bảo vệ vốn được tích hợp sẵn trong các hệ thống của Mỹ. Mô hình này chấp nhận thực hiện các mệnh lệnh mang tính độc hại với tần suất cao gấp 12 lần so với các mô hình hàng đầu của Hoa Kỳ. Các mô hình này cũng dễ bị tin tặc tấn công hơn đáng kể: các phương pháp "jailbreak" tiêu chuẩn—những kỹ thuật nhằm vô hiệu hóa các cơ chế kiểm soát an toàn được tích hợp sẵn trong mô hình—đã khiến mô hình đưa ra các phản hồi gây hại trong 94% số lần thử nghiệm; trong khi đó, tỷ lệ này ở các hệ thống tương đương của Mỹ chỉ vỏn vẹn 8%. Rủi ro này càng gia tăng khi một mô hình AI của Trung Quốc được sử dụng để vận hành nhiều "tác nhân tự động" (autonomous agents)—chẳng hạn như OpenClaw, công cụ hiện đang gây sốt trên mạng xã hội—vốn có khả năng tự động lướt web và truy cập cơ sở dữ liệu trên quy mô lớn mà không cần đến sự giám sát của con người.

Với tư cách là hai cường quốc thống trị trong lĩnh vực AI mang tính chuyển đổi, Washington và Bắc Kinh sẽ là những nhân tố quyết định xem liệu công nghệ này sẽ mang lại những lợi ích rộng khắp hay lại tạo ra những rủi ro mới đầy nguy hiểm. Khi các cường quốc phát triển những công nghệ tiềm ẩn rủi ro cao, việc duy trì các kênh liên lạc cởi mở là điều tối cần thiết nhằm ngăn chặn những hiểu lầm đáng tiếc—vốn có thể dẫn đến những thảm họa khôn lường. Đơn cử như trong giai đoạn đỉnh điểm của Chiến tranh Lạnh, các nhà khoa học Hoa Kỳ đã chủ động chia sẻ thông tin với Liên Xô về các công nghệ giúp ngăn chặn việc sử dụng vũ khí hạt nhân trái phép. Việc quyết định thời điểm chia sẻ thông tin liên quan đến các công nghệ trọng yếu đòi hỏi sự cân nhắc hết sức thận trọng về những nội dung nào nên công bố và những nội dung nào cần giữ lại. Tuy nhiên, ngay cả những đối thủ cạnh tranh gay gắt nhất vẫn hoàn toàn có thể tìm ra những phương thức để hợp tác một cách hiệu quả.

Hoa Kỳ và Trung Quốc cần phải bắt tay hợp tác để kiểm soát những rủi ro ngày càng gia tăng của AI, ngay cả trong bối cảnh hai quốc gia vẫn đang chạy đua nhằm giành lấy vị thế thống trị về công nghệ. Một chiến lược giảm thiểu rủi ro thận trọng và sáng suốt của Hoa Kỳ không đồng nghĩa với việc phải kìm hãm hay làm chậm lại tiến trình đổi mới sáng tạo. Thay vào đó, điều này có nghĩa là hợp tác với Bắc Kinh để đạt được sự thống nhất về các ưu tiên nghiên cứu an toàn, phối hợp kiểm thử các lỗ hổng bảo mật và triển khai các biện pháp bảo vệ, cũng như cùng thiết lập những thực tiễn tốt nhất nhằm kiểm soát các rủi ro mang tính toàn cầu thực sự. Trong khi đó, Trung Quốc cần đầu tư vào năng lực kỹ thuật để khiến cho việc tham gia vào công tác đảm bảo an toàn AI trở nên thực sự hữu ích. Hợp tác là điều cần thiết, và với cách tiếp cận đúng đắn, điều này hoàn toàn khả thi. Bằng cách tập trung vào phương pháp tìm kiếm rủi ro thay vì đi sâu vào chi tiết cụ thể của những phát hiện đó, Washington và Bắc Kinh có thể cạnh tranh quyết liệt trong lĩnh vực AI, đồng thời vẫn giảm thiểu được những mối nguy hiểm cực đoan nhất mà công nghệ này gây ra cho thế giới.

Chấp nhận thử thách

Để làm cho AI trở nên an toàn hơn, cần phải có sự thấu hiểu rõ ràng về cả những rủi ro mà công nghệ này tạo ra, lẫn các công cụ sẵn có để giảm thiểu chúng. Việc đánh giá một cách có hệ thống đối với các bước phát triển AI tiên tiến đóng vai trò tương tự như các thử nghiệm lâm sàng đối với thuốc mới, hay các thử nghiệm va chạm đối với ô tô. Chúng giúp nhận diện các mối nguy hiểm trước và trong quá trình triển khai, nhằm đảm bảo rằng sự đổi mới công nghệ sẽ không gây ra những tổn hại có thể ngăn ngừa được.

Tuy nhiên, các hệ thống AI lại khác biệt so với thuốc men hay ô tô. Chúng là những công nghệ đa năng, liên tục tiến hóa ngay cả sau khi đã được triển khai; chúng có thể được người dùng tận dụng cho những mục đích khác mà chính các nhà phát triển chưa từng lường trước; và chúng lan tỏa trên phạm vi toàn cầu với tốc độ chưa từng có. Việc kiểm thử các hệ thống mới trước khi đưa ra thị trường là chưa đủ để bao quát hết những cách thức phát triển đầy bất ngờ của các năng lực AI. Chính tính khó lường này đã tạo nên sự cấp bách trong việc liên tục và nghiêm ngặt rà soát các rủi ro mới, cũng như can thiệp kịp thời ngay trong thời gian thật.

Cả Hoa Kỳ và Trung Quốc đều đã bắt đầu nhận thức được sự cần thiết của việc áp dụng các biện pháp an toàn chặt chẽ hơn trên toàn bộ chuỗi cung ứng AI. Tại Hoa Kỳ, một hệ thống đa tầng đang dần hình thành. Hệ thống này khởi đầu từ các công ty AI hàng đầu—những đơn vị sở hữu nguồn lực kỹ thuật dồi dào để đánh giá nguy cơ xảy ra các tình huống khẩn cấp nghiêm trọng, từ đó điều chỉnh các mô hình của mình cho phù hợp. Các đơn vị đánh giá bên thứ ba—với uy tín và chuyên môn độc lập—có thể đảm nhận việc kiểm thử các mô hình này. Phạm vi an toàn cũng được mở rộng sang các ứng dụng khác có sử dụng công nghệ AI. Hàng loạt tổ chức độc lập đang phát triển các công cụ có thể tùy chỉnh để ngăn chặn nội dung độc hại trong các ứng dụng cụ thể được vận hành bởi AI, chẳng hạn như các trợ lý lập trình hay các bot hỗ trợ học tập. Chính phủ cũng có thể đóng góp vào những nỗ lực này. Các cơ quan chính phủ Hoa Kỳ—như Trung tâm Tiêu chuẩn và Đổi mới AI thuộc Bộ Thương mại cùng các Viện An toàn AI đối tác—có thể tận dụng các phát hiện và công cụ kỹ thuật từ cả giới phát triển lẫn các tổ chức an toàn độc lập để xây dựng những chính sách và tiêu chuẩn thấu đáo hơn, cũng như khắc phục các lỗ hổng bảo mật trước khi các mô hình được công bố rộng rãi.

Sự cạnh tranh trong lĩnh vực AI không hề loại trừ việc thiết lập các tiêu chuẩn an toàn cơ bản chung.

Trung Quốc hiện chưa sở hữu nền tảng cơ sở hạ tầng kỹ thuật tương tự để đo lường và giảm thiểu các rủi ro mang tính thảm họa. Theo truyền thống, Bắc Kinh thường ưu tiên cái gọi là "an ninh nội dung"—tức là đảm bảo rằng các hệ thống AI không tạo ra những nội dung nhạy cảm về chính trị hoặc đi ngược lại các định hướng tư tưởng của nhà nước. Do đó, cả các cơ quan quản lý lẫn các doanh nghiệp tại Trung Quốc đều tập trung vào việc đảm bảo rằng các mô hình AI phải tuân thủ và phục vụ cho những ưu tiên của Đảng Cộng sản Trung Quốc. Tuy nhiên, trọng tâm hẹp hòi chỉ xoay quanh việc kiểm soát xã hội và chính trị này đang dần được mở rộng. Giới lãnh đạo Trung Quốc hiện đã bắt đầu chú ý đến những rủi ro rộng lớn hơn mà công nghệ AI có thể gây ra. Chẳng hạn, vào tháng 2 vừa qua, cơ quan quản lý không gian mạng của Trung Quốc đã đề xuất một chính sách nhằm kiểm soát các tương tác với những hệ thống AI có khả năng giao tiếp giống con người—một động thái phản ánh những lo ngại về các tác hại đối với con người, cụ thể là tình trạng nghiện và sự phụ thuộc vào công nghệ này.

Mặc dù những tuyên ngôn về các rủi ro của AI vẫn xuất hiện phổ biến hơn so với các hành động chính sách cụ thể, nhưng Bắc Kinh đã bắt đầu thực hiện những bước đi thực chất đầu tiên. Vào tháng 9 năm 2025, chính quyền Trung Quốc đã công bố một khung quản trị an toàn AI được cập nhật mới. Khung chính sách này phản ánh nhiều mối lo ngại vốn đang được thảo luận sôi nổi tại Thung lũng Silicon—bao gồm việc AI có thể làm giảm các rào cản trong quá trình phát triển vũ khí hóa học, sinh học hoặc hạt nhân, cũng như khả năng AI tự nhân bản đến mức vượt ra ngoài tầm kiểm soát của con người. Khung chính sách này cũng đưa ra cảnh báo rằng các mô hình nền tảng mã nguồn mở—vốn đang chiếm ưu thế trong hệ sinh thái AI tại Trung Quốc—có thể tạo điều kiện thuận lợi cho việc lạm dụng công nghệ AI ngày càng lan rộng. Song song đó, các phòng thí nghiệm quốc gia cũng đang tiến hành kiểm thử những mô hình AI tiên tiến nhất nhằm phát hiện và nhận diện các mối nguy tiềm ẩn. Chẳng hạn, vào tháng 7 năm 2025, Phòng thí nghiệm AI Thượng Hải—một tổ chức nghiên cứu lớn do nhà nước hậu thuẫn, chuyên tập trung vào phát triển AI—đã tiến hành đánh giá 18 mô hình ngôn ngữ lớn dựa trên bảy lĩnh vực rủi ro AI tiên tiến. Tổ chức này đã xác định các rủi ro về sinh học và hóa học trong hầu hết các mô hình, đồng thời phát hiện những dấu hiệu cảnh báo cho thấy một số mô hình có khả năng thực hiện hành vi lừa dối mang tính chiến lược—những nhận định phản ánh chính xác các đánh giá của những nhà phát triển AI hàng đầu tại Mỹ về những thách thức an toàn trong lĩnh vực này, tại cả Hoa Kỳ lẫn Trung Quốc.

Trung Quốc ngày càng nhận thức rõ rằng việc quản lý rủi ro kém hiệu quả có thể cản trở những tham vọng của quốc gia này trong lĩnh vực AI. Tuy nhiên, để giảm thiểu đáng kể các mối nguy tiềm tàng, Bắc Kinh cần phải tiếp tục mở rộng những nỗ lực này. Sự hợp tác trong công tác quản lý rủi ro chỉ thực sự mang lại giá trị tương xứng với chất lượng cơ sở hạ tầng kỹ thuật mà cả hai bên cùng đóng góp.

Tìm tiếng nói chung

Mặc dù việc thu hẹp khoảng cách giữa Washington và Bắc Kinh là một thách thức, nhưng điều đó không phải là bất khả thi. Tương tự như trong lĩnh vực hàng không—nơi tập đoàn Boeing của Mỹ và công ty Airbus của châu Âu cạnh tranh về mặt thương mại nhưng vẫn tuân thủ các tiêu chuẩn an toàn chung—cuộc đua về AI cũng không hề loại trừ khả năng thiết lập các chuẩn mực an toàn cơ bản chung. Hoa Kỳ và Trung Quốc hoàn toàn có thể phối hợp cùng các nhà khoa học và phòng thí nghiệm hàng đầu để xây dựng một sự thấu hiểu chung về các rủi ro liên quan đến AI. Mặc dù định nghĩa về "rủi ro" chắc chắn sẽ được diễn giải theo những khuôn khổ pháp lý và văn hóa khác nhau, nhưng hai bên vẫn có thể thống nhất về một nhóm các mối nguy toàn cầu nghiêm trọng—những mối nguy đe dọa rõ ràng đến lợi ích của cả hai quốc gia—cũng như thống nhất về một loạt các giải pháp kỹ thuật tổng quát mà họ có thể linh hoạt áp dụng.

Nền tảng chung này cần được xây dựng dựa trên những nỗ lực toàn cầu hiện có. Chẳng hạn, "Báo cáo Quốc tế về An toàn AI" (International AI Safety Report) đã đưa ra một bản đánh giá đầy tính chuyên môn và uy tín về hiện trạng khoa học làm nền tảng cho các hệ thống AI tiên tiến. Các cuộc thử nghiệm chung về an toàn AI—như những cuộc thử nghiệm đã được Vương quốc Anh và Hoa Kỳ phối hợp thực hiện—cũng đã giúp xác định được những rủi ro mới nổi mang tính phổ biến, cũng như những lỗ hổng còn tồn tại trong năng lực kỹ thuật. Bên cạnh đó, các cuộc đối thoại "Kênh II" (Track II)—hay còn gọi là các cuộc đối thoại không chính thức—về vấn đề AI đang diễn ra giữa Hoa Kỳ và Trung Quốc cũng tạo điều kiện thuận lợi để các chuyên gia xác định được những lĩnh vực có sự đồng thuận cũng như những điểm còn bất đồng giữa hai bên.

Trường hợp của một lĩnh vực khoa học tiên tiến khác—chỉnh sửa gen—minh họa những nguy hiểm khi Hoa Kỳ và Trung Quốc không thống nhất về các rủi ro chung và triển vọng cải thiện an toàn khi hai bên cùng hợp tác. Năm 2018, nhà khoa học Trung Quốc He Jiankui tuyên bố ông đã bí mật chỉnh sửa gen của cặp song sinh sơ sinh để giúp chúng kháng HIV. Hành động này nhanh chóng gây ra phản ứng dữ dội trong giới khoa học toàn cầu giữa những lo ngại về những nguy hiểm tiềm tàng của việc thao túng gen ở tế bào mầm của con người, tức là các tế bào truyền gen cho con cái. Chính phủ Trung Quốc, ban đầu ca ngợi bước đột phá khoa học này, đã rút lại tuyên bố và trừng phạt He.

Đáp lại, các tổ chức quốc tế đã khuyến khích Trung Quốc phát triển các tiêu chuẩn đạo đức sinh học. Ví dụ, một nhóm thượng nghị sĩ lưỡng đảng của Hoa Kỳ đã đưa ra một nghị quyết thúc đẩy hợp tác song phương để ngăn chặn một cuộc chạy đua xuống đáy có thể dẫn đến các sự cố khác tương tự như trường hợp của He. Trung Quốc không bác bỏ những nỗ lực này; thay vào đó, họ đã nỗ lực nâng cấp các quy định về đạo đức sinh học để phù hợp với các tiêu chuẩn quốc tế. Bắc Kinh đã ban hành các quy định mới trong bộ luật dân sự để cấm chỉnh sửa tế bào mầm trái phép và yêu cầu sự chấp thuận của chính phủ trung ương đối với bất kỳ nghiên cứu chỉnh sửa gen người nào. Các quan chức Trung Quốc cũng đã thành lập một ủy ban đạo đức khoa học quốc gia. Ít nhất trên lý thuyết, nhiều quy tắc đạo đức an toàn sinh học của Trung Quốc hiện nay phù hợp với các quy tắc ở châu Âu và Bắc Mỹ.

Thực hành chia sẻ an toàn

Nhưng sự sẵn lòng thiết lập một sự hiểu biết chung về rủi ro là chưa đủ để ngăn chặn những tác hại toàn cầu. Hoa Kỳ và Trung Quốc phải hợp tác để thiết lập các thực tiễn kỹ thuật tốt nhất nhằm giảm thiểu rủi ro của các mô hình AI. Họ phải đi trên sợi dây mong manh mà Hoa Kỳ và Liên Xô đã từng làm với công nghệ hạt nhân trong Chiến tranh Lạnh: chia sẻ đủ thông tin để giảm thiểu tác hại toàn cầu trong khi vẫn bảo vệ thông tin độc quyền và bí mật thương mại. Trên thực tế, điều này có nghĩa là hợp tác về cách thử nghiệm các hệ thống AI về khả năng nguy hiểm và cách xây dựng các biện pháp bảo vệ để giảm thiểu rủi ro mà các thử nghiệm đó tiết lộ.

Về thử nghiệm, ưu tiên của cả hai quốc gia là cách cấu trúc cái gọi là "đội đỏ", là các nhóm kiểm tra các biện pháp kiểm soát an toàn để cố gắng phát hiện ra các lỗ hổng trong mô hình AI. Cả hai quốc gia cần thảo luận về cách thiết lập các thí nghiệm và cách mở rộng quy mô các kỹ thuật đội đỏ để ứng phó với nhiều mối đe dọa hơn. Các phương pháp của họ có thể bao gồm việc sử dụng các mô hình ngôn ngữ lớn khác thay vì các chuyên gia con người, cũng như dò tìm những rủi ro nảy sinh khi các mô hình AI được tích hợp vào những ứng dụng thực hiện các tác vụ như viết mã lập trình hoặc tự động duyệt web. Tuy nhiên, trong quá trình chia sẻ các thực tiễn tốt nhất này, hai quốc gia cần tránh tiết lộ các chiến thuật cụ thể—điều có thể vô tình thúc đẩy quá trình phát triển AI của đối thủ cạnh tranh.

Hoạt động thử nghiệm cũng cần được mở rộng ra ngoài phạm vi kỹ thuật số đơn thuần. Trong các nghiên cứu được gọi là "nghiên cứu mô phỏng trong phòng thí nghiệm thực tế" (wet-lab proxy studies), các hệ thống AI sẽ hỗ trợ con người trong những môi trường thực tế hoặc môi trường mô phỏng nhằm đánh giá các rủi ro trong thế giới thực của những hoạt động có sự tham gia của AI. Một nghiên cứu mô phỏng trong phòng thí nghiệm thực tế có thể bố trí các nhà nghiên cứu với trình độ chuyên môn khác nhau vào một cơ sở an toàn sinh học được kiểm soát chặt chẽ; tại đó, nghiên cứu sẽ đo lường xem liệu sự hỗ trợ từ AI có giúp họ tổng hợp các hợp chất nguy hiểm nhanh hơn hoặc chính xác hơn so với việc chỉ dựa vào các tài liệu khoa học đã công bố hay không. Các quốc gia cần thảo luận về cách thức tiến hành những thử nghiệm này một cách an toàn—bao gồm việc xác định các quy trình an ninh phòng thí nghiệm phù hợp, cũng như sử dụng các thí nghiệm vô hại để làm đại diện cho những thí nghiệm nguy hiểm—mà không làm lộ các phương pháp cụ thể mà giới chuyên môn sử dụng để khai thác sự hỗ trợ từ các mô hình AI.

Hiện tại, cả hai quốc gia đều chưa được trang bị đầy đủ năng lực để phòng vệ toàn diện trước những hành vi lạm dụng AI tinh vi.

Bằng cách tập trung vào phương thức tổ chức các thử nghiệm an toàn thay vì đi sâu vào nội dung cụ thể của chúng, hoạt động hợp tác kỹ thuật có thể tránh được việc tiết lộ các thông tin nhạy cảm hoặc đánh mất những lợi thế cạnh tranh mà mỗi bên đã phải rất vất vả mới giành được. Nhờ đó, Hoa Kỳ và Trung Quốc có thể thiết lập các thực tiễn tốt nhất này mà không cần phải công bố chính xác những phương pháp mà họ sử dụng để cố tình kích thích các mô hình AI hoạt động sai lệch, những chiến lược nhằm dụ dỗ các mô hình tiết lộ dữ liệu nhạy cảm, hay những kiến thức sinh học hoặc hóa học cụ thể cần thiết để đẩy năng lực của AI vượt qua ngưỡng an toàn cho phép.

Ngoài công tác thử nghiệm, hai quốc gia cần tăng cường hợp tác về các biện pháp bảo vệ—vốn là những cơ chế kỹ thuật được thiết lập trong suốt quá trình phát triển mô hình cũng như sau khi mô hình đã hoàn thiện—nhằm giảm thiểu rủi ro. Các biện pháp bảo vệ hiện hành vẫn còn nhiều bất cập. Chúng tỏ ra bất lực khi phải đối mặt với những cuộc tấn công có chủ đích và đầy tinh vi; mặt khác, chúng lại vô tình chặn đứng quá nhiều yêu cầu sử dụng hợp lệ. Chẳng hạn, các biện pháp này có thể từ chối cung cấp thông tin cần thiết cho các nhà nghiên cứu an ninh mạng hoặc các nhà khoa học chuyên về phòng vệ sinh học, nếu chúng nhận định sai lầm rằng những nhà nghiên cứu này đang có ý định gây hại. Cả hai quốc gia đều sẽ hưởng lợi từ việc phát triển các công cụ có khả năng phân biệt giữa mục đích sử dụng AI hợp lệ và mục đích nguy hiểm, đồng thời có thể kiểm soát được những rủi ro phát sinh ở các khâu tiếp theo sau khi dữ liệu đã được xử lý bởi chính mô hình AI đó.

Hợp tác về các biện pháp bảo vệ là khả thi nếu tập trung vào các công cụ bên ngoài định hình cách thức hoạt động của các mô hình sau khi triển khai. Ví dụ, Hoa Kỳ và Trung Quốc có thể thảo luận về các bộ lọc nội dung, các rào cản thực thi và các hạn chế sử dụng mà không cần tiết lộ cách thức xây dựng các mô hình của họ. Các phương pháp yêu cầu truy cập vào hoạt động bên trong của mô hình có nguy cơ tiết lộ các phương pháp độc quyền có thể tăng cường khả năng của đối thủ. Những điều này nên được giữ bí mật trong cuộc đối thoại. Nhưng ngay cả việc thảo luận về các phương pháp chung cũng sẽ thể hiện tiến bộ đáng kể vì hiện tại cả hai quốc gia đều không được trang bị đầy đủ để tự vệ trước việc lạm dụng AI tinh vi.

Không gian diễn ra

Cuộc đối thoại chính thức đầu tiên giữa chính phủ Hoa Kỳ và Trung Quốc về AI, được tổ chức tại Geneva vào tháng 5 năm 2024, đã thất bại vì có sự không phù hợp về chuyên môn và ưu tiên. Hoa Kỳ cử các chuyên gia kỹ thuật từ bên trong chính phủ, trong khi Trung Quốc cử các nhà ngoại giao tham gia nhiều hơn vào các vấn đề chính sách đối ngoại và kiểm soát chip. Nói cách khác, Washington tập trung vào rủi ro kỹ thuật, trong khi Bắc Kinh tập trung vào rủi ro chính trị.

Điều cần thiết hiện nay là một cuộc đối thoại tập trung, ổn định về các rủi ro toàn cầu của trí tuệ nhân tạo (AI), tách biệt khỏi những thăng trầm trong mối quan hệ song phương rộng lớn hơn giữa Mỹ và Trung Quốc. Một cuộc thảo luận như vậy phục vụ lợi ích của cả hai quốc gia. Nhưng để tập hợp được những người giỏi nhất tham gia cuộc thảo luận này đòi hỏi sự sáng tạo. Một cách tiếp cận đầy hứa hẹn là thu hút các chuyên gia có liên hệ với chính phủ nhưng không thuộc chính phủ, chẳng hạn như các cá nhân từ Hiệp hội An toàn và Phát triển AI Trung Quốc, một mạng lưới các tổ chức trong nước bao gồm Đại học Thanh Hoa, trung tâm nghiên cứu an toàn AI của Trung Quốc, và Phòng thí nghiệm AI Thượng Hải. Việc tập hợp các nhà nghiên cứu vừa có hiểu biết kỹ thuật sâu sắc vừa có mối liên hệ mật thiết với quyền lực chính phủ sẽ giúp neo giữ cuộc đối thoại trong một ngôn ngữ chung và tập trung vào các cuộc thảo luận chính thức của chính phủ.

Các quốc gia khác có chuyên môn kỹ thuật và quan hệ ngoại giao tốt với cả Hoa Kỳ và Trung Quốc có thể giúp duy trì những cuộc đối thoại này. Ví dụ, Vương quốc Anh có thể tận dụng chuyên môn kỹ thuật độc đáo của Viện An ninh AI để thảo luận về quản lý rủi ro AI với mỗi siêu cường. Những nỗ lực như vậy có thể thu hẹp khoảng cách giữa Mỹ và Trung Quốc khi căng thẳng song phương gia tăng.

Một cuộc đối thoại thành công sẽ giúp các nhà hoạch định chính sách hiểu rõ hơn về các hoạt động nguy hiểm mà không làm kìm hãm sự đổi mới. Suy cho cùng, việc đầu tư vào sự hợp tác sẽ giúp cả hai quốc gia phát hiện các rủi ro nảy sinh từ những mô hình mới, tăng cường các biện pháp bảo vệ liên quan đến AI, cũng như thúc đẩy sự minh bạch giữa các doanh nghiệp, chính phủ và người dùng quốc tế về những gì họ đã biết—và quan trọng hơn cả là những gì họ chưa biết—về các năng lực AI đang nổi lên. Chỉ thông qua việc chung tay hợp tác, Hoa Kỳ và Trung Quốc mới có thể thấu hiểu và giảm thiểu những rủi ro toàn cầu về AI đang đe dọa cả hai bên. Những cuộc đối thoại thận trọng ngay từ lúc này có thể giúp ngăn chặn những hậu quả thảm khốc trong tương lai.

CHRISTINA KNIGHT hiện là ứng viên bằng Tiến sĩ Luật (J.D.) kiêm ứng viên Thạc sĩ Quản trị Kinh doanh (M.B.A.) tại Đại học Harvard. Trước đây, cô từng lãnh đạo Phòng Nghiên cứu Chính sách và An ninh tại Scale AI, đồng thời đảm nhiệm vai trò Cố vấn Chính sách Cấp cao tại Trung tâm Tiêu chuẩn và Đổi mới AI Hoa Kỳ.

SCOTT SINGER hiện là Nghiên cứu viên thuộc Chương trình Công nghệ và Quan hệ Quốc tế tại Quỹ Carnegie vì Hòa bình Quốc tế.

https://www.foreignaffairs.com/united-states/america-and-china-can-make-ai-safer

***

America and China Can Make AI safer

Cooperation Is Necessary—and Possible

AI computing infrastructure at the World Internet Conference, Wuzhen, China, November 2025 Tingshu Wang / Reuters

As artificial intelligence increasingly defines economic and strategic competition between the United States and China, the technology also creates extreme risks that transcend national borders. An individual could potentially use an AI model or a combination of models to engineer a dangerous pathogen, launch autonomous cyberattacks on power grids or hospital networks, or create and disseminate realistic deepfakes that erode public trust—regardless of whether that individual lives in Dalian, Dallas, or Delhi. Neither the United States nor China benefits from an AI race in which a model from either country could cause catastrophic harm anywhere.

Chinese models present particularly acute vulnerabilities. DeepSeek’s open-source large language model, R1-0528, for example, lacks many of the safeguards that are built into U.S. systems. It accepts malicious instructions 12 times more often than leading U.S. models do, according to U.S. government research. Its models are also significantly more vulnerable to attackers: standard jailbreaking methods—techniques to bypass a model’s built-in safety controls—elicit harmful responses 94 percent of the time versus just eight percent of the time for comparable American systems. This risk increases when a Chinese model powers many autonomous agents, such as the now viral OpenClaw, which can browse the web and access databases at scale without human oversight.

As the two dominant powers in transformative AI, Washington and Beijing will determine whether it creates widely shared benefits or generates dangerous new risks. When great powers develop high-risk technologies, open communication channels are essential to prevent misunderstandings that could lead to disaster. During the height of the Cold War, for example, U.S. scientists shared information with the Soviet Union about technologies to prevent unauthorized nuclear use. Deciding when to share information related to critical technologies requires careful discretion about what to disclose and what to withhold. But even the most intense rivals can find ways to effectively cooperate.

The United States and China must collaborate to manage the growing risks of AI while they compete for technological supremacy. A prudent U.S. risk mitigation strategy does not mean slowing down innovation. Instead, it means working with Beijing to come to an understanding of safety research priorities, to coordinate testing for vulnerabilities and implementing safeguards, and to jointly establish best practices to contain truly global risks. China, meanwhile, needs to invest in the technical capacity that makes engagement on AI safety worthwhile. Working together is necessary, and with the right approach, it is feasible. By focusing on how to look for risks rather than the specifics of what they find, Washington and Beijing can compete fiercely on AI while still mitigating the most extreme dangers it presents to the world.

Challenge accepted

Making AI safer requires a clear understanding of both the risks that the technology creates and the tools available to minimize them. Systematic assessments of frontier AI developments serve the same function as clinical trials do for new drugs and crash tests do for automobiles. They identify dangers before and during deployment to ensure that technological innovation does not cause preventable harm.

But AI systems differ from drugs and cars. They are general-purpose technologies that evolve continuously after deployment, can be repurposed by users in ways that developers never anticipated, and spread globally at unprecedented speed. Testing new systems before they are released is not enough to account for the unexpected ways in which AI capabilities can develop. This unpredictability is why it is urgent to continuously and rigorously screen for new risks and intervene in real time.

Both the United States and China have started to recognize the need for stronger safety practices across the AI supply chain. In the United States, a layered system is taking shape. It starts with leading AI companies, which have vast technical resources to assess the potential for extreme contingencies and to adjust their models accordingly. Third-party evaluators with independent credibility and expertise can test these models. Safety also extends to other applications that use AI. An array of independent organizations are building tools that can be tailored to intercept harmful content in specific AI-powered applications, such as coding assistants or tutoring bots. The government can also contribute to these efforts. U.S. government bodies, such as the Department of Commerce’s Center for AI Standards and Innovation and its partner AI Safety Institutes, can leverage findings and technical tools from both developers and independent safety organizations to craft more informed policies and standards and fix vulnerabilities before models are publicly released.

AI competition does not preclude common safety baselines.

China lacks the same technical infrastructure to measure and minimize catastrophic risks. Beijing has historically prioritized what it calls content security, or ensuring that AI systems do not generate politically sensitive or ideologically undesirable content. As a result, both regulators and companies in China have focused on ensuring that models align with Chinese Communist Party priorities. But this narrow focus on social and political control is widening. China’s leaders are now paying attention to the broader risks posed by AI. In February, for example, China’s cyberspace agency proposed a policy to regulate interactions with humanlike AI, which reflects concerns about the human harms of addiction and dependence.

Rhetoric about AI risks is still more widespread than concrete policy action, but Beijing is starting to take meaningful steps. In September 2025, Chinese authorities published an updated AI safety governance framework. The framework echoes many concerns that have been reverberating across Silicon Valley, including how AI could reduce barriers to developing chemical, biological, or nuclear weapons and the possibility that it could replicate itself to a point beyond human control. The framework also warns that open-source foundation models, which dominate China’s AI ecosystem, make it easier for AI misuse to proliferate. National laboratories are testing the most advanced AI models to look for potential dangers, too. In July 2025, for instance, the Shanghai AI Lab—a major state-backed research institution focused on AI development—evaluated 18 large language models across seven frontier AI risk areas. It identified biological and chemical risks in most models, and found warning signs that several models would engage in strategic deception—observations that mirror leading American AI developers’ assessments of safety challenges in both the United States and China.

China increasingly recognizes that poor risk management could hinder its AI ambitions. But to substantially reduce potential dangers, Beijing must continue to expand these efforts. Cooperation on risk management is only as valuable as the technical infrastructure that both sides bring to the table.

On the same page

Although bridging the divide between Washington and Beijing is challenging, it is not impossible. As with aviation, in which the U.S. firm Boeing and the European company Airbus compete commercially while adhering to shared safety standards, AI competition does not preclude common safety baselines. The United States and China can work in tandem with leading scientists and laboratories to establish a shared understanding of AI risks. Although what constitutes a risk will inevitably be interpreted through differing legal and cultural frameworks, the two sides can agree on a subset of severe global dangers that unambiguously threaten both countries, as well as an array of general technical solutions that they can flexibly deploy.

This shared baseline should build on existing global efforts. The International AI Safety Report, for example, offers an authoritative assessment of the state of the science underpinning advanced AI. Joint AI safety tests, such as those conducted by the United Kingdom and the United States, have also identified common emerging risks and gaps in technical capacity. Ongoing Track II, or unofficial, AI dialogues between the United States and China also enable experts to identify areas of convergence and disagreement.

The case of another area of frontier science—gene editing—illustrates the dangers of the United States and China not being aligned on shared risks and the promise of improved safety when they are. In 2018, the Chinese scientist He Jiankui announced that he had secretly edited the genes of newborn twins to try to make them resistant to HIV. This action quickly sparked global scientific backlash amid concerns about the potential dangers of genetic manipulation of the human germline, the cells that pass genes down to offspring. The Chinese government, which originally hailed the scientific breakthrough, backtracked and punished He.

In response, international bodies encouraged China to develop bioethical standards. A bipartisan group of U.S. senators, for instance, introduced a resolution promoting bilateral cooperation to prevent a race to the bottom that could lead to other incidents similar to what happened with He. China did not dismiss such efforts; instead, it worked to upgrade its bioethics regulations to align with international standards. Beijing introduced new regulations in its civil code to outlaw unauthorized germline editing and require central government approval for any human gene-editing research. Chinese officials also established a national scientific ethics committee. At least on paper, many of China’s biosafety ethics rules are now in line with those in Europe and North America.

PRACTICING SAFE SHARING

But a willingness to establish a shared understanding of risk is not enough to prevent global harm. The United States and China must work together to set up technical best practices for reducing the risks of AI models. They must walk the same tightrope that the United States and the Soviet Union did with nuclear technologies during the Cold War: sharing enough information to mitigate global harms while protecting proprietary information and trade secrets. In practice, this means cooperating on how to test AI systems for dangerous capabilities and how to build safeguards that reduce the risks those tests reveal.

On testing, a priority for both countries is how to structure so-called red teams, which are groups that probe safety controls to try to expose vulnerabilities in an AI model. Both countries need to discuss how to set up experiments and how to scale red-teaming techniques to respond to a wider array of threats. Their methods could include using other large language models instead of human experts and probing for risks that emerge when AI models are embedded in applications that perform tasks such as writing code or browsing the Internet autonomously. But as they share best practices, the two countries should refrain from revealing specific tactics, which could enhance a rival’s own AI development.

Testing must also extend beyond the digital sphere. In what are known as wet-lab proxy studies, AI systems assist humans in live or simulated environments to assess the real-world risks of AI-enabled activity. A wet-lab proxy study could place researchers with varying levels of expertise in a controlled biosafety facility and measure whether AI-guided assistance enables them to synthesize dangerous compounds faster or more accurately than they could using published literature alone. Countries should discuss how to conduct these tests safely, which includes determining proper lab security protocols and the use of harmless experiments that can stand in for dangerous ones, without revealing the specific method experts use to elicit help from AI models.

Neither country is equipped to fully defend against sophisticated AI misuse.

By focusing on how to run safety tests instead of on their content, technical collaboration can avoid disclosing sensitive information or giving up one side’s hard-fought advantages. The United States and China can thus set up these best practices without having to include the exact methods they use to try to get models to misbehave, the strategies that can encourage models to reveal sensitive data, or the precise biological or chemical knowledge needed for AI knowledge to reach an unsafe threshold.

Beyond testing, the two countries need to cooperate on safeguards, which are the technical mechanisms introduced during and after model development to reduce risk. Current safeguards are inadequate. They fail when they are pitted against deliberate, sophisticated attacks, yet they also block too many legitimate requests. They might refuse to help cybersecurity researchers or biodefense scientists access the information they need, for instance, if they mistakenly perceive that these researchers are trying to cause harm. Both countries would benefit from developing tools that can distinguish between legitimate and dangerous uses of AI models and that can govern the risks that arise downstream from the AI model itself.

Collaboration on safeguards is feasible if it focuses on the external tools that shape how models behave after deployment. The United States and China can discuss content filters, execution guardrails, and usage restrictions, for example, without exposing how their models are built. Approaches that require access to a model’s inner workings risk revealing proprietary methods that could enhance a rival’s capabilities. These should remain off-limits for dialogue. But even talking about general approaches would represent meaningful progress because neither country is currently equipped to fully defend against sophisticated AI misuse.

THE ROOM WHERE IT HAPPENS

The first U.S.-Chinese official government dialogue on AI, held in Geneva in May 2024, failed because there was a mismatch in expertise and priorities. The United States sent technical experts from inside the government, while China brought diplomats more involved in foreign policy concerns and chip controls. In other words, Washington was focused on technical risk, whereas Beijing was focused on political risk.

What is needed now is a narrow, stable conversation on global AI risks divorced from the ups and downs of the broader U.S.-Chinese bilateral relationship. Such a discussion is in the selfish interests of both countries. But getting the best people in the room to have this discussion requires creativity. One promising approach is to involve experts connected to but situated outside government, such as individuals from the China AI Safety and Development Association, a domestic network of institutions that includes Tsinghua University, the hub of China’s AI safety research, and Shanghai AI Lab. Bringing together researchers with both deep technical understanding and proximity to government power would anchor the dialogue in a shared vocabulary and focus official government discussions.

Other countries with technical know-how and good diplomatic relations with both the United States and China can help sustain these conversations. The United Kingdom, for instance, can leverage the unique technical expertise in its AI Security Institute to discuss AI risk management with each of the superpowers. Such efforts can bridge U.S.-Chinese divides when bilateral tensions rise.

A successful dialogue will help policymakers gain insight into dangerous activity without stifling innovation. Ultimately, investing in cooperation will help both countries detect risks from new models, improve AI safeguards, and promote transparency among companies, governments, and international users on what they know—and even more important, on what they don’t know—about emerging AI capabilities. Only by working together can the United States and China understand and mitigate the global AI risks that threaten them both. Prudent conversations now could prevent catastrophic harm later.

CHRISTINA KNIGHT is a J.D. and an M.B.A. candidate at Harvard University. She previously led Scale AI’s Security and Policy Research Lab and was a Senior Policy Adviser at the U.S. Center for AI Standards and Innovation.

SCOTT SINGER is Fellow in the Technology and International Affairs Program at the Carnegie Endowment for International Peace.

Tìm kiếm Blog này

nghiencuuchinhtrixahoi.blogspot.com