Cuộc chiến trăm mô hình trong cơn sốt mô hình AI lớn: Vấn đề kỹ thuật hay thách thức nghiên cứu?

Question

# Cuộc "chiến tranh trăm mô hình" trong lĩnh vực AI: Vấn đề kỹ thuật hay thách thức khoa học?Tháng trước, ngành AI đã dấy lên một cuộc "chiến tranh động vật".Một bên là mô hình Llama do Meta phát hành, được các nhà phát triển yêu thích vì tính năng mã nguồn mở của nó. Một công ty Nhật Bản sau khi nghiên cứu bài báo và mã nguồn của Llama đã nhanh chóng phát triển phiên bản ChatGPT tiếng Nhật, giải quyết vấn đề nút thắt AI của Nhật Bản.Bên kia là một mô hình lớn tên là Falcon. Vào tháng 5 năm nay, Falcon-40B đã ra mắt, vượt qua Llama để đứng đầu bảng xếp hạng LLM mã nguồn mở. Bảng xếp hạng này được cộng đồng mô hình mã nguồn mở thực hiện, cung cấp các tiêu chí để đánh giá khả năng của LLM. Bảng xếp hạng chủ yếu là sự luân phiên giữa Llama và Falcon.Sau khi Llama 2 được phát hành, dòng sản phẩm Llama tạm thời dẫn đầu; nhưng vào đầu tháng 9, Falcon đã ra mắt phiên bản 180B, một lần nữa đạt được vị trí cao hơn.Thú vị là, nhà phát triển của Falcon là Viện Nghiên cứu Đổi mới Công nghệ tại Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất. Chính phủ Các Tiểu vương quốc Ả Rập Thống nhất cho biết, "Chúng tôi tham gia lĩnh vực này để lật đổ các người chơi cốt lõi."Ngày sau khi Falcon 180B được phát hành, Bộ trưởng Trí tuệ Nhân tạo của UAE đã được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" của Tạp chí Thời đại; cùng với ông còn có "cha đẻ của AI" Geoffrey Hinton, Sam Altman của OpenAI, và nhiều người khác.Hiện nay, lĩnh vực AI đã bước vào giai đoạn hàng trăm nhà tranh tài: chỉ cần có một nguồn tài chính nhất định, các quốc gia và doanh nghiệp đều đang xây dựng mô hình ngôn ngữ lớn của riêng mình. Chỉ trong vòng tròn các quốc gia Vịnh, không chỉ có một người tham gia - vào tháng 8, Ả Rập Saudi vừa mới mua hơn 3000 chip H100 cho các trường đại học trong nước để đào tạo LLM.Có nhà đầu tư từng phàn nàn: "Ngày xưa không coi trọng sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản: trăm đoàn chiến, trăm xe chiến, trăm phát sóng chiến; không ngờ khởi nghiệp mô hình lớn công nghệ cứng vẫn là trăm mô hình chiến..."Lẽ ra đây phải là công nghệ cứng khó, sao lại biến thành tình hình một nước một kiểu, năng suất một mẫu mười ngàn cân?## Transformer nuốt chửng thế giớiCác công ty khởi nghiệp ở Mỹ, các ông lớn công nghệ của Trung Quốc, và các ông trùm dầu mỏ ở Trung Đông có thể theo đuổi các mô hình lớn, đều phải cảm ơn bài báo nổi tiếng đó: "Attention Is All You Need".Năm 2017, 8 nhà khoa học máy tính của Google đã công bố thuật toán Transformer ra toàn thế giới trong bài báo này. Đây là bài báo được trích dẫn nhiều thứ ba trong lịch sử trí tuệ nhân tạo, sự xuất hiện của Transformer đã kích thích cơn sốt AI lần này.Hiện tại, tất cả các mô hình lớn, bao gồm cả loạt GPT gây chấn động toàn cầu, đều được xây dựng trên nền tảng Transformer.Trước đây, "dạy máy đọc sách" luôn là một bài toán học thuật được công nhận. Khác với nhận diện hình ảnh, khi đọc, con người không chỉ chú ý đến từ và câu hiện tại, mà còn kết hợp với ngữ cảnh để hiểu.Các đầu vào của mạng nơ-ron ban đầu độc lập với nhau, không thể hiểu được văn bản dài hoặc thậm chí toàn bộ bài viết, dẫn đến những vấn đề như dịch "开水间" thành "open water room".Năm 2014, nhà khoa học máy tính Ilya, người đã chuyển từ Google sang OpenAI, đã đạt được bước đột phá đầu tiên. Ông đã sử dụng mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, giúp hiệu suất của Google Dịch vượt trội hơn so với các đối thủ.RNN đưa ra "thiết kế tuần hoàn", cho phép mỗi neuron nhận đồng thời đầu vào hiện tại và đầu vào của thời khắc trước, trao cho mạng nơ-ron khả năng "kết hợp ngữ cảnh".Sự xuất hiện của RNN đã kích thích sự nhiệt tình nghiên cứu trong giới học thuật, và sau này tác giả bài báo Transformer, Shazeel, cũng đã nghiên cứu sâu về nó. Tuy nhiên, các nhà phát triển nhanh chóng phát hiện ra rằng RNN tồn tại những thiếu sót nghiêm trọng:Thuật toán này sử dụng tính toán tuần tự, mặc dù giải quyết vấn đề ngữ cảnh nhưng hiệu suất hoạt động không cao, khó xử lý một lượng lớn tham số.Thiết kế phức tạp của RNN nhanh chóng làm cho Shahzeel cảm thấy chán nản. Vì vậy, từ năm 2015, Shahzeel và 7 người đồng chí hướng đã bắt tay vào phát triển một sự thay thế cho RNN, và kết quả cuối cùng là Transformer.So với RNN, Transformer có hai cuộc cách mạng lớn:Một là sử dụng mã vị trí thay thế thiết kế vòng lặp của RNN, để thực hiện tính toán song song - điều này đã nâng cao hiệu quả đào tạo của Transformer, giúp nó xử lý khối lượng dữ liệu khổng lồ, đưa AI vào thời đại mô hình lớn; hai là tăng cường khả năng hiểu ngữ cảnh.Sau khi giải quyết nhiều khuyết điểm, Transformer dần trở thành giải pháp dẫn đầu trong xử lý ngôn ngữ tự nhiên NLP(, có cảm giác như "Nếu không có Transformer, NLP sẽ mãi mãi như đêm dài". Ngay cả Eliya cũng đã từ bỏ RNN mà mình sáng lập để chuyển sang Transformer.Nói cách khác, Transformer là tổ tiên của tất cả các mô hình lớn hiện nay, nó đã biến mô hình lớn từ nghiên cứu lý thuyết thành một vấn đề kỹ thuật thuần túy.Năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, gây ấn tượng mạnh mẽ trong giới học thuật. Để đáp lại, Google đã nhanh chóng ra mắt mô hình AI Meena với hiệu suất mạnh mẽ hơn.So với GPT-2, Meena không có sự đổi mới trong thuật toán nền tảng, chỉ là số lượng tham số được đào tạo tăng 8,5 lần, sức mạnh tính toán tăng 14 lần. Tác giả bài báo về Transformer là Shazeer rất sốc trước kiểu "xếp chồng bạo lực" này, ngay lập tức viết một ghi chú có tiêu đề "Meena nuốt chửng thế giới".Sau khi Transformer ra đời, tốc độ đổi mới thuật toán cơ bản trong giới học thuật đã giảm mạnh. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán và kiến trúc mô hình ngày càng trở thành chìa khóa trong cuộc đua AI, bất kỳ công ty công nghệ nào có khả năng kỹ thuật đều có thể tự phát triển mô hình lớn.Do đó, nhà khoa học máy tính Andrew Ng đã phát biểu tại Đại học Stanford rằng: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và hiện nay là trí tuệ nhân tạo sinh sinh. Tất cả đều là công nghệ phổ quát, tương tự như điện và internet."OpenAI chắc chắn vẫn là tiêu chuẩn cho LLM, nhưng các tổ chức phân tích bán dẫn cho rằng, sức cạnh tranh của GPT-4 đến từ giải pháp kỹ thuật - nếu mã nguồn mở, bất kỳ đối thủ nào cũng có thể nhanh chóng sao chép.Nhà phân tích này dự đoán rằng các công ty công nghệ lớn khác có thể sớm phát triển những mô hình lớn có hiệu suất tương đương với GPT-4.## Con hào xây trên kínhHiện tại, "cuộc chiến mô hình" không còn là một phép ẩn dụ nữa, mà là thực tế khách quan.Các báo cáo liên quan cho thấy, tính đến tháng 7 năm nay, số lượng mô hình lớn trong nước đã đạt 130, vượt qua 114 của Mỹ, thành công trong việc vượt bậc. Các huyền thoại và truyền thuyết đã gần như không đủ để các công ty công nghệ trong nước đặt tên.Ngoài Trung-Mỹ, một số quốc gia giàu có cũng đã bước đầu thực hiện "mô hình một quốc gia một" : Ngoài Nhật Bản và Các Tiểu vương quốc Ả Rập Thống nhất, còn có Bhashini do chính phủ Ấn Độ dẫn dắt, và HyperClova X do công ty Internet Hàn Quốc phát triển.Cảnh tượng trước mắt dường như đưa tôi trở lại thời kỳ khai phá Internet đầy bong bóng và sự chiếm đoạt của vốn.Như đã đề cập trước đó, Transformer đã biến các mô hình lớn thành một vấn đề kỹ thuật thuần túy, miễn là có người có tiền và có card đồ họa, phần còn lại sẽ giao cho các tham số. Nhưng mặc dù rào cản gia nhập không cao, điều đó không có nghĩa là ai cũng có cơ hội trở thành ông lớn trong thời đại AI.Đầu tiên, "Cuộc chiến của các loài vật" được đề cập là một ví dụ điển hình: Mặc dù Falcon xếp hạng cao hơn Llama, nhưng rất khó để nói rằng nó gây ra tác động lớn đến Meta.Như mọi người đều biết, việc các doanh nghiệp mở nguồn các thành quả nghiên cứu khoa học của mình không chỉ nhằm chia sẻ lợi ích công nghệ với xã hội mà còn hy vọng kích thích trí tuệ của quần chúng. Khi các giáo sư ở các trường đại học, các cơ quan nghiên cứu và các doanh nghiệp vừa và nhỏ liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những thành quả này vào sản phẩm của mình.Đối với các mô hình nguồn mở, cộng đồng nhà phát triển năng động mới là lợi thế cạnh tranh cốt lõi.Và ngay từ khi thành lập phòng thí nghiệm AI vào năm 2015, Meta đã xác định tông màu mã nguồn mở; Zuckerberg bắt đầu từ mạng xã hội, ông ấy hiểu rõ tầm quan trọng của việc "xây dựng mối quan hệ tốt với công chúng".Ví dụ, vào tháng 10, Meta đã tổ chức sự kiện "Khuyến khích Người sáng tạo AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường có cơ hội nhận được khoản tài trợ 500.000 USD.Hiện nay, dòng sản phẩm Llama của Meta đã trở thành một trong những tiêu chuẩn cho LLM mã nguồn mở.Tính đến đầu tháng 10, trong Top 10 bảng xếp hạng LLM mã nguồn mở, có 8 cái được xây dựng dựa trên Llama 2, đều sử dụng giấy phép mã nguồn mở của nó. Chỉ riêng trên nền tảng này, số LLM sử dụng giấy phép mã nguồn mở Llama 2 đã vượt quá 1500.Tất nhiên, việc cải thiện hiệu suất như Falcon cũng không phải là không thể, nhưng hiện tại hầu hết LLM trên thị trường vẫn có khoảng cách rõ rệt với GPT-4.Ví dụ, không lâu trước đây, GPT-4 đã giành vị trí đầu bảng xếp hạng AgentBench với điểm số 4,41. AgentBench được Đại học Tsinghua phối hợp với Đại học Bang Ohio và Đại học California, Berkeley phát triển, nhằm đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường sinh tạo mở đa chiều, nội dung kiểm tra bao gồm các nhiệm vụ trong 8 môi trường khác nhau như hệ điều hành, cơ sở dữ liệu, đồ thị tri thức, trận đấu thẻ bài, v.v.Kết quả thử nghiệm cho thấy, người đứng thứ hai Claude chỉ đạt 2.77 điểm, khoảng cách vẫn còn khá lớn. Còn đối với những LLM mã nguồn mở ồn ào, điểm số thử nghiệm thường chỉ quanh 1 điểm, chưa bằng 1/4 của GPT-4.Cần biết rằng, GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là thành tích sau hơn nửa năm các đồng nghiệp toàn cầu theo đuổi. Nguyên nhân gây ra sự chênh lệch này là đội ngũ nhà khoa học của OpenAI có "mật độ IQ" cực kỳ cao và kinh nghiệm tích lũy từ nghiên cứu LLM lâu dài, do đó luôn dẫn trước.Có nghĩa là, khả năng cốt lõi của mô hình lớn không phải là tham số, mà là xây dựng hệ sinh thái ) mã nguồn mở ( hoặc khả năng suy luận thuần túy ) mã nguồn đóng (.Với sự phát triển ngày càng mạnh mẽ của cộng đồng mã nguồn mở, hiệu suất của các LLM có thể trở nên tương đồng, vì mọi người đều sử dụng các kiến trúc mô hình và tập dữ liệu tương tự.Một vấn đề khác rõ ràng hơn là: Ngoài Midjourney, dường như không có mô hình lớn nào khác có thể sinh lời.## Điểm neo giá trịVào tháng 8 năm nay, một bài viết có tựa đề "OpenAI có thể phá sản vào cuối năm 2024" đã thu hút sự chú ý. Nội dung chính của bài viết có thể được tóm gọn trong một câu: Tốc độ tiêu tiền của OpenAI quá nhanh.Bài viết đề cập rằng, kể từ khi phát triển ChatGPT, OpenAI đã nhanh chóng mở rộng thua lỗ, chỉ trong năm 2022 đã thua lỗ khoảng 540 triệu đô la, chỉ có thể chờ đợi các nhà đầu tư thanh toán.Mặc dù tiêu đề bài viết gây sốc, nhưng nó đã chỉ ra tình trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.Chi phí quá cao khiến hiện tại chỉ có Nvidia kiếm được nhiều tiền từ trí tuệ nhân tạo, có thể thêm Broadcom.Theo dự đoán của công ty tư vấn, Nvidia đã bán ra hơn 300.000 chiếc H100 trong quý 2 năm nay. Đây là một con chip AI, có hiệu suất huấn luyện AI rất cao, các công ty công nghệ toàn cầu và các tổ chức nghiên cứu đang đua nhau mua. 300.000 chiếc H100 chồng lên nhau có trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.Doanh thu của Nvidia đã tăng vọt, tăng 854% so với cùng kỳ năm trước, khiến Phố Wall một thời kinh ngạc. Đáng chú ý là, hiện tại giá bán của H100 trên thị trường thứ cấp đã bị đẩy lên 40-50 nghìn đô la, nhưng chi phí nguyên liệu chỉ khoảng 3000 đô la.Chi phí tính toán cao đã trở thành một loại cản trở phát triển ngành công nghiệp ở một mức độ nào đó. Một số vốn đã tính toán: Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; so với đó, mô hình lớn mỗi năm chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu, có ít nhất 125 tỷ USD khoảng cách ở giữa.Ngoài ra, trừ một vài trường hợp như Midjourney, hầu hết các công ty phần mềm sau khi bỏ ra một số tiền khổng lồ vẫn chưa tìm ra mô hình kiếm lợi. Đặc biệt, kết quả của hai ông lớn trong ngành - Microsoft và Adobe đều không được như mong đợi.Công cụ tạo mã AI GitHub Copilot được phát triển bởi Microsoft và OpenAI, mặc dù thu phí 10 đô la mỗi tháng, nhưng do chi phí cơ sở hạ tầng, Microsoft thực tế đang lỗ 20 đô la mỗi tháng, trong khi những người dùng nặng có thể khiến Microsoft lỗ tới 80 đô la mỗi tháng. Do đó, có thể suy đoán rằng Microsoft 365 Copilot có giá 30 đô la có thể lỗ nhiều hơn.Tương tự, Adobe vừa ra mắt công cụ Firefly AI cũng nhanh chóng triển khai hệ thống điểm kèm theo, nhằm ngăn chặn việc người dùng sử dụng quá mức dẫn đến thua lỗ cho công ty. Một khi người dùng vượt quá số điểm được phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.Cần biết rằng Microsoft và Adobe đã là những ông lớn phần mềm với bối cảnh kinh doanh rõ ràng và có lượng người dùng trả phí lớn. Trong khi đó, hầu hết các mô hình lớn với nhiều tham số vẫn chủ yếu được sử dụng trong lĩnh vực trò chuyện.Không thể phủ nhận rằng nếu không có sự ra đời của OpenAI và ChatGPT, cuộc cách mạng AI này có thể sẽ không xảy ra; nhưng hiện tại, giá trị mà việc huấn luyện mô hình lớn mang lại có lẽ cần phải đặt một dấu hỏi.Hơn nữa, với sự gia tăng cạnh tranh đồng nhất và ngày càng nhiều mô hình mã nguồn mở, không gian sinh tồn của các nhà cung cấp mô hình lớn đơn thuần có thể sẽ bị thu hẹp hơn nữa.Sự nổi tiếng của iPhone 4 không phải vì bộ vi xử lý A4 45nm, mà vì nó có thể chơi Plants vs Zombies và Angry Birds.

StableGeniusDegen · Accepted Answer

Hầy, vài mô hình lớn đang tranh đấu khá sôi nổi.

consensus_whisperer · Answer

Chiến đấu trên bảng xếp hạng như đang chơi đùa.

FallingLeaf · Answer

Ai thắng vẫn chưa chắc chắn.

OnChain_Detective · Answer

phân tích mẫu cho thấy cuộc cạnh tranh giữa llama và falcon mang lại những rủi ro bảo mật cổ điển... hãy luôn cảnh giác fam

SnapshotStriker · Answer

Chơi cùng nhau một chút đi.

PrivateKeyParanoia · Answer

Ai mới là ông lớn trong sở thú nhỉ

LightningPacketLoss · Answer

Bạn chơi mô hình lớn của bạn, tôi vứt gói của tôi.