Bí mật đằng sau kỹ thuật nâng cấp hình ảnh lên 8K của Samsung

02:48 Chiều - 11/07/2020

0 Bình luận

528

bởi An Bùi

Trong thời gian qua, chất lượng hình ảnh TV đã vượt quá độ mức “độ nét cao” (HD) – ngày nay, chuẩn mực mới chính là “độ nét siêu cao” (UHD).

Dù phần cứng ngày nay đã được phát triển để hỗ trợ không chỉ nội dung 4K mà còn cả nội dung 8K nữa, nhưng phải đến gần đây, người ta mới bắt đầu thực sự sản xuất nội dung theo chuẩn chất lượng 8K. Chính vì vậy, để cải thiện chất lượng hiển thị của các nội dung được tạo ra trước khi 8K hiện diện, công nghệ nâng cấp hình ảnh (upscale) chính là giải pháp để người tiêu dùng tận dụng được chuẩn độ nét siêu cao ngày nay.

Đúng vậy, bạn không thực sự cần đến những đoạn video được quay ở độ phân giải 7680 x 4320 – các mẫu TV 8K của Samsung sử dụng kỹ thuật nâng cấp hình ảnh bằng AI để chuyển bất kỳ loại video nào (từ SD đến 4K và mọi thứ nằm giữa chúng) thành độ phân giải 8K.

Tất nhiên, upscale không phải là một thứ gì đó mới mẻ. Trong nhiều năm trời, các mẫu TV 4K và thậm chí là HD đã sử dụng nhiều cách để kéo dãn nội dung độ phân giải thấp, làm cho chúng vừa vặn với tỉ lệ điểm ảnh/inch lớn của các TV hiện đại. Nhưng vì lượng điểm ảnh trên TV 8K tương đương đến 4 TV 4K, do đó các phương thức upscale truyền thống đơn giản là không hiệu quả.

Tại sao upscale theo phương thức truyền thống khiến hình ảnh tệ hơn

Trước năm 1998, các nhà đài phát sóng ở độ phân giải 720 x 480, và những bộ phim được quay ở chất lượng cao hơn sẽ bị nén lại để vừa với định dạng đó. 345.600 điểm ảnh của nội dung đó chỉ chiếm một phần diện tích rất nhỏ trên các TV hiện đại với tỉ lệ điểm ảnh/inch (PPI) cao. Và nội dung SD này phải được kéo dãn để vừa với hơn 2 triệu điểm ảnh nếu upscale lên HD, hơn 8 triệu điểm ảnh nếu lên 4K, hay hơn 33 triệu nếu lên 8K.

Nguyên tắc cơ bản của upscale là duy trì tỉ lệ điểm ảnh phù hợp bằng cách nhân chúng lên. Để chuyển HD sang 4K, vi xử lý của TV phải “thổi phồng” 1 điểm ảnh HD lên sao cho nó chiếm không gian bằng 4 điểm ảnh trên màn hình độ phân giải cao hơn. Hoặc 16 điểm ảnh nếu chuyển từ HD sang 8K.

Nếu không có quy trình xử lý hình ảnh, kết quả cuối cùng sẽ “giống như một mẩu bơ nhỏ bị trét lên một lát bánh mì lớn“. Mỗi mẩu dữ liệu sẽ biến thành một mẩu hình vuông phi tự nhiên, không có gradient tự nhiên giữa các chi tiết và màu sắc. Hình ảnh thu được sẽ có rất nhiều khối vuông, hay nhiễu hạt, xung quanh các vật thể trên màn hình.

Bí mật đằng sau kỹ thuật nâng cấp hình ảnh lên 8K của Samsung - Ảnh 1.

Bạn cũng nhiều khả năng sẽ thấy một thứ gọi lại “nhiễu muỗi”. Để nén một video sao cho phù hợp với băng thông internet hạn chế của bạn, các nhà đài và website phải lấp đầy luồng dữ liệu bằng các mảng màu thô, hay “artifact”. Các điểm ảnh thô được đưa vào một cách cố ý này sẽ xuất hiện quanh những phần màn hình nơi có độ tương phản cao, như cây cầu màu nâu trước nền trời xanh trong ảnh trên.

Bài toán upscale

Để giải quyết những vấn đề trên, các nhà lập trình TV đã dạy TV của họ phân tích và xử lý số hóa hình ảnh trong thời gian thực nhằm lấp đầy hoặc sửa những điểm ảnh bị thiếu hoặc bị hư hại. Và họ đã đạt được mục đích bằng cách vận dụng các hàm toán học – ai còn dám nói rằng xem TV quá nhiều sẽ khiến bạn bị nhũn não đây?

Cụ thể, các kỹ sư đã dạy vi xử lý của TV nội suy ra giá trị màu của từng điểm ảnh bị thiếu, dựa trên các điểm ảnh xung quanh nó. Để làm điều đó, nó phải xác định hàm kernel: hàm có chức năng gán ưu tiên màu cho các điểm ảnh kế cận của điểm ảnh bị thiếu, dựa trên thông số tiệm cận của chúng.

Hàm kernel cơ bản nhất được dùng trong TV là hàm kernel điểm ảnh kế cận gần nhất, trong đó tính toán xem điểm ảnh nào ở gần một điểm ảnh bị thiếu nhất và dán dữ liệu màu của nó vào điểm ảnh trống đó. Phương thức này khiến hình ảnh bị răng cưa, với phần viền của các vật thể trông rất tệ. Hãy hình dung một ký tự “A” màu đen trên một màn hình trắng; một điểm ảnh bị thiếu nằm ngay bên ngoài ký tự có thể được lấp màu đen vào, trong khi một điểm ảnh ở rìa của ký tự có thể hiển thị màu trắng. Kết quả hoặc sẽ là một đốm xám quanh ký tự, hoặc một bậc thang hai màu trắng – đen lởm chởm.

Nội suy bilinear đòi hỏi nhiều sức mạnh xử lý hơn, nhưng hiệu quả hơn. Trong phương thức này, điểm ảnh trống được so sánh với hai điểm ảnh kế cận gần nhất để tạo ra một gradient tuyến tính giữa chúng, làm sắc nét hình ảnh. Kết quả là hình ảnh mượt mà hơn, nhưng có thể không nhất quán. Do đó các TV khác sử dụng nội suy bicubic, trong đó lấy giá trị màu của 16 điểm ảnh gần nhất ở tất cả các hướng. Dù phương thức này có thể thu được màu sắc gần chính xác nhất có thể, nó lại cho ra hình ảnh mờ nhòe hơn, với rìa các vật thể bị hiệu ứng quầng sáng gây mất tập trung.

Bí mật đằng sau kỹ thuật nâng cấp hình ảnh lên 8K của Samsung - Ảnh 2.

Biểu đồ cho thấy quy trình tính toán một điểm ảnh trống (P) dựa trên nội suy bilinear

Đến đây hẳn bạn có thể đoán được vấn đề: những TV trước đây lấp đầy các điểm ảnh dựa trên các công thức toán học mà theo thống kê thì có khả năng cho ra kết quả chính xác cao nhất, nhưng không có cách nào để biết được chúng lẽ ra phải trông như thế nào dựa trên những thứ thực sự đang ở trên màn hình.

Tại Samsung, các kỹ sư đã đi đến một giải pháp cho mọi vấn đề nói trên: sử dụng trí tuệ nhân tạo (AI), học máy (machine learning), và học sâu (deep learning) để upscale hình ảnh lên 8K.

Bí mật của Samsung: học máy, nhận dạng vật thể, và các bộ lọc

Vũ khí bí mật của Samsung là một kỹ thuật gọi là học máy siêu phân giải (MLSR). Hệ thống AI này thu vào một luồng video độ phân giải thấp và upscae nó lên vừa với độ phân giải của màn hình lớn hơn với tỉ lệ PPI cao hơn. Nó giống như một “tuyệt chiêu” mà bạn thường thấy trên phim ảnh: các nhà khoa học phóng to và tăng cường độ chi tiết của một bức ảnh mờ nhòe chỉ bằng một cú nhấn nút – trừ việc kỹ thuật của Samsung được thực hiện một cách tự động và gần như tức thời.

Đại diện Samsung từng giải thích làm thế nào họ có thể phân tích một lượng nội dung video lớn đến từ nhiều nguồn khác nhau – các video YouTube chất lượng thấp và cao, DVD và Bluray, phim ảnh và các sự kiện thể thao – và tạo ra hai cơ sở dữ liệu hình ảnh, một dành cho hình ảnh chất lượng thấp và một dành cho chất lượng cao.

Sau đó, hãng huấn luyện AI để hoàn tất một quy trình gọi là “suy thoái nghịch đảo”. Đầu tiên, bạn lấy những bức ảnh độ phân giải cao và hạ cấp chúng xuống các độ phân giải thấp hơn, theo dõi những dữ liệu hình ảnh bị mất. Sau đó bạn phải đảo ngược quy trình và huấn luyện AI lấp đầy các dữ liệu bị mất từ các hình ảnh độ phân giải thấp để chúng phản ánh lại trong các hình ảnh độ phân giải cao. Loại hình học máy này được gọi là “tự học có hướng dẫn”.

Bí mật đằng sau kỹ thuật nâng cấp hình ảnh lên 8K của Samsung - Ảnh 3.

Nhóm của Samsung gọi quy trình này là một “công thức”. Các vi xử lý 8K của hãng có chứa một ngân hàng công thức với một cơ sở dữ liệu các công thức dành cho các vật thể khác nhau, như một quả tạo hay ký tự “A”. Khi vi xử lý nhận dạng được một quả táo mờ mờ trong bàn tay một diễn viên, nó sẽ khôi phục các rìa của quả táo, sửa bất kỳ artifact nén nào xuất hiện, và đảm bảo các điểm ảnh trống có sắc thái đỏ phù hợp dựa trên màu sắc của quả táo thực tế, chứ không phải dựa trên các thuật toán thống kê mơ hồ. Thêm vào đó, bên cạnh việc khôi phục vật thể cụ thể, AI sẽ điều chỉnh nội dung của bạn dựa trên bất kỳ thứ gì bạn đang xem.

Theo Samsung, hãng có hàng chục “bộ lọc” khác nhau có khả năng thay đổi mức độ kiến tạo chi tiết, giảm nhiễu, và khôi phục vùng rìa sao cho phù hợp với nội dung đưa vào, dựa trên thể loại bạn đang xem như một môn thể thao cụ thể, một dòng phim, hay một loại điện ảnh nào đó.

Khôi phục vùng rìa không phải là tác vụ khó khăn nhất đối với AI. Nhân bản họa tiết của một vật thể trong thời gian thực mới là một thách thức khó khăn. Các kỹ sư Samsung phải đảm bảo rằng vi xử lý tăng cường được vẻ ngoài của các vật thể mà không khiến chúng có vẻ nhân tạo.

Điều vi xử lý không làm là xếp loại sai vật thể. “Nó sẽ không biến một quả táo thành một trái cà chua” – một kỹ sư nói. Rất có khả năng vi xử lý được huấn luyện để tránh thực hiện bất kỳ sự thay đổi lớn nào nếu nó không nhận dạng được vật thể đó là gì.

AI cũng sẽ không thay đổi “chủ ý của đạo diễn” trong một bộ phim. TỨc là nếu đạo diễn sử dụng hiệu ứng bokeh, hậu cảnh bị mờ sẽ vẫn mờ, trong khi độ sắc nét của tiền cảnh được đẩy lên đến 8K.

Họ còn khẳng định không phân tích cụ thể các nội dung có độ phổ biến cao để phục vụ việc danh mục hóa vật thể, hướng đến chất lượng tổng thể và tính đa dạng của nội dung. Do đó, có lẽ Samsung không có công thức “rồng” hay “sói” cho loạt phim “Game of Thrones” của bạn đâu.

Các TV 8K (và 4K) mới của Samsung được cài đặt sẵn ngân hàng công thức mới nhất, và theo thời gian, dữ liệu vật thể mới sẽ được thêm vào thông qua các bản cập nhật firmware mà bạn cần chấp thuận cài đặt. Samsung cho biết hãng sẽ tiếp tục phân tích các nội dung mới để mở rộng thư viện vật thể, nhưng họ làm điều đó trên các máy chủ của Samsung, tức không phân tích dữ liệu từ TV của người dùng.

Bạn có thắc mắc có bao nhiêu công thức vật thể đã được Samsung tích lũy từ quá trình phân tích của hãng? Một kỹ sư tiết lộ con số cực kỳ ấn tượng, giải thích rằng vi xử lý thường sẽ nhận dạng được một lượng lớn các vật thể trên màn hình. Nhưng có lẽ người dùng không cần quan tâm đến những con số đó, mà thay vào đó chỉ nên tập trung vào tính hiệu quả của MLSR trong quá trình hoạt động mà thôi!

Nâng tầm cuộc chơi với deep learning

Không ngủ quên trên chiến thắng, Samsung tiếp tục tập trung vào phát triển các thuật toán deep learning với khả năng cho phép màn hình luôn thể hiện chất lượng video tối ưu mà không cần sự can thiệp của con người. Deep learning (học sâu) là phương pháp tự học chuyên sâu hơn trong machine learning, cho phép AI xử lý được những thông tin chuyên biệt, quan trọng từ khối lượng lớn dữ liệu được cung cấp, từ đó đưa ra những phán đoán phức tạp dựa trên quy trình xử lý nhiều giai đoạn; và tất nhiên nó đòi hỏi phần cứng mạnh mẽ hơn.

Các kỹ sư của Samsung cho biết: “Deep learning cho phép thực hiện những cải tiến chính xác hơn và hiệu quả hơn về chất lượng hình ảnh so với những gì có thể đạt được trước đây“. Họ đã đưa ra được một công nghệ upscale bằng AI mới, kết hợp machine learning với deep learning – AI Quantum Processor 8K. “Công nghệ machine learning trước đây đã mang lại chất lượng hình ảnh sắc nét hơn, nhưng nay công nghệ của chúng tôi có thể mang lại khả năng dựng kết cấu tinh vi hơn. Những hình ảnh với các họa tiết phức tạp, như khung cảnh núi non hay đồng cỏ, nay có thể được upscale lên 8 một cách tự nhiên hơn nhiều“.

Dù deep learning có tiềm năng vô hạn, vẫn có những rào cản phải vượt qua. Samsung đã phải thử nghiệm vô số lần mới hoàn thiện được công nghệ và sẵn sàng tung nó ra thị trường. “Rất khó để chúng tôi theo sát và hiểu được thuật toán do mạng thần kinh nhân tạo của vi xử lý phát triển ra. Mức độ tiêu thụ điện năng khá cao của chip phần cứng làm nền cho mạng thần kinh nhân tạo cũng là một vấn đề phải giải quyết“.

Samsung dẫn trước các đối thủ với công nghệ upscale 8K tiên tiến

Samsung không phải là nhà sản xuất TV duy nhất sử dụng AI và kỹ thuật khôi phục hình ảnh trên TV của mình.

Các mẫu TV 4K của Sony cũng được trang bị vi xử lý với cơ sở dữ liệu kép gồm hàng chục ngàn hình ảnh tham khảo, có khả năng “cải thiện điểm ảnh linh động trong thời gian thực”.

LG thì công bố chip TV a9 Gen 2 tại CES 2019, với công nghệ xử lý hình ảnh và machine learning để cải thiện khả năng giảm nhiễu và tăng độ sáng – một phần bằng cách phân tích nguồn và loại nội dung, sau đó tinh chỉnh thuật toán cho phù hợp.

Tuy nhiên, ngoài yếu tố AI, các vi xử lý nêu trên vẫn chỉ sử dụng machine learning để tăng cường chất lượng hình ảnh. Trong khi các TV QLED 8K mới nhất của Samsung đã tiến thêm một bước mới, kết hợp thêm deep learning để mang lại chất lượng video siêu chân thực, bất kể chất lượng và độ phân giải gốc của chúng là thế nào đi nữa.