Máy tínhCông nghệ thông tin

Mã hóa thông tin văn bản trong máy tính

Máy tính - một thiết bị tinh vi mà bạn có thể tạo, chuyển đổi, và lưu trữ thông tin. Tuy nhiên, máy tính không làm việc theo cách rất dễ hiểu đối với chúng tôi - đồ họa, văn bản và dữ liệu số được lưu giữ như mảng nhị phân số. Trong bài viết này chúng ta sẽ xem xét cách mã hóa các thông tin văn bản.

Có gì đối với chúng tôi là nội dung của một máy tính - một chuỗi các ký tự. Mỗi biểu tượng đại diện cho một tập hợp các số không và những người thân. Theo những biểu tượng có nghĩa là không chỉ trên và chữ thường chữ cái của tiếng Latin bảng chữ cái, mà còn dấu chấm câu, dấu hiệu số học, ký tự đặc biệt, ký hiệu đặc biệt và thậm chí cả vũ trụ.

mã hóa nhị phân của thông tin văn bản

Bằng cách nhấn một phím nào đó trên bộ điều khiển nội bộ sẽ gửi một tín hiệu điện được chuyển đổi sang một mã nhị phân. Mã là phù hợp với một biểu tượng nào đó, mà sẽ được hiển thị trên màn hình. Để trình bảng chữ cái Latin trong một ASCII định dạng kỹ thuật số mã hóa hệ thống quốc tế đã được tạo ra. Nó đòi hỏi 1 byte để ghi một biểu tượng như vậy, bao gồm tám-biểu tượng chuỗi các số không và những người thân. Khoảng cách thu âm - từ 00000000 đến 11111111, tức là mã hóa thông tin văn bản sử dụng hệ thống này cho phép chúng tôi để đại diện cho 256 ký tự. Trong hầu hết các trường hợp, điều này là đủ.

ASCII được chia thành hai phần. 127 ký tự đầu tiên (00.000.000-01.111.111) là quốc tế và là biểu tượng và chữ cái của bảng chữ cái tiếng Anh cụ thể. Phần thứ hai - phần mở rộng (10.000.000-11.111.111) - được thiết kế để đại diện cho bảng chữ cái quốc gia, các văn bản trong số đó là khác nhau từ tiếng Latinh.

thông tin văn bản mã hóa trong ASCII được xây dựng trên nguyên tắc tăng chuỗi, tức là lớn hơn số thứ tự của các chữ cái, càng có giá trị ASCII-mã của nó. Con số và một phần Nga của bảng được xây dựng trên cùng một nguyên tắc.

Tuy nhiên, trên thế giới có một số loại mã hóa cho chữ Cyrillic. Phổ biến nhất - là KOI-8 (mã hóa tám-bit đã được sử dụng cho những năm 70 trong ruifitsirovannyh đầu tiên hệ điều hành Unix), ISO 8859-5 (được phát triển bởi Cục Tiêu chuẩn quốc tế), CP 1251 (thông tin văn bản mã hóa được sử dụng trong hiện đại Hệ điều hành Windows), cũng như mã hóa 2-byte của Unicode, có thể được sử dụng để giới thiệu 65.536 ký tự. Như một loạt các mã hóa do thực tế rằng họ đã được xây dựng vào những thời điểm khác nhau, cho các hệ điều hành khác nhau và cân nhắc khác nhau. Bởi vì điều này, thường gặp khó khăn khi chuyển văn bản từ một phương tiện khác - từ một mismatch mã hóa người dùng sẽ thấy một tập hợp các biểu tượng khó hiểu. Làm thế nào tôi có thể sửa chữa tình trạng này? Trong Word, ví dụ, khi một tài liệu được mở ra, một thông báo về các vấn đề với màn hình văn bản và cung cấp một số tùy chọn để chuyển mã.

Do đó, mã hóa và xử lý thông tin văn bản trong ruột của máy tính - quá trình này là rất khó khăn và tốn nhiều thời gian tổ chức. Tất cả các biểu tượng của bất kỳ bảng chữ cái chỉ có một trình tự nhất định các chữ số của hệ thống nhị phân, một tế bào - đây là một byte thông tin.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 vi.birmiss.com. Theme powered by WordPress.