Sự hình thànhCao đẳng và đại học

Corpus Linguistics là gì?

Chỉ cần một vài thập kỷ trước để tự động hóa việc nghiên cứu ngôn ngữ học, các nhà khoa học chỉ có thể mơ ước. Công trình này được thực hiện bằng tay, nó thu hút một số lượng lớn các sinh viên, có một khả năng đáng kể sai lầm "bất cẩn", và quan trọng nhất - tất cả điều này mất một thời gian dài.

Với sự phát triển của công nghệ máy tính đã trở thành có thể tiến hành nghiên cứu về trình tự độ lớn nhanh hơn, và ngày nay là một trong những hướng hứa hẹn nhất trong việc nghiên cứu ngôn ngữ là một ngôn ngữ corpus. Tính năng chính của nó là việc sử dụng một lượng lớn thông tin văn bản, thông tin vào cơ sở dữ liệu duy nhất, một cách đặc biệt và được gọi là cơ thể rõ rệt.

Cho đến nay, có rất nhiều tòa nhà được tạo ra với mục đích khác nhau trên cơ sở các tài liệu ngôn ngữ khác nhau kéo dài từ hàng triệu đến hàng chục tỷ của các đơn vị từ vựng. hướng này được công nhận là một hứa hẹn và chứng minh tiến bộ đáng kể về phía mục đích ứng dụng và nghiên cứu. Các chuyên gia, cách này hay cách khác giao dịch với ngôn ngữ tự nhiên, nó được khuyến khích để làm quen với cơ thể của văn bản ít nhất ở mức cơ bản.

Lịch sử của corpus ngôn ngữ học

Sự hình thành của xu hướng này là do sự sáng tạo của Hoa Kỳ tại Brown cơ thể trong những năm đầu 60-tệ của thế kỷ trước. Bộ sưu tập bao gồm các văn bản của tất cả 1 triệu các hình thức văn bản, và ngày nay cơ thể của kích thước này sẽ được hoàn toàn cạnh tranh. Điều này phần lớn do tốc độ phát triển của công nghệ máy tính, cũng như nhu cầu ngày càng tăng về nguồn lực nghiên cứu mới.

Trong những năm 90 ngôn ngữ học corpus nổi lên thành một kỷ luật đầy đủ và độc lập, một bộ sưu tập các văn bản đã được soạn thảo và đánh dấu cho hàng chục ngôn ngữ. Trong giai đoạn này, nó được tạo ra, ví dụ, người Anh Quốc Corpus 100 triệu thẻ.

Với sự phát triển của khu vực này của ngôn ngữ học, khối lượng văn bản đang trở nên ngày càng nhiều (và tiếp cận hàng tỷ đơn vị điển), và cách bố trí đang trở thành đa dạng hơn. Cho đến nay, không gian Internet có thể tìm thấy xác bằng văn bản và ngôn ngữ nói, đa ngôn ngữ, và văn học nghệ thuật hoặc học tập học tập theo định hướng, cũng như nhiều loài khác.

nhà ở là gì

loại cơ thể trong ngôn ngữ cơ thể có thể cung cấp vì nhiều lý do. Bằng trực giác, làm cơ sở cho việc phân loại có thể là một ngôn ngữ văn bản (tiếng Nga, tiếng Đức), chế độ truy cập (mã nguồn mở, đóng cửa, thương mại), thể loại của vật liệu nguồn (tiểu thuyết, phim tài liệu, khoa học, báo chí).

cách thú vị tạo ra vật liệu của ngôn ngữ nói. Kể từ khi ghi ý ngôn luận như vậy để tạo ra một môi trường nhân tạo cho người trả lời, và vật liệu kết quả không thể được gọi là "tự phát", ngôn ngữ học hiện đại corpus đã đi theo cách khác. Một tình nguyện viên được trang bị một microphone, và vào ban ngày tạo ra một kỷ lục của tất cả các cuộc hội thoại, trong đó nó tham gia. Những người xung quanh, tất nhiên, có thể không biết rằng trong quá trình trò chuyện hàng ngày góp phần vào sự phát triển của khoa học.

Sau đó nhận kỷ lục lưu trữ trong cơ sở dữ liệu và được kèm theo in loại văn bản học bạ. Do đó, nó trở thành có thể đánh dấu cần thiết để tạo ra một nhà giao tiếp hằng ngày bằng miệng.

ứng dụng

Bất cứ nơi nào có thể sử dụng ngôn ngữ, và có lẽ việc sử dụng các công trình văn bản. Phương pháp để áp dụng thân trong ngôn ngữ học có thể là:

  • Tạo một chương trình xác định trọng điểm, được sử dụng rộng rãi trong chính trị và kinh doanh để theo dõi các phản ứng tích cực và tiêu cực của cử tri và khách hàng, tương ứng.
  • hệ thống thông tin kết nối tới các từ điển và dịch để cải thiện hiệu suất của họ.
  • Một loạt các nhiệm vụ nghiên cứu góp phần vào sự hiểu biết về đơn vị ngôn ngữ, lịch sử phát triển và dự đoán của mình về những thay đổi trong tương lai gần.
  • Phát triển hệ thống tìm kiếm thông tin dựa trên hình thái học, cú pháp, ngữ nghĩa và các tính năng khác.
  • Tối ưu hóa các hệ thống ngôn ngữ khác nhau và những người khác.

Sử dụng các tòa nhà

giao diện tài nguyên tương tự với công cụ tìm kiếm thông thường, và nhắc nhở người dùng nhập vào một từ hoặc tổ hợp chữ cái để tìm kiếm các cơ sở thông tin. Ngoài hình thức truy vấn chính xác có thể sử dụng phiên bản nâng cao, cho phép tìm kiếm thông tin văn bản trên hầu như bất kỳ tiêu chí ngôn ngữ.

cơ sở tìm kiếm có thể là:

  • thành viên của một nhóm cụ thể của các bộ phận ngôn luận;
  • tính năng ngữ pháp;
  • ngữ nghĩa;
  • màu phong cách và cảm xúc.

Bạn cũng có thể kết hợp tiêu chí tìm kiếm cho một chuỗi các từ, ví dụ, để tìm tất cả các lần xuất hiện của động từ ở thì hiện tại, người đầu tiên độc nhất vô nhị mà đưa ra sau khi giới từ "in" và danh từ trong trường hợp đối cách. Giải pháp cho một nhiệm vụ đơn giản như đưa người dùng một vài giây và chỉ cần một vài cú click chuột trong các lĩnh vực cụ thể.

Quá trình tạo

Việc tìm kiếm chính nó có thể được thực hiện trên tất cả các subcorpus và một lựa chọn đặc biệt, tùy theo nhu cầu trong việc đạt được một mục tiêu cụ thể:

  1. Bước đầu tiên là xác định mà văn bản hình thành cơ sở cho các trường hợp. Đối với mục đích thực tế, nó thường được sử dụng, những câu chuyện tin tức báo chí, phát biểu trên mạng. Các dự án nghiên cứu là việc sử dụng một loạt các loại bao bì, nhưng văn bản nên được lựa chọn theo một số điểm chung.
  2. Bộ sưu tập kết quả của văn bản bị tiền xử lý, có sửa chữa sai sót, nếu có, được chuẩn bị bởi mô tả thư mục và ngoài ngôn ngữ của văn bản.
  3. Được loại bỏ tất cả các thông tin không phải là văn bản: Xóa đồ họa, hình ảnh, bảng biểu.
  4. Là một phân bổ thẻ, mà thường nói, để chế biến tiếp.
  5. Cuối cùng, nó thực hiện đa hình thái, cú pháp và dấu hiệu khác thu được của các yếu tố.

Kết quả của tất cả các giao dịch thực hiện bởi một cấu trúc cú pháp với phân phối trong đó đa số yếu tố, mỗi trong số đó được xác định một phần của lời nói, ngữ pháp, và trong một số trường hợp, các thuộc tính ngữ nghĩa.

Những khó khăn trong việc tạo ra các tòa nhà

Điều quan trọng là phải hiểu rằng là không đủ để đặt cùng một tập các từ hoặc câu cho cơ thể. Một mặt, một bộ sưu tập các văn bản nên được cân bằng, có nghĩa là, đại diện cho các loại khác nhau của văn bản theo tỷ lệ nhất định. Mặt khác - các nội dung của bao vây nên được đặt cách nhau một cách đặc biệt.

Vấn đề đầu tiên được giải quyết bằng một thỏa thuận: ví dụ, trong bộ sưu tập bao gồm 60% các văn bản văn học, 20% số tài liệu, một tỷ lệ nhất định được đưa ra một đại diện bằng văn bản của ngôn ngữ nói, pháp luật, công trình khoa học, vv hoàn hảo công thức cân cơ thể hiện nay không tồn tại ...

Câu hỏi thứ hai, liên quan đến việc bố trí nội dung, giải quyết khó khăn. Có những chương trình đặc biệt và các thuật toán được sử dụng để tự động đánh dấu các văn bản, nhưng họ không đưa ra một kết quả hoàn hảo, có thể gây ra sự gián đoạn và đòi hỏi tay làm lại. Cơ hội và thách thức trong việc đối phó với vấn đề này được mô tả chi tiết trong một bài báo V. P. Zaharova ngôn ngữ học corpus.

đánh dấu văn bản được thực hiện ở nhiều cấp độ, mà chúng tôi liệt kê dưới đây.

gắn thẻ hình thái

Từ trường học, chúng ta nhớ rằng trong tiếng Nga, có những phần khác nhau của bài phát biểu, và mỗi người trong số họ có những đặc điểm riêng của mình. Ví dụ, động từ có loại nghiêng và thời điểm mà không có danh từ. một người bản xứ không ngần ngại từ chối danh từ và động từ liên hợp, nhưng để đánh dấu cơ thể là 100 triệu. mã thông báo lao động chân tay sẽ không hoạt động. Tất cả các hoạt động cần thiết có thể thực hiện các máy tính, tuy nhiên, đối với này nó cần phải được dạy.

gắn thẻ hình thái, máy tính phải "hiểu" mỗi từ như một phần nhất định của lời nói có một số tính năng ngữ pháp. Kể từ khi Nga (và bất kỳ ngôn ngữ khác) điều hành một số quy tắc thông thường, người ta có thể xây dựng một quy trình tự động để phân tích hình thái, đầu tư vào chiếc xe cho một số thuật toán. Tuy nhiên, có trường hợp ngoại lệ cho quy tắc, cũng như yếu tố phức tạp khác nhau. Kết quả là, phân tích máy tính ròng hôm nay là xa lý tưởng, và thậm chí 4% lỗi mang lại một giá trị của 4 triệu đô la. Words trên cơ thể là 100 triệu. Các đơn vị, đòi hỏi tay làm lại.

cuốn sách chi tiết mô tả các vấn đề Zaharova V. P. "Corpus Linguistics".

chú thích cú pháp

Phân tích hoặc phân tích cú pháp - một thủ tục xác định mối quan hệ của các từ trong một câu. Sử dụng một tập hợp các thuật toán có thể xác định nội dung của chủ đề, vị ngữ, bổ sung, nhiều lượt ngôn luận. Tìm hiểu các từ ngữ là những chuỗi chính, và đó - phụ thuộc, chúng tôi có hiệu quả có thể trích xuất thông tin từ văn bản và để dạy máy ban hành để đáp ứng với yêu cầu tìm kiếm chỉ những thông tin thú vị chúng tôi.

Bằng cách này, công cụ tìm kiếm hiện đại sử dụng để đưa ra con số cụ thể thay vì văn bản dài để đáp ứng với các truy vấn liên quan như "có bao nhiêu calo trong một quả táo" hoặc "khoảng cách từ Moscow đến St. Petersburg." Tuy nhiên, để hiểu được ngay cả những vấn đề cơ bản của quá trình được mô tả bởi sự cần thiết phải tham khảo ý kiến "Giới thiệu về Corpus Linguistics" hoặc hướng dẫn cơ bản khác.

đánh dấu ngữ nghĩa

Ngữ nghĩa của từ này - nghĩa là, trong thuật ngữ đơn giản, ý nghĩa. Phương pháp được áp dụng rộng rãi để phân tích ngữ nghĩa của một thẻ chữ ghi công, phản ánh của ông thuộc về một tập hợp các loại ngữ nghĩa và tiểu thể loại. Những thông tin này rất có giá trị để tối ưu hóa các thuật toán phân tích giai điệu văn bản, tóm tắt tự động và phương pháp các nhiệm vụ khác của ngôn ngữ học corpus.

Có một số "gốc" của cây, đại diện cho một từ trừu tượng với một ngữ nghĩa rất rộng. Là một chi nhánh của các nút cây được hình thành, có chứa hơn và cụ thể hơn các yếu tố từ vựng. Ví dụ, từ "con vật" có thể được liên kết với những khái niệm như "con người" và "động vật". Từ đầu tiên sẽ tiếp tục chi nhánh ra vào các ngành nghề khác nhau, điều khoản quan hệ họ hàng, quốc tịch, và lần thứ hai - trên lớp và các loại động vật.

Việc sử dụng hệ thống tìm kiếm thông tin

Các lĩnh vực sử dụng ngôn ngữ học corpus bao gồm các lĩnh vực đa dạng của hoạt động. Vỏ được sử dụng cho việc chuẩn bị và sửa lại các từ điển, tạo ra các hệ thống dịch tự động, chú thích, lấy sự thật, xác định những giai điệu và xử lý văn bản khác.

Bên cạnh đó, các nguồn lực như đang tích cực sử dụng trong việc nghiên cứu ngôn ngữ và cơ chế hoạt động của ngôn ngữ nói chung trên thế giới. Tiếp cận với khối lượng lớn thông tin chuẩn bị trước tạo điều kiện nghiên cứu nhanh chóng và toàn diện trong những xu hướng của ngôn ngữ phát triển, và sự thay đổi ổn định từ mới hình thành tốc độ bài phát biểu đánh giá cao các đơn vị từ vựng và những người khác.

Kể từ khi làm việc với một lượng lớn dữ liệu đòi hỏi tự động hóa, hôm nay có sự tương tác chặt chẽ giữa các máy tính và corpus ngôn ngữ học.

Corpus Quốc gia Nga

Trường hợp này (viết tắt NKRYA) bao gồm một số subcorpus, cho phép việc sử dụng một nguồn lực cho một loạt các nhiệm vụ.

Các tài liệu trong cơ sở dữ liệu được chia NKRYA:

  • các ấn phẩm trong những năm 90 và những năm 2000 của các phương tiện truyền thông, cả trong và ngoài nước;
  • ghi âm bài phát biểu;
  • aktsentologicheski đánh dấu văn bản (ví dụ: các nhãn hiệu của sự căng thẳng);
  • bài phát biểu của phương ngữ;
  • thơ;
  • Vật liệu với cú pháp và các dấu hiệu.

Hệ thống thông tin cũng bao gồm Subcorpus với bản dịch song song các công trình từ Nga sang tiếng Anh, Đức, Pháp và nhiều ngôn ngữ khác (và ngược lại).

Cũng trong cơ sở dữ liệu có một phần của văn bản lịch sử, đại diện cho tiếng nói viết bằng tiếng Nga trong các giai đoạn phát triển khác nhau của nó. Ngoài ra còn có một cơ quan đào tạo, có thể hữu ích đối với công dân nước ngoài tại thành thạo các ngôn ngữ Nga.

Nga Quốc Corpus bao gồm 400 triệu đơn vị từ vựng, và bằng nhiều cách trước một phần đáng kể trong những ngôn ngữ của các cơ quan châu Âu.

triển vọng

Thực tế có lợi cho sự công nhận của xu hướng này là sự sẵn có của ngôn ngữ học hứa hẹn corpus phòng thí nghiệm ở các trường đại học của Nga, cũng như nước ngoài. Với việc sử dụng và nghiên cứu trong khuôn khổ của thông tin và tìm kiếm này đòi hỏi nguồn lực phát triển các khu vực nhất định trong lĩnh vực công nghệ cao, hệ thống câu hỏi-trả lời, nhưng nó sẽ được thảo luận ở trên.

phát triển hơn nữa của corpus ngôn ngữ học được dự đoán ở tất cả các cấp, từ kỹ thuật và trong việc thực hiện các thuật toán mới mà tối ưu hóa quá trình tìm kiếm và xử lý thông tin, nâng cao vị thế các máy tính, RAM nhiều hơn, và người tiêu dùng, bởi vì người dùng đang ngày càng có nhiều cách để sử dụng loại tài nguyên trong hàng ngày của họ cuộc sống và làm việc.

Tóm lại

Vào giữa thế kỷ trước vào năm 2017 dường như tương lai xa, nơi con tàu vũ trụ đi qua vũ trụ và robot làm tất cả công việc cho nhân dân. Trong thực tế, khoa học là trang bị đầy đủ với "điểm trắng" và làm cho những nỗ lực tuyệt vọng để trả lời các câu hỏi của nhân loại trong nhiều thế kỷ làm phiền. Câu hỏi hoạt động của ngôn ngữ ở đây chiếm một vị trí danh dự, và nội các và tính toán ngôn ngữ học có thể giúp chúng ta trả lời chúng.

Xử lý dữ liệu lớn có thể phát hiện các mô hình, trước đây không thể tiếp cận, dự đoán sự phát triển của các tính năng ngôn ngữ cụ thể để theo dõi sự hình thành của các từ trong thời gian gần như thật.

Trên thực tế, thùng loa toàn cầu có thể được nhìn thấy, ví dụ, như một công cụ tiềm năng để đánh giá tâm trạng chung - Internet là một liên tục được cập nhật cơ sở các văn bản khác nhau hàng ngày tạo ra bởi người sử dụng thật: ý kiến này và đánh giá, và các bài báo, và nhiều hình thức khác ngôn luận.

Bên cạnh đó, làm việc với các cơ quan đóng góp vào sự phát triển của phần cứng giống nhau, có liên quan đến tìm kiếm thông tin, chúng tôi đã quen thuộc với dịch vụ "Google" hay "Yandex", máy dịch thuật, từ điển điện tử.

Chúng tôi có thể tự tin khẳng định rằng ngôn ngữ học corpus làm chỉ là bước đầu tiên, và trong tương lai gần sẽ phát triển mạnh.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 vi.birmiss.com. Theme powered by WordPress.