Chủ Nhật, ngày 14 tháng 8 năm 2011

Tim Hieu Ve Search Engine

Số lượt xem: 799
Gửi lúc 15:03' 28/07/2009

Tìm Hiểu Về Search Engine

Tác Giả : Sinh viên Lê Thu‎ý Ngọc – Đỗ Mỹ Nhung tại khoa Công nghệ Thông tin trường Đại học Khoa học Tự Nhiên. Xuất bản tháng 7 năm 2004.

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau.

Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt.

Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.

Mục Lục :

Chương 1

TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE

  1. Các bộ phận cấu thành hệ thống search engine
    1. Bộ thu thập thông tin – Robot
    2. Bộ lập chỉ mục – Index
    3. Bộ tìm kiếm thông tin – Search Engine
  2. Nguyên lý hoạt động

Chương 2

BỘ THU THẬP THÔNG TIN – ROBOT

  1. Ứng dụng của Robot
    1. Phân tích, thống kê – Statistical Analysis
    2. Duy trì siêu liên kế - Maintenance
    3. Ánh xạ địa chỉ web - Mirroring
    4. Phát hiện tài nguyên – Resource Discovery
    5. Kết hợp các công dụng trên- Combined uses
  2. Robot chỉ mục – Robot Indexing
  3. Các chiến thuật thu thập dữ liệu
    1. Chiến thuật tìm kiếm theo chiều sâu
    2. Chiến thuật tìm kiếm theo chiều rộng
    3. Chiến thuật tìm kiếm theo ngẫu nhiên
  4. Những vấn đề cần lưu ý của web robot
    1. Chi phí và hiểm hoạ
      1. Quá tải mạng và server – Network resource and server load
      2. Sự cập nhật quá mức- Updating overhead
      3. Những tình huống không mong đợi – Bad implementations
    2. Tiêu chuẩn loại trừ robot
      1. File robot.txt
      2. Thẻ META dành cho robot – Robot META tag
      3. Nhược điểm của file robot.txt

Chương 3

BỘ LẬP CHỈ MỤC – INDEX

  1. Khái quát về hệ thống lập chỉ mục
  2. Tổng quan về phương pháp lập chỉ mục
    1. Xác định mục từ quan trọng cần lập chỉ mục
    2. Một số hàm tính trọng số mục từ.
      1. Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight)
      2. Độ nhiễu tín hiệu (Signal Noise):
      3. Giá trị độ phân biệt của mục từ :
      4. Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu
    3. Lập chỉ mục tự động cho tài liệu
  3. Lập chỉ mục cho tài liệu tiếng Việt
    1. Khó khăn cho việc lập chỉ mục tiếng Việt
    2. Đặc điểm về từ trong tiếng Việt và việc tách từ
      1. Đặc điểm về từ trong tiếng Việt:
      2. Tách từ
    3. Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả)
      1. Vấn đề bảng mã
      2. Vấn đề dấu thanh
      3. Vấn đề dấu tổ hợp nguyên âm
    4. Giải quyết các vấn đề về từ của tiếng Việt
      1. Luật xác định các từ láy
      2. Luật xác định các liên từ
    5. Xây dựng từ điển tiếng Việt

Chương 4

BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE

  1. Vì sao ta cần một công cụ tìm kiếm (SE) ?
  2. Các phương thức tìm kiếm
    1. Tìm theo từ khoá – Keyword searching
    2. Những khó khăn khi tìm theo từ khoá
    3. Tìm theo ngữ nghĩa – Concept-based searching
  3. Các chiến lược tìm kiếm
    1. Tìm thông tin với các thư mục chủ đề
    2. Tìm thông tin với các công cụ tìm kiếm
    3. Tối ưu câu truy vấn
    4. Truy vấn bằng ví dụ

Chương 5

MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM

  1. Một số máy tìm kiếm trên thế giới
    1. Thư mục của Yahoo, Google
    2. Alltheweb
    3. AltaVista
    4. Lycos
    5. HotBot
  2. Một số search engine thông dụng ở Việt Nam
    1. Netnam
      1. Phương pháp Netnam SE lập chỉ mục dữ liệu
      2. Cú pháp tìm kiếm
      3. Sử dụng từ khoá để lọc các tìm kiếm
    2. Vinasee

Xem tiếp

Bản gốc: Thiết kế website - Tìm Hiểu Về Search Engine

Không có nhận xét nào:

Đăng nhận xét