Trích xuất Domain từ Url hàng loạt với Google Sheet

Truy cập:

Chia sẻ:

Chắc nhiều người sẽ thắc mắc “trích xuất Domain từ Url để làm gì ?“. Nếu mọi người mà làm về SEO hay lĩnh vực phân tích dữ liệu kỹ thuật số, thì việc cần lấy các Domain từ nhiều Url khác nhau là việc thường gặp phải.

Giờ nếu bạn có 1 danh sách URL cần trích xuất chỉ lấy Domain thôi thì bạn sẽ làm thế nào? Copy domain từ từng URL đó? Nhiều lên đến hàng trăm URL thì biết làm đến bao giờ nhỉ ? Và chính mình đã gặp trường hợp như thế nên mình mới nghĩ đến “Sao không dùng Google Sheet để trích xuất hàng loạt?” Và giờ có bài này đây.

Ok, làm nhảm vậy thôi, chúng ta bắt đầu nào ^^!

Mình sẽ bỏ qua phần tìm kiếm và thay thế trong Google Sheet, vì phần đó chỉ mang tính giới thiệu thôi, chứ áp dụng thực tế với bài này thì lại là không hiệu quả.

Ở bài này mình sẽ hướng dẫn các bạn cách sử dụng hàm thay thế Regex.

Hàm REGEXREPLACE

Làm hàm thay thế một phần của một chuỗi văn bản bằng một chuỗi văn bản khác bằng cách sử dụng biểu thức chính quy.

Cú pháp:

REGEXREPLACE(văn_bản; biểu_thức_chính_quy; thay_thế)
  • văn_bản – Văn bản, một phần của văn bản này sẽ được thay thế.
  • biểu_thức_chính_quy – Biểu thức chính quy. Tất cả trường hợp phù hợp trong văn_bản sẽ được thay thế.
  • thay_thế – Văn bản sẽ được chèn vào văn bản gốc.

Và đây là công thức chúng ta cần:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|\/.*|\?.*|\#.*";"")
Lưu ý: Nếu Google Sheet bạn đang để ngôn ngữ khác ngoài tiếng Việt thì sửa lại dấu ";" thành dấu "," nhé.

Điền công thức trên vào cột B với các tên miền đã được chuẩn bị sẵn ở cột A ta sẽ được:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Giải thích:

Regexreplace là một biểu thức chính quy khớp với các kỹ tự cụ thể. Và sau đó thay thế chúng bằng các ký tự mới.

Với công thức trên, chúng ta sẽ xóa http://, https:// và các truy vấn như tham số UTM đã tạo. Nó cũng loại bỏ dấu gạch chéo sau tên miền cấp cao nhất (.com, .org, …). Cùng với loại bỏ tất cả các ký tự sau đó.

Ví dụ:

https://congvietit.com/facebook-marketing/ : Các ký tự gạch ngang sẽ bị loại bỏ.

Trích xuất Domain gốc từ URL

Sau khi áp dụng công thức trên, bạn có thể thấy chúng ta vẫn còn lại www. , blog. , tool. và nếu bạn muốn loại bỏ các subdomain này thì chúng ta cần chỉnh sửa lại 1 chút biểu thức chính quy:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|www\.|tool\.|\/.*|\?.*|\#.*";"")

Xem ảnh:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Ngoài ra bạn có thể thêm nhiều ký tự hơn và xóa subdomain nếu muốn tùy thuộc vào trang web của bạn chứa subdomain gì. Nó có thể là api. , forum. , dev. , images. , và nhiều hơn nữa.

Trích xuất tên miền cao cấp nhất từ 1 URL

Trong 1 số trường hợp bạn chỉ cần những tên miền như .com, .net, .com.vn và các tên miền tương tự. Thì lúc này cú pháp sẽ đơn giản và ngắn gọn hơn nhiều, với cách này sẽ xóa luôn cả subdomain, domain gốc và các tham số truy vấn phía sau.

Công thức:

=REGEXREPLACE(A2;".*\.|\/.*";"")

Kết quả:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Video hướng dẫn chi tiết

Đang cập nhật ….

File mẫu

Tải file mẫu ở đây:

Nội dung này chỉ dành cho người đăng ký

Nhập email của bạn để tiếp tục xem nội dung bài viết!
Địa chỉ email của bạn an toàn 100% khỏi thư rác!

Kết luận

Chẳng ai thích làm bằng tay mọi thứ cả, nó thực sự mất thời gian, và làm đi làm lại 1 việc sẽ dễ tạo ra sự nhàm chán. Nên nếu có cơ hội để có thể tự động, tối ưu công việc, thì sao ta không nắm bắt và thực hiện nó. Đừng lãng phí thời gian để làm những việc không quan trọng. Hãy tập trung vào những nhiệm vụ quan trọng hơn của bạn. Hãy kiên nhẫn trong việc thực hiện tối ưu và tự động hóa công việc của bạn. Rồi cuối cùng thì nó cũng có thể mở rộng và mang lại lợi ích rất lớn cho bạn.

5 1 đánh giá
Đánh giá
Công Việt
Công Việt
Mình xây dựng blog này với mục đích chia sẻ những kinh nghiệm, thủ thuật của mình liên quan đến các lĩnh vực như CNTT, Marketing Online, MMO, Đồ Họa, SEO, ... Rất mong nhận được sự ủng hộ của các bạn.
Theo dõi
Thông báo về
guest
0 Bình luận
Inline Feedbacks
View all comments

DANH MỤC

DỊCH VỤ

Bài viết liên quan

Mã Zipcode tỉnh thành Việt Nam – Mã Bưu Chính tỉnh thành Việt Nam

Bài này Công Việt Blog tổng hợp danh sách tất cả mã bưu chính (zip code) của 63...

Hướng dẫn cấp quyền truy cập vào Google Sheet

Trong hướng dẫn này, bạn sẽ học cách cấp quyền truy cập vào google sheet. Khi cấp quyền...

22 Mẹo Tìm kiếm trên Google để Sử dụng Google Search hiệu quả hơn

Hàng triệu người sử dụng Google Search mỗi ngày vì nhiều lý do. Sinh viên sử dụng nó...

Chia sẻ list 500+ web 2.0 mới nhất 2022 có DA PA cao

Bạn có đang tìm kiếm backlink chất lượng từ các web 2.0 ? Thì đây chính là bài...
0
Hãy cho mình xin 1 bình luận nha bạn yêu !!!x