31 C
Hanoi
Thứ Bảy, Tháng Chín 30, 2023
spot_img

Trích xuất Domain từ Url hàng loạt với Google Sheet

Truy cập:

Chia sẻ:

Chắc nhiều người sẽ thắc mắc “trích xuất Domain từ Url để làm gì ?“. Nếu mọi người mà làm về SEO hay lĩnh vực phân tích dữ liệu kỹ thuật số, thì việc cần lấy các Domain từ nhiều Url khác nhau là việc thường gặp phải.

Giờ nếu bạn có 1 danh sách URL cần trích xuất chỉ lấy Domain thôi thì bạn sẽ làm thế nào? Copy domain từ từng URL đó? Nhiều lên đến hàng trăm URL thì biết làm đến bao giờ nhỉ ? Và chính mình đã gặp trường hợp như thế nên mình mới nghĩ đến “Sao không dùng Google Sheet để trích xuất hàng loạt?” Và giờ có bài này đây.

Ok, làm nhảm vậy thôi, chúng ta bắt đầu nào ^^!

Mình sẽ bỏ qua phần tìm kiếm và thay thế trong Google Sheet, vì phần đó chỉ mang tính giới thiệu thôi, chứ áp dụng thực tế với bài này thì lại là không hiệu quả.

Ở bài này mình sẽ hướng dẫn các bạn cách sử dụng hàm thay thế Regex.

Hàm REGEXREPLACE

Làm hàm thay thế một phần của một chuỗi văn bản bằng một chuỗi văn bản khác bằng cách sử dụng biểu thức chính quy.

Cú pháp:

REGEXREPLACE(văn_bản; biểu_thức_chính_quy; thay_thế)
  • văn_bản – Văn bản, một phần của văn bản này sẽ được thay thế.
  • biểu_thức_chính_quy – Biểu thức chính quy. Tất cả trường hợp phù hợp trong văn_bản sẽ được thay thế.
  • thay_thế – Văn bản sẽ được chèn vào văn bản gốc.

Và đây là công thức chúng ta cần:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|\/.*|\?.*|\#.*";"")
Lưu ý: Nếu Google Sheet bạn đang để ngôn ngữ khác ngoài tiếng Việt thì sửa lại dấu ";" thành dấu "," nhé.

Điền công thức trên vào cột B với các tên miền đã được chuẩn bị sẵn ở cột A ta sẽ được:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Giải thích:

Regexreplace là một biểu thức chính quy khớp với các kỹ tự cụ thể. Và sau đó thay thế chúng bằng các ký tự mới.

Với công thức trên, chúng ta sẽ xóa http://, https:// và các truy vấn như tham số UTM đã tạo. Nó cũng loại bỏ dấu gạch chéo sau tên miền cấp cao nhất (.com, .org, …). Cùng với loại bỏ tất cả các ký tự sau đó.

Ví dụ:

https://congvietit.com/facebook-marketing/ : Các ký tự gạch ngang sẽ bị loại bỏ.

Trích xuất Domain gốc từ URL

Sau khi áp dụng công thức trên, bạn có thể thấy chúng ta vẫn còn lại www. , blog. , tool. và nếu bạn muốn loại bỏ các subdomain này thì chúng ta cần chỉnh sửa lại 1 chút biểu thức chính quy:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|www\.|tool\.|\/.*|\?.*|\#.*";"")

Xem ảnh:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Ngoài ra bạn có thể thêm nhiều ký tự hơn và xóa subdomain nếu muốn tùy thuộc vào trang web của bạn chứa subdomain gì. Nó có thể là api. , forum. , dev. , images. , và nhiều hơn nữa.

Trích xuất tên miền cao cấp nhất từ 1 URL

Trong 1 số trường hợp bạn chỉ cần những tên miền như .com, .net, .com.vn và các tên miền tương tự. Thì lúc này cú pháp sẽ đơn giản và ngắn gọn hơn nhiều, với cách này sẽ xóa luôn cả subdomain, domain gốc và các tham số truy vấn phía sau.

Công thức:

=REGEXREPLACE(A2;".*\.|\/.*";"")

Kết quả:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Video hướng dẫn chi tiết

Đang cập nhật ….

File mẫu

Tải file mẫu ở đây:

Kết luận

Chẳng ai thích làm bằng tay mọi thứ cả, nó thực sự mất thời gian, và làm đi làm lại 1 việc sẽ dễ tạo ra sự nhàm chán. Nên nếu có cơ hội để có thể tự động, tối ưu công việc, thì sao ta không nắm bắt và thực hiện nó. Đừng lãng phí thời gian để làm những việc không quan trọng. Hãy tập trung vào những nhiệm vụ quan trọng hơn của bạn. Hãy kiên nhẫn trong việc thực hiện tối ưu và tự động hóa công việc của bạn. Rồi cuối cùng thì nó cũng có thể mở rộng và mang lại lợi ích rất lớn cho bạn.

5 1 đánh giá
Đánh giá
Công Việt
Công Việt
Mình xây dựng blog này với mục đích chia sẻ những kinh nghiệm, thủ thuật của mình liên quan đến các lĩnh vực như CNTT, Marketing Online, MMO, Đồ Họa, SEO, ... Rất mong nhận được sự ủng hộ của các bạn.
Theo dõi
Thông báo về
guest
0 Bình luận
Inline Feedbacks
View all comments
huong dan download tai nguyen tren website congvietit.com
ma giam gia khi mua hosting vps congvietitcom

Bài viết liên quan

Cách tạo mục lục trong bài viết và trang WordPress

Bạn có muốn thêm mục lục1 vào bài đăng hoặc trang WordPress của mình không? Mục lục có thể...

WWW và không có WWW – Cái nào tốt hơn cho SEO WordPress?

Bạn đang tự hỏi có nên sử dụng 'www' trong URL trang web của mình hay không? Mọi người...

12 thủ thuật .htaccess hữu ích nhất cho WordPress

12 thủ thuật .htaccess hữu ích nhất cho WordPress-congvietit.com

.htaccess là gì? Giới thiệu về .htaccess

.htaccess là một tập tin cấu hình được sử dụng bởi máy chủ web Apache. Đó là một...
0
Hãy cho mình xin 1 bình luận nha bạn yêu !!!x